c++ - linux下如何用C语言读取大于10G的文件？

浏览：105日期：2023-03-28

问题描述

需求**：

有一个15G左右的日志文件，文件中每一行都是一串数字。长度在3——12位之间不等。现在需要算出在日志文件中数字出现次数最多的前10个。**

遇到的问题：

while(!feof(fp)){ fgets(mid,1000,fp); //读取一行内容｝

我用这种方法读取文件，一直报 Segmentation fault (core dumped)。gbd调试情况如下：

需要能读取大文件的方法。求高手支招。

c++ - linux下如何用C语言读取大于10G的文件？

问题解答

回答1：

你这个文件写法效率实在太低了，而且场合也不使用。超大文本文件单词频率排序是Hadoop解决的最典型问题。

这里是类似功能的源程序写法：用C语言写Hadoop单词统计的程序

如果实在不愿意学习Hadoop，那么针对你这种情况即使不用Hadoop，直接用管道命令一样可以运行：cat numbers.txt | ./mapper | sort | ./reducer其中的mapper和reducer分别是原文的那两个映射器和总结器。

你如果坚持想知道怎么用文件读取这种数据，还有两种选择，其一是使用64位整数：

while(!feof(fp)) { long long x = 0; // 定义一个64位整型变量 fscanf(fp, '%lld', &x); // .... 可以处理数据了}

另外一种方式是用字符串：

while(!feof(fp)) { char mid[256]; memset(mid, 0, 256); fscanf(fp, '%s', mid);}

总之不要用行读取。我很好奇读完了之后你是怎么处理的？我感觉是在内存分配时崩的，难道是你打算把所有内容读到内存来处理吗？

回答2：

按撸主的题目要求Linux+C，提供一种思路，如下：可以考虑使用共享内存（mmap），每次映射文件的一部分，依次处理即可

回答3：

可以考虑用split分割文件,然后sort排序:

#large.txt文件每100行进行分割,分割后文件前缀为prefix_split -l 100 large.txt prefix_#对文件里的行按数字逆序排序sort -rn prefix_ab

上一条：c++ - 求解C语言main函数下一条：visual-studio-code - vscode配置c/c++怎么让编译之后立刻运行？

相关文章：
1. html5 - 有可以一次性把所有 css外部样式转为html标签内style=" "的方法吗?2. 前端表单登录的时候需要对密码进行加密吗?3. 为什么总是提示我说Template "movieTemplate" not found，我路径都引对了呀4. 改两个属性怎么写5. jq的text是否只会改变文本？6. node.js是用来干什么的7. javascript - js跨域请求报错：Refused to set unsafe header "Referer"？8. 使用jQuery怎么获取和删除cookie的值？9. javascript - <input type="file">取消选择时如何保留上次选择的文件10. javascript - body下多出了"1"==$0导致页面上多了1