golang实现大文件读取的代码示例

来自：网络

时间：2024-06-07

阅读：

在实际工作，我们需要读取大数据文件，文件可能上G百G，所以我们不可能一次性的读取到内存，io.readAll不可用，那么我们可以考虑分块，IO流的方式如io.copy.

对比两者:

io.ReadAll：

io.ReadAll 是一个方便的函数，可以将整个文件内容一次性读取到内存中，并返回一个字节切片。这在处理小文件或者需要一次性加载数据的情况下非常适用。然而，对于大文件，使用 io.ReadAll 可能会导致以下问题：

内存消耗：读取大文件可能导致内存消耗急剧增加，甚至超出可用内存限制。
性能问题：应用程序的响应性可能下降，用户可能会感到应用程序不再响应。
延迟问题：大文件的读取需要更多时间，可能导致较长的延迟。

io.Copy：

io.Copy 函数通过逐块的方式从源读取数据并将其写入目标，适用于流式传输大文件。它具有以下优势：

低内存消耗：io.Copy 逐块处理数据，不需要将整个文件加载到内存中，从而降低内存消耗。
高性能：流式传输提高了读取和写入的效率，适用于需要高性能处理大文件的情况。
更好的响应性：io.Copy 不会一次性阻塞等待整个文件读取完成，从而提高应用程序的响应性

示例:

package test
 
import (
	"fmt"
	"io"
	"os"
	"runtime"
	"testing"
)
 
func largeFileRead(_file string) {
	f, err := os.Open(_file)
	if err != nil {
		fmt.Errorf("打开文件错误：%v", err)
		return
	}
 
	defer f.Close()
 
	// 读取数据大写
	buffer := make([]byte, 4096)
	for {
		getMemory()
		n, err := f.Read(buffer)
		if err != nil && err != io.EOF {
			fmt.Errorf("读取文件错误：%v", err)
			return
		}
 
		if n == 0 {
			break
		}
 
		fmt.Println("内容：", string(buffer))
	}
	fmt.Println("读取完成")
}
 
func getMemory() {
	// 获取内存信息
	var m runtime.MemStats
	runtime.ReadMemStats(&m)
	fmt.Printf("%d KB\n", m.Alloc/1024)
}
 
func Test_largeFileRead(t *testing.T) {
	fileName := "D:xxxx.txt"
	largeFileRead(fileName)
}

运行结果：

实时内存占用：854KB,文件大小102M

拓展：Golang并发读取超大文件

当今世界的任何计算机系统每天都会生成大量的日志或数据。随着系统的发展，将调试数据存储到数据库中是不可行的，因为它们是不可变的，并且只能用于分析和解决故障。所以大部分公司倾向于将日志存储在文件中，而这些文件通常位于本地磁盘中。

我们将使用Go语言，从一个大小为16GB的.txt或.log文件中提取日志。

让我们开始编码……

首先，我们打开文件。对于任何文件的IO，我们都将使用标准的Go库os.File。

f, err := os.Open(fileName)
 if err != nil {
   fmt.Println("cannot able to read the file", err)
   return
 }
// UPDATE: close after checking error
defer file.Close()  //Do not forget to close the file

打开文件后，我们有以下两个选项可以选择：

逐行读取文件，这有助于减少内存紧张，但需要更多的时间。
一次将整个文件读入内存并处理该文件，这将消耗更多内存，但会显著减少时间。

由于文件太大，即16 GB，因此无法将整个文件加载到内存中。但是第一种选择对我们来说也是不可行的，因为我们希望在几秒钟内处理文件。

但你猜怎么着，还有第三种选择。瞧……相比于将整个文件加载到内存中，在Go语言中，我们还可以使用bufio.NewReader()将文件分块加载。

r := bufio.NewReader(f)
for {
buf := make([]byte,4*1024) //the chunk size
n, err := r.Read(buf) //loading chunk into buffer
   buf = buf[:n]
if n == 0 {
   
     if err != nil {
       fmt.Println(err)
       break
     }
     if err == io.EOF {
       break
     }
     return err
  }
}

一旦我们将文件分块，我们就可以分叉一个线程，即Go routine，同时处理多个文件区块。上述代码将修改为：

//sync pools to reuse the memory and decrease the preassure on Garbage Collector
linesPool := sync.Pool{New: func() interface{} {
        lines := make([]byte, 500*1024)
        return lines
}}
stringPool := sync.Pool{New: func() interface{} {
          lines := ""
          return lines
}}
slicePool := sync.Pool{New: func() interface{} {
           lines := make([]string, 100)
           return lines
}}
r := bufio.NewReader(f)
var wg sync.WaitGroup //wait group to keep track off all threads
for {
     
     buf := linesPool.Get().([]byte)
     n, err := r.Read(buf)
     buf = buf[:n]
if n == 0 {
        if err != nil {
            fmt.Println(err)
            break
        }
        if err == io.EOF {
            break
        }
        return err
     }
nextUntillNewline, err := r.ReadBytes('\n')//read entire line
     
     if err != io.EOF {
         buf = append(buf, nextUntillNewline...)
     }
     
     wg.Add(1)
     go func() { 
      
        //process each chunk concurrently
        //start -> log start time, end -> log end time
        
        ProcessChunk(buf, &linesPool, &stringPool, &slicePool,     start, end)
wg.Done()
     
     }()
}
wg.Wait()
}

上面的代码，引入了两个优化点：

sync.Pool是一个强大的对象池，可以重用对象来减轻垃圾收集器的压力。我们将重用各个分片的内存，以减少内存消耗，大大加快我们的工作。
Go Routines帮助我们同时处理缓冲区块，这大大提高了处理速度。

现在让我们实现ProcessChunk函数，它将处理以下格式的日志行。

2020-01-31T20:12:38.1234Z, Some Field, Other Field, And so on, Till new line,...\n

我们将根据命令行提供的时间戳提取日志。

func ProcessChunk(chunk []byte, linesPool *sync.Pool, stringPool *sync.Pool, slicePool *sync.Pool, start time.Time, end time.Time) {
//another wait group to process every chunk further                             
      var wg2 sync.WaitGroup
logs := stringPool.Get().(string)
logs = string(chunk)
linesPool.Put(chunk) //put back the chunk in pool
//split the string by "\n", so that we have slice of logs
      logsSlice := strings.Split(logs, "\n")
stringPool.Put(logs) //put back the string pool
chunkSize := 100 //process the bunch of 100 logs in thread
n := len(logsSlice)
noOfThread := n / chunkSize
if n%chunkSize != 0 { //check for overflow 
         noOfThread++
      }
length := len(logsSlice)
//traverse the chunk
     for i := 0; i < length; i += chunkSize {
         
         wg2.Add(1)
//process each chunk in saperate chunk
         go func(s int, e int) {
            for i:= s; i<e;i++{
               text := logsSlice[i]
if len(text) == 0 {
                  continue
               }
           
            logParts := strings.SplitN(text, ",", 2)
            logCreationTimeString := logParts[0]
            logCreationTime, err := time.Parse("2006-01-  02T15:04:05.0000Z", logCreationTimeString)
if err != nil {
                 fmt.Printf("\n Could not able to parse the time :%s       for log : %v", logCreationTimeString, text)
                 return
            }
// check if log's timestamp is inbetween our desired period
          if logCreationTime.After(start) && logCreationTime.Before(end) {
          
            fmt.Println(text)
           }
        }
        textSlice = nil
        wg2.Done()
     
     }(i*chunkSize, int(math.Min(float64((i+1)*chunkSize), float64(len(logsSlice)))))
   //passing the indexes for processing
}  
   wg2.Wait() //wait for a chunk to finish
   logsSlice = nil
}

对上面的代码进行基准测试。以16 GB的日志文件为例，提取日志所需的时间约为25秒。

完整的代码示例如下：

func main() {

 s := time.Now()
 args := os.Args[1:]
 if len(args) != 6 { // for format  LogExtractor.exe -f "From Time" -t "To Time" -i "Log file directory location"
  fmt.Println("Please give proper command line arguments")
  return
 }
 startTimeArg := args[1]
 finishTimeArg := args[3]
 fileName := args[5]

 file, err := os.Open(fileName)
 
 if err != nil {
  fmt.Println("cannot able to read the file", err)
  return
 }
 
 defer file.Close() //close after checking err
 
 queryStartTime, err := time.Parse("2006-01-02T15:04:05.0000Z", startTimeArg)
 if err != nil {
  fmt.Println("Could not able to parse the start time", startTimeArg)
  return
 }

 queryFinishTime, err := time.Parse("2006-01-02T15:04:05.0000Z", finishTimeArg)
 if err != nil {
  fmt.Println("Could not able to parse the finish time", finishTimeArg)
  return
 }

 filestat, err := file.Stat()
 if err != nil {
  fmt.Println("Could not able to get the file stat")
  return
 }

 fileSize := filestat.Size()
 offset := fileSize - 1
 lastLineSize := 0

 for {
  b := make([]byte, 1)
  n, err := file.ReadAt(b, offset)
  if err != nil {
   fmt.Println("Error reading file ", err)
   break
  }
  char := string(b[0])
  if char == "\n" {
   break
  }
  offset--
  lastLineSize += n
 }

 lastLine := make([]byte, lastLineSize)
 _, err = file.ReadAt(lastLine, offset+1)

 if err != nil {
  fmt.Println("Could not able to read last line with offset", offset, "and lastline size", lastLineSize)
  return
 }

 logSlice := strings.SplitN(string(lastLine), ",", 2)
 logCreationTimeString := logSlice[0]

 lastLogCreationTime, err := time.Parse("2006-01-02T15:04:05.0000Z", logCreationTimeString)
 if err != nil {
  fmt.Println("can not able to parse time : ", err)
 }

 if lastLogCreationTime.After(queryStartTime) && lastLogCreationTime.Before(queryFinishTime) {
  Process(file, queryStartTime, queryFinishTime)
 }

 fmt.Println("\nTime taken - ", time.Since(s))
}

func Process(f *os.File, start time.Time, end time.Time) error {

 linesPool := sync.Pool{New: func() interface{} {
  lines := make([]byte, 250*1024)
  return lines
 }}

 stringPool := sync.Pool{New: func() interface{} {
  lines := ""
  return lines
 }}

 r := bufio.NewReader(f)

 var wg sync.WaitGroup

 for {
  buf := linesPool.Get().([]byte)

  n, err := r.Read(buf)
  buf = buf[:n]

  if n == 0 {
   if err != nil {
    fmt.Println(err)
    break
   }
   if err == io.EOF {
    break
   }
   return err
  }

  nextUntillNewline, err := r.ReadBytes('\n')

  if err != io.EOF {
   buf = append(buf, nextUntillNewline...)
  }

  wg.Add(1)
  go func() {
   ProcessChunk(buf, &linesPool, &stringPool, start, end)
   wg.Done()
  }()

 }

 wg.Wait()
 return nil
}

func ProcessChunk(chunk []byte, linesPool *sync.Pool, stringPool *sync.Pool, start time.Time, end time.Time) {

 var wg2 sync.WaitGroup

 logs := stringPool.Get().(string)
 logs = string(chunk)

 linesPool.Put(chunk)

 logsSlice := strings.Split(logs, "\n")

 stringPool.Put(logs)

 chunkSize := 300
 n := len(logsSlice)
 noOfThread := n / chunkSize

 if n%chunkSize != 0 {
  noOfThread++
 }

 for i := 0; i < (noOfThread); i++ {

  wg2.Add(1)
  go func(s int, e int) {
   defer wg2.Done() //to avaoid deadlocks
   for i := s; i < e; i++ {
    text := logsSlice[i]
    if len(text) == 0 {
     continue
    }
    logSlice := strings.SplitN(text, ",", 2)
    logCreationTimeString := logSlice[0]

    logCreationTime, err := time.Parse("2006-01-02T15:04:05.0000Z", logCreationTimeString)
    if err != nil {
     fmt.Printf("\n Could not able to parse the time :%s for log : %v", logCreationTimeString, text)
     return
    }

    if logCreationTime.After(start) && logCreationTime.Before(end) {
     //fmt.Println(text)
    }
   }
   

  }(i*chunkSize, int(math.Min(float64((i+1)*chunkSize), float64(len(logsSlice)))))
 }

 wg2.Wait()
 logsSlice = nil
}

目录前言一、响应html页面 1、我们首先定义一个存放模板文件的templates文件夹 2、让程序进行页面渲染和加载 3、通过请求来响应页面 4、启动测试 5、静态文件处理

2024-10-20 21:49:39

目录一. errors的基本应用二. 错误类型的比较三. error的扩展 3.1 自定义error 3.2 Unwrap与Nested error 3.3 errors.Is方法与错误分类 3.4 errors.As方法与错误信

2024-10-20 21:49:21

目录错误类型新建错误错误解析错误处理总结错误类型 errorString错误是程序中处理逻辑和系统稳定新的重要组成部分。在go语言中内置错误如下：// The error built-in int

2024-10-20 21:49:12

目录 Go语言的io输入输出流 go语言输入输出在io库中上述只是输入输出流的基本用法常用的类型有总结 Go语言的io输入输出流Go语言的输入输出流不如其他语言那么直观

2024-10-20 21:49:02

目录 1. 介绍 2. vendor 目录位置 3. 搜索顺序 4. vendor 的不足1. 介绍自 Go 1.6 起，vendor 机制正式启用，它允许把项目的依赖放到一个位于本项目的 vendor 目录中，这个 vendo

2024-10-18 23:12:01

目录 go中Reader Writer接口定义 os.File对象中的RW实现代码 bufio.Reader中的RW实现代码 bytes.Buffer中的RW实现代码我们在对文件进行io操作的时候，经常看到需要我们传递一

2024-10-18 23:11:52

目录 select 语句的基本用法示例代码示例 1：从多个通道接收数据示例 2：实现超时机制示例 3：非阻塞的通道操作 select 语句的注意事项高级用法在 Go 语言中，select

2024-10-18 23:11:43

目录 1.延迟执行、定时任务 2.超时控制 go time.After 定时器示例 3.time.Sleep和time.After的差异 time.After是一个非常实用的函数，它返回一个用于读取的单向通道（<-cha

2024-10-18 23:11:35

目录面试内容：面试内容：支持设定过期时间，精度到秒支持设定最大内存，当内存超出时做出合适的处理支持并发安全要求按照以下接口实现SetMemory(size string) bool Set(key s

2024-10-18 23:11:26

目录 Map 简介 Map 定义 Map Iteration Map 的线程安全 map 底层原理哈希函数哈希冲突 Growing map扩容双倍扩容 Growing过程避免溢出代码分析

2024-10-18 23:11:17

目录一、Timer定时器 1. 创建Timer 2. 停止Timer 3. 重置Timer 4. time.AfterFunc 5. time.After 二、Ticker定时器 1. 创建Ticker 2. 监听Ticker事件 3. 停止T

2024-10-14 19:47:39

保证与外部 api 交互时的应用程序稳定性至关重要。go 提供了完善的错误处理机制，让您优雅地捕捉来自外部 api 的错误。首先使用 error 接口指示操作成功与否，其次 if 语句检查

2024-09-30 00:06:02

目录 Golang字符串处理库strings 1. 导入strings包 2. 字符串的查找 1. 判断字符串是否包含子串 2. 判断某个字符串是否包含了多个字符串中的某一个 3. 字符串计数 4.

2024-09-29 23:28:06

目录1. 安装GO1.1 下载&安装1.2 配置相关环境变量1.3 检查安装2. 配置IDEA2.1 安装GO插件2.2 配置GOROOT2.3 配置GOPATH3. GO HelloWorld总结1. 安装GO1.1 下载&安装进入GO

2024-08-28 19:53:16

目录Get请求Post请求最近在研究钉钉机器人，发现钉钉的第三方接口有时需要用Get或者Post请求访问，虽然说可以通过Apifox直接模拟发送请求，但是我还是想研究一个如何使用Golang来

2024-08-28 19:53:13

目录并发（Concurrency）并行（Parallelism）关系与区别Go语言，由Google的Robert Griesemer、Rob Pike和Ken Thompson于2009年开发，是一种静态类型、垃圾回收、多线程并发的编程语言。

2024-08-28 19:53:11

目录一、选择GO的原因二、GO解决的并发问题方法1：使用sync.WaitGroup方法2：使用ErrGroup库一、选择GO的原因作为一个后端开发，日常工作中接触最多的两门语言就是PHP和GO了。无

2024-08-28 19:53:09

单链表（Single Linked List）是链表数据结构的一种实现方式，它包含一系列节点（Node），每个节点都包含一个数据域和一个指向下一个节点的指针。与数组相比，链表的一个主要优点是它们可

2024-08-28 19:53:07

目录MongoDB 安装(Docker)安装 MongoDB Go 驱动基础代码使用 Go Driver 连接到 MongoDB在 Go 里面使用 BSON 对象CRUD 操作插入文档更新文档查询文档删除文档下一步总结Mong

2024-08-28 19:53:05

目录关键术语介绍创建表格读取表格修改表格样式设置关键术语介绍为了方便开源库的快速上手，我们先来了解 excel 中的几个关键术语，如下图所示，①为sheet，也就是表格中的页签；②为

2024-08-28 19:53:03

目录一、Go Web框架的基本原理二、编写一个简单的Web框架1. 创建HTTP服务器2. 实现路由3. 添加中间件4. 使用模板引擎一、Go Web框架的基本原理在编写Web框架之前，我们需要了

2024-08-28 19:53:00

目录Go程序是如何编译的从hello RdrB1te开始Go 编译过程Go程序是如何运行起来的Go程序的入口？总结Go程序是如何编译的从hello RdrB1te开始package main import "fmt" f

2024-08-28 19:52:59

目录 1、使用标准库中的encoding/json包 2、使用第三方包3、decode 4、注意5、更灵活地使用JSON使用json.RawMessage使用interface{}在Go语言中，处理JSON数据通常涉及编码（将

2024-08-28 19:52:54

目录支持的语句逻辑与算术运算流程控制高级语句规则语法的解析定义规则语法编写解析器语法解析器生成语法树遍历语法树生成语句表达式规则语法的执行支持自定义对象注入支持

2024-08-28 19:52:52

目录一、中间件的概念二、go原生http中使用中间件的方法三、go微服务框架Kratos使用中间件的方法一、中间件的概念在go语言中，中间件是一种用于处理http请求的开发模式，允许开

2024-08-28 19:52:50

目录websocket的简单使用改成自定义的协议生产的部署很多APP都需要主动向用户推送消息，这就需要用到长连接的服务，即我们通常提到的websocket，同样也是使用socket服务，通信协议

2024-08-28 19:52:47

main函数本身也是一个Goroutine。在Go语言中，main函数是程序的入口点。当程序启动时，Go运行时会创建一个名为main的Goroutine，并在其中执行main函数的代码。这个main Goroutine

2024-08-28 19:52:41

目录1. 使用互斥锁(Mutex)2. 使用channel3. 读写锁(sync.RWMutex)4. 原子操作(sync/atomic包)5. sync.Once1. 使用互斥锁(Mutex)互斥锁（Mutex）是一种常用的同步原语，用于防止多

2024-08-28 19:52:39

安装 Viper：首先，你需要确保已经安装了 Viper。可以通过运行以下命令来安装 Viper：go get github.com/spf13/viper创建 YAML 配置文件：创建一个配置文件 config.yaml，包含数据

2024-08-28 19:52:37

目录如何使用Go语言实现接口继承？示例代码原因和解决方案总结如何使用Go语言实现接口继承？在Go语言中，接口（interface）是一种定义方法集合的类型，它并不包含方法的具体实现，只是规

2024-08-28 19:52:35

2020-11-25

2020-12-15

2020-12-19

2020-12-24

2020-11-10

2020-12-24

2020-09-29

2020-12-19

2020-12-29

2020-12-21

golang实现大文件读取的代码示例

Go语言web框架Gin响应客户端的方式

Golang标准库之errors包应用方式

Go语言标准错误error全面解析

Go语言的io输入输出流方式

Go中Vendo机制的使用

go语言中io操作中的 io.Reader 和 io.Writer的获取方法

golang并发编程使用Select语句的实现

go语言time.After()的作用

go实现一个内存缓存系统的示例代码

Golang Map简介以及底层原理

Go语言中的定时器原理与实战应用

Golang 错误处理：如何优雅地处理与外部 API 的错误

Go语言字符串处理库strings包详解

使用IDEA配置GO语言的开发环境备忘录

Golang发送Get和Post请求的实现

一文了解Go 并发与并行

go语言解决并发问题小结

Golang使用切片实现单链表的示例代码

Go语言使用MongoDB数据库详细步骤

Golang操作excel的技巧与方法

使用Go语言编写一个简单的Web框架

图文详解Go程序如何编译并运行起来的

Go语言使用Json的方法实现

详解如何使用Golang实现自定义规则引擎

go 微服务框架kratos使用中间件的方法

golang开发 gorilla websocket的使用示例详解

Go中阻塞以及非阻塞操作实现(Goroutine和main Goroutine)

Golang安全读写共享变量的方式详解

Go使用Viper库读取YAML配置文件的示例代码

使用Go语言实现接口继承的方式

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道