python multiprocessing 多进程并行计算的操作

来自：网络

时间：2021-09-30

阅读：

python的multiprocessing包是标准库提供的多进程并行计算包，提供了和threading（多线程）相似的API函数，但是相比于threading，将任务分配到不同的CPU，避免了GIL（Global Interpreter Lock）的限制。

下面我们对multiprocessing中的Pool和Process类做介绍。

Pool

采用Pool进程池对任务并行处理更加方便，我们可以指定并行的CPU个数，然后 Pool 会自动把任务放到进程池中运行。 Pool 包含了多个并行函数。

apply apply_async

apply 要逐个执行任务，在python3中已经被弃用，而apply_async是apply的异步执行版本。并行计算一定要采用apply_async函数。

import multiprocessing
import time
from random import randint, seed
def f(num):
  seed()
  rand_num = randint(0,10) # 每次都随机生成一个停顿时间
  time.sleep(rand_num)
  return (num, rand_num)
start_time = time.time()
cores = multiprocessing.cpu_count()
pool = multiprocessing.Pool(processes=cores)
pool_list = []
result_list = []
start_time = time.time()
for xx in xrange(10):
  pool_list.append(pool.apply_async(f, (xx, ))) # 这里不能 get， 会阻塞进程
result_list = [xx.get() for xx in pool_list]
#在这里不免有人要疑问，为什么不直接在 for 循环中直接 result.get()呢？这是因为pool.apply_async之后的语句都是阻塞执行的，调用 result.get() 会等待上一个任务执行完之后才会分配下一个任务。事实上，获取返回值的过程最好放在进程池回收之后进行，避免阻塞后面的语句。
# 最后我们使用一下语句回收进程池：  
pool.close()
pool.join()
print result_list
print '并行花费时间 %.2f' % (time.time() - start_time)
print '串行花费时间 %.2f' % (sum([xx[1] for xx in result_list]))
#[(0, 8), (1, 2), (2, 4), (3, 9), (4, 0), (5, 1), (6, 8), (7, 3), (8, 4), (9, 6)]
#并行花费时间 14.11
#串行花费时间 45.00

map map_async

map_async 是 map的异步执行函数。

相比于 apply_async, map_async 只能接受一个参数。

import time
from multiprocessing import Pool
def run(fn):
 #fn: 函数参数是数据列表的一个元素
 time.sleep(1)
 return fn*fn
if __name__ == "__main__":
 testFL = [1,2,3,4,5,6] 
 print '串行:' #顺序执行(也就是串行执行，单进程)
 s = time.time()
 for fn in testFL:
  run(fn)
 e1 = time.time()
 print "顺序执行时间：", int(e1 - s)
 print '并行:' #创建多个进程，并行执行
 pool = Pool(4) #创建拥有5个进程数量的进程池
 #testFL:要处理的数据列表，run：处理testFL列表中数据的函数
 rl =pool.map(run, testFL) 
 pool.close()#关闭进程池，不再接受新的进程
 pool.join()#主进程阻塞等待子进程的退出
 e2 = time.time()
 print "并行执行时间：", int(e2-e1)
 print rl
# 串行:
# 顺序执行时间： 6
# 并行:
# 并行执行时间： 2
# [1, 4, 9, 16, 25, 36]

Process

采用Process必须注意的是，Process对象来创建进程，每一个进程占据一个CPU，所以要建立的进程必须小于等于 CPU的个数。

如果启动进程数过多，特别是当遇到CPU密集型任务，会降低并行的效率。

#16.6.1.1. The Process class
from multiprocessing import Process, cpu_count
import os
import time
start_time = time.time()
def info(title):
#   print(title)
  if hasattr(os, 'getppid'): # only available on Unix
    print 'parent process:', os.getppid()
  print 'process id:', os.getpid()
  time.sleep(3)
def f(name):
  info('function f')
  print 'hello', name
if __name__ == '__main__':
#   info('main line')
  p_list = [] # 保存Process新建的进程
  cpu_num = cpu_count()
  for xx in xrange(cpu_num):
    p_list.append(Process(target=f, args=('xx_%s' % xx,)))
  for xx in p_list:
    xx.start()
  for xx in p_list:
    xx.join()
  print('spend time: %.2f' % (time.time() - start_time))
parent process: 11741
# parent process: 11741
# parent process: 11741
# process id: 12249
# process id: 12250
# parent process: 11741
# process id: 12251
# process id: 12252
# hello xx_1
# hello xx_0
# hello xx_2
# hello xx_3
# spend time: 3.04

进程间通信

Process和Pool均支持Queues 和 Pipes 两种类型的通信。

Queue 队列

队列遵循先进先出的原则，可以在各个进程间使用。

# 16.6.1.2. Exchanging objects between processes
# Queues
from multiprocessing import Process, Queue
def f(q):
  q.put([42, None, 'hello'])
if __name__ == '__main__':
  q = Queue()
  p = Process(target=f, args=(q,))
  p.start()
  print q.get()  # prints "[42, None, 'hello']"
  p.join()

pipe

from multiprocessing import Process, Pipe
def f(conn):
  conn.send([42, None, 'hello'])
  conn.close()
if __name__ == '__main__':
  parent_conn, child_conn = Pipe()
  p = Process(target=f, args=(child_conn,))
  p.start()
  print parent_conn.recv()  # prints "[42, None, 'hello']"
  p.join()

queue 与 pipe比较

Pipe() can only have two endpoints.

Queue() can have multiple producers and consumers.

When to use them

If you need more than two points to communicate, use a Queue().

If you need absolute performance, a Pipe() is much faster because Queue() is built on top of Pipe().

参考：

https://stackoverflow.com/questions/8463008/python-multiprocessing-pipe-vs-queue

共享资源

多进程应该避免共享资源。在多线程中，我们可以比较容易地共享资源，比如使用全局变量或者传递参数。

在多进程情况下，由于每个进程有自己独立的内存空间，以上方法并不合适。

此时我们可以通过共享内存和Manager的方法来共享资源。

但这样做提高了程序的复杂度，并因为同步的需要而降低了程序的效率。

共享内存

共享内存仅适用于 Process 类，不能用于进程池 Pool

# 16.6.1.4. Sharing state between processes
# Shared memory
from multiprocessing import Process, Value, Array
def f(n, a):
  n.value = 3.1415927
  for i in range(len(a)):
    a[i] = -a[i]
if __name__ == '__main__':
  num = Value('d', 0.0)
  arr = Array('i', range(10))
  p = Process(target=f, args=(num, arr))
  p.start()
  p.join()
  print num.value
  print arr[:]
# 3.1415927
# [0, -1, -2, -3, -4, -5, -6, -7, -8, -9]

Manager Class

Manager Class 既可以用于Process 也可以用于进程池 Pool。

from multiprocessing import Manager, Process
def f(d, l, ii):
  d[ii] = ii
  l.append(ii)
if __name__ == '__main__':
  manager = Manager()
  d = manager.dict()
  l = manager.list(range(10))
  p_list = [] 
  for xx in range(4):
    p_list.append(Process(target=f, args=(d, l, xx)))
  for xx in p_list:
    xx.start()
  for xx in p_list:
    xx.join()
  print d
  print l
# {0: 0, 1: 1, 2: 2, 3: 3}
# [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 0, 1, 2, 3]

补充：python程序多进程运行时间计算/多进程写数据/多进程读数据

import time
time_start=time.time()
time_end=time.time()
print('time cost',time_end-time_start，'s')

单位为秒，也可以换算成其他单位输出

注意写测试的时候，函数名要以test开头，否则运行不了。

多线程中的问题：

1）多线程存数据：

def test_save_features_to_db(self):
    df1 = pd.read_csv('/home/sc/PycharmProjects/risk-model/xg_test/statis_data/shixin_company.csv')
    com_list = df1['company_name'].values.tolist()
    # com_list = com_list[400015:400019]
    # print 'test_save_features_to_db'
    # print(com_list)
    p_list = [] # 进程列表
    i = 1
    p_size = len(com_list)
    for company_name in com_list:
      # 创建进程
      p = Process(target=self.__save_data_iter_method, args=[company_name])
      # p.daemon = True
      p_list.append(p)
      # 间歇执行进程
      if i % 20 == 0 or i == p_size: # 20页处理一次， 最后一页处理剩余
        for p in p_list:
          p.start()
        for p in p_list:
          p.join() # 等待进程结束
        p_list = [] # 清空进程列表
      i += 1

总结：多进程写入的时候，不需要lock,也不需要返回值。

核心p = Process(target=self.__save_data_iter_method, args=[company_name])，其中target指向多进程的一次完整的迭代，arg则是该迭代的输入。

注意写法args=[company_name]才对，原来写成：args=company_name，args=（company_name）会报如下错：只需要1个参数，而给出了34个参数。

多进程外层循环则是由输入决定的，有多少个输入就为多少次循环，理解p.start和p.join;

def __save_data_iter_method(self, com):
    # time_start = time.time()
    # print(com)
    f_d_t = ShiXinFeaturesDealSvc()
    res = f_d_t.get_time_features(company_name=com)
    # 是否失信
    shixin_label = res.shixin_label
    key1 = res.shixin_time
    if key1:
      public_at = res.shixin_time
      company_name = res.time_map_features[key1].company_name
      # print(company_name)
      established_years = res.time_map_features[key1].established_years
      industry_dx_rate = res.time_map_features[key1].industry_dx_rate
      regcap_change_cnt = res.time_map_features[key1].regcap_change_cnt
      share_change_cnt = res.time_map_features[key1].share_change_cnt
      industry_dx_cnt = res.time_map_features[key1].industry_dx_cnt
      address_change_cnt = res.time_map_features[key1].address_change_cnt
      fr_change_cnt = res.time_map_features[key1].fr_change_cnt
      judgedoc_cnt = res.time_map_features[key1].judgedoc_cnt
      bidding_cnt = res.time_map_features[key1].bidding_cnt
      trade_mark_cnt = res.time_map_features[key1].trade_mark_cnt
      network_share_cancel_cnt = res.time_map_features[key1].network_share_cancel_cnt
      cancel_cnt = res.time_map_features[key1].cancel_cnt
      industry_all_cnt = res.time_map_features[key1].industry_all_cnt
      network_share_zhixing_cnt = res.time_map_features[key1].network_share_zhixing_cnt
      network_share_judge_doc_cnt = res.time_map_features[key1].network_share_judge_doc_cnt
      net_judgedoc_defendant_cnt = res.time_map_features[key1].net_judgedoc_defendant_cnt
      judge_doc_cnt = res.time_map_features[key1].judge_doc_cnt
      f_d_do = ShixinFeaturesDto(company_name=company_name, established_years=established_years,
                    industry_dx_rate=industry_dx_rate, regcap_change_cnt=regcap_change_cnt,
                    share_change_cnt=share_change_cnt, industry_all_cnt=industry_all_cnt,
                    industry_dx_cnt=industry_dx_cnt, address_change_cnt=address_change_cnt,
                    fr_change_cnt=fr_change_cnt, judgedoc_cnt=judgedoc_cnt,
                    bidding_cnt=bidding_cnt, trade_mark_cnt=trade_mark_cnt,
                    network_share_cancel_cnt=network_share_cancel_cnt, cancel_cnt=cancel_cnt,
                    network_share_zhixing_cnt=network_share_zhixing_cnt,
                    network_share_judge_doc_cnt=network_share_judge_doc_cnt,
                    net_judgedoc_defendant_cnt=net_judgedoc_defendant_cnt,
                    judge_doc_cnt=judge_doc_cnt, public_at=public_at, shixin_label=shixin_label)
      # time_end = time.time()
      # print('totally cost', time_end - time_start)
      self.cfdbsvc.save_or_update_features(f_d_do)
def save_or_update_features(self, shixin_features_dto):
    """
    添加或更新：
    插入一行数据, 如果不存在则插入，存在则更新
    """
    self._pg_util = PgUtil()
    p_id = None
    if isinstance(shixin_features_dto, ShixinFeaturesDto):
      p_id = str(uuid.uuid1())
      self._pg_util.execute_sql(
        self.s_b.insert_or_update_row(
          self.model.COMPANY_NAME,
          {
            self.model.ID: p_id,
            # 公司名
            self.model.COMPANY_NAME: shixin_features_dto.company_name,
            # 失信时间
            self.model.PUBLIC_AT: shixin_features_dto.public_at,
            self.model.SHIXIN_LABEL : shixin_features_dto.shixin_label,
            self.model.ESTABLISHED_YEARS: shixin_features_dto.established_years, 
            self.model.INDUSTRY_DX_RATE: shixin_features_dto.industry_dx_rate, 
            self.model.REGCAP_CHANGE_CNT: shixin_features_dto.regcap_change_cnt, 
            self.model.SHARE_CHANGE_CNT: shixin_features_dto.share_change_cnt, 
            self.model.INDUSTRY_ALL_CNT: shixin_features_dto.industry_all_cnt, 
            self.model.INDUSTRY_DX_CNT: shixin_features_dto.industry_dx_cnt, 
            self.model.ADDRESS_CHANGE_CNT: shixin_features_dto.address_change_cnt, 
            self.model.NETWORK_SHARE_CANCEL_CNT: shixin_features_dto.network_share_cancel_cnt,
            self.model.CANCEL_CNT: shixin_features_dto.cancel_cnt, 
            self.model.NETWORK_SHARE_ZHIXING_CNT: shixin_features_dto.network_share_zhixing_cnt,
            self.model.FR_CHANGE_CNT: shixin_features_dto.fr_change_cnt, 
            self.model.JUDGEDOC_CNT: shixin_features_dto.judgedoc_cnt, 
            self.model.NETWORK_SHARE_JUDGE_DOC_CNT: shixin_features_dto.network_share_judge_doc_cnt,
            self.model.BIDDING_CNT: shixin_features_dto.bidding_cnt, 
            self.model.TRADE_MARK_CNT: shixin_features_dto.trade_mark_cnt, 
            self.model.JUDGE_DOC_CNT: shixin_features_dto.judge_doc_cnt 
          },
          [self.model.ADDRESS_CHANGE_CNT,self.model.BIDDING_CNT,self.model.CANCEL_CNT,
           self.model.ESTABLISHED_YEARS,self.model.FR_CHANGE_CNT,self.model.INDUSTRY_ALL_CNT,
           self.model.INDUSTRY_DX_RATE,self.model.INDUSTRY_DX_CNT,self.model.JUDGE_DOC_CNT,
           self.model.JUDGEDOC_CNT,self.model.NETWORK_SHARE_CANCEL_CNT,self.model.NETWORK_SHARE_JUDGE_DOC_CNT,
           self.model.NETWORK_SHARE_ZHIXING_CNT,self.model.REGCAP_CHANGE_CNT,self.model.TRADE_MARK_CNT,
           self.model.SHARE_CHANGE_CNT,self.model.SHIXIN_LABEL,self.model.PUBLIC_AT]
        )
      )
    return p_id

函数中重新初始化了self._pg_util = PgUtil()，否则会报ssl error 和ssl decryption 的错误，背后原因有待研究！

**2）多进程取数据——（思考取数据为何要多进程）**
  def flush_process(self, lock): #需要传入lock;
    """
    运行待处理的方法队列
    :type lock Lock
    :return 返回一个dict
    """
    # process_pool = Pool(processes=20)
    # data_list = process_pool.map(one_process, self.__process_data_list)
    #
    # for (key, value) in data_list:
    #
    # 覆盖上期变量
    self.__dct_share = self.__manager.Value('tmp', {}) # 进程共享变量
    p_list = [] # 进程列表
    i = 1
    p_size = len(self.__process_data_list)
    for process_data in self.__process_data_list:  **#循环遍历需要同时查找的公司列表！！！self.__process_data_list包含多个process_data,每个process_data包含三种属性？类对象也可以循环？？？？**
      # 创建进程
      p = Process(target=self.__one_process, args=(process_data, lock)) #参数需要lock
      # p.daemon = True
      p_list.append(p)
      # 间歇执行进程
      if i % 20 == 0 or i == p_size: # 20页处理一次， 最后一页处理剩余
        for p in p_list:
          p.start()
        for p in p_list:
          p.join() # 等待进程结束
        p_list = [] # 清空进程列表
      i += 1
    # end for
    self.__process_data_list = [] # 清空订阅
    return self.__dct_share.value
 def __one_process(self, process_data, lock):  #迭代函数
    """
    处理进程
    :param process_data: 方法和参数集等
    :param lock: 保护锁
    """
    fcn = process_data.fcn
    params = process_data.params
    data_key = process_data.data_key
    if isinstance(params, tuple):
      data = fcn(*params) #**注意：*params 与 params区别**
    else:
      data = fcn(params)
    with lock:
      temp_dct = dict(self.__dct_share.value)
      if data_key not in temp_dct:
        temp_dct[data_key] = []
      temp_dct[data_key].append(data)
      self.__dct_share.value = temp_dct

主程序调用：

def exe_process(self, company_name, open_from, time_nodes):
    """
    多进程执行pre订阅的数据
    :param company_name: 公司名
    :return:
    """
    mul_process_helper = MulProcessHelper()
    lock = Lock()
    self.__get_time_bidding_statistic(company_name, mul_process_helper）
    data = mul_process_helper.flush_process(lock)
    return data
 def __get_time_bidding_statistic(self, company_name, mul_process_helper):
    # 招投标信息
    process_data = ProcessData(f_e_t_svc.get_bidding_statistic_time_node_api, company_name,
                  self.__BIDDING_STATISTIC_TIME) **#此处怎么理解？ProcessData是一个类！！！**
    mul_process_helper.add_process_data_list(process_data)  #同时调用多个api???将api方法当做迭代？？？？用于同时查找多个公司？？？？
 def add_process_data_list(self, process_data):
    """
    添加用于进程处理的方法队列
    :type process_data ProcessData
    :param process_data:
    :return:
    """
    self.__process_data_list.append(process_data)
 class ProcessData(object):
  """
  用于进程处理的的数据
  """
  def __init__(self, fcn, params, data_key):
    self.fcn = fcn # 方法
    self.params = params # 参数
    self.data_key = data_key # 存储到进程共享变量中的名字

以上为个人经验，希望能给大家一个参考，也希望大家多多支持免费资源网。如有错误或未考虑完全的地方，望不吝赐教。

1、背景已安装了 Python3.6.4，需要再安装 Python3.9 版本2、操作步骤（1）寻找当前 Python3.9 版本最新稳定版的子版本通过官网查找，目前为 3.9.18，下载到本地文件：Python-3.9.18.tg

2024-03-17 01:50:35

数据预处理的优化缺失值处理： interpolate() 函数：使用插值方法填充缺失值。 KNNImputer() 模块：通过 K 最近邻算法估计缺失值。 MICE 方法：通过多重插补创建多个数据集并组合结

2024-03-15 21:10:46

一、分析页面打开今日BBNews网址 https://news.bicido.com ，下拉选择【编程】栏目1.1、分析请求F12打开开发者模式，然后点击Network后点击任意一个请求，Ctrl+F开启搜索，输入标题

2024-03-15 21:03:08

很多人都听说过爬虫，我也不例外。曾看到别人编写的爬虫代码，虽然没有深入研究，但感觉非常强大。因此，今天我决定从零开始，花费仅5分钟学习入门爬虫技术，以后只需轻轻一爬就能查看

2024-03-15 21:01:49

&emsp;&emsp;本文介绍基于Python中ArcPy模块，对大量栅格遥感影像文件批量进行无效值（NoData值）填充的方法。&emsp;&emsp;在处理栅格图像文件时，我们经常会遇到图像中存在有无效

2024-03-15 21:00:14

pandas的DataFrame可以通过设置参数使得在jupyter notebook中显示的更加美观，
但是，将DataFrame的数据导出excel时，却只能以默认最朴素的方式将数据写入excel。本文介绍一种简

2024-03-15 20:56:37

我们在使用pandas处理完数据之后，最终总是要把数据作为一个文件保存下来，
那么，保存数据最常用的文件是什么呢？
我想大部分人一定会选择csv或者excel。刚接触数据分析时，我也是这

2024-03-15 20:55:50

Pandas无疑是我们数据分析时一个不可或缺的工具，它以其强大的数据处理能力、灵活的数据结构以及易于上手的API赢得了广大数据分析师和机器学习工程师的喜爱。然而，随着数据量

2024-03-15 00:55:56

1. 本篇文章目标将下面的excel中的寄存器表单读入并构建一个字典
2. openpyxl的各种基本使用方法2.1 打开工作簿wb = openpyxl.load_workbook('test_workbook.xlsx'

2024-03-12 23:59:32

F-String（格式化字符串字面值）是在Python 3.6中引入的，它是一种非常强大且灵活的字符串格式化方法。它允许你在字符串中嵌入表达式，这些表达式在运行时会被求值并转换为字符串，

2024-03-12 12:07:02

building-a-simple-redis-server-with-python前几天我想到,写一个简单的东西会很整洁雷迪斯-像数据库服务器。虽然我有很多 WSGI应用程序的经验,数据库服务器展示了一种新

2024-03-12 12:04:50

人工智能时代，最需要学习的编程语言是：python 。笔者是个 python 小白，昨天花了两个小时，第一次成功运行起来 python 项目。项目是 powerpoint-extractor ，可以将 ppt 文件中的

2024-03-11 18:44:06

一、介绍在上节 Python实现企业微信上下班自动打卡程序内容之后，我们继续优化自动打卡程序。接下来增加如下内容：实现打卡时间随机范围处理节假日不打卡的情况实现定时调度

2024-03-11 18:35:32

本文介绍基于Python中whitebox模块，对大量长时间序列栅格遥感影像的每一个像元进行忽略NoData值的多时序平均值求取。在文章Python ArcPy批量计算多时相遥感影像的各像元平均

2024-03-09 22:37:42

最近用到百度飞桨的 PaddleOCR，研究了一下PaddleOCR的服务化部署，简单记录一些部署过程和碰到的问题。基础环境 paddlepaddle 2.5.2 python 3.7 paddlehub 2.1.0 PaddleOCR 2.

2024-03-09 22:30:58

前言Python 是一门上手非常快的语言，学习python这门编程语言达到能够正常使用的程度，需要掌握的点包括：语言基础特性数据类型流程控制函数调用面向对象模块与包下面从这6

2024-03-08 22:46:37

Python作为一门灵活、充满技巧的语言，有着很多奇技淫巧，今天小编就跟大家分享一下在平时工作中所积累的技巧，这里面既有语法上的技巧，也有库函数的应用，可以帮助大家在平时的工作

2024-03-08 22:42:14

上一篇文章Python中那些简单又好用的特性和用法发出后，群里的小伙伴又给补充了几个好用的用法，结合生产实用经验汇总整理如下，各位看官如有需要请自取反射，反射是一种机制，可以

2024-03-08 22:37:59

一般来说，我们先用pandas分析数据，然后用matplotlib之类的可视化库来显示分析结果。
而pandas库中有一个强大的工具--plot函数，可以使数据可视化变得简单而高效。1. plot 函数

2024-03-08 22:36:32

pandas中的cut函数可将一维数据按照给定的区间进行分组，并为每个值分配对应的标签。
其主要功能是将连续的数值数据转化为离散的分组数据，方便进行分析和统计。1. 数据准备下

2024-03-07 01:23:55

Python作为我的主力语言帮助我开发了许多DevOps运维自动化系统，这篇文章总结几个我在编写Python代码过程中用到的几个简单又好用的特性和用法，这些特性和用法可以帮助我们更高

2024-03-07 01:22:01

一文搞懂如何自己写一个Python库你是否曾想过为自己的Python项目编写一个库，以便在不同项目中重复使用代码？并且能在PyPI仓库中发布，并通过pip install 库名来安装使用编写Pyth

2024-03-07 01:21:09

高级优化：字节码优化Cpython 解释器将 Python 源代码编译为字节码，然后由虚拟机执行。字节码优化涉及修改字节码以提高性能。常见的优化技术包括：import disdef fib(n):if n <

2024-03-05 23:19:26

与 C/C++ 的互操作Cpython 可以直接调用 C/C++ 代码，因为它通过 CPython 解释器内部的 C 接口公开了一个 CPython api。这允许开发人员使用 Python 访问 C/c++ 库，从而利用它

2024-03-05 23:16:12

处理大量数据时，经常需要对数据进行分组和汇总，groupby为我们提供了一种简洁、高效的方式来实现这些操作，从而简化了数据分析的流程。1. 分组聚合是什么分组是指根据一个或多个

2024-03-05 23:07:26

最近，我在 Python 潮流周刊中分享了一个超级火爆的项目，这还不到一个月，它在 Github 上已经拿下了 8K star 的亮眼成绩，可见其受欢迎程度极高！国内还未见有更多消息，我趁着周末把

2024-03-05 23:06:19

&emsp;&emsp;本文介绍基于Python中ArcPy模块，实现基于栅格图像批量裁剪栅格图像，同时对齐各个栅格图像的空间范围，统一其各自行数与列数的方法。&emsp;&emsp;首先明确一下我们

2024-03-04 22:58:28

使用 pandas 进行数据分析时，第一步就是读取文件。
在平时学习和练习的过程中，用到的数据量不会太大，所以读取文件的步骤往往会被我们忽视。然而，在实际场景中，面对十万，百万级别

2024-03-04 22:54:15

在进行统计分析时，pandas提供了多种工具来帮助我们理解数据。
pandas提供了多个聚合函数，其中包括均值、标准差、最大值、最小值等等。
此外，pandas还可以进行基于列的统计分析

2024-03-04 22:53:49

在pandas中，索引（index）是用于访问数据的关键。
它为数据提供了基于标签的访问能力，类似于字典，可以根据标签查找和访问数据。而pandas的轴（axis）是指数据表中的一个维度，可以理解为

2024-03-04 22:53:23

2020-10-21

2021-03-02

2020-05-07

2020-05-26

2021-01-13

2021-04-02

2020-05-09

2020-05-10