Python自动化实践之筛选简历

时间：2022-06-08

阅读：

简历筛选

简历相关信息如下：

定义 ReadDoc 类用以读取 word 文件

已知条件：

想要查找包含指定关键字的简历（比如 Python、Java）

实现思路：

批量读取每一个 word 文件（通过 glob 获取 word 信息），将他们的所有可读内容获取，并通过关键字方式筛选，拿到目标简历地址。

这里有个需要注意的地方就是，并不是所有的 "简历" 都是以段落的形式呈现的，比如从 "猎聘" 网下载下来的简历就是 "表格形式" 的，而 "boss" 上下载的简历就是 "段落形式" 的，这里再进行读取的时候需要注意下，我们做的演示脚本练习就是 "表格形式" 的。

这里的话，我们就可以专门定义一个 "ReadDoc" 的类，里面定义两个函数，分别用于读取 "段落" 和 "表格" 。

实操案例脚本如下：

# coding:utf-8from docx import Documentclass ReadDoc(object):              # 定义一个 ReadDoc ，用以读取 word 文件
    def __init__(self, path):       # 构造函数默认传入读取 word 文件的路径
        self.doc = Document(path)
        self.p_text = ''
        self.table_text = ''

        self.get_para()
        self.get_table()


    def get_para(self):             # 定义 get_para 函数用以读取 word 文件的段落
        for p in self.doc.paragraphs:
            self.p_text += p.text + '\n'    # 读取的段落内容进行换行
        print(self.p_text)


    def get_table(self):            # 定义 get_table 函数循环读取表格内容
        for table in self.doc.tables:
            for row in table.rows:
                _cell_str = ''      # 获取每一行的完整信息
                for cell in row.cells:
                    _cell_str += cell.text + ','    # 每一行加一个 "," 隔开
                self.table_text += _cell_str + '\n'     # 读取的表格内容进行换行
        print(self.table_text)if __name__ == '__mAIn__':
    path = glob.os.path.join(glob.os.getcwd(), 'test_file/简历1.docx')
    doc = ReadDoc(path)
    print(doc)

看一下 ReadDoc 类的运行结果

定义 search_word 函数用以筛选 word 文件内容符合想要的简历

OK，上文已经成功读取了简历的 word 文档，接下来我们要将读取到的内容通过帅选关键字信息的方式，过滤出包含有关键字的简历。

实操案例脚本如下：

# coding:utf-8import globfrom docx import Documentclass ReadDoc(object):              # 定义一个 ReadDoc ，用以读取 word 文件
    def __init__(self, path):       # 构造函数默认传入读取 word 文件的路径
        self.doc = Document(path)
        self.p_text = ''
        self.table_text = ''

        self.get_para()
        self.get_table()


    def get_para(self):             # 定义 get_para 函数用以读取 word 文件的段落
        for p in self.doc.paragraphs:
            self.p_text += p.text + '\n'    # 读取的段落内容进行换行
        # print(self.p_text)        # 调试打印输出 word 文件的段落内容


    def get_table(self):            # 定义 get_table 函数循环读取表格内容
        for table in self.doc.tables:
            for row in table.rows:
                _cell_str = ''      # 获取每一行的完整信息
                for cell in row.cells:
                    _cell_str += cell.text + ','    # 每一行加一个 "," 隔开
                self.table_text += _cell_str + '\n'     # 读取的表格内容进行换行
        # print(self.table_text)    # 调试打印输出 word 文件的表格内容def search_word(path, targets):     # 定义 search_word 用以筛选符合内容的简历；传入 path 与 targets（targets 为列表）
    result = glob.glob(path)
    final_result = []               # 定义一个空列表，用以后续存储文件的信息

    for i in result:             # for 循环获取 result 内容

        isuse = True                # 是否可用

        if glob.os.path.isfile(i):       # 判断是否是文件
            if i.endswith('.docx'):      # 判断文件后缀是否是 "docx" ，若是，则利用 ReadDoc类 实例化该文件对象
                doc = ReadDoc(i)
                p_text = doc.p_text         # 获取 word 文件内容
                table_text = doc.table_text
                all_text = p_text + table_text                for target in targets:      # for 循环判断关键字信息内容是否存在
                    if target not in all_text:
                        isuse = False
                        break

                if not isuse:
                    continue
                final_result.append(i)
    return final_resultif __name__ == '__main__':
    path = glob.os.path.join(glob.os.getcwd(), '*')
    result = search_word(path, ['python', 'golang', 'react', '埋点'])      # 埋点是为了演示效果，故意在 "简历1.docx" 加上的
    print(result)

运行结果如下：

1、背景已安装了 Python3.6.4，需要再安装 Python3.9 版本2、操作步骤（1）寻找当前 Python3.9 版本最新稳定版的子版本通过官网查找，目前为 3.9.18，下载到本地文件：Python-3.9.18.tg

2024-03-17 01:50:35

数据预处理的优化缺失值处理： interpolate() 函数：使用插值方法填充缺失值。 KNNImputer() 模块：通过 K 最近邻算法估计缺失值。 MICE 方法：通过多重插补创建多个数据集并组合结

2024-03-15 21:10:46

一、分析页面打开今日BBNews网址 https://news.bicido.com ，下拉选择【编程】栏目1.1、分析请求F12打开开发者模式，然后点击Network后点击任意一个请求，Ctrl+F开启搜索，输入标题

2024-03-15 21:03:08

很多人都听说过爬虫，我也不例外。曾看到别人编写的爬虫代码，虽然没有深入研究，但感觉非常强大。因此，今天我决定从零开始，花费仅5分钟学习入门爬虫技术，以后只需轻轻一爬就能查看

2024-03-15 21:01:49

&emsp;&emsp;本文介绍基于Python中ArcPy模块，对大量栅格遥感影像文件批量进行无效值（NoData值）填充的方法。&emsp;&emsp;在处理栅格图像文件时，我们经常会遇到图像中存在有无效

2024-03-15 21:00:14

pandas的DataFrame可以通过设置参数使得在jupyter notebook中显示的更加美观，
但是，将DataFrame的数据导出excel时，却只能以默认最朴素的方式将数据写入excel。本文介绍一种简

2024-03-15 20:56:37

我们在使用pandas处理完数据之后，最终总是要把数据作为一个文件保存下来，
那么，保存数据最常用的文件是什么呢？
我想大部分人一定会选择csv或者excel。刚接触数据分析时，我也是这

2024-03-15 20:55:50

Pandas无疑是我们数据分析时一个不可或缺的工具，它以其强大的数据处理能力、灵活的数据结构以及易于上手的API赢得了广大数据分析师和机器学习工程师的喜爱。然而，随着数据量

2024-03-15 00:55:56

1. 本篇文章目标将下面的excel中的寄存器表单读入并构建一个字典
2. openpyxl的各种基本使用方法2.1 打开工作簿wb = openpyxl.load_workbook('test_workbook.xlsx'

2024-03-12 23:59:32

F-String（格式化字符串字面值）是在Python 3.6中引入的，它是一种非常强大且灵活的字符串格式化方法。它允许你在字符串中嵌入表达式，这些表达式在运行时会被求值并转换为字符串，

2024-03-12 12:07:02

building-a-simple-redis-server-with-python前几天我想到,写一个简单的东西会很整洁雷迪斯-像数据库服务器。虽然我有很多 WSGI应用程序的经验,数据库服务器展示了一种新

2024-03-12 12:04:50

人工智能时代，最需要学习的编程语言是：python 。笔者是个 python 小白，昨天花了两个小时，第一次成功运行起来 python 项目。项目是 powerpoint-extractor ，可以将 ppt 文件中的

2024-03-11 18:44:06

一、介绍在上节 Python实现企业微信上下班自动打卡程序内容之后，我们继续优化自动打卡程序。接下来增加如下内容：实现打卡时间随机范围处理节假日不打卡的情况实现定时调度

2024-03-11 18:35:32

本文介绍基于Python中whitebox模块，对大量长时间序列栅格遥感影像的每一个像元进行忽略NoData值的多时序平均值求取。在文章Python ArcPy批量计算多时相遥感影像的各像元平均

2024-03-09 22:37:42

最近用到百度飞桨的 PaddleOCR，研究了一下PaddleOCR的服务化部署，简单记录一些部署过程和碰到的问题。基础环境 paddlepaddle 2.5.2 python 3.7 paddlehub 2.1.0 PaddleOCR 2.

2024-03-09 22:30:58

前言Python 是一门上手非常快的语言，学习python这门编程语言达到能够正常使用的程度，需要掌握的点包括：语言基础特性数据类型流程控制函数调用面向对象模块与包下面从这6

2024-03-08 22:46:37

Python作为一门灵活、充满技巧的语言，有着很多奇技淫巧，今天小编就跟大家分享一下在平时工作中所积累的技巧，这里面既有语法上的技巧，也有库函数的应用，可以帮助大家在平时的工作

2024-03-08 22:42:14

上一篇文章Python中那些简单又好用的特性和用法发出后，群里的小伙伴又给补充了几个好用的用法，结合生产实用经验汇总整理如下，各位看官如有需要请自取反射，反射是一种机制，可以

2024-03-08 22:37:59

一般来说，我们先用pandas分析数据，然后用matplotlib之类的可视化库来显示分析结果。
而pandas库中有一个强大的工具--plot函数，可以使数据可视化变得简单而高效。1. plot 函数

2024-03-08 22:36:32

pandas中的cut函数可将一维数据按照给定的区间进行分组，并为每个值分配对应的标签。
其主要功能是将连续的数值数据转化为离散的分组数据，方便进行分析和统计。1. 数据准备下

2024-03-07 01:23:55

Python作为我的主力语言帮助我开发了许多DevOps运维自动化系统，这篇文章总结几个我在编写Python代码过程中用到的几个简单又好用的特性和用法，这些特性和用法可以帮助我们更高

2024-03-07 01:22:01

一文搞懂如何自己写一个Python库你是否曾想过为自己的Python项目编写一个库，以便在不同项目中重复使用代码？并且能在PyPI仓库中发布，并通过pip install 库名来安装使用编写Pyth

2024-03-07 01:21:09

高级优化：字节码优化Cpython 解释器将 Python 源代码编译为字节码，然后由虚拟机执行。字节码优化涉及修改字节码以提高性能。常见的优化技术包括：import disdef fib(n):if n <

2024-03-05 23:19:26

与 C/C++ 的互操作Cpython 可以直接调用 C/C++ 代码，因为它通过 CPython 解释器内部的 C 接口公开了一个 CPython api。这允许开发人员使用 Python 访问 C/c++ 库，从而利用它

2024-03-05 23:16:12

处理大量数据时，经常需要对数据进行分组和汇总，groupby为我们提供了一种简洁、高效的方式来实现这些操作，从而简化了数据分析的流程。1. 分组聚合是什么分组是指根据一个或多个

2024-03-05 23:07:26

最近，我在 Python 潮流周刊中分享了一个超级火爆的项目，这还不到一个月，它在 Github 上已经拿下了 8K star 的亮眼成绩，可见其受欢迎程度极高！国内还未见有更多消息，我趁着周末把

2024-03-05 23:06:19

&emsp;&emsp;本文介绍基于Python中ArcPy模块，实现基于栅格图像批量裁剪栅格图像，同时对齐各个栅格图像的空间范围，统一其各自行数与列数的方法。&emsp;&emsp;首先明确一下我们

2024-03-04 22:58:28

使用 pandas 进行数据分析时，第一步就是读取文件。
在平时学习和练习的过程中，用到的数据量不会太大，所以读取文件的步骤往往会被我们忽视。然而，在实际场景中，面对十万，百万级别

2024-03-04 22:54:15

在进行统计分析时，pandas提供了多种工具来帮助我们理解数据。
pandas提供了多个聚合函数，其中包括均值、标准差、最大值、最小值等等。
此外，pandas还可以进行基于列的统计分析

2024-03-04 22:53:49

在pandas中，索引（index）是用于访问数据的关键。
它为数据提供了基于标签的访问能力，类似于字典，可以根据标签查找和访问数据。而pandas的轴（axis）是指数据表中的一个维度，可以理解为

2024-03-04 22:53:23

2020-10-21

2021-03-02

2020-05-07

2020-05-26

2021-01-13

2021-04-02

2020-05-09

2020-05-10

2020-10-21

Python自动化实践之筛选简历

简历筛选

定义 ReadDoc 类用以读取 word 文件

定义 search_word 函数用以筛选 word 文件内容符合想要的简历

CentOS 同时安装多个版本的Python3

Python 数据分析的艺术：探索高级技巧和技术

Python爬虫实战系列3：今日BBNews编程新闻采集

5分钟上手Python爬虫：从干饭开始，轻松掌握技巧

Python批量填补遥感影像的无效值NoData

Pandas导出美化技巧，让你的Excel更出众

pandas：如何保存数据比较好？

pandas DataFrame内存优化技巧：让数据处理更高效

Python-使用openpyxl读取excel内容

轻松驾驭Python格式化：5个F-String实用技巧分享

用Python编写自己的微型Redis

Java 程序员第一次运行 Python 项目，使用 python-pptx 提取 ppt 中的文字和图片

Python实现企业微信自动打卡程序二：跳过节假日，随机打卡时间，定时任务，失败通知

Python忽略NoData计算多张遥感影像的像元平均值：whitebox库

PaddleOCR 服务化部署(基于PaddleHub Serving)

内部UI自动化测试培训之python基础

Python魔法：20个让你编程事半功倍的奇淫技巧（建议收藏）

继续总结Python中那些简单好用的用法

pandas plot函数：数据可视化的快捷通道

掌握pandas cut函数，一键实现数据分类

Python中那些简单又好用的特性和用法

一文搞懂如何自己写一个Python库

Mastering Python CPython: Advanced Topics and Techniques

Python CPython 与其他语言的互操作性

分组聚合不再难：Pandas groupby使用指南

Rust 开发的高性能 Python 包管理工具，可替换 pip、pip-tools 和 virtualenv

Python实现snap：对齐多张遥感影像的空间范围

pandas高效读取大文件的探索之路

【pandas基础】--数据统计

【pandas基础】--索引和轴

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道