从0到1使用python开发一个半自动答题小程序的实现

时间：2020-05-26

阅读：

前言

最近每天都有玩微信读书上面的每日一答的答题游戏，完全答对12题后，可以瓜分无限阅读卡。但是从小就不太爱看书的我，很难连续答对12道题，由此，产生了写一个半自动答题小程序的想法。我们先看一张效果图吧(ps 这里主要是我电脑有点卡，点击左边地选项有延迟)

项目GIthub地址：微信读书答题python小程序

觉得对你有帮助的请点个赞来支持一下吧。

演示图：

从0到1使用python开发一个半自动答题小程序的实现

做前准备

mumu模拟器因为手边没有安卓手机，所以只能在模拟器上进行模拟，如果手上有安卓手机地，可以适当地修改一下程序。需要安装微信和微信读书这两个软件 python工具包：BeautifulSoup4、Pillow、urllib、requests、re、base64、time

思路

截屏含有题目和答案的图片(范围可以自己指定) 使用百度的图片识别技术将图片转化为文字，并进行一系列处理，分别将题目和答案进行存储调动百度知道搜索接口，将题目作为搜索关键字进行答案搜索将搜索出来的内容使用BeautifulSoup4进行答案提取，这里可以设置答案提取数量将搜索结果进行输出显示

附：这里我还加了一个自动推荐答案，利用百度短文本相似接口和选项是否出现在答案中这两种验证方法进行验证，推荐相似度最高的答案。准确度还可以，但是比较耗时间，比正常情况下时间要多上一倍。

开始写代码

1. 导入工具包

import requests #访问网站
import re		#正则表达式匹配
import base64	#编码
from bs4 import BeautifulSoup #处理页面数据
from urllib import parse #进行url编码
import time #统计时间
from PIL import ImageGrab #处理图片

2. 编写类和初始化方法

class autogetanswer():
  def __init__(self,StartAutoRecomment=True,answernumber=5):
    self.StartAutoRecomment=StartAutoRecomment 
    self.APIKEY=['BICrxxxxxxxxNNI','CrHGxxxxxxxx3C']
    self.SECRETKEY=['BgL4jxxxxxxxxxGj9','1xo0jxxxxxx90cx']
    self.accesstoken=[]
    self.baiduzhidao='http://zhidao.baidu.com/search?'
    self.question=''
    self.answer=[]
    self.answernumber=answernumber
    self.searchanswer=[]
    self.answerscore=[]
    self.reanswerindex=0
    self.imageurl='answer.jpg'
    self.position=(35,155,355,680)
    self.titleregular1=r'(10题|共10|12题|共12|翻倍)'
    self.titleregular2=r'(?|？)'
    self.answerregular1=r'(这题|问题|跳题|换题|题卡|换卡|跳卡|这有)'

self.StartAutoRecomment 是否开启自动推荐答案，默认为True self.APIKEY 百度图像转文字、百度短文本相似度分析这两个接口的apikey self.SECRETKEY 百度图像转文字、百度短文本相似度分析这两个接口的secretkey

这两个key值我就没法提供给大家了，大家可以自己去百度云官方申请，免费额度大概有5万，足够我们使用了。

申请过程大家可以参考这个博客，很简单的如何申请百度文字识别apikey和Secret Key

self.accesstoken 存储申请使用接口的accesstoken值 self.baiduzhidao 百度知道搜索接口地址 self.imageurl 图片地址 self.position 截图方位信息，依次分别是左间距、上间距、右间距、下间距 self.titleregular1、.titleregular2、answerregular1 这些是进行题目和答案处理的条件

3. 获得accesstoken值

 def GetAccseetoken(self):
    for i in range(len(self.APIKEY)):
      host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id={}&client_secret={}'.format(self.APIKEY[i],self.SECRETKEY[i])
      response = requests.get(host)
      jsondata = response.json()
      self.accesstoken.append(jsondata['access_token'])

这是官方提供的获取accesstoken的摸板，大家直接使用就行了。

4. 图像转文字以及相关处理

 def OCR(self,filename):
    request_url = "https://aip.baidubce.com/rest/2.0/ocr/v1/accurate_basic"
    # 二进制方式打开图片文件
    f = open(filename, 'rb')
    img = base64.b64encode(f.read())
    params = {"image":img}
    access_token = self.accesstoken[0]
    request_url = request_url + "?access_token=" + access_token
    headers = {'content-type': 'application/x-www-form-urlencoded'}
    response = requests.post(request_url, data=params, headers=headers)
    #===上面是使用百度图片转文字接口转化，返回格式为json
    if response:
      result = response.json()
      questionstart=0
      answerstart=0
      self.question=''
      self.answer=[]
      #确定题目和答案所在的位置
      for i in range(result['words_result_num']):
        if(re.search(self.titleregular1,result['words_result'][i]['words'])!=None):
          questionstart=i+1
        if(re.search(self.titleregular2,result['words_result'][i]['words'])!=None):
          answerstart=i+1
       #下面是进行题目和答案的处理
      if(answerstart!=0):
        for title in result['words_result'][questionstart:answerstart]:
          if(re.search(self.answerregular1,title['words'])!=None):
            pass
          else:
            self.question+=title['words']
        for answer in result['words_result'][answerstart:]:
          if(re.search(self.answerregular1,answer['words'])!=None):
            pass
          else:
            if(str(answer['words']).find('.')>0):
              answer2 = str(answer['words']).split('.')[-1]
            else:
              answer2=answer['words']
            self.answer.append(answer2)
      else:
        for title in result['words_result'][questionstart:]:
          if(re.search(self.answerregular1,title['words'])!=None):
            pass
          else:
            self.question+=title['words']
      print("本题问题：",self.question)
      print("本题答案：",self.answer)
    return response.json()#可有可无

此方法是将图片转化为文字，进行图片中的文字识别，格式如下：

{
  "log_id": 2471272194, 
  "words_result_num": 2,
  "words_result": 
	  [
		  {"words": " TSINGTAO"}, 
		  {"words": "青島睥酒"}
	  ]
}

下面我们以下面的图为例，我们是如何去除掉干扰信息的：

从0到1使用python开发一个半自动答题小程序的实现

上图就是程序在实际运行中的情况，黄色框内就是程序截取的图像(这个通过初始化方法的参数中的position可以进行设置)，

我们需要的是红色框内的信息，这包含题目和答案选项。文字识别后，白色框里面的字也会和红色框里的字一同被识别，并以json形式输出，这些信息对我们就是干扰信息，所以，我通过建立了初始化方法里titleregular1、titleregular2、answerregular1 这三个标准进行判定，白色框里的文字与对应，如果判断包含的话，就不添加到题目中或者答案中。

5. 百度知道进行答案搜索

 def BaiduAnswer(self):
    request = requests.session()
    headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36'}
    data = {"word":self.question}
    url=self.baiduzhidao+'lm=0&rn=10&pn=0&fr=search&ie=gbk&'+parse.urlencode(data,encoding='GB2312')
    ress = request.get(url,headers=headers)
    ress.encoding='gbk'
    if ress:
      soup = BeautifulSoup(ress.text,'lxml')
      result = soup.find_all("dd",class_="dd answer")
      if(len(result)!=0 and len(result)>self.answernumber):
        length=5
      else:
        length=len(result)
      for i in range(length):
        self.searchanswer.append(result[i].text)

这里是模拟浏览器进行百度知道搜索答案，将返回的文本交给BeautifulSoup进行处理，提取出我们需要的部分。后面最后几句有一个判定，如果查询到的答案数量超过我们设置的答案数，比如是5，那么就将前5个答案放入searchanswer列表中，如果查询到的答案数量要少于我们设置的，返回所有答案。

6. 短文本相似度分析

def CalculateSimilarity(self,text1,text2):
    access_token = self.accesstoken[1]
    request_url="https://aip.baidubce.com/rpc/2.0/nlp/v2/simnet"
    request_url = request_url + "?access_token=" + access_token
    headers = {'Content-Type': 'application/json'}
    data={"text_1":text1,"text_2":text2,"model":"GRNN"}
    response = requests.post(request_url, json=data, headers=headers)
    response.encoding='gbk'
    if response:
      try:
        result = response.json()
        return result['score']
      except:
        return 0

这里调用的是百度短文本相似度分析的接口，用于分析选项与查询到的答案的相似度，以此来推荐一个参考答案。这个是官方给的摸板，直接调用，更换一下参数即可。

7. 自动给出一个参考答案

 def AutoRecomment(self):
    if(len(self.answer)==0):
      return
    for i in range(len(self.answer)):
      scores=[]
      flag=0
      for j in range(len(self.searchanswer)):
        if(j!=0and (j%2==0)):
          time.sleep(0.1)
        score = tools.CalculateSimilarity(tools.answer[i],tools.searchanswer[j])
        if(tools.answer[i] in tools.searchanswer[j]):
          score=1
        scores.append(score)
        if(score>0.8):
          flag=1
          self.answerscore.append(score)
          break
      if(flag==0):
        self.answerscore.append(max(scores))
    self.reanswerindex = self.answerscore.index(max(self.answerscore))

这里调用了咱们第六步的CalculateSimilarity()方法，统计每一个选项与搜索到的答案相似度，取最高的存入answerscore列表中。这里我又加了一个操作，我发现这个相似度匹配有时正确率比较低，所以这里加了一个判定，若选项在搜索到的答案中出现，给予一个最大相似值，也就是1，这就大大提高了推荐的准确度。

8. 初始化参数

def IniParam(self):
    self.accesstoken=[]
    self.question=''
    self.answer=[]
    self.searchanswer=[]
    self.answerscore=[]
    self.reanswerindex=0

相关参数的初始化，因为每进行完一道题，要对存储题和答案以及相关信息的数组进行清空，否则会对后面题的显示产生影响。

9. 主方法

def MainMethod(self):
    while(True):
      try:
        order = input('请输入指令（1=开始，2=结束):')
        if(int(order)==1):
          start = time.time()
          self.GetAccseetoken()
          img = ImageGrab.grab(self.position)#左、上、右、下
          img.save(self.imageurl)
          self.OCR(self.imageurl)
          self.BaiduAnswer()
          if(self.StartAutoRecomment):
            self.AutoRecomment()
          print("======================答案区======================n")
          for i in range(len(self.searchanswer)):
            print("{}.{}".format(i,self.searchanswer[i]))
          end = time.time()
          print(self.answerscore)
          if(self.StartAutoRecomment and len(self.answer)>0):
            print("n推荐答案:",self.answer[self.reanswerindex])
          print("n======================答案区======================")
          print("总用时：",end-start,end="nn")
          self.IniParam()
        else:
          break
      except:
        print("识别失败，请重新尝试")
        self.IniParam()
        pass

这里主要是一个while循环，通过输入指定来判断是否结束循环。

这里说一下下面这两个语句：

img = ImageGrab.grab(self.position)#左、上、右、下
img.save(self.imageurl)

这两个语句是用来截取我们指定位置的图片，然后进行图片的保存。

上述呢，就是整个项目完成的流程，整体运行是几乎每什么问题，但是还是存在许多可优化的空间。也欢迎大家对此感兴趣的留言，说说你的改进意见，我会非常感谢，并认真考虑进去。期待与大家的讨论!

一、time 模块time模块是Python标准库中最基础、最常用的模块之一。它提供了各种处理时间的方法和函数，如获取当前时间、格式化时间、计算时间差等。time模块大部分函数的底

2024-11-18 10:17:21

目录 1. 安装与卸载 Poetry 2. 查看 Poetry 版本 3. 查看 Poetry 的位置 4. 依赖安装 Poetry 的优势在现代软件开发中，Python 因其简洁和强大的功能而广受欢迎。然而，随着项目

2024-11-10 12:23:07

目录 Python 日期和时间戳的转换 Python中处理时间的模块 Python的time模块将时间戳转换为格式化字符串 Python 的datetime模块 datetime模块中定义的类（这些

2024-10-20 21:50:48

目录 1. 异步组件 1.1 使用 defineAsyncComponent 1.2 预加载 2. 路由懒加载 3. 动态组件 4. 事件触发的动态加载 5. 按需加载与状态管理结合结论 1. 异步组

2024-10-20 21:50:41

目录引言使用Python保存PPT中的所有形状为图像文件用Python保存PPT中带格式设计的图片为图像文件引言将PowerPoint演示文稿中的形状（幻灯片中的内容元素，包括文本框、图形

2024-10-20 21:50:28

目录前言用Python删除PDF文档页边距前言在处理PDF文档时，有时候我们会遇到PDF文件带有较大的页边距的情况。这样过大的页边距不仅浪费了页面空间，而且在打印或电子阅读时也

2024-10-20 21:50:20

目录 1.引言 2.准备工作 3.基础理论知识 4.步骤详解 5.常见问题解答 6.成果案例分享 7.案例代码示例1.引言火柴人（Stick Figure）是一种极简风格的图形，通常由简单的线段和圆圈

2024-10-20 21:50:09

目录环境介绍类和函数区别封装性：状态保持：可重用性：继承和多态：设计模式：代码组织：执行流程：参数传递：返回值：上下文管理：总结环境window10，pyc

2024-10-20 21:50:03

目录一、JWT的介绍二、JWT的组成 1、Header（头部） 2、Payload（负载） 3、Signature（签名）三、Python写JWT 1、安装Jwt 2、使用JWT 3、解密JWT 总结一、JWT的介绍JW

2024-10-18 23:10:58

目录视频转换成 GIF 图形的重要性 1. 增强表达效果 2. 适应性强 3. 文件大小优化 4. 易于创建和编辑 5. 吸引用户注意力 6. 简化获取信息的步骤用python实现视gif

2024-10-18 23:10:46

目录前言 1. 构建分子式 2. 判断化合价 3. 解析分子式 4. 化合物反应方程式平衡 5. 化合物的摩尔质量计算 6. 计算化合物的质量分数 7. 计算反应热 8. 计算化合物的pH值总

2024-10-18 23:10:16

目录 1 创建 pytest.ini 文件 2 常见参数及配置方法 3 高级配置 4 结论1 创建 pytest.ini 文件在项目的根目录下，创建一个名为 pytest.ini 的文件即可。pytest 会在执行测试

2024-10-18 23:10:06

目录一、XPATH概念二、常用规则与方法 1.f12例子: 2.节点获取文本 3.属性匹配 4. 属性获取 5.iframe标签处理三、同级节点元素定位四、关键字定位五、定位

2024-10-18 23:09:49

目录引言发送GET请求获取页面的二进制数据添加查询参数发送POST请求处理JSON数据设置自定义Header 发送带认证信息的请求发送带有表单数据的请求发送带有文件的请

2024-10-18 23:09:30

安装CPU版本：(以2.9.0版本为例)pip install tensorflow==2.9.0安装GPU版本：(以2.9.0版本为例)pip install tensorflow-gpu==2.9.0若下载缓慢，使用阿里国内镜像源加速下载：(以2.9

2024-10-14 19:47:12

目录概述用asyncio实现Hello world 总结概述Python中 asyncio 模块内置了对异步IO的支持，用于处理异步IO；是Python 3.4版本引入的标准库。asyncio 的编程模型就是一个消息循

2024-10-14 19:47:02

目录 1. 问题描述 2. 解决办法 2.1 办法一：进入Script 进行安装 2.2 办法二：设置环境变量总结 1. 问题描述这几天一直用python实战，今天用pip想要安装一个库，结果突然报了

2024-10-14 19:46:53

目录实践环境问题域定义协议格式(编写proto文件) 编译协议缓冲区协议缓冲区 API 枚举标准消息方法解析和序列化编写消息读取消息另一个示例参考链接

2024-10-14 19:46:35

目录使用pip时报NameError: name‘pip’is not defined错误 1. 问题描述 2. 解决办法总结使用pip时报NameError: name‘pip’is not defined错

2024-10-14 19:46:27

目录 1. 概述 2. arange() 2.1 语法 2.2 参数 2.3 实例总结 1. 概述Numpy 中 arange() 主要是用于生成数组，具体用法如下；2. arange()2.1 语法numpy.arange(start, sto

2024-10-14 19:46:12

目录 1. 概述 2. vstack() 2.1 语法 2.2 参数 2.3 实例 3. hstack() 3.1 语法 3.2 参数 3.3 实例总结 1. 概述在Numpy中，最希望处理的数据就是数组和矩阵，下面就

2024-10-14 19:46:03

目录 Python列表简介 NumPy数组简介性能比较 1. 数组操作 2. 循环操作内存使用比较 1. 内存占用 2. 大数据集结论在Python中，处理数值数据时，我们通常面临两种选

2024-10-14 19:45:55

目录引言基础语法介绍核心概念基本语法规则基础实例问题描述代码示例进阶实例问题描述高级代码实例实战案例问题描述解决方案代码实现扩展

2024-10-14 19:45:46

目录引言 Python Excel库 Python 在Excel 中的添加数据条引言在Excel中添加数据条是一种数据可视化技巧，它通过条形图的形式在单元格内直观展示数值的大小，尤其适合比较同一

2024-10-14 19:45:37

目录

一、引言

二、什么是查询集？

2.1 创建查询集

三、查询集的延迟加载

3.1 查询集的惰性行为

2024-10-14 19:44:53

字符串问题我正在使用 python 通过 jdbc（或 odbc）访问 iris 数据库。我想将数据提取到 pandas 数据框中来操作数据并从中创建图表。我在使用 jdbc 时遇到了字符串处理问题。

2024-09-30 00:07:53

您的组织是否拥有太多 github 存储库，并且您需要一种简单的方法来总结和记录每个存储库的内容以用于报告、仪表板或审计目的？下面是一个使用 github api 完成该操作的快速脚本

2024-09-30 00:07:10

Python构建代理池构建有效的代理池对于爬虫任务至关重要，因为它可以绕过网站反爬或提升爬虫效率。在Python中构建代理池的方法如下：一、收集代理免费代理网站：如FreeProxyList

2024-09-18 16:06:35

&emsp;&emsp;本文介绍基于Python语言，针对一个文件夹下大量的Excel表格文件，对其中的每一个文件加以操作——将其中指定的若干列的数据部分都向上移动一行，并将所有

2024-09-09 23:42:47

技术背景一般情况下我们会选择使用明文形式来存储数据，如json、txt、csv等等。如果是需要压缩率较高的存储格式，还可以选择使用hdf5或者npz等格式。还有一种比较紧凑的数据存

2024-09-09 23:40:42

2020-10-21

2021-03-02

2020-05-07

2020-05-26

2021-01-13

2021-04-02

2020-05-10

2020-05-09

2020-05-10

2020-10-21

从0到1使用python开发一个半自动答题小程序的实现

Python时间处理模块time和datetime详解

如何使用 Poetry 进行 Python 项目管理

Python日期和时间戳的转换的实现方式

详解Vue组件动态加载有哪些方式

如何使用Python保存PPT中的形状为图像文件

使用Python删除PDF文档页面的页边距的操作代码

Python实现火柴人的设计与实现

Python中使用封装类还是函数以及它们的区别

Python使用JWT的超详细教程

如何利用python实现把视频转换成gif图形

使用python解决化学问题的实用指南

深入理解python中pytest.ini的配置方法和参数

selenium XPath定位的实现示例

Python网络请求库requests的10个基本用法

pip安装指定版本的tensorflow的实现

Python中asyncio模块使用详解

pip命令突然无法使用问题以及解决

在Python中使用Protocol Buffers的详细介绍

解决NameError:name'pip'is not defined使用pip时报错问题

Numpy中arange()的用法及说明

Numpy中vstack()和hstack()的使用方式

解读NumPy数组与Python列表的比较

Python中的策略模式之解锁编程的新维度

Python在Excel中添加数据条的代码详解

Python Django查询集的延迟加载特性详解

使用 Python 通过 ODBC 或 JDBC 访问 IRIS 数据库

如何使用 Python 检索 Github 存储库数据

python爬虫怎么构建代理池

Python将表格文件中某些列的数据整体向上移动一行

Python存储与读写二进制文件

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道