PHP实现识别复杂pdf文档的示例代码

来自：网络

时间：2024-06-09

阅读：

PHP识别复杂pdf文档

使用阿里云的pdf文档识别

阿里云视觉智能平台开通文字识别-PDF识别

/**
     * 使用AK&SK初始化账号Client
     * @param string $accessKeyId
     * @param string $accessKeySecret
     * @return Ocrapi Client
     */
    public function createClient($accessKeyId, $accessKeySecret){
        $config = new Config([
            // 必填，您的 AccessKey ID
            "accessKeyId" => 'AccessKey ID',
            // 必填，您的 AccessKey Secret
            "accessKeySecret" => 'AccessKey Secret'
        ]);
        // Endpoint 请参考 https://api.aliyun.com/product/ocr
        $config->endpoint = "ocr.cn-shanghai.aliyuncs.com";
        $model = new Ocr($config);
        return $model;
    }
    /**
     * @param string[] $args
     * @return void
     * 阿里云一次智能识别5页pdf，所以需要对原文件进行拆分，分别取请求
     */
    public function getContent($param){
        set_time_limit(0);
        $inputPdf = $param['url'];
        // 计算需要拆分成多少个PDF文件
        $totalPages = intval(shell_exec("pdftk $inputPdf dump_data | grep NumberOfPages | awk '{print $2}'"));
        $numFiles = intval(ceil($totalPages / 5));
        $domain = request()->domain();
        $param['is_delete'] = $param['is_delete'] ?? 0;
        // 请确保代码运行环境设置了环境变量 ALIBABA_CLOUD_ACCESS_KEY_ID 和 ALIBABA_CLOUD_ACCESS_KEY_SECRET。
        // 工程代码泄露可能会导致 AccessKey 泄露，并威胁账号下所有资源的安全性。以下代码示例使用环境变量获取 AccessKey 的方式进行调用，仅供参考，建议使用更安全的 STS 方式，更多鉴权访问方式请参见：https://help.aliyun.com/document_detail/311677.html
        $client = self::createClient(getenv("ALIBABA_CLOUD_ACCESS_KEY_ID"), getenv('ALIBABA_CLOUD_ACCESS_KEY_SECRET'));
        $runtime = new RuntimeOptions([]);
        try {
            // 使用循环拆分PDF并保存为单独的文件
            $str = '';
            for ($i=0; $i<$numFiles; $i++) {
                $startPage = ($i * 5) + 1;
                $endPage = min(($startPage + 4), intval($totalPages));
                //执行拆分
                exec("pdftk A=$inputPdf cat A$startPage-$endPage output {$param['path']}_{$i}.pdf",$output, $returnVar);
                $del_url = $param['path'].'_'.$i.'.pdf';
                //执行pdf识别
                $recognizePdfRequest = new RecognizePdfRequest([
                    "fileURL" => $domain.'/'.$del_url
                ]);
                // 复制代码运行请自行打印 API 的返回值
                $result = $client->recognizePdfWithOptions($recognizePdfRequest, $runtime);
                $content = $result->body->data->wordsInfo;
                //拼接识别内容
                foreach ($content as &$vv){
                    $word = get_object_vars($vv);
                    if(substr($word['word'],0,1) == '>' || substr($word['word'],0,1) == '<'){
                        $word['word'] = substr($word['word'],1);
                    }
                    $str .= $word['word']."\n ";
                }
            }
            $data['code'] = 200;
            $data['content'] = $str;
        }
        catch (Exception $error) {
            if (!($error instanceof TeaError)) {
                $error = new TeaError([], $error->getMessage(), $error->getCode(), $error);
            }
            $data['code'] = 400;
            $data['content'] = $error->message;
            //unset($del_url);
            // 错误 message
//            var_dump($error->message);
//            // 诊断地址
//            var_dump($error->data["Recommend"]);
//            Utils::assertAsString($error->message);
        }
        //识别成功删除原文件
        if($param['is_delete']){
            unlink($param['url']);
        }
        //删除生成的文件
        for ($i=0; $i<$numFiles; $i++) {
            $del_url = $param['path'].'_'.$i.'.pdf';
            if (file_exists($del_url)) {
                unlink($del_url);
            }
        }
        return $data;
    }

方法补充

除了上文的方法，小编还为大家整理了PHP识别普通PDF文件的相关方法，希望对大家有所帮助

1. 安装依赖库

在使用PHP处理PDF文件之前，我们需要先安装一些依赖库。对于本教程，我们将使用两个主要的库：smalot/pdfparser和setasign/Fpdi。

首先，通过Composer安装这两个库：

composer require setasign/fpdi
composer require smalot/pdfparser

2. 读取PDF文件

接下来，我们将展示如何使用smalot/pdfparser库来读取PDF文件的内容。

<?php
require 'vendor/autoload.php';

use Smalot\PdfParser\Parser;

$parser = new Parser();
$pdf = $parser->parseFile('path_to_your_pdf_file.pdf');

foreach ($pdf->getPages() as $page) {
    echo $page['text']."\n";
}
?>

在上述代码中，我们首先创建了一个Parser对象，然后使用parseFile方法读取了PDF文件。最后，我们遍历了PDF文件的每一页，并打印出了每一页的文本内容。

3. 编辑PDF文件

除了读取PDF文件的内容，我们还可以使用setasign/Fpdi库来编辑PDF文件。以下是一个简单的示例，展示了如何添加一个新的页面到PDF文件中：

<?php
require 'vendor/autoload.php';

use Setasign\Fpdi\Fpdi;

$fpdi = new Fpdi();
$fpdi->AddPage();
$fpdi->SetFont('Arial', '', 12);
$fpdi->Cell(40, 10, 'Hello World!', 1, 0, 'C');
$fpdi->Output('path_to_output_pdf_file.pdf', 'I');
?>

在上述代码中，我们首先创建了一个Fpdi对象，然后添加了一个新的页面。接着，我们设置了字体和字号，并添加了一些文本内容。最后，我们使用Output方法将PDF文件输出到了指定的路径。

4. 转换PDF文件

除了编辑PDF文件，我们还可以使用setasign/Fpdi库来转换PDF文件。以下是一个简单的示例，展示了如何将PDF文件转换为图片：

<?php
require 'vendor/autoload.php';

use Setasign\Fpdi\Fpdi;

$fpdi = new Fpdi();
$fpdi->AddPage();
$fpdi->SetSourceFile('path_to_input_pdf_file.pdf');
$fpdi->SetTargetFile('path_to_output_image_file.png');
$fpdi->ExportImage();
?>

在上述代码中，我们首先创建了一个Fpdi对象，然后添加了一个新的页面。接着，我们设置了输入和输出的文件路径，并使用ExportImage方法将PDF文件转换为图片。

在PHP开发中，开发者经常会遇到Malformed UTF-8 characters错误。这个错误通常是由于代码中存在无效的UTF-8字符而引起的。本篇博客将为您介绍如何解决这个问题。什么是UTF-8

2024-08-20 21:03:39

总结一下当前thinkphp开发的项目中需要操作mongo：以下是三种tp中操作mongo数据的方法：使用tp中的扩展，方法一Db::connect('dataname')->table('dbname')->insertAll($list);$in

2024-06-09 23:55:16

目录一、什么是XSS攻击二、XSS攻击如何实现一、什么是XSS攻击跨站脚本攻击（Cross-Site Scripting，XSS）是一种常见的Web应用程序安全漏洞。它允许攻击者将恶意脚本注入到受害者

2024-06-09 23:55:13

目录常见方法使用反引号执行使用 exec使用 systemWindows读取外部普通文件时执行系统命令LinuxApache读取外部普通文件时执行系统命令时常见方法使用反引号执行 <?php $resu

2024-06-09 23:55:11

PHP与HTML中实现缓存可以帮助提高网页加载速度和减轻服务器负载。下面是一些常见的PHP与HTML缓存实现方法：1. 服务器端缓存：使用服务器端缓存可以在每次请求时避免重新生成HTM

2024-06-09 23:55:08

在PHP中，使用`exec()`函数执行外部命令时，如果命令执行时间较长，可能会导致CPU占用较高。这是因为`exec()`函数会阻塞当前进程，直到命令执行完成。为了避免这种情况，可以考虑使用

2024-06-09 23:55:06

目录什么是Attributes？如何定义Attributes？如何使用Attributes？预定义的Attributes静态分析工具的支持结论什么是Attributes？Attributes是一种结构化的元数据，可以与类、方法、属

2024-06-09 23:55:03

目录场景描述探索实现方式一探索方式二探索方式三探索方式四探索实现方式二场景描述项目开发中很多地方需要用到唯一编码，比如说订单、卡券、邀请码等等。这些编号是需要严格

2024-06-09 23:55:01

PHP获取客户端真实IP地址，需要根据具体的服务器环境来确定使用哪种方法。目前搜索到的方法，大多是直接贴代码，没有针对不同情况作出说明，有可能导致系统被假IP骗过（IP欺骗）。很多

2024-06-09 23:54:54

目录引言一、内存溢出可能由以下几个原因引起：二、这是一个简单的示例代码，展示了如何处理PHP内存溢出问题：三、解决PHP内存溢出问题的方法如下：引言PHP内存溢出指的是在PHP应用

2024-06-09 23:54:52

要将PHP与微信红包功能集成，您可以使用微信支付提供的红包API来实现。以下是一些步骤供您参考：获取微信支付商户号和API密钥：首先，您需要在微信支付商户平台注册并获取商户号（MCH

2024-06-09 23:54:49

目录1. 控制器中的参数绑定：2. 模型中的参数绑定：3. 原始SQL语句中的参数绑定：4. 参数绑定的占位符：在ThinkPHP中，参数绑定是一种安全的方式，用于处理用户输入，特别是在构建数据库

2024-06-09 23:54:46

1、使用round四舍五入保留小数点后两位$money=168.228;var_dump(round($money,2)); //返回结果 float(168.23)2、使用ceil向上取整四舍五入保留小数点后两位$money3=122.3

2024-06-09 23:54:44

可以使用PHP的exec函数来运行Python文件。exec函数调用系统命令，并返回执行结果。以下是在PHP中运行Python文件的示例代码：<?php// 要执行的Python文件路径$pyfile = "/path/t

2024-06-09 23:54:41

PHP跨域检测类是一种封装了跨域检测逻辑的PHP类。它可以用于在PHP应用程序中检测和处理跨域请求，以确保安全和正常的跨域通信。一个典型的PHP跨域检测类通常会包含以下功能：

2024-06-09 23:54:38

目录思路分析步骤一：文本预处理步骤二：关键字提取步骤三：结果呈现思路分析提取文章关键字是信息检索和自然语言处理中的一个重要任务，它有助于理解文章的主题、内容和重要性，并用

2024-06-09 23:54:35

目录1. 为什么需要分布式锁2. Redis分布式锁简介3. PHP中使用Redis分布式锁4. 参考Hyperf框架中的实现5. 高级主题和优化6. 结论在分布式系统中，保障对共享资源的安全访问是

2024-06-09 23:54:32

当使用PHP提供下载功能时，你需要设置正确的HTTP响应标头来告诉浏览器将文件视为要下载的内容，而不是在浏览器中显示。以下是更详细的步骤：确定要下载的文件路径和文件名：$file =

2024-06-09 23:54:29

可以使用PHP来实现图片防盗链。防盗链是一种措施，用于防止其他网站在未经授权的情况下直接链接到你的图片资源。下面是一种简单的PHP代码示例，可以用来检测并阻止盗链：<?php//

2024-06-09 23:54:27

目录支持版本新特性类型化类常量动态类常量获取添加#[\Override]属性只读修改添加json_validate函数一次 Lint 多个文件支持版本除了庆祝新的版本发布以后，也需要注意一下：PHP

2024-06-09 23:54:24

目录概念基本步骤详细操作问题排除概念要连接Oracle数据库，必须有两个东西，一个PHP官方写的扩展，一个Oracle官方写的客户端PHP是通过扩展去操作oralce客户端连接的服务端数据库

2024-06-09 23:54:23

目录摘要防止用户密码明文被窃听防止数据库被攻破时，用户密码明文被窃取。一些思考如何选择哈希算法强度为什么盐要随机为什么盐要有强度为什么盐可以明文存储php的实现最初

2024-06-09 23:54:19

目录一、什么是文件锁二、PHP文件锁可以用于以下一些常见的应用场景三、示例代码四、应用场景案例一、什么是文件锁PHP文件锁是一种用于控制对文件的并发访问的机制。它可以

2024-06-09 23:54:16

目录引言一、PHP下载文件的基本原理二、实现PHP下载功能1. PHP代码2. 文件路径三、统计下载次数四、完整的PHP下载脚本引言对Web开发人员来说，“下载”功能是一个

2024-06-09 23:54:13

目录一. 使用PHP命令行接口（CLI）二.传递参数三使用系统命令在PHP中，你可以使用命令行工具执行一些任务，比如运行脚本、执行定时任务等。以下是在PHP中使用命令行工具的几种方法

2024-06-09 23:54:11

目录使用 NativePHP 设置场景安装 NativePHP运行开发构建添加本地特性构建发布NativePHP 的注意事项结论PHP 在我心中占据着特殊的位置。它是我的第一份工作，我记得我在家里

2024-06-09 23:54:10

目录前言步骤一：获取直播间信息步骤二：模拟请求步骤三：连接弹幕服务器步骤四：运行脚本前言抖音直播是当今热门的实时互动平台之一，用户在直播间内发送的弹幕消息是互动的关键组成

2024-06-09 23:54:07

一、要在PHP中的header中增加key、sign和timestamp，并实现鉴权可以按照以下步骤进行操作：生成timestamp：使用time()函数获取当前时间戳。生成sign：将需要鉴权的数据（例如请求参数

2024-06-09 23:54:04

一、在PHP中解决中文乱码问题的常见方案有以下几种：设置字符编码：
在你的PHP代码中，可以使用header函数设置正确的字符编码。常见的字符编码是UTF-8，可以使用以下代码将页面的字

2024-06-09 23:54:02

目录一、什么是TCPDF二、要安装TCPDF库三、TCPDF库一、什么是TCPDFTCPDF是一个开源的PHP库，用于创建和处理PDF文件。它允许你在PHP应用程序中动态地生成PDF文档，可以用于生成

2024-06-09 23:54:01

2020-06-09

2020-03-22

2020-10-14

2020-09-03

2020-03-19

2018-08-05

2020-11-01

2018-08-26

2020-12-15

2019-11-17

PHP实现识别复杂pdf文档的示例代码

PHP中的Malformed UTF-8 characters错误解决

thinkphp操作mongo数据的三种方法

使用PHP来防止XSS攻击的方法

详解PHP中如何执行系统命令

php中html缓存的实现详解

php使用exec函数占用cpu较高的解决办法

PHP8使用Attributes管理代码元数据的示例详解

一文解决PHP中生成随机数遇到的重复问题

PHP 获取客户端真实IP地址

关于PHP内存溢出的原因和解决方法

将PHP与微信红包功能集成的实例代码

ThinkPHP防止SQL注入攻击的方法

php保留数字小数点后两位的方法

使用php运行python文件的示例代码

php跨域检测类允许部分域名访问的示例详解

PHP根据文章内容生成关键词自动化Keywords标签

PHP实现Redis分布式锁的示例代码

PHP提供下载功能的详细步骤

基于PHP实现图片防盗链

PHP8.3更新内容新特性及支持版本探究

ThinkPHP连接ORACLE数据库的详细教程

php对用户密码进行加密技巧实例

PHP中文件锁的使用详解

PHP提供下载功能实现案例

PHP中命令行工具的使用详解

NativePHP使用PHP创建桌面应用程序

使用PHP实现抖音直播弹幕抓取的步骤详解

PHP实现简单鉴权的示例代码

php中文乱码和html中文乱码的解决方案

PHP使用TCPDF处理pdf

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道