Apache Tika 1.24 发布，内容抽取工具集合_业界资讯

时间：2020-03-21

阅读：

Apache Tika 1.24 发布了，Tika 是一个内容抽取的工具集合 (a toolkit for text extracting) 。它集成了 POI 和 Pdfbox，并且为文本抽取工作提供了一个统一的界面。其次，Tika 也提供了便利的扩展 API，用来丰富其对第三方文件格式的支持。

主要更新内容如下：

更新 Drew Noakes 的元数据提取器
启用 PDF 中的结构标签的可选提取（alpha 级）
Tika 应用程序的 --extract 模式现在输出到 STDOUT
为 PDF 添加可选的 Preflight 解析器
改进对某些基于 zip 格式的检测
将元数据提取器升级到 2.13.0
升级到 POI 4.1.2
从 PSD 文件中提取 XMP
在 PDF 中添加了 XMLProfiler 作为可选的解析器以配置 XFA 和 XMP
从 PDF 提取依赖于 DCT 过滤器的内联图像
升级到 PDFBox 2.0.19
修复了 ASM 解析器配置中的错误
升级到 Java-libpst 0.9.3
修复了 ToXMLHandler 的 XLIFF12Parser 故障

更新说明： https://downloads.apache.org/tika/CHANGES-1.24.txt

苹果Mac产品行销副总裁Tom Boger和平台架构副总裁Tim Millet在接受采访时，分享了其自研芯片Apple Silicon成功的秘诀。Millet指出，竞争对手的芯片制造商“无法直接采用第

2024-11-18 10:05:47

据报道，英伟达新款Blackwell AI芯片已经面临延迟，并且伴随着配套服务器出现的过热难题，这一连串的挑战引发了用户对于新数据中心能否如期启动并顺利运行的深切忧虑。据内部消息

2024-11-18 10:05:25

Mark Gurman爆料，苹果将在明年推出AirTag 2，爆料称全新的AirTag 2将升级芯片，并改进了位置跟踪功能，能在更远的距离内响应。Mark Gurman还透露，这款设备的代号是B589，它内置的扬声

2024-11-18 10:05:02

NVIDIA Blackwell架构的新一代服务器正在批量出货，而在OCP Summit 2024峰会上，官方进行了公开展示，而且是直接将芯片裸露在外，随便看。这台服务器一共配备了八颗B200芯片，4NP工艺

2024-11-17 23:04:05

Intel锐炫独立显卡会在下个月有一场好戏，但细节不详，现在又有了更进一步的消息。有曝料者贴出了一张预告海报，上边写着Intel锐炫、Battlemage SoC、2024年12月等字样，再次证实In

2024-11-17 21:23:54

技嘉发布了一款新的专业显卡Radeon PRO W7800 AI TOP 48G，一如其名拥有多达48GB显存，比之前的32GB版本增加了一半，可以更好地用于AI大模型训练。AMD去年4月发布了首批两款基于R

2024-11-17 21:23:28

据媒体报道，近日全球范围内的苹果用户报告称，他们收到了多年前参与以旧换新计划的iPhone所购买的AppleCare+服务费退款。这些退款涵盖了从iPhone 11 Pro到iPhone 14 Pro的多种

2024-11-17 21:23:09

随着iPhone、Mac等产品逐渐成熟，苹果也在积极尝试不同领域，据媒体报道，苹果正探索三个主要方向来推出新产品。方向一：AirPods转型分析师郭明錤预测，未来的AirPods Pro 3可能会加

2024-11-17 16:03:46

据媒体报道，谷歌的AI聊天机器人Gemini近日又引起了争议。一名密歇根州的研究生在使用该机器人辅助作业时，突然向用户发送了“请去死”的恶意信息。Gemini回复道：&ldq

2024-11-17 16:03:26

在近日的一次采访中，Intel技术传播经理Florian Maislinger证实，Intel正在开发具有大缓存产品。但这些产品将主要针对数据中心市场，而非主流的消费级市场，因为与服务器市场相比，游

2024-11-17 16:03:09

为庆祝经典游戏《半条命2》正式发行20周年，V社宣布在北京时间11月19日凌晨2点之前，用户可以在Steam平台上免费获取这款游戏。这款游戏在国区原价为42元，整体评价为好评如潮。而

2024-11-17 16:02:34

显示专家Ross Young在社交平台上表示，最新的M4 MacBook Pro使用量子点（QD）薄膜，而不是红色KSF荧光粉薄膜。过去苹果通常采用KSF解决方案，因为它的成本低，而且不含镉，但最新的无镉QD

2024-11-17 10:30:19

一名女生在社交平台上称，她11月6日买的iPhone 16，在看综艺的时候突然自燃，目前已经联系商家及平台，但都没有回应。该女生表示，她没有使用磁吸充电器充电，没有边充电边看手机，我就是

2024-11-17 10:29:56

作为全球用户最多的操作系统，相信很多玩家从开始用电脑的那一天起，就一直在和Windows打交道。随着技术一天天地进步，Windows系统也在不停的更新，三年前微软推出了最新Windows 11

2024-11-16 21:15:09

《剑星》女主eva的原装紧身衣显然已经不能满足众多COSER的二创热情了，最近来自俄罗斯的符文姐姐Alin Ma就带来了全新版本的eva COS。镂空服装黑丝吊带，把该遮住的地方完美展现

2024-11-16 21:14:41

游戏盗号是令玩家非常崩溃的事，尤其腾讯游戏一般还是用QQ、微信登陆，一旦被盗号还会引发社交、财产安全问题。前些天就有一位用户向腾讯反馈，称自己的账号因为借给了游戏内认识

2024-11-16 21:14:13

字节跳动视频生成模型PixelDance和Seaweed在即梦AI正式上线，面向公众免费开放使用。用户进入即梦AI的“视频生成”界面，在视频模型里选择“视频P2.0 Pro&rdquo

2024-11-15 23:46:40

RTX 40全系标配了新一代12VHPWR 16针供电接口，但因为缺陷而在RTX 4090上出现了多次烧毁事件，后续悄悄升级了新版12V-2x6，那么下一代呢？海盗船在谈论未来电源的时候意外确认，下一

2024-11-15 23:44:32

近日，一位Reddit网友称自己的锐龙7 9800X3D被烧毁了，连带微星MAG X870 TOMAHAWK WIFI主板插座也被烧毁，引发广泛关注和议论。今天，微星发布了一则简短的官方声明，表示正在与AMD密

2024-11-15 23:44:07

近日游戏博主tfAIart分享了《最终幻想7》多角色3D美图。据悉，这些图片是他用AI生成制作的。但即便是AI图，这些角色也很性感魅惑，让人心动不已。一起来欣赏下吧！&zwnj;《最终幻想

2024-11-15 23:43:42

AMD官方博客撰文，详细对比了两家当红轻薄本笔记本处理器的性能，一方是锐龙AI 9 HX 370(RDNA3.5架构的Radeon 890M)，一方是酷睿Ultra 7 258V(Xe2-LPG架构的锐炫140V)。双方的笔

2024-11-15 23:43:21

NVIDIA Blackwell GPU相当强悍，大家都知道，但到底有多强呢？除了官方宣传数据，现在终于第一次看到了实测数据，来自MLCommons MLPerf v4.1，考察AI训练推理性能的最佳平台。对比对象

2024-11-14 21:57:47

伴随着AI投资热潮，今年以来，英伟达股价不断创下新高，累计上涨了约2倍。华尔街知名投资机构Melius Research在本周早些时候发布的一份报告中称，投资者应该继续持有英伟达，该公司的

2024-11-14 21:57:24

微星最近推出了新款GeForce RTX 3050 Ventus 2X XS White显卡，采用了全白的外观设计。据悉，该显卡整体尺寸仅为205 x 112 x 45毫米，采用双槽厚度设计，轻至570克，便于安装于各种机

2024-11-14 21:57:06

近日PlayStation中国官方介绍了《剑星》 x 《尼尔：机械纪元》DLC相机模式，该模式将于11月20日上线。现在游戏中每一刻都能转变成个人杰作。玩家可以尽情捕捉美丽的风景、热血

2024-11-14 21:56:43

Windows on ARM版本由来已久，但无论是Windows 10还是Windows 11，微软一直没有单独提供官方ISO镜像，安装的时候不是很方便。如今，微软终于在官网上提供了Windows 11 on ARM的官方

2024-11-14 21:54:28

特斯拉宣布将在美国召回2,400辆Cybertruck电动皮卡。原因是一个故障部件可能导致车辆动力损失，从而增加撞车风险。这是特斯拉今年第六次对Cybertruck进行召回。根据特斯拉提

2024-11-14 21:54:08

据媒体报道，英国消费者权益组织“Which?”代表约4000万iCloud用户向苹果提起反垄断诉讼，指控苹果违反了竞争法，并寻求30亿英镑（约合人民币276亿元）的赔偿。他们认为，苹

2024-11-14 21:53:47

TIOBE发布了最新的2024年11月的编程语言排行榜，Go语言在TIOBE指数中的排名不断上升，本月排名已经提升至第7，创下该语言的历史新高。TIOBE CEO Paul Jansen点评称，Go在前十名中独

2024-11-14 21:53:31

11月初，爱奇艺限制投屏案二审判决，二审维持了一审判决，即爱奇艺方须在老会员有效期内持续提供高清投屏，且须补偿41天黄金会员时长。今日，爱奇艺限制投屏案“朱元律师”

2024-11-14 21:53:12

我们推荐务必使用Https来加载您的网站，这样可以保护您的网站和站点用户数据的安全，而且现在很多浏览器都强制要求采用HTTPS，否则会提示此站点不安全。而且Google已经将https作

2020-03-14 15:40:05

apache下的.htaccess：RewriteEngine On
ErrorDocument 404 /404.html
Rewritebase /
#信息列表
RewriteCond %{QUERY_STRING} ^(.*)$
RewriteRule ^listinfo-(.+?)-(.+?)\.ht

2020-03-11 19:51:51

在你的Apache安装文件夹conf里找到httpd.conf文件
搜索LoadModule rewrite_module modules/mod_rewrite.so 如果前面有注释符号#，请去掉。
搜索Options FollowSymLinks，然后将

2020-02-24 12:20:55

网站的打开速度对用户体验很重要，如一个网站打开速度要10秒，用户早就关闭了网页，用户是没有耐心等的，今天讲一下apache怎么开启gzip来减少网页大小
打开apache/conf目录中的http

2020-02-22 17:54:02

首先修改apache的配置文件，在配置文件里找到LogFormat和CustomLog，注销原来的，替换成以下内容LogFormat "INSERT INTO apachelog (ID, dateTime, IP, URL, code, referer, user

2020-02-22 17:51:57

优点
服务器的配置里添加数据库连接的用户名和密码，这么本地开发和线上的文件修改配置文件就不需要修改数据库的的用户名和密码了①apache在apache的配置文件httpd.conf添加

2020-02-22 17:47:52

（1）apache使用.htaccess重写去掉index.php方法：//保护系统路径的写法，在RewriteCond规则中写入开放的路径

RewriteEngine On
RewriteCond $1 !^(index\.php|sitemap\.x

2020-02-20 16:40:46

Apache JMeter 是 Apache 软件基金会的开源项目，它是功能和性能测试的工具。5.2 版本已经发布，该版本提供了大量的特性、bug 修复、增强等等，内容如下：新协议该版本支持 bolt

2019-11-11 22:07:34

Apache OpenOffice，又称OpenOffice、AOO，是OpenOffice.org的后续版本之一，并在设计上继承IBM Lotus Symphony。是一套开放源代码的办公室软件，可以在多种操作系统上运作，默认的文

2019-09-23 09:39:06

Apache Jackrabbit Oak 1.8.16 发布了，Jackrabbit Oak 是一种可扩展的高性能分层内容存储库，旨在用作现代世界级网站和其它要求苛刻的内容应用程序的基础。这是一个修复版本，主

2019-08-30 14:57:14

2018-09-24

2019-02-01

2019-09-12

2019-04-09

2020-03-30

2019-06-25

2019-04-24

2019-09-23

2019-09-21

2020-03-25

Apache Tika 1.24 发布，内容抽取工具集合

热点内容

免费资源网

在线工具

扫一扫随时看

本站下载频道