岗位职责 实施方案 自查报告 整改措施 先进事迹材料 应急预案 工作计划 调研报告 调查报告 工作汇报 其他范文
首页 > 其他范文 > 其他范文

Tika调研文档

作者:我叫小蕙时间:2020-12-30 下载本文

1 Tika 技术调研

2 目录 1.引言.............................................................3 1.1.调研目的......................................................3 1.2.最终目标......................................................3 2.概述.............................................................3 2.1.技术介绍......................................................3 2.2.调研结果......................................................3

3 1.引言 1.1.调研 目的 在大数据项目中,存在很多数据及文件类型。为响应大数据项目使用 Tika 根据文件类型对部分文件进行解析的需求,开展对 Tika 的调研,并使用 Tika 封装解析部分类型的文件应用。

1.2.最终 目标 在 Demo 中,仅对 doc、docx、xlsx、xls、ppt、pptx、pdf、txt 的文件进行解析,其余文件类型进行过滤,将解析的文件最终输出到*.txt 中。

2.概述 2.1.技术介绍 Apache Tika 是一个 Java 工具包用于利用现有的解析类库,从不同格式的文档中(例如 Xlsx,PDF,Doc),检测和提取出元数据和结构化内容。

功能包括:

1.检测文档的类型,字符编码,语言,等其他现有文档的属性。2.提取结构化的文字内容。3.项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。

2.2.调研结果 org.apache.tika.parser.Parser 接口是 Apache Tika 的关键组件。它隐藏了不同文件格式和解析库的复杂性,而同时又为客户应用程序从各种不同的文档提取结构化的文本内容以及元数据提供了一个简单且功能强大的机制。

在 Demo 中,对不需要解析的文件类型进行过滤,使用 AutoDetectParser对解析的文件进行自动判断文件类型。下列表格中是在 Demo 应用中可解析的文件类型,经过解析后,可将文件内容输出到 txt 文件中。

doc xlsx ppt pdf docx xls pptx txt

芦笋产业调研报告(精品文档)

软件全套技术文档-第1章-项目调研

婚丧嫁娶大操大办引起微腐败调研报告(精品文档)

文档策划书

请假条文档

《请假条文档.docx》
请假条文档
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档
相关文章
猜你喜欢