1 Tika 技术调研
2 目录 1.引言.............................................................3 1.1.调研目的......................................................3 1.2.最终目标......................................................3 2.概述.............................................................3 2.1.技术介绍......................................................3 2.2.调研结果......................................................3
3 1.引言 1.1.调研 目的 在大数据项目中,存在很多数据及文件类型。为响应大数据项目使用 Tika 根据文件类型对部分文件进行解析的需求,开展对 Tika 的调研,并使用 Tika 封装解析部分类型的文件应用。
1.2.最终 目标 在 Demo 中,仅对 doc、docx、xlsx、xls、ppt、pptx、pdf、txt 的文件进行解析,其余文件类型进行过滤,将解析的文件最终输出到*.txt 中。
2.概述 2.1.技术介绍 Apache Tika 是一个 Java 工具包用于利用现有的解析类库,从不同格式的文档中(例如 Xlsx,PDF,Doc),检测和提取出元数据和结构化内容。
功能包括:
1.检测文档的类型,字符编码,语言,等其他现有文档的属性。2.提取结构化的文字内容。3.项目的目标使用群体主要为搜索引擎以及其他内容索引和分析工具。
2.2.调研结果 org.apache.tika.parser.Parser 接口是 Apache Tika 的关键组件。它隐藏了不同文件格式和解析库的复杂性,而同时又为客户应用程序从各种不同的文档提取结构化的文本内容以及元数据提供了一个简单且功能强大的机制。
在 Demo 中,对不需要解析的文件类型进行过滤,使用 AutoDetectParser对解析的文件进行自动判断文件类型。下列表格中是在 Demo 应用中可解析的文件类型,经过解析后,可将文件内容输出到 txt 文件中。
doc xlsx ppt pdf docx xls pptx txt