内容导航
产品标签
PDF

PDFlib

生成和维护PDF文件并支持多平台的组件

以下是 "PDFlib TET",如果您需要了解更多信息,您可以联系我们。

PDFlib Text Extraction Toolkit (TET)是一个可靠的抽取PDF文件中的文本和光栅图像的开发组件工具,TET提供一个PDF的文本内容作为Unicode字符串,另外提供详细的字形和字体信息以及在页面上的位置,它还可以抽取PDF文件中的光栅图像。TET可选地转换PDF文档到一个基于XML格式的TETML文件,这个文件包含文本和metadata以及资源信息。

Image

PDFlib TET的应用范围:

  • 为搜索引擎实现PDF索引器
  • 重新获取PDF文件中的文本和图像
  • 转换PDF的内容到其它格式
  • 处理基于PDF的内容,如,基于表头的分离(要求PDFlib+PDI)