APP下载

Adobe文件服务新推2大API,能自动撷取完整PDF结构输出JSON档方便整合Web,还能嵌入Word

消息来源:baojiabao.com 作者: 发布时间:2024-06-12

报价宝综合消息Adobe文件服务新推2大API,能自动撷取完整PDF结构输出JSON档方便整合Web,还能嵌入Word

Adobe Document Generation API,主要功能是将JSON格式资料,嵌入Microsoft Word文件内,来生成具动态资料的Word和PDF档案。

图片来源: 

图/Adobe

Adobe在文件服务(Adobe Document Services)中新增两大API功能,分别是Adobe PDF Extract API与Adobe Document Generation API。前者能根据PDF内容的档案结构,透过Adobe核心AI引擎Adobe Sensei撷取文字、表格资料、图像等元素,并以JSON格式输出;后者则可以将JSON格式资料,嵌入Microsoft Word文件内容中,来生成具动态资料的PDF档案。

Adobe文件服务提供了一套SDK和Restful API,可供开发者打造各项PDF文件的应用,比如客制化的端到端协议(Agreement)、内容发布、资料分析工作流等任务。这套服务SDK可以在AWS Marketplace下载。

这次新增的两大云端API,一是Adobe PDF Extract API,透过AI分析PDF档案的内文结构,从中提取包括文字、表格资料、图像在内的所有PDF元素。文字撷取过程中,除了能依据内文格式辨识出标题、列表、注解等内容,还能理解文件中常见的跨栏、跨页段落,依照阅读顺序撷取完整内容文字。这些从PDF档中撷取的各种元素,例如文字、表格资料与图片,可以输出成网页应用惯用的JSON格式,表格资料也可以选择以CSV或XLSX来储存,图片则可选择以PNG储存,以便开发者可以轻易地储存、分析与操作这些数据,并与其他的系统结合,比如数据库、记录系统(systems of record)、CRM、ERP等系统,或是用来开发NLP应用、RPA自动化流程、ML模型或进行数据分析等。

Adobe PDF Extract API的一大功能,就是能辨识出文件中的标题、段落、表格、粗体字等不同的内文编排,依据这些编排来撷取各类元素。

撷取出内文、表格、影像等元素后,则会以JSON、PNG、CSV等档案储存,以利后续与其他系统结合应用。

比如表格资料可以在直接撷取后,汇入其它系统进行资料分析与视觉化。

另一项Adobe Document Generation API,则是能让开发者将JSON格式资料,嵌入Microsoft Word文件内容,来生成具动态资料的Word和PDF档案。开发者在使用时,须先在Word外挂Adobe文件生成标签功能(Adobe Document Generation Tagger),并上传JSON资料,由系统将自动依据JSON资料模型生成标签,或是自行建立可重复使用的标签,以便后续在Word中动态加入标签、影像、列表,或基于输入资料与条件生成的客制化表格。

在文件中完成标签与表格等元素的设定后,在生成PDF的过程中,系统将依据标签将指定的JSON资料结合到文件,快速生成一份自定义的文件内容,而不需要手动输入各类资料来建立一份文件。这项功能也已经与Adobe Sign整合,让用户可在文件中使用电子签名。

Adobe在官网上也提供了多种常用文件范本,用户可直接下载使用,也可上传自己的Word与JSON档来操作。这项功能常用于协议文件与合约的建立,包括销售提议及合约、法律合约、NDA保密协议、员工聘用信函、法律信函与声明等文件类型。

Adobe Document Generation API,主要功能是将JSON格式资料,嵌入Microsoft Word文件内,来生成具动态资料的Word和PDF档案。

Demo的左边是JSON资料的上传处,右边黄色萤光笔是添加到文件中的标签,不同标签代表要加入的不同资料类型,比如是产品名称、产品价钱等,设定完成后生成PDF,过程中,系统就会依据标签将指定的JSON资料,结合到文件中。

2021-08-17 23:46:00

相关文章