AWS正式推出自动萃取文件内容服务Textract-pdfmaker文件遗失

AWS推出自动萃取文件内容服务Textract,利用机器学习技术搭配光学字符识别(OCR)技术,在表格和数据表等文件中,自动萃取文本和数据,像是名称、编号等,过程中不需要经由人工审核或是制定特定的数据格式,也不需要具备机器学习的经验,萃取出的文本能够被用在打造智能搜索,协助企业在庞大的文件中找到相关的内容,也可以将这些数据存储在数据库中,辅助其他应用,像是会计、查帐等应用,目前在美国东部和西部地区、欧洲已推出,预计在明天扩展到其他地区。

AWS正式推出自动萃取文件内容服务Textract

AWS的Textract服务以API的方式提供,使得企业不需要具有ML的技术背景,就能使用,Textract API支持多种图像格式,包含扫描档、PDF、照片,企业还可以在数据库和分析服务中使用该API,包含AWS的Elasticsearch服务、DynamoDB、Athena,还有其他机器学习服务,像是理解服务Comprehend、医疗信息理解服务Comprehend Medical、翻译服务Translate、ML自动构建和部署工具SageMaker。

AWS指出,许多企业现在是通过手动的方式或是基本的OCR技术,将文件中的信息截取出来,不管是处理费用报告、合约、基金说明书、税务文件、医院患者信息等文件,都需要耗费许多时间,萃取出来的结果需要经过额外的处理,才能变成其他应用可用的格式,且通常过程中还不准确,Textract利用机器学习,加上改良过的OCR技术,设计用来读取所有不同格式的文件数据,在几小时内正确的读取数百万页的文件。

推荐阅读