AWS正式推出自动萃取文件内容服务Textract-pdfmaker文件遗失

AWS推出自动萃取文件内容服务Textract，利用机器学习技术搭配光学字符识别（OCR）技术，在表格和数据表等文件中，自动萃取文本和数据，像是名称、编号等，过程中不需要经由人工审核或是制定特定的数据格式，也不需要具备机器学习的经验，萃取出的文本能够被用在打造智能搜索，协助企业在庞大的文件中找到相关的内容，也可以将这些数据存储在数据库中，辅助其他应用，像是会计、查帐等应用，目前在美国东部和西部地区、欧洲已推出，预计在明天扩展到其他地区。

AWS正式推出自动萃取文件内容服务Textract

AWS的Textract服务以API的方式提供，使得企业不需要具有ML的技术背景，就能使用，Textract API支持多种图像格式，包含扫描档、PDF、照片，企业还可以在数据库和分析服务中使用该API，包含AWS的Elasticsearch服务、DynamoDB、Athena，还有其他机器学习服务，像是理解服务Comprehend、医疗信息理解服务Comprehend Medical、翻译服务Translate、ML自动构建和部署工具SageMaker。

AWS指出，许多企业现在是通过手动的方式或是基本的OCR技术，将文件中的信息截取出来，不管是处理费用报告、合约、基金说明书、税务文件、医院患者信息等文件，都需要耗费许多时间，萃取出来的结果需要经过额外的处理，才能变成其他应用可用的格式，且通常过程中还不准确，Textract利用机器学习，加上改良过的OCR技术，设计用来读取所有不同格式的文件数据，在几小时内正确的读取数百万页的文件。