.jpg)
1024是2的十次方,也是二进制计数的基本计量单位之一。因此成为每年10月24日中国程序员的盛会。近日,CSDN(中国开发者网)第三届“1024程序员节”举行。来自Linaro等开源组织的领导和来自微软、腾讯、华为、合和信息等企业的技术专家出席了主论坛活动“全体会议:2022技术英雄会”,与现场观众共话技术。
在生产和生活中,只有少数“结构化”的数据被整齐地记录在二维表结构中。据国际数据公司(IDC)预测,2025年全球非结构化数据将占总数据的80%至90%。智能文档处理技术可以识别和提取各种文档和图片中非结构化数据的内容,对推动企业数字化转型具有重要意义。
如何从数据中找到更多的价值和更实用的开发工具,是程序员关注的话题之一。何信息智能创新事业部总经理唐琦受邀分享了智能文档处理的技术优化方法和开源渠道介绍,得到了众多开发者的认可。
图说:将信息组合成云纹图案(屏幕图案)的技术处理效果由受访者提供(下同)
文档处理难点:光认字符是不够的,版面理解是基础
智能文档处理技术本质上是将文档中的信息从载体中分离出来,连接到其他系统,通过数据流转实现流程自动化的技术。一个典型的场景,比如文档自动审批,就是先检测文档图像,从中提取所需信息,输入系统。经过结构化处理后,会翻译成机器能理解的东西,然后自动判断,从而节省人力成本,提高工作效率。
唐琦在分享中指出,采集设备的不确定性和文档格式的多样性,往往会导致文档处理中出现“字迹模糊、不准确、不完整、难以理解”四种问题。在图像质量增强领域,如曲率校正、云纹去除(屏幕云纹)等方面有深入的研究,为后续的信息提取、存储、检索和管理工作创造了良好的环境。
图说:组合信息弯曲矫正技术的治疗效果
“在各种场景的实践中,我们发现简单的字符识别不足以支持更细致的文档处理需求,版面元素分析是基础。”唐琦提到,在文档处理过程中,要注重对印章、logo、水印、页眉、二维码、公式等元素的检测,并根据检测结果采取相应的版面分析方法,得到更准确的识别结果。
如何让经过市场检验的技术产品惠及更多开发者?服务共享是推动科技创新的重要渠道。合和信息将在制造、金融、物流等30个行业应用中打磨的核心技术产品“智能字符识别服务平台”以SaaS的形式免费开放给个人开发者,帮助用户低成本、高效率地获取符合个性化需求的定制模型。
图说:合和信息智能字符识别服务平台工作流程
呵呵资讯开源平台:10分钟搭建模型,10个样本可用于训练
受远程办公趋势和“无纸化”环保倡导的影响,对智能文档处理技术的需求日益增加。合和智能文档处理技术可以支持全球50多种主流语言的打印和手写字符的高精度识别,以及增值税发票、出租车车票等20多种票据的识别。这些通用的识别和信息提取能力都承载在合和智能字符识别服务平台SaaS版上,并在大会上开放试用。
该平台提供了快速生成海量训练数据、自动生成模型、完整的模型训练和测试等功能。它具有门槛低、所需样本少、开发周期短等优点。用户可以在云端通过简单的操作定制和提取标准和非标准格式文档的结构化信息,只需要10个样本就可以开始训练。
目前对OCR(字符识别)的需求趋于定制化和多样化,但受限于高昂的开发成本。平台可以帮助中小企业数字化转型。相对于传统的技术解决方案,企业希望被赋予人工智能产品开发的能力,基于自身的业务场景构建识别模型。在平台上,企业可以通过简单的配置快速生产结构化的识别模型,无需服务器资源和运维投入即可获得技术支持,从而降低开发、部署和运维中的门槛。
据悉,在实测中,应用人员最快可在10分钟内完成提取模型开发全过程,可视化界面设计让没有算法基础的业务人员也能流畅使用。
新民晚报记者金志刚





















.jpg)




.jpg)

.jpg)





.jpg)




.jpg)