首页 > 期刊 > 自然科学与工程技术 > 信息科技 > 电子信息科学综合 > 计算机工程 > 基于双向LSTM网络的流式文档结构识别 【正文】
摘要:流式文档结构识别对于排版格式自动优化和信息提取等具有重要作用。基于规则的结构识别方法泛化能力较差,而基于机器学习的方法未考虑文档单元之间的长距离依赖关系,识别准确率较低。针对该问题,提出一种基于双向长短期时间记忆(LSTM)网络的流式文档结构识别方法。从文档单元的格式、内容与语义3个方面筛选关键特征,并将文档结构识别看作序列标注问题,使用双向LSTM神经网络构建识别模型,以实现对18种逻辑标签的识别。实验结果表明,该方法能够对文档结构进行有效识别,其识别效果优于方正飞翔软件。
注:因版权方要求,不能公开全文,如需全文,请咨询杂志社
一对一咨询服务、简单快捷、省时省力
了解更多 >直邮到家、实时跟踪、更安全更省心
了解更多 >去除中间环节享受低价,物流进度实时通知
了解更多 >正版杂志,匹配度高、性价比高、成功率高
了解更多 >