首页 > 期刊 > 自然科学与工程技术 > 信息科技 > 电子信息科学综合 > 计算机工程 > 基于双向LSTM网络的流式文档结构识别 【正文】

基于双向LSTM网络的流式文档结构识别

张真; 李宁; 田英爱 北京信息科技大学网络文化与数字传播北京市重点实验室; 北京100101; 北京信息科技大学计算机学院; 北京100101
  • 文档结构识别
  • 流式文档
  • 特征提取
  • 序列标注
  • 长短期时间记忆网络

摘要:流式文档结构识别对于排版格式自动优化和信息提取等具有重要作用。基于规则的结构识别方法泛化能力较差,而基于机器学习的方法未考虑文档单元之间的长距离依赖关系,识别准确率较低。针对该问题,提出一种基于双向长短期时间记忆(LSTM)网络的流式文档结构识别方法。从文档单元的格式、内容与语义3个方面筛选关键特征,并将文档结构识别看作序列标注问题,使用双向LSTM神经网络构建识别模型,以实现对18种逻辑标签的识别。实验结果表明,该方法能够对文档结构进行有效识别,其识别效果优于方正飞翔软件。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

投稿咨询 免费咨询 杂志订阅

我们提供的服务

服务流程: 确定期刊 支付定金 完成服务 支付尾款 在线咨询