首页 > 期刊 > 自然科学与工程技术 > 信息科技 > 图书情报与数字图书馆 > 数字图书馆论坛 > 基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取 【正文】

基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取

杜若鹏; 鲜国建; 寇远涛 中国农业科学院农业信息研究所/农业农村部农业大数据重点实验室; 北京100081
  • 特征抽取
  • 卡方统计
  • 文本分类
  • 农业科技文献

摘要:针对相近农业科研领域文献的文本特征信息高度重合的特点,以及传统的文本特征抽取方法存在的不足,对TF-IDF算法进行优化并加以应用验证。通过引入卡方检验值与特征词频修正因子等方式,对特征词加权函数进行重构,形成改进的ImpTF-IDF-CHI方法。将该方法与文档频率法、信息增益法及TF-IDF3种传统的文本特征抽取结果应用于朴素贝叶斯分类实验,根据实验结果判定方法的优劣性。通过4种方法的58组特征抽取与文本分类实验,发现与前述的3种特征抽取方法相比,ImpTF-IDF-CHI方法抽取的特征词,应用于文本分类的正确率最高,平均准确率达94%,F1值为0.844,证明该方法在对相近农业科研领域文本进行特征抽取方面,具有准确率高、稳定性好、主题词代表性强等优点,可以有效地应用于此类文献文本分类、特征表达、主题抽取等场景。

注:因版权方要求,不能公开全文,如需全文,请咨询杂志社

投稿咨询 免费咨询 杂志订阅

我们提供的服务

服务流程: 确定期刊 支付定金 完成服务 支付尾款 在线咨询