一种基于概率主题模型的恶意代码特征提取方法

刘亚姝; 王志海; 侯跃然; 严寒冰北京交通大学计算机与信息技术学院; 北京100044; 北京建筑大学电气与信息工程学院; 北京100044; 北京邮电大学网络技术研究院; 北京100876; 国家计算机网络应急技术处理协调中心; 北京100029

恶意代码检测
狄立克雷分布
概率主题模型
困惑度
gibbs

摘要：在当前复杂网络环境下,恶意代码通过各种方式快速传播,入侵用户终端设备或网络设备、非法窃取用户隐私数据,对网络和互联网用户造成了严重的安全威胁.传统检测方法难以检测未知恶意代码,而恶意代码变体的多样性和庞大数量也对未知恶意代码检测构成了巨大挑战.提出了一种无监督的恶意代码识别方法,通过分析反汇编PE文件给出汇编指令标准化规则,结合潜在狄立克雷分布(latent Dirichlet allocation,LDA)获得汇编指令中潜在的“文档主题”、“主题词”的分布.再以“主题分布”构造恶意样本特征,产生一个全新的恶意代码检测框架.结合“困惑度”和变化的步长给出了最优“主题”数目的快速评价和自动确定方法,解决了LDA模型中主题数目需要预先指定的问题.同时解析了“文档主题”、“主题词”聚集结果的语义可解释性,说明了该方法获得的样本特征具有潜在的语义.实验结果表明:与其他方法相比该方法具有相当的或更好的恶意代码鉴别能力,同时能够准确地识别恶意代码的新变体.

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

投稿咨询文秘咨询

计算机研究与发展

预计1-3个月 预计审稿周期
2.65 影响因子
计算机 快捷分类
月刊出版周期

主管单位：中科院出版委员会;主办单位：中国科学院计算技术研究所

杂志详情

一种基于概率主题模型的恶意代码特征提取方法

计算机研究与发展

我们提供的服务

在线客服

快递配送

杂志订阅

杂志推荐

相关期刊