众包竞赛的离群点欺诈用户检测算法研究

许艳静; 朱建明; 丁庆洋; 庄雪扬中央财经大学信息学院; 北京100081

众包竞赛
用户欺诈
离群点检测
聚类算法
样本连通图

摘要：针对基于众包竞赛中欺诈者筛除机制的黄金标准数据方法、聚类算法的离群点检测算法K means算法和DBSCAN算法,依赖于事先给定的参数,不适合大规模数据集检测的问题,提出基于样本连通图的离群点检测算法。首先,给定参数并重复调用离群点检测算法,识别数据中的离群点和聚类;其次,计算每两个样本之间的连接次数和连接强度,在给定连接强度下界δ的情况下,根据样本的连接强度来构造样本之间的连通图;最后,根据样本之间的连通情况,对样本进行标记,把样本标记为聚类节点和离群点。实验结果表明,该算法在放宽参数设置范围的情况下,缩小了离群点个数波动范围,提升了离群点识别准确率,优于对比算法和经典的黄金标准数据方法。

注：因版权方要求，不能公开全文，如需全文，请咨询杂志社

投稿咨询文秘咨询