文章摘要:异常点探测的阈值确定多基于专家经验,但在大数据环境下,人工确定阈值的方法既不能满足海量数据的需求,又存在主观片面的弊端。文章基于贝叶斯理论,提出了一种t模型和t混合模型的异常点阈值自动识别方法,并应用HMC算法对模型中的超参数进行了后验推断。根据世界银行和Kaggle提供的真实数据及K-L散度评价指标,新构建的异常点阈值自动识别模型具有如下优势:(1)t分布比正态分布更能体现实际数据的分布特征;(2)基于超参数揭示数据分布参数的特征;(3)基于贝叶斯理论揭示超参数、参数、数据三者的条件依赖关系。
文章关键词:
项目基金: