Tag Archives: Naive Bayes

朴素贝叶斯法系列1:学习与分类

《统计学习方法》 第4章 朴素贝叶斯法

朴素贝叶斯(naive Bayes)法是基于贝叶斯定理与特征条件独立假设的分类方法(朴素贝叶斯法与贝叶斯估计(Bayesian estimation)是不同的概念)。过程描述:

  • 对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;
  • 然后基于此模型,对给定的输入 $x$ ,利用贝叶斯定理求出后验概率最大的输出 $y$ 。

朴素贝叶斯方法实现简单,学习与预测的效率都很高,是一种常用的方法。本章叙述朴素贝叶斯法,包括朴素贝叶斯的学习与分类、朴素贝叶斯法的参数估计算法。

 
Continue reading

课程设计:基于文本内容的垃圾短信识别

最近两周的课程设计终于结束了,这也是大学四年最后一次课设。从大二开始,万恶的课程设计都是硬件方面的,实在是太可恶,难得给老师说要做一次软件课设,老师欣然同意并提出要书面的东西以衡量工作进展,或者是检查点之类的。

其实课程设计也挺水的,按理说是四人小组做。但是软件向来不习惯多个人做,尤其是这种,当然到最后还是一个人做,倒不如一开始就是自己做算了。

同时,本题目也是一次比赛,难得做一次类Kaggle竞赛,之前阿里天池数据竞赛或者是Kaggle都没做过,这次破天荒做一次收获蛮大。下面是具体的流程和思路,与实际有一些差别。感想附在最后。

基于文本内容的垃圾短信识别

问题背景:垃圾短信已日益成为困扰运营商和手机用户的难题,严重影响到人们正常生活、侵害到运营商的社会形象以及危害着社会稳定。而不法分子运用科技手段不断更新垃圾短信形式且传播途径非常广泛,传统的基于策略、关键词等过滤的效果有限,很多垃圾短信“逃脱”过滤,继续到达手机终端。如何结合机器学习算法、大数据分析挖掘来智能地识别垃圾短信及其变种是当下的一个热门课题。

问题描述:基于短信文本内容,准确地、完整地识别出垃圾短信、正常短信。用准确率、查全率、效率(每秒处理条数)衡量。考虑到现实环境中数据量巨大,请同时考虑算法单机实现版和并行实现版。 Continue reading