数据库

 首页 > 数据库 > MySql > 朴素贝叶斯算法在垃圾邮件过滤中的应用

朴素贝叶斯算法在垃圾邮件过滤中的应用

分享到:
【字体:
导读:
         摘要:由于最近在写一篇关于大数据分类的论文(吐槽一下:导师天天催),所以在图书馆借了几本有关大数据的书籍。今天看《New Internet 大数据挖掘》(感兴趣的可以看一下)中提到垃圾邮件过滤,让我联想到昨天在1280社区看到一道名企面试题,“在游戏实时交流中,怎么过滤那些广告?”。当时想到的是关键词过滤,也没细想。其实垃圾...

朴素贝叶斯算法在垃圾邮件过滤中的应用

由于最近在写一篇关于大数据分类的论文(吐槽一下:导师天天催),所以在图书馆借了几本有关大数据的书籍。今天看《New Internet 大数据挖掘》(感兴趣的可以看一下)中提到垃圾邮件过滤,让我联想到昨天在1280社区看到一道名企面试题,“在游戏实时交流中,怎么过滤那些广告?”。当时想到的是关键词过滤,也没细想。

其实垃圾邮件过滤跟广告过滤是一种,使用最多的是朴素贝叶斯算法。

贝叶斯定理是关于随机事件A和B的条件概率(或边缘概率)的一则定理。

P(A|B) = frac{P(B | A), P(A)}{P(B)}

(参见维基百科http://zh.wikipedia.org/wiki/%E8%B4%9D%E5%8F%B6%E6%96%AF%E5%AE%9A%E7%90%86)


通过对大量已经判定的垃圾邮件和正常邮件进行学习,根据两种邮件中相同词语出现的概率对比来确定垃圾邮件的可能性。优点是准确率高,缺点是需要大量的历史数据。


朴素贝叶斯算法在垃圾邮件过滤中的应用
分享到:
参数文件spfile的修改以及数据库的启动关...
参数文件spfile的修改以及数据库的启动关闭由于参数文件spfile是二进制文件,所以不能直接使用文本编辑器进行修改,我们可以再启动数据库以后使用sql命令进行修改: alter system 参数名=参数值, scope=both|spfile|memory sid=*|’orcl’ 等,其中具体的权威参数请参考官方文档   1 修改processes 这个参数不能...
Chapter 2 User Authentication, Authori...
Chapter 2 User Authentication, Authorization, and Security(4):限制SA帐号的管理权限原文出处:http://blog.csdn.net/dba_huangzj/article/details/38817915,专题目录:http://blog.csdn.net/dba_huangzj/article/details/37906349 未经作者同意,任何人不得以“原创”形式发布,也不得已用于商业用途,本人不负责...
  •         php迷,一个php技术的分享社区,专属您自己的技术摘抄本、收藏夹。
  • 在这里……