基于朴素贝叶斯的中文多分类器

算法说明

  1. 为了便于计算类条件概率$P(x|c)$,朴素贝叶斯算法作了一个关键的假设:对已知类别,假设所有属性相互独立。
  2. 当使用训练完的特征向量对新样本进行测试时,由于概率是多个很小的相乘所得,可能会出现下溢出,故对乘积取自然对数解决这个问题。
  3. 在大多数朴素贝叶斯分类器中计算特征向量时采用的都是词集模型,即将每个词的出现与否作为一个特征。而在该分类器中采用的是词袋模型,即文档中每个词汇的出现次数作为一个特征。
  4. 当新样本中有某个词在原训练词中没有出现过,会使得概率为0,故使用拉普拉斯平滑处理技术解决这一问题。对应公式如下:
Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×