中文分词之最大概率法
最大概率法分词是在最大匹配分词算法上的改进。在某些语句切分时,按最大长度切分词语可能并不是最优切分。而不按最优长度切分词语,则同一语句会出现多种切分结果。计算每种切分结果的概率,选取概率最高的切分作为最优分词切分。
最大概率法分词是在最大匹配分词算法上的改进。在某些语句切分时,按最大长度切分词语可能并不是最优切分。而不按最优长度切分词语,则同一语句会出现多种切分结果。计算每种切分结果的概率,选取概率最高的切分作为最优分词切分。
词表为所有可能出现的词语组成的集合。当然,实践中不可能准备包含全所有已知和未知词语词表。
将算法分词结果与人工标注的分词结果对比,以此评估分词效果优劣。人工标注分词文本通常被看作公认的“黄金”标准。主要使用处理速度、精确率、召回率和F值四个指标衡量分词算法的性能。