中文分词词性和序列标注之二阶HMM

使用二阶HMM分词,考虑分词标记更长远的历史标记状态。标记状态为2-gram. 因考虑更长历史状态会造成更多0转换概率,故使用 TnT平滑

中文分词词性和序列标注之HMM

将分词过程看待为通过观察语句的字序列估计隐藏的分词标注序序列任务。 基于字统计分词算法,无需词表,对新词识别友好。

中文分词之最大概率法

最大概率法分词是在最大匹配分词算法