Posts tagged with 分词

正向最大匹配分词和逆向最大匹配分词

词表

词表为所有可能出现的词语组成的集合。当然,实践中不可能准备包含全所有已知和未知词语词表。

建立词表

  1. 从人工标注语料中得到词表。
    由多人讨论并且得到共识的分词标注语料建立词表。这是效果最好,但也是成本最高的方案。
  2. 从未标注语料中建立词表。
    可以认为经常重复出现连续字符串属于词语。统计大量未标注语料中的连续字串重复出现频率,将多次重复出现的连续字串作为词语,以此建立词典。
  3. 使用输入法,辞典,翻译(例如中英词语互译)词表.
    这是比较容易实现的方法,且这些数据大多能免费下载,有些输入法词表还带词频。

- 阅读剩余部分 -