Posts under category Machine Learning
中文句法分析-3-依存句法分析
3.1 依存句法
依存句法是由法国语言学家 Lucien Tesnière $ ^1 $ 最先提出。将句子分析成一颗依存句法树,描述各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系,这种搭配关系是和语义相关联的。
中文句法分析-2-成分句法分析
中文分词、词类标注、命名实体识别对序列标注算法的应用差异
1 中文分词
目前网络可找到资料的多为3,4,6类型标注, 在无全局归一时(HMM,MEMM均为局部归一, CRF是全局归一),同样的任务,标注类型适当增多可明显得到更优的效果,或许这是因为类型隐含更久远上下文依赖,但这样会增加对标记语料的数量需求。一般使用类型数量为4的BMES标注方法
中文分词词性和序列标注之BI-LSTM-CRF-2-代码试验
中文分词词性和序列标注之BI-LSTM-CRF-1-算法原理
1.1 优势
1.1.1 较少标注语料需求
在之前的CRF模型中,使用人工设置特征模版扫描待训练语料得到特征函数集合。为每个特征函数配置并优化其权重。但所有特征函数均来自标注语料,在工程中,标注语料非常有限,可能会碰到之前未标记特征。而本算法将字向量(或其他待标注向量)单独无监督训练,无需人工标注。减少标记样本需求。只有在后续lstm+crf训练才需要标注语料。
1.1.2 非线性特征
CRF特征模版是线性模型,而深度学习是非线性模型,这增强了特征。