Posts under category Machine Learning - Shi Zhuolin's Blog

Shi Zhuolin's Blog

This guy is lazy, leaving nothing left.

Posts under category Machine Learning

Hybrid computing using a neural network with dynamic external memory

Author: admin
Time: 2019-05-01
Category: Machine Learning,Artificial Intelligence
No comments yet.

阅读剩余部分

中文句法分析-3-依存句法分析

Author: admin
Time: 2018-09-04
Category: Machine Learning,Artificial Intelligence,Natural Language Processing
No comments yet.

3.1 依存句法

依存句法是由法国语言学家 Lucien Tesnière $ ^1 $ 最先提出。将句子分析成一颗依存句法树，描述各个词语之间的依存关系。也即指出了词语之间在句法上的搭配关系，这种搭配关系是和语义相关联的。

阅读剩余部分

中文句法分析-2-成分句法分析

Author: admin
Time: 2018-07-25
Category: Machine Learning,Artificial Intelligence,Natural Language Processing
No comments yet.

2.1 PCFG

概率上下文无法语法是上下文无关语法的简单扩充, 以赋予候选剖析树概率的方式解决原始上下文无关语法的剖析歧义问题.

阅读剩余部分

中文分词、词类标注、命名实体识别对序列标注算法的应用差异

Author: admin
Time: 2018-05-30
Category: Machine Learning,Artificial Intelligence,Natural Language Processing
No comments yet.

1 中文分词

目前网络可找到资料的多为3,4,6类型标注, 在无全局归一时（HMM,MEMM均为局部归一, CRF是全局归一），同样的任务,标注类型适当增多可明显得到更优的效果，或许这是因为类型隐含更久远上下文依赖，但这样会增加对标记语料的数量需求。一般使用类型数量为4的BMES标注方法

阅读剩余部分

中文分词词性和序列标注之BI-LSTM-CRF-2-代码试验

Author: admin
Time: 2018-05-29
Category: Machine Learning,Python,Artificial Intelligence,Natural Language Processing
No comments yet.

2 tensorflow 实现 BI-LSTM-CRF

代码比较长，请访问github查看 bilstmcrf

阅读剩余部分

中文分词词性和序列标注之BI-LSTM-CRF-1-算法原理

Author: admin
Time: 2018-05-29
Category: Machine Learning,Artificial Intelligence,Natural Language Processing
No comments yet.

1.1 优势

1.1.1 较少标注语料需求

在之前的CRF模型中，使用人工设置特征模版扫描待训练语料得到特征函数集合。为每个特征函数配置并优化其权重。但所有特征函数均来自标注语料，在工程中，标注语料非常有限，可能会碰到之前未标记特征。而本算法将字向量（或其他待标注向量）单独无监督训练，无需人工标注。减少标记样本需求。只有在后续lstm+crf训练才需要标注语料。

1.1.2 非线性特征

CRF特征模版是线性模型，而深度学习是非线性模型，这增强了特征。

阅读剩余部分