得到字向量->通过窗口方法得到字与上下文有关的向量(矩阵)->通过两个线性层和一个非线性激活函数->字的标注得分(窗口方法)->一个句子的评分矩阵f×θ(c×[1:n]) (句子中的第i 个子为标签t
的得分)->定义转换分数Aij,得到tag path 得分 ->最大化得分,得到最优tag path
s(c[1:N],t[1:N],θ)=i=1∑n(Ati−1ti+fθ(ti∣i))
log likelihood
∀(c,t)∈R∑logp(t∣c,θ)
将目标函数转换为条件概率
p(t∣c,θ)=∑t~es(c,t~,θ)es(c,t,θ)
取对数
logp(t∣c,θ)=s(c,t,θ)−logt~∑es(c,t~,θ)
维特比算法(viterbi)
一种动态规划算法(穷举法,A*算法,beam search,Viterbi算法)
A*算法和Viterbi算法的区别?
新的训练方法
将维特比算法在当前参数下得出的最优路径结果与正确结果进行比较对比,定义出损失函数对Ati−1ti
和fθ(ti∣i) 的偏导数,通过后向传播更新参数
收敛性的证明:Discriminative training methods for hidden Markov models