Dịch máy bài báo khoa học về dịch máy

TheMathematicsofStatistical Machine Translation: ParameterEstimation PeterEBrown,VincentJ.DellaPietra, StephenA.DellaPietra,RobertL.Mercer ComputationalLinguistics,Vol 19‐2,1993, ACL,pp.263‐311 (Jun.,23,2009 揚石担当) 目的 • 背景 – 統計機械翻訳に注目 • 利用可能なパラレルコーパスが増大 • 過去の研究により、有用性確認 • 統計モデルの提案 – 文対からのパラメタ推定 • 単語アラインメント 5つのmodelを提案アラインメントの種類英単語が独立フランス単語が独立一般的統計翻訳 • フランス語Ｆから英語Ｅへの翻訳 – Ｐ（e|f）が最大となるようなe ^ が最尤な翻訳 • – ベイズの定理より • – P(f)は無視⇒入力に対し、一定値 – P(e) ：languagemodel – P(f|e) ：translationmodel ⇒これに注目翻訳モデル • アラインメントを導入 – – • 英文： • 仏文： • アラインメント：それぞれ 0からｌの間の値を持つ – a 1 =2 Model1 • – 様々な仮定を適用 • Pr(m|e) =仏文の長さ(単語数)がmである確率 =ある定数ε • =j番目の仏単語がつながるのが a j 番目の英単語の確率 =どの場所にも同確率 =(l+1) ‐1 • =j番目の仏単語がf j の確率 =f j とe aj のみで決まる = • Model1 • • aについて和をとる – （ｊ:1～m、a j :0～l） – 上式で推定すべきパラメタはt()のみ – 制約条件：よりラグランジュの未定乗数法を用いて極値を求める – • t(f|e)で偏微分 – – これを0として • • 両辺にt()が出現 – ＥＭアルゴリズムによりt()を求める eとfがaで繋がっている回数 • 簡単化 – よりt(f|e)は – – 期待値を定義 • • Pr(a|e,f)=Pr(f,a|e)/Pr(f|e)を用いλ e Pr(f|e)をλ e とすると – S個のデータセットでは – λ e :正規化項計算量の問題 • • を導入 – 計算量:(l+1) m ⇒m(l+1) – m=3,l=1として • 左辺:t 10 t 20 t 30 +t 10 t 20 t 31 +…+t 11 t 21 t 30 +t 11 t 21 t 31 • 右辺:(t 10 +t 11 )(t 20 +t 21 )(t 30 +t 31 ) – また、Pr(f|e)は • (l+1) m 回の計算が必要

Định dạng
Số trang	35
Dung lượng	316,58 KB