TheMathematicsofStatistical Machine Translation: ParameterEstimation PeterEBrown,VincentJ.DellaPietra, StephenA.DellaPietra,RobertL.Mercer ComputationalLinguistics,Vol 19‐2,1993, ACL,pp.263‐311 (Jun.,23,2009 揚石担当) 目的 • 背景 – 統計機械翻訳に注目 • 利用可能なパラレルコーパスが増大 • 過去の研究により、有用性確認 • 統計モデルの提案 – 文対からのパラメタ推定 • 単語アラインメント 5つのmodelを提案 アラインメントの種類 英単語が独立 フランス単語が独立 一般的 統計翻訳 • フランス語Fから英語Eへの翻訳 – P(e|f) が最大となるようなe ^ が最尤な翻訳 • – ベイズの定理より • – P(f)は無視⇒入力に対し、一定値 – P(e) :languagemodel – P(f|e) :translationmodel ⇒これに注目 翻訳モデル • アラインメントを導入 – – • 英文: • 仏文: • アラインメント: それぞれ 0からlの間の値を持つ – a 1 =2 Model1 • – 様々な仮定を適用 • Pr(m|e) =仏文の長さ(単語数)がmである確率 =ある定数ε • =j番目の仏単語がつながるのが a j 番目の英単語の確率 =どの場所にも同確率 =(l+1) ‐1 • =j番目の仏単語がf j の確率 =f j とe aj のみで決まる = • Model1 • • aについて和をとる – (j:1~m、a j :0~l) – 上式で推定すべきパラメタはt()のみ – 制約条件: より ラグランジュの未定乗数法を用いて極値を求める – • t(f|e)で偏微分 – – これを0として • • 両辺にt()が出現 – EMアルゴリズムによりt()を求める eとfがaで繋がっている回数 • 簡単化 – よりt(f|e)は – – 期待値を定義 • • Pr(a|e,f)=Pr(f,a|e)/Pr(f|e)を用いλ e Pr(f|e)をλ e とすると – S個のデータセットでは – λ e :正規化項 計算量の問題 • • を導入 – 計算量:(l+1) m ⇒m(l+1) – m=3,l=1として • 左辺:t 10 t 20 t 30 +t 10 t 20 t 31 +…+t 11 t 21 t 30 +t 11 t 21 t 31 • 右辺:(t 10 +t 11 )(t 20 +t 21 )(t 30 +t 31 ) – また、Pr(f|e)は • (l+1) m 回の計算が必要