Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
VII-O-14
CẢI TIẾN CHẤT LƢỢNG DỊCH MÁY THỐNG KÊ VIỆT – ANH BẰNG MÔ HÌNH PHÁT
SINH TỪ CHỨC NĂNG
Nguyễn Thị Phƣơng Nhƣ1, Trần Vũ Hoàng Ƣng2, Nguyễn Thị Thanh Thảo3
1
Trường Cao đẳng Bến Tre
Trường Đại học Kỹ thuật Công nghệ TP. HCM
3
Trường Cao đẳng Kinh tế Kỹ thuật Phú Lâm TP. HCM
2
TÓM TẮT
Từ chức năng là những từ ít mang ngữ nghĩa nhưng lại đóng vai trò quan trọng trong cấu trúc
câu, góp phần tạo tính tự nhiên cho văn bản đích. Tuy nhiên, phầ n lớn các hệ thố ng d ịch máy thống
kê (Statistical Machine Translation – SMT) lại không chú trọng nhiều và thường đánh đồng từ chức
năng với từ nội dung.
Để giải quyết vấn đề này, chúng tôi áp dụng mô hình phát sinh từ chức năng trong ngôn ngữ
đích. Trong mô hình này, việc xóa từ chức năng sẽ được thực hiện trước khi đưa vào mô hình dịch
(translation model); trong khi đó, việc chèn từ chức năng sẽ được tích hợp vào quá trình giải mã SMT
(SMT decoding) thông qua mô hình log-linear. Chúng tôi đã thực nghiệm trên ngữ liệu gồm 20000 cặp
câu song ngữ Việt – Anh và nhận thấy điểm BLEU tăng 2,58% (so với mô hình cơ sở).
Từ khóa: Từ chức năng, dịch máy thống kê Việt-Anh, mô hình log-linear.
GIỚI THIỆU
Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) là một lĩnh vực nghiên cứ u nhằ m giúp cho
các hệ thống máy tính hiểu và xử lý được ngôn ngữ c ủa con người. Mă ̣c dù chỉ đươ ̣c dùng chủ yế u để dich
̣ các
tài liệu kỹ thuật nhưng dịch máy (Machine Translation - MT) đươ ̣c xem là mô ̣t trong những hướng ứng dụng
chính của xử lý ngôn ngữ tự nhiên . Dịch máy là một hướng phát triển có lịch sử lâu đời từ thập kỷ 50 và được
phát triển mạnh mẽ vào thập kỷ 80 [4].
Hiện nay trên thế giới đã có rất nhiều hệ dịch máy thương mại nổi tiếng điển hình như: Systrans, Kant,…
[19] hay những hệ dịch máy mở tiêu biểu nhưhệ dịch của Google đã hỗ trợ nhiều cặp ngôn ngữ phổ biến như
Anh-Pháp, Anh-Hoa, Anh-Nhật, Anh-Đức,…
Có nhiều hướng tiếp cận để giải quyết bài toán dịch máy là : dịch máy dựa trên luật (Rule-based Machine
Translation - RBMT), dịch máy dựa trên thống kê (Statistic Machine Translation - SMT), dịch dựa trên cơ sở tri
thức (Knowledge-based Machine Translation - KBMT), mô hình dịch thông số (Factored Translation Models)…
Trong đó, dịch máy thống kê ([11], [15]) được cho là mô hình mới nhất, triển vọng nhất vì nó có thể áp dụng cho
hầu hết các cặp ngôn ngữ.
Mô hình dịch máy thống kê là một mô hình tự động, xây dựng các bảng dịch từ vựng và các xác suất tương
ứng từ ngữ liệu song ngữ [11]; do đó, kho ngữ liệu càng lớn và có chất lượng thì hiệu quả dịch sẽ cho kết quả
cao. Tuy nhiên, mô hình này không sử dụng các tri thức ngôn ngữ như: tách từ, gán nhãn từ loại, phân tích cú
pháp, hay gán nhãn cú pháp,… Đây chính là lý do quan trọng làm hạn chế hiệu quả dịch của SMT, đồng thời đó
cũng là động lực cho rất nhiều nghiên cứu về việc bổ sung tri thức ngôn ngữ vào hệ thống SMT.
Hiê ̣n là những từ đóng vai trò quan tr ọng trong cấu trúc câu, thể hiện mối quan hệ ngữ pháp giữa các từ
trong câu. Sự xuấ t hiê ṇ cũng như vi ̣trí của nh ững từ này sẽ ảnh hưởng đến tính t ự nhiên của văn bản đích. Tuy
nhiên, phầ n lớn các hê ̣ thố ng SMT đề u không chú tro ̣ng nhiề u đế n từ chức năng , trong ([11][15]) từ chức năng
đươ ̣c xử lý giố ng như từ nô ̣i dung (content word ). Nghĩa là các tri thức dịch từ chức năng đều dựa trên cơ sở
gióng hàng từ . Trên thực tế , không phải từ chức năng nào cũng đươ ̣c gióng hàng đúng và chính xác , đôi khi có
những từ bi ̣gióng hàng sai hoă ̣c thâ ̣m ch í không có từ được liên kết với nó.
Xét ví dụ minh họa sau:
Theo mô tả trong ví dụ này, khi dịch theo chiều Việt-Anh, the là từ chức năng được phát sinh ở ngôn ngữ
đích, làm cho kết quả dịch có tính tự nhiên và thể hiện đúng ngữ pháp trong câu. Như vậy, từ ví dụ trên, chúng
tôi sẽ có một vài vấn đề đặt ra như sau:
Vị trí nào sẽ là vị trí thích hợp để chèn từ chức năng?
ISBN: 978-604-82-1375-6
91
Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
Từ chức năng nào được xem là ứng cử viên phù hợp cho các vị trí đó?
Tất cả những vấn đề trên sẽ được chúng tôi giải quyết trong bài báo này nhằm cải tiến chất lượng dịch của SMT.
CÔNG TRÌNH LIÊN QUAN
Cách tiếp cận dựa trên thống kê là một bước đột phá về phương pháp luâ ̣n cho dich
̣ máy , nhưng kế t quả
thực tế của hê ̣ dich
̣ này còn thấ p . Vì vậy, người ta đang nghiên cứu cải tiế n nó bằ ng cách đưa thêm tri thức ngôn
ngữ. Hiê ̣n nay có nhiề u cách cải tiế n hiê ̣u quả cũng như chấ t lươ ̣ng cho SMT , trong đó có đề câ ̣p đế n hướng cải
tiế n tâ ̣p trung vào các từ chức năng (function word). Hiện nay đã có mô ̣t số công trình nghiên cứu nâng cao chấ t
lươ ̣ng của SMT xoay quanh những vấ n đề liên quan đế n từ chức năng ; đó là sử dụng từ chức năng để chuyển đổi
trật tự các ngữ [17], các cú pháp trong ngôn ngữ nguồn – đích [5] hoặc cải tiến chất lượng dịch máy thông qua
việc xóa và chèn từ chức năng [12][2].
Hướng tiếp cận thứ nhất là sử dụng từ chức năng để chuyển đổi trật tự các ngữ, các cú pháp trong ngôn ngữ
nguồn – đích. Mục đích của hướng tiếp cận này là giải quyết sự khác nhau về trật tự từ giữa ngôn ngữ nguồn –
đích, tức là làm cho trật tự từ của ngôn ngữ nguồn gần giống với trật tự từ của ngôn ngữ đích; khi đó chất lượng
dịch sẽ được cải tiến.
Nhóm tác giả [17] đã sử du ̣ng giải pháp FWS - Function Word centered, Syntax-based để giải quyế t viê ̣c
sắ p xế p các cu ̣m từ trong SMT d ựa trên các từ chức năng. Trong phương pháp này , các tác giả đã đề xuất văn
phạm xác suất đồng nhất (Probabilistic Synchronous Grammar ) để mã hóa thứ tự của các từ chức năng cũng như
các tham số bên trái (left), bên phải (right) của chúng. Thực nghiê ̣m cho thấ y hướng FWS tố t hơn hê ̣ thố ng dich
̣
cơ bản tron g viê ̣c sắ p xế p thứ tự các tham số của từ chức năng và cải tiế n chấ t lươ ̣ng dich
̣ trong cả trường hơ ̣p
gióng hàng chính xác hay bị nhiễu . Tuy nhiên, giải pháp này chỉ áp dụng cho phía ngôn ngữ nguồn và nó cũng
gă ̣p phải khó khăn trong viê ̣c sắ p xế p các cu ̣m từ (ngữ) dài (do mô hin
̣ ranh giới ngữ hỗ trơ ̣ cho những
̀ h xác đinh
trường hơ ̣p này chưa đươ ̣c tố t ).
Một nghiên cứu khác của nhóm tác giả [5] lại sử dụng từ chức năng nhằm mục đích sắ p xế p la ̣i cú pháp
bên ngôn ngữ nguồ n trong SMT theo hướng tiế p câ ̣n không xác đinh
(non – deterministic reordering approach ).
̣
Mô hình này đã đươ ̣c thử nghiê ̣m và so sánh trên 3 hê ̣ thố ng: hê ̣ thố ng SMT dựa trên ngữ cơ bản , hê ̣ thố ng sắ p
xế p la ̣i dựa trên cú pháp với các mẫu dữ liệu được rút trích từ kho ngữ liệu và hệ thống sắp xếp lại dựa trên cú
pháp cho các mẫu được trích với từ chức năng . Kết quả thực nghiệm trên hệ dịch Hoa – Anh (chỉ thử nghiệm
trên ngữ liê ̣u có kić h cỡ trung biǹ h) cho thấy mô hình này tăng 0,34% so với hệ thống dịch Baseline.
Tương tự như hướng tiếp cận đầu tiên, những mô hình trong hướng tiếp cận cải tiến chất lượng dịch máy
thông qua việc xóa và chèn từ chức năng cũng mang lại hiệu quả đáng kể.
Nhóm tác giả [12] sử du ̣ng phương pháp chèn và xóa các từ ch ức năng dựa trên các gơ ̣i ý về cú pháp
(syntactic cues) trong dich
̣ dựa trên cú pháp (điể n hin
̀ h là Treelet ). Mô hin
̀ h này tương đố i đơn giản và cải thiê ̣n
đáng kể chấ t lư ợng dịch cho các ngôn ngữ không cùng cấu trúc (chẳ ng ha ̣n: Anh – Nhâ ̣t, …). Phương pháp này
chỉ được thực nghiệm trên các cặp Anh – Nhâ ̣t (điể m BLEU tăng 1,1% so với hê ̣ thố ng Treelet cơ bản ), Anh –
Tây Ban Nha (điể m BLUE tăng từ 0,5% đến 1,1%).
Một thực nghiệm khác cũng góp phần cải tiến chất lượng dịch SMT đó là thực nghiệm của nhóm [2]. Các
tác giả đã đề xuất giải pháp xóa và chèn các từ chức năng trên ngôn ngữ đić h và nhìn chung , phương pháp này
đem đế n những cải ti ến đáng kể so với hệ thống dịch cơ s ở trong dich
̣ Hoa – Anh (điể m BLEU tăng khoảng
1.28% trên bô ̣ dữ liê ̣u NIST 2005 và tăng 1.19% trên bô ̣ dữ liê ̣u NIST 2006).
Trong bài báo này, chúng tôi sử dụng hướng tiếp cận cải tiến chất lượng dịch máy thông qua việc xóa và
tích hợp chèn từ chức năngvào giai đoạn giải mã (decoding) cho hệ thống dịch Việt – Anh.
MÔ HÌNH
Trong bài báo này, chúng tôi đề xuất mô hình sau:
ISBN: 978-604-82-1375-6
92
Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
Hình 1. Mô hình cải tiến chất lượng dựa vào từ chức năng
Mô hình này gồm các giai đoạn:
Xác định tập các từ chức cần xóa.
Xóa từ chức năng: quá trình này diễn ra trong suốt thời gian huấn luyện mô hình. Mục đích của giai đoạn
này nhằm làm giảm độ nhiễu của từ chức năng.
Chèn từ chức năng: sử dụng mô hình TFWIM (Target Function Word Insertion Model).
Xác Định Từ Chức Năng
Trong bài báo này, chúng tôi quy ước: từ chức năng cầ n xóa là những từ chức năng thường xuyên không được
gióng hàng. Giai đoạn này được thực hiện qua các bước:
Bƣớc 1: Tính xác suất p(w) của các từ w không được gióng hàngtheo công thức (1):
p w =
Số phân đoạn từ không gióng hàng c ủa w
Sốphânđoạntừcủa w trongngữ liệu
(1)
Bƣớc 2: Sắp xếp các từ w theo thứ tự giảm dần của p(w), khi đó chúng tôi có được danh sách các từ chức năng.
Xóa Từ Chức Năng
Dựa theo [2], giai đoạn này sẽ tiến hành xóa từ chức năng trong ngôn ngữ đích và khi xóa cần lưu trữ các
thông tin ngữ cảnh (hay còn gọi là vùng thông tin ngữ cảnh) như sau:
Thông tin từ loại (POS).
Thông tin từ vựng.
Xóa từ chức năng tiến hành các bước sau:
Bước 1: Tiền xử lý dữ liệu như: tách từ, gán nhãn từ loại (POS).
Bước 2: Xóa từ chức năng
Do kết quả thực nghiệm trên vùng thông tin 4 từ cho kết quả chính xác nhất nên chúng tôi sẽ đề cập vùng
thông tin ngữ cảnh này xuyên suốt bài báo.
Gọi:
T là tập ứng viên (tập các từ chức năng được xác định ở giai đoạn 1).
wilàtừđang xét;wi-1 và wi+1lần lượt là những từ liền kề bên trái và liền kề bênphảicủawi.
wi-2và wi+2lần lượt là những từ liền kề bên trái và liền kề bên phải của wi-1 và wi+1.
Pi-1vàPi+1lần lượt là từ loại của từ liền kề bên trái và liền kề bênphảicủawi.
Pi-2vàPi+2lần lượt là từ loại của từ liền kề bên trái và liền kề bên phải của wi-1 và wi+1.
CLW, CPW lần lượt là thông tin ngữ cảnh từ vựng và từ loại.
Để tránh mất thông tin ngữ cảnh về sau, cần tuân thủ quy tắc xóa như sau:
IF(wi T và (wi-1 T, wi+1 T)) THEN tiếnhànhxóawi, thông tin ngữ cảnh khi xóa là :
ISBN: 978-604-82-1375-6
93
Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM
CLW = (wi,wi-2wi-1wi+1wi+2)
CPW = (Pi, Pi-2Pi-1Pi+1Pi+2)
Ngược lại, IF (wi T và (wi-1 T hoặc wi+1 T)) THEN khôngxóawi.
Xét câu tiếng Anh được gán nhãn từ loại sau đây, để tránh nhập nhằng thông tin trong trường hợp xóa,
chúng tôi sẽ đưa thêm thông tin từ vựng START ở đầu câu và END ở cuối câu.
“START|START
the|DTislanders|NNSof|INtorcello|NN
,|,
who|WPhave|VBPperhaps|RBalready|RBspread|VBNto|TOneighbouring|JJislands|NNSin|INthe|DTvenetian|JJl
agoon|NN ,|, are|VBPincluded|VBNin|INthe|DTexarchate|NN .|. END|END”
Xét tập T = {―the‖, ―in‖, ―to‖, ―for‖, ―of‖}, ta có các thông tin ngữ cảnh trong trường hợp xóa như bảng 1
sau:
Bảng 1. Thông tin ngữ cảnh khi xóa từ chức năng
Từ
Thông tin ngữ cảnh
Chèn Từ Chức Năng
Stt chức
Giai đoạn này được mô hình hóa thành bài toán
Từ loại
Từ vựng
năng
phân lớp và sử dụng phương pháp Maximum Entropy để
START
1
the
START islanders of
phân lớp và quyết định vị trí chèn từ chức năng.
NNS IN
START
START islanders
Bƣớc 1: Xác định được vị trí cần chèn, bước này sử
2
of
NNS NN ,
torcello ,
dụng thông tin ngữ cảnh từ loại.
already spread
Bƣớc 2: Sau khi tìm được vị trí chèn, mô hình sẽ
RB VBN
3
to
neighbouring
tìm từ chức năng thích hợp để chèn vào.
JJ NNS
islanders
Chúng tôi dựa vào mô hình TFWIM để tìm vị trí và
từ chức năng thích hợp. Mô hình này được tính toán thông qua công thức Maximum Entropy (2).
P( w | C)
exp[ i i f i( w, C)]
w 'W {NULL} exp[ i i f i( w ' , C)]
(2)
Trong đó:
C: thông tin ngữ cảnh từ vựng hoặc từ loại được lưu trữ tronggiaiđoạn 2.
fi(w,C):làtầnsuất của w xuất hiện trongthông tin C.
i là trọng số tương ứng của hi(0 ... hành hệ thống: Hệ thống sở (Baseline) Hệ thống dịch Post-generation (phát sinh từ chức kết dịch) : mô hình SMT phát sinh từ chức kết dịch Hệ thống TFWIM: mô hình phát sinh từ chức đượctích hợp... mô hình chèn từ chức TFWIM.Giai đoạn phát sinh từ chức mô hình hóa thành toán phân lớp định vị trí chèn từ chức năng. Thực nghiệm liệu 1000 câu tiếng Anh, mô hình đạt độ xác 87,172% Trong mô hình. .. nhiên, ĐHQG-HCM Hình Mô hình cải tiến chất lượng dựa vào từ chức Mô hình gồm giai đoạn: Xác định tập từ chức cần xóa Xóa từ chức năng: trình diễn suốt thời gian huấn luyện mô hình Mục đích giai