L ỜI MỞ ĐẦ U
4.2 Giới thiệu mô hình
Mô hình FTM giải quyết những hạn chế trên bằng việc mở rộng mô hình phrase- based truyền thống, cho phép thêm các lớp thông tin hay còn gọi là các yếu tố
(factor) tương ứng với từ như morphology, POS, lemma, … vào trong ngôn ngữ
nguồn và/hoặc ngôn ngữđích trong quá trình huấn luyện và giải mã [26].
Dữ liệu song ngữ sử dụng cho quá trình huấn luyện được gắn thêm các factor như POS và lemma thể hiện trong ví dụ hình 4.1.
Hình 4.1: Tích hợp thêm các lớp thông tin về lemma, POS vào ngữ liệu huấn luyện.
Thay vì mô hình hóa quá trình dịch tương ứng từ-từ, mô hình kết hợp thêm các ánh xạ giữa các factor trong ngôn ngữ nguồn và ngôn ngữ đích, và giữa các factor trong ngôn ngữ đích. Như vậy, chúng ta có thể biểu diễn bằng đồ thị các mô hình khác nhau thông qua việc thêm các đường kết nối giữa các factor trong hình 4.2.
Hình 4.2: Ánh xạ giữa các factor trong ngôn ngữ nguồn và ngôn ngữđích
Việc sử dụng các factor đưa ra nhiều lợi ích hơn các phương pháp dịch thống kê dựa trên đơn vị cụm từ hiện thời. Đó là:
- Việc thêm các factor cho phép người dùng tạo ra nhiều mô hình mới phù hợp với đặc trưng từng ngôn ngữ.
- Vấn đề về hình thái từ có thểđược xử lý tốt hơn bởi dịch thông qua nhiều bước.
- Ngữ cảnh ngôn ngữ học có thể tạo điều kiện tốt hơn cho việc quyết định lựa chọn giữa nhiều cách dịch khác nhau.
Các phần tiếp theo dưới đây tôi xin đi sâu vào 3 đặc điểm này.
4.2.1 Các mô hình xác suất mới
Việc giới thiệu các factor cũng cho phép chúng ta mô hình hóa nhiều điều mà chúng ta không thể mô hình hóa được khi áp dụng các phương pháp dịch phrase- based truyền thống. Ví dụ, ta có thể tích hợp một mô hình dịch xác suất, thực hiện tính toán trên các chuỗi nhãn từ loại p(epos| vpos). Ta có thể ước lượng trực tiếp các xác suất này sử dụng kỹ thuật tương tự như áp dụng với các phương pháp trích chọn cụm từ trong dịch máy thống kê. Ngoài việc tính toán các tương
ứng phrase-phrase sử dụng kỹ thuật gióng hàng từ, ta có thể tính toán các tương
ứng POS-POS như ví dụ minh họa trong hình 4.3.
Hình 4.3: Tương ứng giữa các chuỗi nhãn của từ loại
Sau khi tính toán tất cả các tương ứng POS-POS cho tất cả các cặp câu trong ngữ
liệu, ta có thể tính được xác suất p(epos| vpos) sử dụng ước lượng hợp lý cực đại (maximum likelihood estimation).
( ) ( ( ) ) pos pos pos pos pos v count v e count v e p | = ,
Điều này cho phép chúng ta nắm bắt được những đặc trưng ngôn ngữ trong khung hình xác suất đó. Ví dụ, sự khác nhau về thứ tự tính từ - danh từ (ADJ- NN) xuất hiện trong rất nhiều cặp ngôn ngữ (Anh-Pháp, Anh-Việt, ...) có thể được nắm bắt do mô hình sẽ gán các xác suất như sau:
p(NN ADJ|JJ NN) > p(ADJ NN|JJ NN)
Do đó, mô hình FMT có thể học được những luật cú pháp đơn giản thông qua mô hình xác suất học dựa trên dữ liệu huấn luyện.
Hơn nữa, các chuỗi nhãn không chỉ giúp ích cho việc tính toán xác suất dịch như
ngôn ngữ p(vpos). Xác suất p(vpos) có thể được tính toán giống như xác suất mô hình ngôn ngữ n-gram p(vword). Ý nghĩa của việc tính toán này cũng không ngoài mục đích kiểm tra xem chuỗi nhãn ứng với kết quảđầu ra có phải là một chuỗi nhãn đúng (có xác suất cao) hay không. Do số lượng nhãn từ loại là nhỏ hơn rất nhiều so với số lượng từ từđiển nên ta có thể tính toán được mô hình n-gram cho POS tag với n lớn hơn (n =6 hoặc 7) so với n = 3 thường được sử dụng trong mô hình ngôn ngữ tính toán trên đơn vị từ từđiển.
Như vậy, với mô hình FTM, không những ta tính toán mô hình ngôn ngữ trên
đơn vị từ, ta còn có thể tính toán mô hình ngôn ngữ trên đơn vị nhãn từ loại, từ
gốc, ... tùy vào mục đích của người sử dụng nhằm thêm thông tin góp phần cải thiện chất lượng của hệ dịch.
4.2.2 Xử lý hình thái
Ngôn ngữ tiếng Việt hầu như không có sự biến đổi hình thái, chính vì vậy phần này giới thiệu về ý nghĩa ứng dụng của mô hình với các cặp ngôn ngữ có sự biến
đổi hình thái nhiều ở cả hai phía ngôn ngữ nguồn và ngôn ngữđích.
Nhưđã trình bày các hạn chế của mô hình phrase-based truyền thống trong phần 4.2.1, một trong sốđó là việc không có khả năng dịch những từ biến đổi hình thái không có trong dữ liệu học. Điều này rất cần thiết khi tập dữ liệu học không đủ
lớn và ngôn ngữ nguồn có độ biến đổi hình thái cao. Do đó, một mô hình lý tưởng giải quyết bài toán này đó là mô hình dịch ở mức từ gốc (lemma), phân tích các từ biến đổi hình thái về dạng từ gốc và thông tin hình thái của từđó. Khi
đó, quá trình dịch từ gốc và thông tin hình thái được thực hiện tách rời nhau, và các thông tin này sẽ được kết hợp lại ở phía ngôn ngữ đích để sinh ra kết quả
cuối cùng. Mô hình như vậy rất hiệu quả trong việc dịch từ vựng với những cặp ngôn ngữ biến đổi hình thái cảở phía ngôn ngữ nguồn và ngôn ngữđích.
Hình 4.4: Cấu hình một mô hình dịch FTM với bước dịch giữa lemma và POS+morphology, và bước sinh từ POS+morphology+lemma ra từ kết quả ở phía ngôn ngữđích.
Quá trình dịch các biểu diễn factor của ngôn ngữ nguồn sang biểu diễn factor của ngôn ngữđích được chia thành một chuỗi các bước ánh xạ (mapping steps). Đó là bước dịch (translation step) các factor đầu vào sang các factor đầu ra; và
bước sinh (generation step) các factor đích từ các factor đích đã có.
Hình 4.4 minh họa một ví dụ mô hình dịch dựa trên các bước ánh xạ các factor.
Đúng như ý nghĩa ngôn ngữ học, một từ được cấu thành từ gốc của từ, thông tin hình thái và nhãn từ loại của từ đó. Mô hình FTM cho phép ta mô hình hóa những logic đó một cách mềm dẻo tùy vào đặc trưng của từng cặp ngôn ngữ và mục đích của người sử dùng.
4.2.3 Đưa ra quyết định tốt hơn
4.2.3.1 Có nhiều lựa chọn dịch
Xét ví dụ trong hình 4.4, từ kết quả không được sinh ra bằng con đường trực tiếp từ từ của ngôn ngữ nguồn mà được sinh ra từ các thành phần ngôn ngữ tương
ứng. Như vậy, bằng cách thiết lập thêm một đường kết nối trong bước dịch nữa ta sẽ có hai cách khác nhau để sinh ra từ gốc: dịch trực tiếp word-word hoặc theo cách kết nối trong hình 4.4. Khi đó, với các từ đầu vào, ta sẽ có thêm lựa chọn cho quá trình sinh ra các từđích. Điều này có ý nghĩa với những từ biến đổi hình thái mà không có trong tập dữ liệu học. Với những từ không có sự biến đổi hình thái và có trong dữ liệu học, lựa chọn theo cách dịch trực tiếp word-word là lựa chọn tốt nhất. Tuy nhiên, với những từ biến đổi hình thái mà lại không xuất hiện trong dữ liệu học thì lựa chọn theo cách đi gián tiếp lại là lựa chọn tốt nhất. Trường hợp này được thể hiện trong hình 4.5.
4.2.3.2 Có thêm thông tin hỗ trợ quyết định
Trong các ngôn ngữ có chia động từ ở các thì hiện tại, hiện tại hoàn thành, quá khứ và quá khứ hoàn thành một cách rõ ràng thì mô hình FTM rất hữu ích trong việc đưa ra quyết định tốt hơn.
Xét ví dụ trong hình 4.6 với cặp ngôn ngữ Pháp-Anh ta thấy rằng nếu chỉ có sự
xuất hiện của cụm từ Spain declined trong cặp câu, xác suất dịch cụm từ cho 2 cụm từ tiếng Pháp dựa trên mô hình phrase-based sẽ là:
p(l’ Espagne a refusé de|Spain declined) = 0.5
p(l’ Espagne avait refusé d’|Spain declined) = 0.5
Trong trường hợp này, hai xác suất dịch cụm từ tiếng Anh sang tiếng Pháp là như
nhau. Mô hình không có khả năng chọn ra trường hợp dịch đúng nhất.
Hình 4.6: Các tương ứng phrase-to-phrase được sinh ra thông qua gióng hàng từ.
Trong xác suất dịch FMT, chúng ta có thêm các thông tin ràng buộc. Ví dụ, kết hợp các factors như trong hình 4.7, chúng ta có thể tính toán xác suất dịch thông qua thông tin về words và POS.
( ) ( ( ) ) pos words pos words words pos words words count v v v v e count v v e p , , , , | =
Hình 4.7: Các factors có thểđược kết hợp trong việc lựa chọn cụm từ
Như vậy, chúng ta có thêm thông tin để phân biệt hai cách dịch này.
p(l’ Espagne a refusé de|Spain declined, NNP VBN) = 0
p(l’ Espagne avait refusé d’|Spain declined, NNP VBN) = 1 và
p(l’ Espagne a refusé de|Spain declined, NNP VBD) = 1
p(l’ Espagne avait refusé d’|Spain declined, NNP VBD) = 0
Lựa chọn được quyết định thông qua thông tin động từdecline là quá khứ (VBD) hay quá khứ hoàn thành (VBN).
Đối với cặp ngôn ngữ Anh-Việt, do đặc trưng tiếng Việt là ranh giới phân biệt giữa các thì quá khứ và quá khứ hoàn thành, hiện tại và hiện tại hoàn thành không được rõ ràng như các ngôn ngữ khác nên lợi ích này của mô hình FTM không phát huy được nhiều tác dụng. Bản thân trong tiếng Việt nhiều khi ranh giới giữa thì hiện tại và quá khứ cũng không rõ ràng. Thông thường thì quá khứ
gắn liền với những từ như “đã”, “rồi”: “went” -> “đã đi/đi rồi”, “failed” -> “đã trượt/trượt rồi”, ... Tuy nhiên, trong thực tế người dùng thường không quá chú tâm vào dịch rập khuôn như vậy mà vẫn đảm bảo được ngữ nghĩa của câu.
Ví dụ:
- I passed in maths but failed in French.
=> Tôi qua được môn toán nhưng hỏng môn tiếng Pháp. - When I looked back, it was gone.
4.3 Các thành phần trong hệ dịch FTM
Với mô hình phrase-based, các thành phần của mô hình được kết hợp qua công thức log-linear. Trong mô hình FMT, ngoài các thành phần truyền thống như: mô hình ngôn ngữ, mô hình chuyển đổi trật tự từ, ... mỗi xác suất sinh và xác suất dịch lại biểu diễn thành một hàm đặc trưng trong mô hình log-linear.
Bản chất mô hình dịch FTM là trường hợp tổng quát của mô hình phrase-based. Mô hình FMT cũng được xây dựng từ ngữ liệu song ngữ đã gióng hàng từ. Mỗi bước ánh xạđược mô hình hóa bởi một hàm đặc trưng. Hàm này được học từ dữ
liệu huấn luyện, kết quảđược lưu trong các bảng dịch (translation table) và bảng sinh (generation table). Các bảng cho các bước dịch được tạo ra tương tự như
việc tạo ra bảng các cụm từ trong mô hình phrase-based. Các bảng cho các bước sinh được ước lượng chỉở phía ngôn ngữđích.
Chương 5 sẽđưa ra các kết quả thực nghiệm chi tiết trên hệ dịch Anh-Việt.
4.4 Tình hình ứng dụng mô hình FTM
Với ưu điểm về tính mềm dẻo của mô hình FTM trong việc tích hợp thêm các yếu tố ngôn ngữ ở mức từ, những câu hỏi mở đặt ra khi áp dụng mô hình với từng ngôn ngữ cụ thể là sử dụng yếu tố ngôn ngữ nào và cấu hình chúng như thế
nào đểđạt được hiệu quả dịch cao nhất.
FTM đã được thử nghiệm trên nhiều cặp ngôn ngữ khác nhau. Các thực nghiệm
đều chỉ ra ưu điểm của việc tích hợp các yếu tố ngôn ngữ để giải quyết những khó khăn về trật tự từ, biến đổi hình thái từ, lựa chọn từ trong quá trình dịch. Tùy thuộc vào đặc điểm của từng cặp ngôn ngữ mà hệ dịch có cấu hình các factor khác nhau.
Czech là một ngôn ngữ có sự biến đổi hình thái rất lớn với 4000 thẻ trong khi tập thẻ trong dữ liệu Penn Treebank chỉ khoảng 50 thẻ. [5] đã chỉ ra việc sử dụng FTM giúp cải thiện đáng kể chất lượng dịch so với hệ dịch phrase-based thông thường. Bài báo cũng đã nêu ra nhiều thực nghiệm với các cấu hình các factor cũng như các bước ánh xạ khác nhau. Trong đó, một cấu hình đơn giản với ánh xạ từ-từ, morpho-morpho và bước kiểm tra về hình thái từ kết hợp với 2 mô hình ngôn ngữ như hình dưới đây đã cho ra kết quả tốt nhất.
[15] cũng chỉ ra một cấu hình phù hợp với hệ dịch Đức-Anh. Bài báo đưa ra nhiều cấu hình factor khác nhau từđơn giản đến phức tạp. Trong đó cấu hình với nhiều factor, nhiều bước ánh xạđã không cho ra được kết quả mong muốn bởi độ
phức tạp tính toán quá lớn.
Do đặc điểm của tiếng Đức là có rất nhiều từ phức nên trước tiên họ tiến hành tiền xử lý dữ liệu tiếng Đức để tách các từ phức. Khi đó từ trong bước ánh xạ là dạng đơn giản đã qua xử lý. Gióng hàng được thực hiện ở mức lemma chứ không gióng hàng ở mức từ như thông thường. Khi đó cấu hình phrase-based truyền thống cho ra kết quả tốt hơn so với các cấu hình có thêm nhiều factor khác.
Thực nghiệm trên tiếng Hà Lan- Anh khi thêm factor CCG supertags, POS tag ở
phía ngôn ngữđích đã đem lại hiệu quả trong việc giải quyết vấn đề trật tự từ, từ đó có lựa chọn từ phù hợp tương ứng với vị trí đó ở phía ngôn ngữđích [4]. Như vậy, ứng với mỗi cặp ngôn ngữ lại có một cấu hình các factor phù hợp. Các factor cũng như các kết nối giữa các factor không phải được khởi tạo một cách ngẫu nhiên, tùy tiện mà phải được lựa chọn theo logic phù hợp với đặc trưng của từng cặp ngôn ngữ. Chương V của luận văn đưa ra các cấu hình khác nhau cho cặp ngôn ngữ Anh-Việt và thực nghiệm lựa chọn ra một cấu hình phù hợp với
CHƯƠNG V – THỰC NGHIỆM
Chương này giới thiệu môi trường thực nghiệm, các công cụ sử dụng, và các cấu hình thực nghiệm mô hình FTM cho cặp ngôn ngữ Anh-Việt.
5.1 Công cụ và ngữ liệu cho hệ dịch
5.1.1 Chuẩn bị ngữ liệu
5.1.1.1 Ngữ liệu song ngữ
Các kết quả của luận văn được thử nghiệm trên 2 tập ngữ liệu song ngữ sau: 1. Tập dữ liệu gồm 17795 cặp câu về pháp luật do nhóm đề tài SP7.4 cung
cấp.
2. Tập dữ liệu về các câu đối thoại được sử dụng trong [38].
5.1.1.2 Ngữ liệu đơn ngữ
Luận văn sử dụng ngữ liệu đơn ngữ được thu thập bởi nhóm đề tài SP3. trong khuôn khổđề tài cấp nhà nước VLSP. Trong đó, nhóm đã tiến hành thu thập ngữ
liệu đơn ngữ từ trang web báo điện tử www.vnexpress.net, tách câu, tách token và tách từ thu được. Kết quả thu thập ngữ liệu đơn ngữ phục vụ cho việc xây dựng mô hình ngôn ngữ cho tiếng Việt được liệt kê trong bảng 5.1.
STT Lĩnh vực Số lượng câu
1 Công nghệ thông tin 217,293
2 Khoa học 154,624
3 Kinh doanh 156,894
4 Luật 154,556
5 Tin tức thế giới 238,356
7 Văn hóa 419,955
Tổng cộng 1,583,469
Bảng 5.1: Dữ liệu đơn ngữ phục vụ cho việc xây dựng mô hình ngôn ngữ
Tuy nhiên, cấu hình thực nghiệm còn sử dụng mô hình ngôn ngữ trên nhãn từ
loại p(vpos). Với mô hình ngôn ngữ này, do số lượng nhãn từ loại là có hạn nên chúng ta không cần đến một lượng dữ liệu quá lớn nhưđối với mô hình ngôn ngữ
dựa trên từ vựng. Do đó, chúng tôi sử dụng các chuỗi nhãn từ loại tương ứng với corpus tiếng Việt trong kho ngữ liệu song ngữ giới thiệu trong phần 5.1.1.1.
5.1.2 Các công cụ tiền xử lý
5.1.2.1 Công cụ cho tiếng Việt
- Bộ Tokenizer: sử dụng bộ Tokenizer trong bộ ngữ liệu Europarl corpus [24], do Koehn phát triển.
- Bộ tách từ: sử dụng công cụ JvnSegmenter [39] được cung cấp dưới dạng mã nguồn mở do nhóm Phan Xuân Hiếu, Nguyễn Cẩm Tú phát triển sử
dụng kĩ thuật Conditional Random Field. Chất lượng của bộ tách từ là 94%.