Để làm rõ ảnh hưởng của khoảng trống từ vựng tới dịch máy Anh Việt, luận án sẽ tiếp cận từ hai gĩc độ: gĩc độ từđiển và gĩc độ ngữ dụng. Khơng phải mọi hệ thống dịch máy đều cần từđiển. Các hệ dịch xác suất và dịch theo mẫu thường dùng các kho ngữ liệu song ngữđể tìm các từ hoặc cụm từ tương ứng. Nhưng nếu hệ thống dịch chuyển đổi thì từ điển là thành phần khơng thể thiếu. Douglas [34] chỉ ra rằng từ điển là thành phần lớn nhất của dịch máy (dịch chuyển đổi), cần nhiều nhân lực nhất và tốn nhiều thời gian xử lý nhất. Luận án khảo sát các từđiển cung cấp bởi Hồ Ngọc Đức [5], Bùi Phụng [14], và từđiển của Viện khoa học xã hội [16] và thấy khơng cĩ sự khác biệt lớn nào giữa các từđiển này.
Các điểm chung cho các từđiển song ngữ Anh Việt [5],[14] và [16] là các biến hình, biến thể của một từ được đưa về một mục từ. Như vậy các từ dạng biến thể (chẳng hạn danh từ số nhiều như “books”, các thì của động từ “booking”, “booked”, tính từ so sánh…) khơng được coi là mục từ riêng, ngoại trừ khi các từ
này cĩ ý nghĩa khác với từ gốc. Số lượng các mục từ của [5] là 58.187 từ. Tuy nhiên một từ cĩ thể cĩ nhiều nghĩa, và cĩ thể sử dụng với nhiều từ loại khác nhau, khi đĩ tất cả các nghĩa được liệt kê theo một thứ tự. Tồn bộ từđiển [5] cĩ 132.298 nghĩa, như vậy một từ cĩ bình quân hơn 2 nghĩa.
17
Bảng 2.1. Mục từ trong từđiển thơng thường (nguồn: [5]). @abstract /'ỉbstrỉkt/ * tính từ - trừu tượng - khĩ hiểu - lý thuyết khơng thực tế !abstract number - (tốn học) số hư * danh từ - bản tĩm tắt (cuốn sách, luận án, bài diễn văn...) - vật trừu tượng
=in the abstract+ trừu tượng, lý thuyết * ngoại động từ
- trừu tượng hố - làm đãng trí
- rút ra, chiết ra, tách ra
=to abstract butter from milk+ tách bơ ra khỏi sữa - lấy trộm, ăn cắp
- tĩm tắt, trích yếu
Ví dụ: trong [5], mục từ “abstract” cung cấp các thơng tin như ở bảng 2.1. Trong bảng 2.1 mỗi mục từđược ký hiệu bằng “@”, từ loại bắt đầu bằng “*”, các nghĩa khác nhau đặt trên các dịng khác nhau và bắt đầu bằng dấu “-“. Cụm từ cố định (trường hợp ngoại lệ) được ký hiệu bởi đấu “!” cịn các ví dụ được đánh dấu bằng “=” cho phần tiếng Anh, “+” cho phần tiếng Việt.
Trong ví dụ này, từ gốc “abstract” cĩ thể nhận 3 từ loại là tính từ, danh từ
18
“abstract” cĩ thể nhận hai nghĩa và khi là động từ thì cĩ thể ánh xạ thành một trong năm nghĩa tiếng Việt.
Một vấn đề nảy sinh là chọn nghĩa nào (đánh dấu bằng dấu “-” cụ thể là “bản tĩm tắt” hay “vật trừu tượng”…) và trong một nghĩa cĩ nhiều từđồng nghĩa, chọn từ nào (“lấy trộm” hay “ăn cắp” …). Mặc dù vấn đề chọn từ nằm ngồi phạm vi nghiên cứu của luận án này, nhưng thực tế việc chọn nghĩa từ cĩ một mối liên quan mật thiết với khoảng trống từ vựng. Thật vậy, với những mục từ cĩ nhiều nghĩa, một số nghĩa cĩ thể cĩ từ tương ứng, một số nghĩa khơng cĩ từ tương ứng. Như vậy nếu một từ cĩ N nghĩa, trong đĩ M nghĩa khơng cĩ từ tương ứng, thì xác suất khoảng trống từ vựng của từ đĩ là P =M/N. Trong điều kiện chưa giải quyết
được bài tốn chọn nghĩa từ thì giải pháp đơn giản nhất là chọn nghĩa cĩ từ tương
ứng thay vì chọn nghĩa cĩ khoảng trống từ vựng. Trong ví dụ trên, nếu gặp từ
“abstract” dạng tính từ, chọn nghĩa “trừu tượng” khơng gây ra khoảng trống từ
vựng, trong khi chọn nghĩa “khơng thực tế” sẽ tạo ra khoảng trống từ vựng. Tuy nhiên trong một số trường hợp, nếu chọn các nghĩa cĩ liên quan đến khoảng trống từ vựng cĩ thể cho một bản dịch sát nghĩa hơn. Thống kê được đưa trong bảng 2.2. Trường hợp một từ cĩ P<1 tức là một số nghĩa cĩ từ tương đương, một số nghĩa cĩ cụm từ tương đương. Luận án tập trung giải quyết các trường hợp cĩ P=1 là khi mọi nghĩa đều là cụm từ (xem ví dụ trong bảng 2.3).
Như vậy cĩ 24.895 từ trong số 58.187 từ liệt kê trong từ điển cĩ liên quan
đến khoảng trống từ vựng, trong đĩ 16.435 từ chắc chắn là khoảng trống từ vựng (xác suất P=1 tức là mọi nghĩa đều khơng cĩ từ Việt tương đương). Bảng 2.3 liệt kê một số trường hợp khoảng trống từ vựng cĩ P=1.
Nếu các nghĩa từđược chọn với xác xuất như nhau, thì xác suất để một từ là khoảng trống từ vựng sẽ là 16.435/58.187 = 0,28 hay cứ 4 từ thì cĩ một từ là khoảng trống từ vựng. Tuy nhiên trên thực tế các trường hợp khoảng trống từ vựng trong từđiển xuất hiện trong các văn bản (ngữ dụng) khơng cùng xác suất.
Về mặt từ loại, bảng 2.4 cho thấy phân bổ các từ trong [5] theo từ loại cĩ xác suất khoảng trống từ vựng P=1.
19 Bảng 2.2. Xác suất một từ là khoảng trống từ vựng P Số từ Tỷ lệ 1 16.435 28% >0,9 16.443 28% >0,8 16.642 29% >0,7 17.533 30% >0,6 19.037 33% >0,5 19.674 34% >0,4 22.905 39% >0,3 24.188 42% >0,2 24.889 43% >0,1 24.895 43% Bảng 2.3. Ví dụ các từ là khoảng trống từ vựng (xác suất P=1). Các khoảng trống từ vựng với P=1 Từ Nghĩa abase làm hạ phẩm giá abasement sự làm hạ phẩm giá abatable cĩ thể làm dịu
abatis đống cây chướng ngại abatised cĩ đống cây chướng ngại abbacy chức vị trưởng tu viện abbess bà trưởng tu viện abbot cha trưởng tu viện
abeyance tình trạng tạm thời khơng cĩ người nhận Bảng 2.4. Khoảng trống từ vựng theo từ loại cĩ P=1. Từ loại Số lượng danh từ 11.916 tính từ 3.297 ngoại động từ 817 nội động từ 163 phĩ từ 120 động từ 87
20 Từ loại Số lượng thán từ 17 đại từ 7 Khơng rõ 7 đại từ sở hữu 3 đại từ phản thân 1
Bảng 2.5. Các khoảng trống từ vựng theo ngữ dụng từ 8725 câu của Penn TreeBank
Từ Từ loại Nghĩa tiếng Việt Số lhiần xuện ất
able tính từ cĩ đủ tư cách 14
abortion danh từ tình trạng phát triển khơng đầy đủ 32
accepted tính từ đã được thừa nhận 3
accountable tính từ cĩ thể nĩi rõ được 1
accountant danh từ nhân viên kế tốn 2
actively phĩ từ tích cực hoạt động 1
actuarial danh từ chuyên viên thống kê 2
adapter danh từ người làm thích nghi 2
adjustable tính từ cĩ thể làm cho thích hợp 3 adjustment danh từ sự sửa lại cho đúng 2
affidavit danh từ bản khai cĩ tuyên thệ 4
Thực tế cho thấy các từ xuất hiện nhiều nhất trong các văn bản phụ thuộc vào từ loại và lĩnh vực mà văn bản đĩ đề cập (ngữ dụng). Bảng 2.5 thống kê một số từ thường gặp nhất trong dữ liệu của Penn Treebank [62], tập hợp ngữ liệu từ
các bài viết cĩ thể loại báo chí thuộc lĩnh vực xã hội. Luận án khảo sát 8725 câu ngữ liệu của Penn TreeBank, với 176.625 từ bao gồm 15.284 từ chưa xử lý (chẳng hạn “say”, “said” được coi là hai từ vì khác nhau về hình thức). Bảng 2.5 thống kê các từ xuất hiện trong kho ngữ liệu huấn luyện, sắp xếp theo thứ tự từđiển.
Việc thống kê các từ liên quan khoảng trống từ vựng trong một văn bản cho thấy xác suất xảy ra khoảng trống từ vựng khơng chỉ phụ thuộc vào thể loại văn bản mà cịn phụ thuộc vào lĩnh vực.
21
Tuy nhiên việc xác định một từ tiếng Anh (bao gồm cả từ biến hình – chẳng hạn “books”, “booking”, “booked”) cĩ gây nên vấn đề khoảng trống từ vựng hay khơng, khơng đơn thuần là tìm và đếm các từ mà từđiển phải sử dụng cụm từ để
diễn giải, vì hai lý do sau:
- Từ tiếng Anh trong các văn bản khơng cĩ trong từ điển. Các từ điển thơng thường chỉ chứa các từ gốc (chẳng hạn chỉ chứa từ “book” mà khơng chứa “books”, “booked”…), ngoại trừ các từ đặc biệt. Các từ trong văn bản là các biến hình của từ gốc.
- Một từ sử dụng trong văn bản cĩ thể tương ứng nhiều từ gốc (chẳng hạn từ “unchangeability” khơng cĩ trong từ điển Anh-Việt và cĩ hai từ gốc là “change” và “ability”), hoặc từ loại (tính từ, danh từ hay động từ- phụ thuộc vào cấu trúc ngữ pháp của câu trong văn bản – chẳng hạn từ “books” cĩ thể là danh từ
số nhiều hoặc động từđi với danh từ/đại từ ngơi thứ ba số ít). Như vậy để xác định chính xác từ loại của từ gốc, trước tiên phải phân tích được cấu trúc ngữ pháp – bài tốn trở nên khĩ giải quyết vì một từ tiếng Anh cĩ thể là khoảng trống từ vựng khi thuộc một từ loại này nhưng lại cĩ từ tiếng Việt tương đương nếu thuộc từ loại khác. Như vậy khả năng một từ là khoảng trống từ vựng cịn phụ thuộc vào hệ
thống ngữ pháp và thuật tốn phân tích cấu trúc câu.
Để đơn giản hĩa các vấn nêu trên, luận án sử dụng một số giả định sau trong tính tốn tần suất xuất hiện khoảng trống từ vựng:
- Mọi từ sử dụng trong văn bản đều cĩ thể chuyển về từ gốc bằng một số
giải thuật (chẳng hạn giải thuật KIMMO [36]).
- Xác suất một từ được nhận một trong các nghĩa trong từ điển là như
nhau (khơng phân tích ngữ pháp câu). Do đĩ các nghĩa đưa ra trong từđiển cĩ khả
năng xuất hiện như nhau.
Các bước tiến hành xác định khoảng trống từ vựng như sau:
1. Các văn bản được rút trích sẽ được phân loại theo lĩnh vực. Trong trường hợp cụ thể là ngữ liệu huấn luyện của Penn Treebank [62] với 8.725 câu rút trích
22
từ các bài báo. Các văn bản được quét để tìm các từ. Cĩ 176.625 từ, khơng kể các số, ngày tháng …
2. Các từđược sắp xếp để tránh trùng lặp. Cĩ 15.284 từ khơng trùng nhau. 3. Các từđược xử lý để tìm từ gốc. Chẳng hạn xếp “book”, “books” vào một từ gốc. Cĩ 12.304 từ cĩ từ gốc, 2.980 từ khơng cĩ trong từđiển – phần lớn trong số này là tên riêng. Số từ gốc là 7.455 từ.
4. Các từ gốc được so khớp với các từ trong từđiển cĩ khoảng trống từ vựng. Với P=1, kết quả tìm được 933 từ là khoảng trống từ vựng. Đây là những từ mà mọi nghĩa đều khơng cĩ từ tiếng Việt tương ứng. Nếu so khớp với tập 19.674 từ
cĩ xác suất khoảng trống từ vựng P>0.5 thì cĩ 2.451 từ là khoảng trống từ vựng (tương đương cứ 3 từ thì cĩ 1 từ là khoảng trống từ vựng). Đây là các từ mà trên một nửa các nghĩa tiếng Việt cĩ thể nhận là cụm từ.
5. Phân loại các khoảng trống từ vựng:
Các bảng 2.6 và 2.7 cho thấy danh từ chính là loại từ gặp khoảng trống từ
vựng nhiều nhất. Với P=1 phân bổ khoảng trống từ vựng của 7.455 từ gốc trong [5] theo từ loại như ở bảng 2.6, với P=0.5 phân bổ khoảng trống từ vựng theo từ
loại như trong bảng 2.7. Bảng 2.6. Khoảng trống từ vựng theo từ loại của 7.455 từ gốc cĩ P=1. P=1 Từ loại Số từ danh từ 672 tính từ 164 ngoại động từ 54 nội động từ 17 phĩ từ 10 động từ (nội và ngoại động từ) 10 đại từ sở hữu 2 đại từ 2 Khơng rõ 2
23 Bảng 2.7. Khoảng trống từ vựng theo từ loại của 7.455 từ gốc cĩ P=0.5. P=0.5 Từ loại Số từ danh từ 1809 tính từ 309 ngoại động từ 203 nội động từ 62 động từ (nội và ngooại động từ) 46 phĩ từ 15 Khơng rõ 3 đại từ sở hữu 2 đại từ 2
Trên đây là phương pháp và kết quả khảo sát hiện tượng khoảng trống từ
vựng khi dịch từ Anh sang Việt sử dụng từđiển [5].
Do chưa cĩ các kết quả nghiên cứu về khoảng trống từ vựng Anh – Việt, luận án sử dụng kết quả nghiên cứu khoảng trống từ vựng Anh – Ý [44] để tham khảo. Do phương pháp và tiêu chí xác định khoảng trống từ vựng khác nhau và cặp ngơn ngữ khác nhau nên khơng thể so sánh chặt chẽ kết quả nhận được. Luận án chỉ dựa vào so sánh tỷ lệ tương đối trong từng bảng 2.6 và 2.8 (tức là cùng phương pháp xác định khoảng trống từ vựng). Trong bảng 2.6 (khoảng trống từ
vựng Anh -Viêt), trong 933 trường hợp khoảng trống từ vựng cĩ 672 danh từ, tỷ lệ
là 72%. Số liệu tương ứng trong bảng 2.8 là 1784/4738 = 37,7%. Đặc biệt trong các khoảng trống từ vựng khi dịch tính từ giữa tiếng Anh –Ý (bảng 2.8) chiếm tỷ
lệ khá cao (30%) các trường hợp khoảng trống từ vựng. Tỷ lệ này ở cặp ngơn ngữ
24
Bảng 2.8. Khoảng trống từ vựng Anh –Ý theo từ loại (nguồn: [44]).
Translation Groups Simple
ws % Collocations % Gaps % Nouns (31,978) 23,800 74.4 6,394 20.0 1,784 5.6 Verbs (12,939) 10,226 79.0 1,755 13,6 958 7.4 Adjectives (13,113) 10,455 79.7 1,217 9.3 1,441 11.0 Adverbs (2,871) 1,890 65.8 426 14.9 555 19.3 Total (60,901) 46,371 76.1 9,792 16.1 4,738 7.8
Phần tiếp theo sẽ trình bày ảnh hưởng của khoảng trống từ vựng đối với các hệ thống dịch máy.