Phân loại và hướng tiếp cậ n

Một phần của tài liệu Mô hình xử lý khoảng trống từ vựng trong dịch máy anh việt (Trang 25)

Trong khi Huỳnh Trung Tín và cộng sự trong [12] cho rằng khoảng trống từ

vựng chỉ là một trong sáu nguyên nhân gây ra hiện tượng dịch khơng sát thì Dougnal ([34], năm 1994) lại xếp các khoảng trống từ vựng với các từ lĩng và thành ngữ - cũng là trường hợp phải dùng một cụm từ cĩ kết cấu đặc biệt để chỉ

12

[32] do Dorr cơng bố năm 1994. Các trường hợp xuất hiện đặc thù của khoảng trống từ vựng được trình bày trong hai cơng trình này là:

1. Tính đặc thù về văn hĩa. Chẳng hạn

Tiếng Anh (E): Congressmen – Tiếng Việt (V): Đại biểu Quốc hội 2. Khơng cĩ khái niệm tương ứng : (E): accessible – (V) ???

3. Quá nhiều thơng tin: (E): whistle-stop: (V): Sự dừng lại trên đường đi vận

động bầu cử (để nĩi chuyện với cử tri) của các TT Mỹ

4. Khác thang đo: (E): billionaire (US dollar) (V): tỷ phú (tiền Việt) 5. Quá chung/quá riêng : (E): bitch - (V): con chĩ sĩi cái, con chồn cái (E): hut- (V): nhà gỗ tạm thời cho binh lính

6. Cĩ ẩn ý: (E): notorious – (V): ai cũng biết vì một hành động hoặc tính xấu nào đĩ (nổi tiếng xấu?)

7. Cĩ thơng tin về mức độ: (E):batter – (V): đập liên hồi, đánh dã man 8. Khác từ loại (E): attention! (danh từ)- (V): chú ý! (động từ)

9. Từ vay mượn: (E): outdoor – (V): ngồi trời

Một cách hình thức, khoảng trống từ vựng là trường hợp khi ánh xạ một từ

tiếng Anh sang tiếng Việt ta khơng cĩ từ tương đương. Cĩ 3 trường hợp được Dorr nêu trong [32] là: a) từ nguồn rộng nghĩa hơn từđích b) từ nguồn hẹp nghĩa hơn và c) từ nguồn và từđích cĩ một số nghĩa trùng, một số nghĩa khơng trùng (hình 2.1). Chẳng hạn: từ trong tiếng Đức khơng cĩ từ tương đương từ “vehicle” trong tiếng Anh, nhưng cĩ từ tương đối gần cĩ thể dùng thay thế như “car”, “van” ... chỉ cĩ

điều các từ này cụ thể hơn, và do đĩ khơng phải lúc nào cũng dùng thay thế được. Ngược lại, từ Anh “filly” cĩ nghĩa là “ngựa cái non” rõ ràng hẹp nghĩa (cụ thể

hơn) từ “con ngựa” trong tiếng Việt. Trong trường hợp thứ ba, chẳng hạn từ

“vegetable” tiếng Anh cĩ thể nĩi rất gần từ “rau” tiếng Việt, nhưng lại bao gồm cả

“khoai tây”, vốn khơng được coi là “rau” mà là “lương thực”, và khơng thể dùng

13 Từnguồn Từ đích Từ đích Từnguồn Từnguồn Từ đích a) b) c)

Hình 2.1. Các trường hợp gây ra khoảng trống từ vựng Cĩ nhiều cách tiếp cận để giải quyết vấn đề khoảng trống từ vựng.

Huỳnh Trung Tín và cộng sự trong [12] nêu ra các phương pháp dịch thủ

cơng khi gặp các khoảng trống từ vựng là: 1. Sử dụng từ chung / riêng hơn. 2. Thay bằng thành ngữ.

3. Dùng các cụm từ bổ sung ý nghĩa. 4. Lược bớt.

Dorr trong [32] (cơng bố năm 1994) đã đề xuất mơ hình xử lý theo phương pháp thứ nhất: sử dụng các từ gần nghĩa. Bài tốn đưa về việc xác định hai từ sát nghĩa dựa trên tiêu chí độ gần của nghĩa từ trong cơ sở dữ liệu từ vựng ngữ nghĩa. Tuy nhiên trong [32], Dorr đã khơng thực hiện với bất kỳ cặp ngơn ngữ cụ thể nào và chỉ dừng ở mức ý tưởng (sử dụng ngơn ngữ trung gian). Việc xác định hai từ sát nghĩa (chung hơn hoặc riêng hơn) là bài tốn phức tạp ngay cả khi cĩ cơ sở dữ liệu ngữ nghĩa từ vựng như WordNet [31] và điều dễ thấy là chất lượng dịch sẽ giảm do sai lệch thơng tin. Đề xuất của Dorr trong các cơng trình [31],[32] và [33] đã

được thực hiện trong mơ hình dịch qua ngơn ngữ trung gian (xem mục 2.2 “Các mơ hình dịch máy và khoảng trống từ vựng”). Phương pháp này sử dụng một cơ sở

từ vựng ngữ nghĩa (kiểu WordNet), ví dụ:

(E): bludgeon -(V): đánh bằng dùi cui [5]

Do “bludgeon” là khoảng trống từ vựng trong tiếng Việt, phải dùng Trong Wordnet [63] chẳng hạn, gần nghĩa với “bludgeon” là từ “hit”. Tìm “hit” trong [5] cĩ kết quả:

14

(E): “hit” – (V): đánh

Vì “hit” khơng phải là khoảng trống từ vựng nên cĩ thể dùng thay thế

“bludgeon”. Nếu từ gần nghĩa (từ “hit” chẳng hạn) vẫn là khoảng trống từ vựng thì tiếp tục tìm từ gần nhất cho đến khi tìm được từ cĩ từ tiếng Việt tương ứng. Kết quả dịch sẽ khơng thật sát nghĩa. Ví dụ: thay “bludgeon” trong câu sau bằng “hit” sẽđược:

(E): The fighter bludgeons his opponent (V): Người chiến binh đánh kẻ thù của anh ta. Câu dịch sát nghĩa phải là:

(V): Người chiến binh đánh kẻ thù của anh ta bằng dùi cui.

Việc xác định một từ là khoảng trống từ vựng trong một ngơn ngữ cụ thể

cũng là bài tốn phức tạp. Theo định nghĩa đã đưa ở chương 1, nếu một từ khơng cĩ từ tương ứng trong ngơn ngữ khác thì đĩ là khoảng trống từ vựng. Nhưng phương pháp tìm cĩ thể đưa ra các kết quả khác nhau. Janssen [44] đề xuất một giải thuật xác định khoảng trống từ vựng là Translation Group (TGR), sử dụng cả

từ điển song ngữ kết hợp cơ sở ngữ nghĩa EuroWordNet. Các bước xác định khoảng trống từ vựng giữa tiếng Anh và Ý được Janssen trình bày như trong hình 2.2. Trong hình 2.2 Janssen lọc lấy các từđơn (trong từ điển cịn cĩ các từ phức), rồi loại bớt các từ tìm thấy trong từđiển đơn ngữ tiếng Ý, sau đĩ phân chia các từ

khơng tìm thấy nghĩa thành các từ là khoảng trống từ vựng do từ gốc khơng cĩ nghĩa tương đương hoặc từ gốc cĩ nghĩa nhưng từ biến hình khơng cĩ nghĩa (semantics gap). Loại khoảng trống từ vựng cĩ gốc từ cĩ nghĩa lại được kiểm tra xem cĩ phải là động từ cĩ khuơn xác định hoặc cĩ từ so sánh được trước khi ghi vào mục khoảng trống ngữ nghĩa. Mục tiêu của quá trình này là tìm các khoảng trống từ vựng do ngữ pháp và cấu tạo từ gây ra. Việc tìm ra nguyên nhân gây ra khoảng trống từ vựng cĩ thể hữu ích khi xử lý chúng trong các ứng dụng. Cần lưu ý là [44] khơng đề cập tới các ứng dụng cụ thể, và do đĩ chỉ dừng ở mức khảo sát khoảng trống từ vựng Anh – Ý.

15

Tuy nhiên do khơng cĩ cơ sở từ vựng ngữ nghĩa tiếng Việt, việc xác định khoảng trống từ vựng Anh – Việt chỉ cịn cĩ thể dựa trên từ điển song ngữ Anh – Việt. Simple word (46,371 units) yes No Dict. collocation yes No

(2,388 units) Dict. gap

yes No

(488 units) sysematic gap

yes No

(592 units) Support verb

yes No

(3461 units) Sematic field

yes No (201 units) Manual: 7,076 Simple word (46,371 units) yes No yes No Dict. collocation yes No

(2,388 units) Dict. gap

yes No

yes No

(2,388 units) Dict. gap

yes No

(488 units) sysematic gap

yes No

yes No

(488 units) sysematic gap

yes No

(592 units) Support verb

yes No

yes No

(592 units) Support verb

yes No

(3461 units) Sematic field

yes No

yes No

(3461 units) Sematic field

yes No

(201 units) Manual: 7,076

yes No

yes No

(201 units) Manual: 7,076 Hình 2.2. Các bước xác định khoảng trống từ vựng Anh - Ý (nguồn: [44])

2.1.3. Hướng tiếp cận của luận án trong việc xử lý khoảng trống từ vựng

Luận án này chọn phương pháp sử dụng các cụm từ bổ sung (thường là ngữ) khi gặp khoảng trống từ vựng khi dịch máy Anh Việt. Khĩ khăn nảy sinh là cấu trúc cụm từ bổ sung thường phức tạp và khi tham gia vào cấu trúc câu đích cĩ thể làm cấu trúc câu bị biến dạng và khơng phù hợp với ngơn ngữ đích. Một số

phép xử lý cần được thực hiện nhằm giải quyết khĩ khăn trên. Các phép xử lý nhằm duy trì cấu trúc câu tiếng Việt được trình bày trong [10] bao gồm:

- Phép lược: rút bớt thành tố từ một cấu trúc để tạo ra một cấu trúc đơn giản hơn. Phép lược phải đảm bảo hai tiêu chí là: a) khơng được biến câu trọn vẹn thành câu khơng trọn vẹn và b) khơng làm thay đổi các quan hệ ngữ pháp vốn cĩ giữa các thành tố.

16

- Phép bổ sung: thêm một thành tố vào một cấu trúc (thường là các hư

từ).

- Phép cải biến cấu trúc: biến đổi một cấu trúc sang một cấu trúc khác thơng dụng hơn.

Để cĩ thể xử lý các cụm từ do từ điển cung cấp, luận án xây dựng các mẫu cụm từ và xây dựng giải thuật xử lý các mẫu cụm từ. Các mẫu cấu trúc của cụm từ

này được trình bày ở chương 6.

2.1.4. Khảo sát khoảng trống từ vựng giữa hai ngơn ngữ Anh - Việt

Để làm rõ ảnh hưởng của khoảng trống từ vựng tới dịch máy Anh Việt, luận án sẽ tiếp cận từ hai gĩc độ: gĩc độ từđiển và gĩc độ ngữ dụng. Khơng phải mọi hệ thống dịch máy đều cần từđiển. Các hệ dịch xác suất và dịch theo mẫu thường dùng các kho ngữ liệu song ngữđể tìm các từ hoặc cụm từ tương ứng. Nhưng nếu hệ thống dịch chuyển đổi thì từ điển là thành phần khơng thể thiếu. Douglas [34] chỉ ra rằng từ điển là thành phần lớn nhất của dịch máy (dịch chuyển đổi), cần nhiều nhân lực nhất và tốn nhiều thời gian xử lý nhất. Luận án khảo sát các từđiển cung cấp bởi Hồ Ngọc Đức [5], Bùi Phụng [14], và từđiển của Viện khoa học xã hội [16] và thấy khơng cĩ sự khác biệt lớn nào giữa các từđiển này.

Các điểm chung cho các từđiển song ngữ Anh Việt [5],[14] và [16] là các biến hình, biến thể của một từ được đưa về một mục từ. Như vậy các từ dạng biến thể (chẳng hạn danh từ số nhiều như “books”, các thì của động từ “booking”, “booked”, tính từ so sánh…) khơng được coi là mục từ riêng, ngoại trừ khi các từ

này cĩ ý nghĩa khác với từ gốc. Số lượng các mục từ của [5] là 58.187 từ. Tuy nhiên một từ cĩ thể cĩ nhiều nghĩa, và cĩ thể sử dụng với nhiều từ loại khác nhau, khi đĩ tất cả các nghĩa được liệt kê theo một thứ tự. Tồn bộ từđiển [5] cĩ 132.298 nghĩa, như vậy một từ cĩ bình quân hơn 2 nghĩa.

17

Bảng 2.1. Mục từ trong từđiển thơng thường (nguồn: [5]). @abstract /'ỉbstrỉkt/ * tính từ - trừu tượng - khĩ hiểu - lý thuyết khơng thực tế !abstract number - (tốn học) số hư * danh từ - bản tĩm tắt (cuốn sách, luận án, bài diễn văn...) - vật trừu tượng

=in the abstract+ trừu tượng, lý thuyết * ngoại động từ

- trừu tượng hố - làm đãng trí

- rút ra, chiết ra, tách ra

=to abstract butter from milk+ tách bơ ra khỏi sữa - lấy trộm, ăn cắp

- tĩm tắt, trích yếu

Ví dụ: trong [5], mục từ “abstract” cung cấp các thơng tin như ở bảng 2.1. Trong bảng 2.1 mỗi mục từđược ký hiệu bằng “@”, từ loại bắt đầu bằng “*”, các nghĩa khác nhau đặt trên các dịng khác nhau và bắt đầu bằng dấu “-“. Cụm từ cố định (trường hợp ngoại lệ) được ký hiệu bởi đấu “!” cịn các ví dụ được đánh dấu bằng “=” cho phần tiếng Anh, “+” cho phần tiếng Việt.

Trong ví dụ này, từ gốc “abstract” cĩ thể nhận 3 từ loại là tính từ, danh từ

18

“abstract” cĩ thể nhận hai nghĩa và khi là động từ thì cĩ thể ánh xạ thành một trong năm nghĩa tiếng Việt.

Một vấn đề nảy sinh là chọn nghĩa nào (đánh dấu bằng dấu “-” cụ thể là “bản tĩm tắt” hay “vật trừu tượng”…) và trong một nghĩa cĩ nhiều từđồng nghĩa, chọn từ nào (“lấy trộm” hay “ăn cắp” …). Mặc dù vấn đề chọn từ nằm ngồi phạm vi nghiên cứu của luận án này, nhưng thực tế việc chọn nghĩa từ cĩ một mối liên quan mật thiết với khoảng trống từ vựng. Thật vậy, với những mục từ cĩ nhiều nghĩa, một số nghĩa cĩ thể cĩ từ tương ứng, một số nghĩa khơng cĩ từ tương ứng. Như vậy nếu một từ cĩ N nghĩa, trong đĩ M nghĩa khơng cĩ từ tương ứng, thì xác suất khoảng trống từ vựng của từ đĩ là P =M/N. Trong điều kiện chưa giải quyết

được bài tốn chọn nghĩa từ thì giải pháp đơn giản nhất là chọn nghĩa cĩ từ tương

ứng thay vì chọn nghĩa cĩ khoảng trống từ vựng. Trong ví dụ trên, nếu gặp từ

“abstract” dạng tính từ, chọn nghĩa “trừu tượng” khơng gây ra khoảng trống từ

vựng, trong khi chọn nghĩa “khơng thực tế” sẽ tạo ra khoảng trống từ vựng. Tuy nhiên trong một số trường hợp, nếu chọn các nghĩa cĩ liên quan đến khoảng trống từ vựng cĩ thể cho một bản dịch sát nghĩa hơn. Thống kê được đưa trong bảng 2.2. Trường hợp một từ cĩ P<1 tức là một số nghĩa cĩ từ tương đương, một số nghĩa cĩ cụm từ tương đương. Luận án tập trung giải quyết các trường hợp cĩ P=1 là khi mọi nghĩa đều là cụm từ (xem ví dụ trong bảng 2.3).

Như vậy cĩ 24.895 từ trong số 58.187 từ liệt kê trong từ điển cĩ liên quan

đến khoảng trống từ vựng, trong đĩ 16.435 từ chắc chắn là khoảng trống từ vựng (xác suất P=1 tức là mọi nghĩa đều khơng cĩ từ Việt tương đương). Bảng 2.3 liệt kê một số trường hợp khoảng trống từ vựng cĩ P=1.

Nếu các nghĩa từđược chọn với xác xuất như nhau, thì xác suất để một từ là khoảng trống từ vựng sẽ là 16.435/58.187 = 0,28 hay cứ 4 từ thì cĩ một từ là khoảng trống từ vựng. Tuy nhiên trên thực tế các trường hợp khoảng trống từ vựng trong từđiển xuất hiện trong các văn bản (ngữ dụng) khơng cùng xác suất.

Về mặt từ loại, bảng 2.4 cho thấy phân bổ các từ trong [5] theo từ loại cĩ xác suất khoảng trống từ vựng P=1.

19 Bảng 2.2. Xác suất một từ là khoảng trống từ vựng P Số từ Tỷ lệ 1 16.435 28% >0,9 16.443 28% >0,8 16.642 29% >0,7 17.533 30% >0,6 19.037 33% >0,5 19.674 34% >0,4 22.905 39% >0,3 24.188 42% >0,2 24.889 43% >0,1 24.895 43% Bảng 2.3. Ví dụ các từ là khoảng trống từ vựng (xác suất P=1). Các khoảng trống từ vựng với P=1 Từ Nghĩa abase làm hạ phẩm giá abasement sự làm hạ phẩm giá abatable cĩ thể làm dịu

abatis đống cây chướng ngại abatised cĩ đống cây chướng ngại abbacy chức vị trưởng tu viện abbess bà trưởng tu viện abbot cha trưởng tu viện

abeyance tình trạng tạm thời khơng cĩ người nhận Bảng 2.4. Khoảng trống từ vựng theo từ loại cĩ P=1. Từ loại Số lượng danh từ 11.916 tính từ 3.297 ngoại động từ 817 nội động từ 163 phĩ từ 120 động từ 87

20 Từ loại Số lượng thán từ 17 đại từ 7 Khơng rõ 7 đại từ sở hữu 3 đại từ phản thân 1

Bảng 2.5. Các khoảng trống từ vựng theo ngữ dụng từ 8725 câu của Penn TreeBank

Từ Từ loại Nghĩa tiếng Việt Số lhiần xuện ất

able tính từ cĩ đủ tư cách 14

abortion danh từ tình trạng phát triển khơng đầy đủ 32

accepted tính từ đã được thừa nhận 3

accountable tính từ cĩ thể nĩi rõ được 1

accountant danh từ nhân viên kế tốn 2

actively phĩ từ tích cực hoạt động 1

actuarial danh từ chuyên viên thống kê 2

adapter danh từ người làm thích nghi 2

adjustable tính từ cĩ thể làm cho thích hợp 3 adjustment danh từ sự sửa lại cho đúng 2

affidavit danh từ bản khai cĩ tuyên thệ 4

Thực tế cho thấy các từ xuất hiện nhiều nhất trong các văn bản phụ thuộc vào từ loại và lĩnh vực mà văn bản đĩ đề cập (ngữ dụng). Bảng 2.5 thống kê một số từ thường gặp nhất trong dữ liệu của Penn Treebank [62], tập hợp ngữ liệu từ

các bài viết cĩ thể loại báo chí thuộc lĩnh vực xã hội. Luận án khảo sát 8725 câu ngữ liệu của Penn TreeBank, với 176.625 từ bao gồm 15.284 từ chưa xử lý (chẳng hạn “say”, “said” được coi là hai từ vì khác nhau về hình thức). Bảng 2.5 thống kê các từ xuất hiện trong kho ngữ liệu huấn luyện, sắp xếp theo thứ tự từđiển.

Việc thống kê các từ liên quan khoảng trống từ vựng trong một văn bản cho thấy xác suất xảy ra khoảng trống từ vựng khơng chỉ phụ thuộc vào thể loại văn bản mà cịn phụ thuộc vào lĩnh vực.

21

Tuy nhiên việc xác định một từ tiếng Anh (bao gồm cả từ biến hình – chẳng hạn “books”, “booking”, “booked”) cĩ gây nên vấn đề khoảng trống từ vựng hay khơng, khơng đơn thuần là tìm và đếm các từ mà từđiển phải sử dụng cụm từ để

diễn giải, vì hai lý do sau:

- Từ tiếng Anh trong các văn bản khơng cĩ trong từ điển. Các từ điển thơng thường chỉ chứa các từ gốc (chẳng hạn chỉ chứa từ “book” mà khơng chứa “books”, “booked”…), ngoại trừ các từ đặc biệt. Các từ trong văn bản là các biến

Một phần của tài liệu Mô hình xử lý khoảng trống từ vựng trong dịch máy anh việt (Trang 25)

Tải bản đầy đủ (PDF)

(167 trang)