Cách xử lý khoảng trống từ vựng phụ thuộc rất nhiều vào các phương pháp dịch, cụ thể hơn – phụ thuộc vào cách ánh xạ từ ngơn ngữ nguồn sang ngơn ngữ đích.
Trong lịch sử phát triển dịch máy, hai mơ hình chuẩn được cơng nhận trong các nghiên cứu trước đây là dịch máy theo luật (Rule-Based Machine Translation - RBMT) [22],[25],[26] và dịch máy theo xác xuất (Statistical Machine Translation - SMT) [22], [7]. Trong khoảng mười năm gần đây các nghiên cứu về một hệ thống khác được đề cập nhiều với tên gọi là “Dịch máy theo mẫu” (Example Based Machine Translation - EBMT) [12] và [4]. Luận án tập trung nghiên cứu các cách tiếp cận của từng mơ hình với vấn đề khoảng trống từ vựng.
Mơ hình RBMT sử dụng các kiến thức về từng ngơn ngữ dưới dạng các luật. Mặc dù được chia ra làm nhiều thể nhỏ hơn dựa trên phương pháp như dịch thẳng cịn gọi là dịch từ sang từ (direct translation - hình 2.1), dịch chuyển đổi (transfer model - hình 2.2) hay dịch qua ngơn ngữ trung gian (inter-lingual model
– hình 2.3). Các mơ hình này đều xử lý ngơn ngữ nguồn bằng các luật dựa trên các tri thức ngơn ngữ (văn phạm và ngữ nghĩa …). Câu nguồn được phân tích thành chuỗi các từ hoặc cụm từ và ánh xạ sang thành phần tương ứng của ngơn ngữđích. Các mơ hình trên về cơ bản giống nhau. Sự khác nhau của các mơ hình trên là dịch thẳng chỉ dùng các luật về từ vựng, mơ hình dịch chuyển đổi chú trọng nhiều cấu
25
trúc ngữ pháp, cịn dịch qua ngơn ngữ trung gian tập trung nhiều ở mức ngữ
nghĩa.
Hình 2.3. Mơ hình dịch thẳng .
Hình 2.4. Mơ hình dịch chuyển đổi.
Hình 2.5. Mơ hình dịch qua ngơn ngữ trung gian.
Thành phần khơng thể thiếu của tất cả các mơ hình trên là từđiển. Cĩ thể sử
dụng ba loại từđiển: từđiển đơn ngữ ngơn ngữ nguồn, từđiển song ngữ và từđiển
đơn ngữ ngơn ngữđích. Việc xây dựng các từđiển chiếm một khối lượng lớn cơng việc cộng với việc bổ sung các luật sao cho khơng chồng chéo khiến cho mơ hình khĩ mở rộng. Việc đưa các luật dựa theo cách sử dụng ngơn ngữ phụ thuộc vào
Văn bản nguồn Phân tích văn bản nguồn Chuyển đổi sang văn bản đích Văn bản đích Văn bản nguồn Phân tích văn bản nguồn Tạo văn bản đích Văn bản đích Chuyển đổi từ và cấu trúc Văn bản nguồn Phân tích văn bản nguồn Tạo văn bản đích Văn bản đích Ngơn ngữ trung gian
26
quan điểm tạo luật của các trường phái ngơn ngữ học, vốn chưa thống nhất trong Việt ngữ. RMBT đã từng được nghiên cứu nhiều trong khoảng ba thập niên từ
những năm 70 thế kỷ trước. Hướng nghiên cứu thuần túy dịch theo tập luật văn phạm phi ngữ cảnh khơng được phát triển trong khoảng hơn một thập kỷ qua vì độ
phức tạp của tập luật. Tuy nhiên với việc phát triển các lý thuyết về văn phạm nét tăng cường (như HPSG, LFG được trình bày ở chương 3), các dạng dịch máy theo văn phạm – ngữ nghĩa đang cĩ xu hướng thịnh hành trở lại, nhất là trong các cơng trình dịch theo mẫu (Example-Based Machine Translation - EBMT). Đối với vấn
đề khoảng trống từ vựng, RBMT xử lý theo những gì mà từđiển cung cấp. Vì vậy xử lý khoảng trống từ vựng cũng chính là xử lý từđiển ở mức từ vựng. Các nghiên cứu [3], [17] và [31] đề xuất các giải pháp cho khoảng trống từ vựng bằng cách thay thế từ gần nghĩa nĩi chung khơng thích hợp với dịch máy Anh - Việt, khi tần suất khoảng trống từ vựng khá lớn, gây sai lệch về nghĩa giữa câu nguồn và đích.
Mơ hình dịch xác suất SMT dựa trên các mơ hình tốn học thống kê vốn khơng được các nhà ngơn ngữ học coi trọng trong nhiều thập kỷ trước, đã tạo bước
đột phá gần đây khi cĩ nhiều kho ngữ văn được xử lý theo phương pháp thống kê cho kết quả dịch nhanh với độ chính xác chấp nhận được [26]. Hai thuận lợi lớn về
mặt cơng nghệ là khả năng xử lý dữ liệu của các hệ thống tính tốn ngày càng tăng vượt bậc và khả năng lưu trữ ngữ liệu lên hàng trăm triệu văn bản phục vụ xử lý.
Ngồi sự khác biệt về phương pháp tính khơng dựa vào ngơn ngữ học - tức là khơng phụ thuộc tri thức về ngơn ngữ, mơ hình SMT cịn khác biệt RBMT ở chỗ
khơng cần sử dụng từđiển. Nguồn từ vựng được rút trích và đối chiếu dựa trên các kho ngữ liệu đơn ngữ hoặc song ngữ. Các kho ngữ liệu này càng lớn thì độ chính xác dịch thuật càng cao. Kho ngữ liệu cần chứa hàng chục triệu câu trở lên để cĩ thể tạo các số liệu thống kê đáng tin cậy [22].
Nguyên lý hoạt động của SMT được trình bày trong [26] thơng qua biểu thức 2.1. Trong biểu thức 2.1 ký hiệu P(e|f) là xác suất chuỗi f được dịch ra chuỗi e (xác suất của e khi cĩ f). P(e) là xác suất xuất hiện chuỗi e. SMT xây dựng mơ hình dịch sao cho biểu thức 2.1 đạt giá trị cực đại (nguồn: [26]):
27
(2.1)
Các mơ hình tính khác nhau được nghiên cứu và áp dụng cho từng cặp ngơn ngữ khác nhau. Dựa vào các điều kiện (thường là độ dài chuỗi) khi tính các xác suất thành phần, các mơ hình cĩ những kết quả dịch khác nhau. Đơn giản nhất khi chuỗi là 1 từ, mơ hình dịch được gọi là đối sánh từ. Nếu chuỗi cĩ n từ, thì mơ hình gọi là n-gram. Với n càng lớn, số lượng tính tốn càng nhiều, kết quả dịch càng chính xác.
Cĩ thể thấy rằng tất cả những khĩ khăn khi tạo tập luật trong RBMT giờđổi sang xây dựng mơ hình thống kê và cơng sức tạo từđiển chuyển sang tạo kho ngữ
liệu. Các kho ngữ liệu nĩi chung khơng phụ thuộc trường phái ngơn ngữ học. Tuy nhiên phương pháp SMT cĩ một điểm yếu quan trọng là khơng thể theo vết - nghĩa là khi dịch sai thì khĩ cĩ thể tìm ra vì đâu mà kết quả lại sai, và do đĩ khĩ cải thiện chất lượng dịch. Các mơ hình SMT khơng đề cập đến vấn đề khoảng trống từ vựng vì các mơ hình này khơng đối chiếu từ điển nên khơng cĩ khoảng trống từ vựng theo cách hiểu thơng thường: một từ trong câu nguồn khơng cĩ từ tương ứng trong câu đích. Bởi vì mặc dù trong ngơn ngữ nguồn, từ nào đĩ khơng cĩ từ tương ứng trong ngơn ngữđích, nhưng trong một câu cụ thể từđĩ vẫn được đối sánh với một từ nào đĩ trong câu nguồn. Vấn đề là những từ nguồn khơng cĩ từđích tương ứng trong RBMT sẽ vẫn phải cĩ các từđích tương ứng trong SMT với xác suất nào đĩ, dù khơng thật sát nghĩa. Kho ngữ liệu sẽ khơng lặp lại khi ánh xạ một từ nguồn vào một từ đích nhất định (hệ số thu hồi sẽ thấp). Hệ quả là chất lượng dịch (độ
chính xác) sẽ thấp. Một vài ý tưởng gần đây cải tiến chất lượng dịch bằng cách đối sánh cụm từ thay vì đối sánh các từ trong các kho ngữ liệu song ngữ [59], khi đĩ khơng chỉ các khoảng trống từ vựng, mà cả các hiện tượng từ lĩng, thành ngữ cũng cĩ thểđược giải quyết, phụ thuộc vào độ bao phủ của các kho ngữ liệu song ngữ. Vào thời điểm luận án được viết, chưa cĩ một kho ngữ liệu song ngữ Anh - Việt nào được cơng bốđể cĩ thể kiểm chứng các mơ hình dịch xác suất Anh - Việt.
28
Một mơ hình dịch máy mới được cơng bố gần đây dưới tên gọi dịch theo mẫu ([30], [35] và [41]). Mơ hình nguyên thủy được Nagao Makoto cơng bố lần
đầu vào năm 1984. Ý tưởng chính của EBMT là dịch theo luật dựa trên các mẫu
được tạo ra bằng cách xử lý kho ngữ liệu [41]. Vì vẫn cĩ các luật dù dưới dạng các mẫu, EBMT được một số nhà nghiên cứu cho là dạng riêng của RBMT, tuy nhiên EBMT khơng dùng từ điển mà dùng kho ngữ liệu. Để tạo một luật mới, thay vì phải bổ sung tập luật sao cho luật mới khơng mâu thuẫn các luật đã cĩ, EBMT thêm câu mẫu vào kho ngữ liệu song ngữ. Các khĩ khăn khi duy trì tập luật hay chọn từ tương đương ở RBMT được EBMT giải quyết bằng cơng cụ tốn học. Tập luật được lưu trữ vào một cơ sở dữ liệu dưới dạng các mẫu ví dụ để so khớp với câu nguồn. Mẫu nguồn sát nhất được chọn và câu đích được tạo theo mẫu đích tương ứng. Hai dự án lớn được tham chiếu nhiều trong những năm gần đây là – Pangloss/DIPLOMAT của đại học Carniegie Mellon với 726.000 cặp câu mẫu và ReVerb của đại học Trinity.
Ba bước dịch của EBMT là (xem thêm [30], [35]) 1. Tìm mẫu giống câu nguồn nhất.
2. Chỉnh phần câu nguồn trong mẫu sao cho giống câu nguồn.
3. Chỉnh phần câu đích trong mẫu theo cách đã chỉnh câu mẫu nguồn. Các tiêu chí chọn mẫu “giống nhất” là (ưu tiên từ trên xuống dưới)
- Các từ giống nhau (cùng mức khái niệm ngữ nghĩa) - Các từ loại giống nhau (cùng mức ngữ pháp)
- Các cấu trúc giống nhau
- Tổ hợp các thành phần giống nhau
Trở ngại lớn nhất của các mơ hình SMT và EBMT cho dịch máy Anh Việt là chưa cĩ một kho ngữ liệu song ngữđủ lớn nào được hồn thiện.
Từ những phân tích các đặc điểm của từng hệ thống nêu trên cĩ thể rút ra nhận xét sau: RBMT là mơ hình đơn giản, dễđổ vỡ (khơng dịch được) do quá tải tập luật và chọn từ, nhưng cĩ thể cải thiện bằng việc giới hạn phạm vi (chẳng hạn theo lĩnh vực chuyên ngành hẹp để tạo các từđiển ngành). RBMT phù hợp với các
29
ứng dụng vừa và nhỏ. Khoảng trống từ vựng luơn là vấn đề mà RBMT phải giải quyết.
Ví dụ dịch câu (E): i embarrass her /tơi/ làm lúng túng /cơ ấy/
Chương trình dịch thơng thường cho kết quả sau (E): {$i embarrass her$}
(V): */tơi/ làm lúng túng /cơ ấy/ Tuy nhiên câu dịch đúng phải là (E): {$i embarrass him$}
(V): /tơi/ làm cơ ấy lúng túng / /
Gặp khoảng trống từ vựng, các hệ dịch máy RBMT thơng thường để
nguyên từ nguồn vào văn bản đích. Như vậy khoảng trống từ vựng là một thách thức thật sự với các hệ dịch máy dựa trên tri thức ngơn ngữ. Hình 2.6. là kết quả
dịch câu “I love her” khơng cĩ khoảng trống từ vựng và câu “I embarrass her” cĩ chứa khoảng trống từ vựng dựa trên cơng cụ dịch trên trang web http://vdict.com
30
SMT và EBMT thích hợp với các dụ án lớn và cần kho ngữ liệu đơn ngữ và song ngữ rất lớn. Các chương trình dịch máy Anh Việt theo các mơ hình này hiện vẫn cịn ở giai đoạn nghiên cứu và chưa cĩ một kết quả nghiên cứu cụ thể nào về ảnh hưởng của khoảng trống từ vựng lên các mơ hình này.
2.3. Kết chương
Chương này đã trình bày các đặc điểm, nguồn gốc của khoảng trống từ
vựng. Khoảng trống từ vựng cĩ khả năng xuất hiện cao và gây khĩ khăn cho dịch máy. Các kết quả nghiên cứu cho thấy tần suất xuất hiện của khoảng trống từ vựng với mức 933/7455 từđược xét (khoảng 12,5%) trong cặp ngơn ngữ Anh – Việt cao hơn tần suất này ở cặp ngơn ngữ Anh – Ý và tỷ lệ phân bố trên các từ loại cũng khác nhau. Chương này cũng mơ tả các phương pháp dịch máy và đánh giá khả
năng tác động của khoảng trống từ vựng lên các phương pháp này.
Chương tiếp theo sẽ trình bày các cơ sở văn phạm hình thức được sử dụng trong luận án nhằm xử lý khoảng trống từ vựng.
31
Chương 3- CƠ SỞ LÝ THUYẾT VĂN PHẠM
Mơ hình RBMT xử lý câu nguồn và đích dựa trên các tri thức về ngơn ngữ. Các tri thức ngơn ngữ được chia thành các mức sau: từ vựng, ngữ pháp, ngữ
nghĩa…Một biểu diễn các tri thức ngơn ngữ theo một phương pháp nào đĩ là một văn phạm của ngơn ngữ đĩ. Cùng một ngơn ngữ cĩ thể cĩ nhiều văn phạm, được nhìn từ những gĩc độ khác nhau. Các văn phạm trình bày trong chương này được sử
dụng trực tiếp hoặc gián tiếp trong việc xây dựng từ điển song ngữ Anh – Việt ở
chương 5. Phần dưới đây sẽ trình bày các văn phạm nét được sử dụng gần đây trong ngơn ngữ tính tốn là văn phạm cấu trúc ngữ hướng tâm (Head-Driven Phrase Structure Grammar - HPSG) và văn phạm chức năng từ vựng (Lexical Functional Grammar - LFG).
3.1. Văn phạm cấu trúc ngữ hướng tâm (HPSG)
HPSG được đề xuất bởi Carl Pollard và Ivan A. Sag dựa trên văn phạm cấu trúc ngữ tổng quát (Generalized Phrase Structure Grammar –GPSG [43]). Hình 3.1 cho thấy mối liên quan giữa các lý thuyết văn phạm gần đây.
Vào năm 1955 nhà ngơn ngữ học Noam Chomsky cĩ nêu một giả thuyết nổi tiếng: mỗi câu được biểu hiện theo hai cấu trúc, cấu trúc nổi (surface structure) và cấu trúc chìm (deep structure), ở đĩ, cấu trúc nổi biểu hiện ngữ âm cịn cấu trúc chìm biểu hiện ngữ nghĩa. Cấu trúc chìm cĩ thể được trình bày theo dạng thức lơ gích. Ví dụ: Hai câu “Ba muốn ăn cơm” và “Ba muốn cắt tĩc” cĩ cấu trúc nổi giống nhau, đều là “Ba – Vmodal – Vt – N” nhưng cấu trúc chìm lại khác hẳn nhau và cĩ thể dùng lơ gích vị từđể miêu tả chúng. Ở câu đầu là “Ba muốn [Ba ăn cơm]” cịn
ở câu sau lại là “Ba muốn [ai đĩ cắt tĩc cho Ba]”. Hai cấu trúc này cĩ mối quan hệ
dựa trên những nguyên tắc ánh xạ nào đấy. Việc mơ tả các ánh xạ này bằng các cơng cụ tốn học sẽ cho phép máy tính xử lý được ngơn ngữ tự nhiên thơng qua các luật biến đổi.
32
Lý thuyết về văn phạm biến đổi được nhiều nhà nghiên cứu xem xét lại giả
thuyết “cấu trúc nổi biểu hiện ngữ âm cịn cấu trúc chìm biểu hiện ngữ nghĩa” của Chomsky. Cĩ hàng loạt ví dụ cho thấy cấu trúc nổi cũng tham gia biểu hiện nghĩa.
Để giải thích hiện tượng này, đã nảy sinh các lí thuyết khác nhau như GPSG (năm 1979), HPSG (năm 1986)…
Văn phạm cấu trúc ngữ tổng quát (Generalised Phrase Structure Grammar
- GPSG) được Gerald Gazda cơng bố vào năm 1979 và hồn thiện vào khoảng 1985, sử dụng các cấu trúc nét gọi là các siêu luật để kết hợp cú pháp và ngữ nghĩa thay vì phải sử dụng hai cấu trúc riêng biệt.
Hình 3.1. Các trường phái lý thuyết văn phạm của ngơn ngữ tính tốn hiện đại.
3.1.1. Tổng quan về HPSG
HPSG (ngữ pháp cấu trúc hướng tâm) là một ngơn ngữ hình thức cho phép mơ hình hĩa các thực thể ngơn ngữ. Mỗi thực thể ngơn ngữđược miêu tả bằng một
33
miền đơn nhất (a single domain) với một cấu trúc đặc trưng bao gồm những thuộc tính (attribute) và giá trị (value). Mỗi thành tố trong cấu trúc này được miêu tả bằng một cấu trúc đặc trưng mang tên gọi sign. Nĩ chứa ít nhất 3 thuộc tính (cịn gọi là nét): phonology, syntax, và semantics. Nhưng đây khơng phải là một lí thuyết về
ngữ âm nên thuộc tính ngữ âm chỉ là một danh sách các từ. Ngữ pháp này đã tích hợp cú pháp và ngữ nghĩa thành SYNSEM, và giá trị của SEM được mã hĩa thành các thơng tin ngữ nghĩa về các thành tố (argument). Nền tảng cho các giá trị trong lí thuyết này là các tình huống ngữ nghĩa (situation semantics) và được gọi là CONTEXT.
HPSG được sử dụng trong phần phân tích câu tiếng Anh rất thuận lợi nhờ
cấu trúc tổng quát, chặt chẽ về mặt tốn học và thuật tốn đơn giản. Trong HPSG, các tri thức ngơn ngữđược tổ chức trong những cấu trúc nét đặc biệt gọi là ma trận các giá trị. Hình 3.2 là một ví dụ về ma trận các giá trị. Trong ví dụ này ma trận cĩ các điểm đặc biệt sau:
1. Ma trận các nét. Mỗi nét cĩ một tên. Các nét cĩ thể nhận giá trị cụ thể
là một danh sách giá trị hoặc một ma trận giá trị. Ma trận trong hình 3.2 cĩ ba nét là HEAD (trung tâm), COMPS (bổ ngữ) và SPR (định ngữ).
2. Một ma trận phải thuộc về một kiểu xác định – là một cấu trúc các nét (như kiểu dữ liệu số nguyên, số thực trong ngơn ngữ lập trình). Các kiểu được tổ chức theo nguyên tắc kế thừa: Chẳng hạn một kiểu A
được dẫn xuất từ một kiểu B thì cĩ mọi tính chất của kiểu B. Ví dụ