Phương pháp “Góc tương tự” của Carroll

Một trong những cách thức so khớp còn chưa được nhiều người biết đến, do Carroll đề xuất, đó là đo độ tương tự bằng góc lượng giác. Cách đo này xem xét đến cả yếu tố độ dài (length), lẫn nội dung (content) của hai câu. Đầu tiên, xét ví dụ sau: Nếu xem (2.3a) là câu cần dịch, thì trong tập ứng viên gồm các câu từ (2.3b-2.3d), đâu là giải pháp so khớp tốt nhất?

Ví dụ (2.3):

a. Select ‘Symbol’ in the Insert menu.

b. Select ‘Symbol’ in the Insert menu to enter a character from the symbol set. c. Select ‘Paste’ in the Edit menu.

d. Select ‘Paste’ in the Edit menu to enter some text from the clip board.

Theo như các phương pháp so khớp vừa trình bày ở trên, chắc chắn (2.3c) sẽ là câu trả lời, bởi so với câu đầu vào, nó chỉ khác ở 2 từ mà thôi, trong khi con số tương ứng đối với (2.3b) là 8 từ. Tuy nhiên, nhìn bằng trực quan cũng có thể thấy được chính (2.3b) mới là câu so khớp tốt nhất. Không những thế, độ tương tự giữa (2.3a) và (2.3c), tưởng chừng như sẽ lớn hơn so với cặp (2.3b) và (2.3d), nhưng thực tế lại hoàn toàn ngược lại. Phương pháp “Góc tương tự” do Carroll đề xuất sau đây sẽ giải quyết tình huống này.

Đầu tiên, Carroll định nghĩa khoảng cách δ (x, y) giữa hai câu x và y dựa trên yếu tố

ngữ nghĩa của các từ thành phần cấu tạo nên chúng (Cách định nghĩa này hoàn toàn tương tự như khái niệm khoảng cách trong giải thuật DP-Matching, mà cách tính nó sẽ được trình bày chi tiết trong mục 3.1.4.2).Ở đây chỉ xin được nêu qua ý tưởng của nó. Khoảng cách thực chất là tổng chi phí khi so khớp các cặp từ tương ứng giữa hai câu.Nếu trong quá trình so khớp, chúng ta bắt gặp cặp từ:

 Giống nhau hoàn toàn: Lúc này chi phí so khớp sẽ là 0.

 Khác nhau: Lúc đó, căn cứ vào mức độ gần gũi về mặt ngữ nghĩa để quyết định chi phí dành cho chúng. Lẽ dĩ nhiên, nếu chúng càng tương tự nhau (chẳng hạn: cùng kiểu từ loại, có độ đồng nghĩa cao trong Thesaurus), chúng sẽ được thay thế cho nhau, và chi phí cho một phép thay thế thường rất thấp. Ngược lại, có thể phải áp dụng các thao tác so khớp với chi phí cao như: Insert (thêm từ), hay Delete (Xoá từ) (Các thao tác này cũng sẽ được trình bày kỹ trong giải thuật DP-Matching).

Để dựng được “góc tương tự” giữa 2 câu x và y, ta xây dựng một tam giác với độ

dài 3 cạnh lần lượt là :δ (x, y); δ (x, ∅) và δ (y, ∅) (Trong đó δ (x, ∅) ; δ (y, ∅)

lần lượt là khoảng cách giữa x và y với câu rỗng. Góc tương tự θxygiữa x và y được

xác định bởi công thức “nửa sin” sau đây:

( ) ( ) ( ) ( ) ( ) { ∅ ∅} × ∅ − ∅ − = , , , min 2 , , , 2 sin y x y x y x xy δ δ δ δ δ θ (2.1)

Bảng sau đây trình bày một số kết quả đã tính được khi cho các cặp câu (2.3).Theo đó, góc 0 độ ở dòng đầu tiên cho thấy sự sự tương tự hoàn toàn về mặt “chất” (hay nói cách khác là nội dung) giữa (2.3a) và (2.3b), mặc dù chúng khác nhau về “lượng” (độ dài). Tương tự, dòng thứ 2 và 3 cho thấy: Hai cặp câu (2.3a,c) và (2.3b,d) có khác nhau cả về “lượng” và “chất” , nhưng sự khác nhau trong cặp thứ hai là “ít” hơn.

x y δ (x,y) δ (x,∅) δ (y, ∅) θxy

(2.3a) (2.3b) 125 113 238 0O

(2.3a) (2.3c) 103 113 125 42O

(2.3b) (2.3d) 103 238 250 22O

Bảng 2. 2 Góc tương tự giữa một số cặp câu trong ví dụ (2.3) 2.5. Giới thiệu hai kiểu hệ dịch EBMT thông dụng

2.5.1. Hệ D3 (Dp-match Driven transDucer)

Đây là một hệ EBMT cụ thể đã được Sumita đề xuất năm 2003, nghĩa là: Hệ dịch máy dựa trên so khớp quy hoạch động. Sở dĩ có tên như vậy, vì trong pha Tìm kiếm (Retrieve), hệ chọn ra từ PC những câu tương tự nhất với đầu vào căn cứ vào khoảng cách ngữ nghĩa giữa chúng thông qua giải thuật so khớp quy hoạch động (DP-Matching Algorithm) giữa hai dãy từ (word sequences)

D3 là hệ được lựa chọn làm nền để xây dựng nên hệ dịch cho đề tài này, do vậy nó sẽ được trình bày rất kỹ trong chương 3 của luận văn. Ở đây, chỉ xin được trình bày những khái niệm chung nhất về D3 để tiện so sánh với các hệ khác.

Theo như giải thuật DP (được trình bày cụ thể ở chương 3), khoảng cách giữa câu đầu vào và câu ngữ liệu bất kỳ trong PC (biểu diễn dưới dạng word sequence) được ký hiệu là dist và tính theo công thức:

dist = example input L L SEMDIST D I + ∑ × + + 2 (2.2) 31

Trong đó:

 I, D lần lượt là số Insertion và Deletion (các từ cần thêm vào và xoá đi

để thu được input từ example)

 SEMDIST: là khoảng cách về mặt giữa 2 từ thay thế (Substitution)

trong input và Example, có thể xác định dựa vào Thesaurus, có giá trị biến thiên từ 0 đến 1.

 Linput, Lexample lần lượt là độ dài (số lượng từ) trong input và example.

Xét một ví dụ đơn giản sau, với hai câu s1 và s2:

Dễ dàng nhận thấy : I=D=0, đồng thời do “color” và “design” không hề có sự tương đồng nào về mặt nghĩa nên từ Thesaurus xác định được khoảng cách giữa chúng là : SEMDIST(“color”, “design”) = 1. Rút ra: dist(s1, s2) = 6 6 1 2 0 0 + × + + =0.167.

Sau đó, các câu ứng viên được tổng quát hoá thành mẫu (căn cứ vào sự giống và khác nhau so với input). Một số luật heuristic sẽ giúp chọn ra được mẫu tốt nhất.

Cuối cùng, bằng sự hỗ trợ của từ điển song ngữ, chúng ta sẽ điều chỉnh (adapt) được

câu dịch của mẫu thành câu dịch cho input.

Đặc điểm đặc trưng nhất của D3 là trong giai đoạn dịch: không cần đến những sự phân tích cú pháp (như hệ HPAT dưới đây), nếu có câu tương tự với đầu vào trong PC thì chắc chắn câu được chọn sẽ là tốt nhất vì bản thân độ đo DP đã được chứng minh là rất đáng tin cậy. Hệ này đã được ứng dụng và triển khai rất thành công trong các hệ dịch Nhật-Anh. Chi tiết về nó được đề cập cụ thể trong chương 3.

2.5.2. Hệ HPAT (Hierarchical Phrase Alignment based Translation)

Nếu D3 sử dụng tập mẫu để tính độ tương tự với đầu vào bằng giải thuật DP- Matching, thì HPAT lại sử dụng để phân tích cú pháp nhằm tạo ra các mẫu chuyển đổi (transfer patterns) thông qua bộ HPA (Hierarchical Phrase Alignment). HPA là bộ xác định các từ hoặc cụm từ tương ứng giữa 2 vế (ngôn ngữ nguồn và đích) trong 1 cặp câu song ngữ. Nó nhận đầu vào là cặp câu đó và trả về tất cả các cụm từ tương ứng có thể giữa chúng. Chẳng hạn, xét cặp câu:

(2.5.2.1) E: We are watching a football match on television V: Chúng tôi đang xem một trận bóng đá trên ti-vi Sau khi qua bộ HPA, chúng ta thu được các kết quả sau:

television  ti-vi on television  trên ti-vi

a football match on television  một trận bóng đá trên ti-vi.

are watching a football match on television đang xem một trận bóng đá trên ti-

vi…

Cách thức làm việc của HPA như sau:

- Đầu tiên, 2 câu (chẳng hạn Tiếng Anh và Tiếng Việt) sẽ được phân tích cú pháp một cách độc lập, kết quả thu được 2 cây cú pháp.

- Tiếp theo, sử dụng chương trình liên kết từ (alignement-program) để xác định các từ tương ứng.

Cuối cùng, HPA sẽ lấy ra tất cả các cặp cụm từ tương ứng trong hai cây nếu chúng thoả mãn đồng thời hai tiêu chí sau:

* Số lượng content word (từ nội dung) ở cả hai cụm là bằng nhau (để đảm bảo tương ứng về mặt thông tin) (Khái niệm content word có thể xem ở mục 3.2.1.1.1) * Cả hai đều có cùng kiểu ngữ pháp.

Hình 2. 6 Sơ đồ khối bộ HPA 2.5.3. So sánh giữa hai hệ dịch:

Có thể thấy rằng sự khác biệt chủ yếu giữa hai hệ dịch trên chính là ở chỗ cách sử dụng tập mẫu để chọn ngữ liệu phù hợp. Nếu D3 sử dụng nó để tính độ tương tự với đầu vào bằng giải thuật DP-Matching, thì HPAT lại sử dụng để phân tích cú pháp nhằm tạo ra các mẫu chuyển đổi (transfer patterns).

Xét về mặt chất lượng dịch, theo nghiên cứu và thống kê của các nhà khoa học Nhật Bản, D3 mang lại chất lượng câu dịch tốt hơn, nhưng chỉ mang lại kết quả khi PC có ngữ liệu “đủ gần” với đầu vào. Trong lúc đó, HPAT có chất lượng ở mức trung bình khá.

Tìm kiếm cặp cụm từ tương đương

Các cặp cụm từ tương đương HPA Parser Tagger Parser Tagger Word Alignment

Ngôn ngữ nguồn Ngôn ngữ đích

D3 HPAT

Đơn vị dịch câu Đơn vị ngữ pháp (cụm từ, ngữ…)

Độ phủ hẹp rộng

Chất lượng dịch tốt Trung bình

Bảng 2. 3 So sánh một số tính năng giữa D3 và HPAT

Để có được kết quả này, các nhà khoa học đã thử nghiệm với hai hệ bằng một số lượng câu dịch khá lớn.Cách thức thử nghiệm như sau: Từ một tập gồm 200.000 câu, chọn ra tập con gồm 500 câu bất kỳ để dịch, 199.500 cặp còn lại là tập mẫu. Kết quả thu được như sau. Trong đó chất lượng câu dịch đánh giá bằng 5 mức:

-Mức S: Câu dịch hoàn hảo, như là người (chuyên gia) dịch.

-Mức A: Câu dịch tốt, không sai về cả hai phương diện thông tin và ngữ pháp.

-Mức B:Câu dịch dễ dàng để hiểu, dù mắc một vài lỗi nhỏ về ngữ pháp hay thông tin biểu đặt.

-Mức C:Câu dịch không rõ, còn sai ngữ pháp, nhưng cố thì vẫn có thể hiểu được. -Mức D:Câu dịch không thể chấp nhận được, thông tin quan trọng bị dịch sai hoàn toàn. D3 (%) HPAT (%) S 57.00 38.60 A 13.00 21.20 B 7.60 17.60 C 5.80 6.00 D 16.60 16.60

Bảng 2. 4 Số liệu thống kê chất lượng dịch giữa D3 và HPAT.

(Nguồn: EBMT, SMT, Hybrid and More:ATR Spoken Language Translation

System -Eiichiro SUMITA, Yasuhiro AKIBA, Takao DOI, Andrew FINCH, Kenji IMAMURA, Hideo OKUMA, Michael PAUL, Mitsuo SHIMOHATA, Taro WATANABE )

Như vậy, tỷ lệ câu dịch hoàn hảo và tốt của D3 và HPAT lần lượt là: 70% và 59.80%.

Kết chương

Chương này đã nêu lên bức tranh toàn cảnh về một lý thuyết dịch rất mới và cũng rất

hiệu quả: Lý thuyết dịch máy trên nền ví dụ (hay So khớp tập mẫu).Từ những

vấn đề khái quát nhất như: Khái niệm, đặc trưng và sơ đồ khối đến việc đi sâu tìm hiểu những lý thuyết được xem là nền tảng của Dịch máy trên nền ví dụ: Cách thức xây dựng tập ngữ liệu, tổ chức lưu trữ các câu ngữ liệu; cách thức so khớp lọc ra những ngữ liệu tương tự nhất và cơ chế điều chỉnh ngữ liệu để thu được câu dịch cuối cùng. Chương 2 cũng giới thiệu khái quát hai hệ dịch EBMT rất nổi tiếng hiện nay: hệ D3 và HPAT.

Trong chương tiếp theo, báo cáo sẽ nghiên cứu chi tiết hệ D3, lấy đó làm khung xây dựng nên hệ dịch Anh-Việt cho tác giả, đồng thời đề xuất hệ thống các giải thuật mới để làm cho hệ dịch được tốt hơn.

Chương 3: Bài toán xây dựng hệ dịch tự động Anh-Việt dựa trên so khớp tập mẫu

3.1. Hệ dịch D3

3.1.1 Giới thiệu chung

D3 là một mô hình dịch máy trên nền ví dụ, được đề xướng bởi một nhà khoa học Nhật Bản có tên là Sumita. Mô hình này đã được thử nghiệm và gây đuợc ấn tượng trong một hệ dịch từ tiếng Nhật sang tiếng Anh trong lĩnh vực du lịch. D3 yêu cầu một tập mẫu, gồm các cặp câu song ngữ, nhưng trong quá trình dịch chúng phải được biểu diễn dưới dạng dãy từ (word sequence).

Để dịch một câu đầu vào, hệ thống sẽ tìm kiếm trong tập ngữ liệu những cặp câu nào có phần ngôn ngữ nguồn tương tự nhất với nó. Khái niệm “tương tự” ở đây sẽ được lượng hoá bằng một độ đo ngữ nghĩa gọi là “edit-distance”. Sau đó, với mỗi một cặp câu vừa được chọn ra, hệ thống sẽ so sánh phần ngôn ngữ nguồn của nó với câu đầu vào, lọc ra các thành phần khác nhau giữa chúng để tổng quát hoá câu ngữ liệu thành các mẫu (patterns). Công đoạn cuối cùng chỉ là chọn ra mẫu phù hợp nhất và thực hiện phép thay thế các thành phần khác nhau nói trên để có được câu dịch cần tìm từ phần ngôn ngữ đích của mẫu đó. Hình sau sẽ mang lại một sự hình dung

đầu tiên về phương thức làm việc của D3, trong đó các công đoạn “tìm kiếm” và

“sản sinh mẫu” được thể hiện bằng hai khối “Retreival” và “Adapt”:

Những nội dung chính:

• Nghiên cứu chi tiết hệ D3 (Dp-match Driven transDucer) và giải thuật DP-matching.

• Trên cơ sở phân tích những ưu, nhược điểm của hệ, đề xuất hệ thống các giải pháp để làm cho nó được tốt hơn, cụ thể là các vấn đề sau:

o Tổ chức lưu trữ ngữ liệu bằng đồ thị.

o Kết hợp giải thuật Dp-matching với giải thuật A* trong pha So khớp để chọn ra tập ngữ liệu tương tự nhất.

Hình 3. 1 Minh hoạ cách thức làm việc của D3 3.1.2. Các đặc điểm và tính năng

 D3 là hệ dịch dựa hoàn toàn vào tập ngữ liệu để xây dựng phương thức dịch

cho mình, không cần phải phân tích cú pháp của câu, hay xây dựng cây chuyển đổi cú pháp giữa hai ngôn ngữ.

 D3 sản sinh ra các mẫu dịch (Translation Patterns) dựa trên sự so sánh

những điểm giống và khác nhau giữa câu đầu vào với tập câu ứng viên (được xem là tương tự nhất) với nó sau khi lọc ra từ tập mẫu.

3.1.3. Cấu hình

Output: Tôi / thích / màu sắc Input: I / like / the / color

RETRIEVE

Example I / like / the / trademark Tôi / thích / thương hiệu

ADAPT

Hình 3. 2 Cấu hình của D3 (Các nguồn dữ liệu và các khối xử lý chính)

Theo như hình trên, chúng ta thấy hệ dịch D3, cũng giống như một hệ dịch Example- Based tổng quát, cần sử dụng tới 3 nguồn dữ liệu. Đó là:

* Kho dữ liệu song ngữ: (Bilingual Corpus):Yêu cầu huấn luyện đối với kho ngữ liệu hoàn toàn giống như phần trình bày (2.3.2.). Tham gia vào giai đoạn “Tìm kiếm ngữ liệu tương tự”

* Từ điển đồng nghĩa: (Thesaurus):

Kho ngữ liệu song ngữ Từ điển đồng nghĩa Từ điển song ngữ

Tìm kiếm ngữ liệu tương tự

Sản sinh mẫu Chọn mẫu phù hợp nhất Thay thế Input Sentence Output Sentence 38

Hình 3. 3 Cấu trúc phân cấp của Từ điển đồng nghĩa (Thesaurus)

Từ điển đồng ngữ được xây dựng với mục đích chính là giúp xác định được độ đồng nghĩa (hoặc khoảng cách về mặt ngữ nghĩa) giữa hai từ thuộc cùng một ngôn ngữ.Trong D3, từ điển đồng nghĩa được xây dựng ở cả ngôn ngữ nguồn và ngôn ngữ đích.Chúng được sử dụng trong hai giai đoạn là: “Tìm kiếm ngữ liệu tương tự” và “Sản sinh mẫu”.

Từ điển đồng nghĩa gồm một số lớp nghĩa được phân cấp, theo chủ đề của từ đi từ trừu tượng đến cụ thể. Số lớp phân cấp càng lớn, nghĩa là số chủ đề càng nhiều thì độ đo ngữ nghĩa càng chính xác. Sau khi phân lớp xong, chúng ta sẽ tiến hành đánh số mức cho lớp. Quy tắc đánh số là:

- Mức của lớp ít trừu tượng nhất sẽ là 0. Dưới mức 0 này sẽ là các từ cụ thể.

- Nếu một lớp có mức là N thì lớp cha của nó (theo định nghĩa của cấu trúc cây) sẽ có mức là N+1.

Chẳng hạn, trong hình minh hoạ …thì các lớp fruit, vegetable, meat…có mức 0;

lớp cha của chúng ingredients sẽ là mức 1, và cứ như vậy cho đến gốc của cây.

Nếu cây có số mức cao nhất là N, thì khoảng cách về ngữ nghĩa của hai từ trong từ điển được định nghĩa như sau:

N K SEMDIST = (3.1) Thesaurus vegetable carrot potato Từ Fruit Apple Orange meat beef chicken ingredients TOP food K N N K SEMDIST = …

Mức trừu tượng chung thấp nhất

Trong đó: K là mức trừu tượng chung thấp nhất ( Most specific common abstraction) giữa hai từ.Nói cách khác, nếu xuất phát từ hai từ nói trên và đi ngược lên gốc của cây, thì K là mức của lớp giao nhau của hai đường đi đó.

Ví dụ: Trong hình …giả sử K=5, lúc này dễ thấy khoảng cách ngữ nghĩa giữa các từ “Apple” và “Orange” là: SEMDIST(“Apple”,“Orange”) = 0; Tương tự: SEMDIST(“Apple”, “beef”) =

5 1

Từ điển đồng nghĩa tham gia vào hai giai đoạn là “Tìm kiếm ngữ liệu tương tự” và “Sản sinh mẫu”.

* Từ điển song ngữ (Bilingual Dictionary): dùng trong 2 giai đoạn “Sản sinh mẫu” và “Thay thế”.

3.1.4. Khối “Example Retrieval” (Tìm kiếm ngữ liệu tương tự)

Sau khi kết thúc giai đoạn “Pre-processing”, lúc này mỗi câu trong đoạn văn bản đã được tách từ, đồng thời được gán nhãn từ loại và biểu diễn dưới dạng một chuỗi các từ. Mỗi câu này sẽ là đầu vào của khối xử lý tiếp theo, khối lọc ra những câu tương tự nhất với nó mà tập mẫu có được. Có thể nói đây là khối xử lý phức tạp nhất, tốn nhiều thời gian nhất và chất lượng của nó ảnh hưởng đến hiệu suất dịch của toàn bộ hệ thống.

3.1.4.1. Ý tưởng

Duyệt từng câu trong tập mẫu, sau đó sử dụng giải thuật tính khoảng cách (hoặc độ

Phương pháp “Góc tương tự” của Carroll

Chức năng Huấn luyện tập mẫu

Cấu trúc các file Từ điển