II. TỔNG QUAN VỀ DỊCH MÁY THỐNG KÊ
2.2.4. Gióng hàng từ
Để ước lượng các tham số trong mô hình dịch, bảng dịch ngữ được tạo ra dựa trên gióng hàng từ. Gióng hàng là tạo liên kết giữa các cặp từ (ngữ) tương ứng bằng cách đánh dấu vị trí của những từ ở câu nguồn vào từ (ngữ) ở câu đích.
Ví dụ, gióng hàng từ giữa cặp câu song ngữ:
Được biểu diễn như sau:
Hình 2.7: Biểu diễn gióng hàng từ dạng liên kết
She takes a small green box. Cô ấy lấy một chiếc hộp nhỏ màu xanh.
Một cách khác để biểu diễn gióng hàng từ là sử dụng bảng như Bảng 2.1.
Bảng 2.1. Biểu diễn gióng hàng từ dạng bảng
She take a small green box .
Cô ấy lấy một chiếc hộp nhỏ Màu Xanh .
Mô hình gióng hàng từ IBM (Brown, 1993) [2] mặc dù được đưa ra từ rất lâu nhưng vẫn được xem là mô hình tiên tiến nhất hiện nay. Mô hình này giả sử rằng các liên kết từ giữa cặp câu luôn tồn tại, nhưng chưa xác định được vị trí của các liên kết đó. Giả
sử ta có cặp câu song ngữ, câu tiếng Anh 𝑒 có 𝑚 từ và câu tiếng Việt 𝑣 có 𝑛 từ:
𝑒 = 𝑒1, 𝑒2, … 𝑒𝑚 𝑣 = 𝑣1, 𝑣2, … 𝑣𝑛
Gọi gióng hàng từ 𝑎𝑗 : 𝑗 → 𝑖 liên kết từ tiếng Anh thứ 𝑗 sang từ tiếng Việt thứ 𝑖 và 𝑎 là tập các liên kết từ tất cả các từ trong câu e
𝑎 = 𝑎1, 𝑎2, … 𝑎𝑚
𝑝 𝑣 𝑒 = 𝑝(𝑎, 𝑒|𝑣)
𝑎
(2.7)
Xác suất gióng hàng từ giữa các từ trong cặp câu, 𝑝(𝑎, 𝑒|𝑣) được tính như sau:
𝑝 𝑎, 𝑒 𝑣 = 𝑡(𝑒𝑗|𝑣𝑖)
𝑚
𝑗 =1
(2.8)
Trong đó, 𝑡(𝑒𝑗|𝑣𝑖) được tính dựa trên các gióng hàng từ (ngữ) trong ngữ liệu song
ngữ. Tuy nhiên, để tạo ra ngữ liệu gióng hàng từ (ngữ) đòi hỏi rất nhiều công sức cho việc gán nhãn. Do đó, thật toán Expectation Maximization (EM) đã được [14] đề xuất để ước lượng các gióng hàng từ (ngữ) này.
Ý tưởng của thuật toán EM như sau:
Đầu tiên, với mọi cặp câu song ngữ có trong ngữ liệu, ta giả định tất cả các từ trong câu nguồn đều có gióng hàng từ với tất cả các từ trong câu đích, các xác suất gióng hàng từ được khởi tạo giá trị ban đầu như nhau.
… my house …. small house … my mobile ….
… nhà của tôi … nhà nhỏ … điện_thoại của tôi …..
Sau đó, qua mỗi lần lặp, các cặp từ thường gióng hàng với nhau nhất sẽ được xác định.
Liên kết giữa “my” và “của tôi” được xác định:
… my house …. small house … my mobile ….
Liên kết giữa “house” và “nhà” được xác định:
… my house …. small house … my mobile ….
… nhà của tôi … nhà nhỏ … điện_thoại của tôi ….. Các liên kết khác được xác định:
… my house …. small house … my mobile ….
… nhà của tôi … nhà nhỏ … điện_thoại của tôi ….. Kết quả gióng hàng cuối cùng:
… my house …. small house … my mobile ….
… nhà của tôi … nhà nhỏ … điện_thoại của tôi …..
Cuối cùng, các xác suất gióng hàng từ sẽ hội tụ, giá trị không thay đổi nhiều. Khi đó ta được cả hai thông tin là thông tin về gióng hàng từ và giá trị xác suất tương ứng. Sử dụng thuật toán EM, Stephan Vogel đề ra các mô hình IBM có tên gọi lần lượt là IBM1, IBM2, IBM3, IBM4, IBM5 và Franz-Joseph Och đề ra mô hình 6 để tạo ra gióng hàng từ trên các cặp câu song ngữ. Việc nghiên cứu kỹ hơn mô hình IBM sẽ được đề cập ở Chương sau.
Hiện tại, công cụ phổ biến nhất để gióng hàng từ là GIZA++. Công cụ này được xây dựng dựa trên các mô hình IBM. Tuy nhiên, công cụ này có hạn chế là chỉ cho phép gióng hàng một từ thuộc ngôn ngữ nguồn với một hoặc nhiều từ thuộc ngôn ngữ đích.
Och và Ney [15] đề xuất cách tiếp cận dựa trên heuristic để cải tiến kết quả gióng hàng từ có được từ GIZA++. Tất cả các điểm nằm trong vùng giao của hai gióng hàng từ sẽ được giữ lại và vùng gióng hàng từ được mở rộng tối đa không vượt quá vùng giao của
hai gióng hàng từ. Đầu tiên, ngữ liệu song ngữ được gióng hàng từ cả hai phía, từ ngôn ngữ nguồn sang ngôn ngữ đích và từ ngôn ngữ đích sang ngôn ngữ nguồn. Quá trình này tạo ra hai gióng hàng từ. Nếu lấy phần giao hai gióng hàng từ này, chúng ta sẽ có gióng hàng từ với độ chính xác cao (high-precision). Ngược lại, nếu lấy phần hợp của hai gióng hàng từ, chúng ta sẽ có gióng hàng từ với độ bao phủ (high-recall) cao. Hình 2.4 minh họa quá trình này. Trong hình, các điểm nằm trong vùng giao có màu đen, các điểm mở rộng
that he will stay in the house .
Tiếng Anh sang tiếng Việt
that he will stay in the house .
Tiếng Việt sang tiếng Anh
Mic hae l th ừa nh ận an h ấy sẽ ở lại tr on g ngôi nhà ấy . Michael assumes that he will stay in the house .
công thức (2.2) đạt giá trị cực đại với mỗi câu đầu vào e ở ngôn ngữ nguồn. Theo Koehn [4], các mô hình xác suất trong SMT gán điểm số cho tất cả các bản dịch có thể của một câu đầu vào ở ngôn ngữ nguồn (câu nguồn).
Trong quá trình giải mã, chúng ta xây dựng bản dịch theo từng từ một, từ đầu đến cuối. Các mô hình dựa trên từ và dựa trên cụm từ phù hợp với điều này, vì nó cho phép tính toán điểm số cho các bản dịch một phần (partial translation).
- Chọn cụm từ tiếng Anh cần dịch
- Dịch cụm từ sang tiếng Việt
- Thêm cụm từ tiếng Việt vào cuối câu dịch tạm thời
- Đánh dấu cụm từ tiếng Anh đã được dịch
- Chuyển sang dịch cụm từ tiếp theo cho đến hết câu tiếng Anh
- Kết thúc dịch
Hình 2.9: Minh họa quá trình giải mã câu đầu vào e = "He does not go home"
từ tiếng Anh sang tiếng Việt.
Trước khi dịch một câu đầu vào ở ngôn ngữ nguồn, đầu tiên chúng ta tham khảo bảng dịch và tìm kiếm các lựa chọn dịch thích hợp. Trong quá trình giải mã, chúng ta lưu
He doe s not go ho me An h_ta He doe s not go ho me An h_ta He doe s not go ho me An h_ta ng khô He doe s not go ho me An h_ta nhà khô ng về
trữ các bản dịch một phần trong một cấu trúc dữ liệu được gọi là giả thuyết (hypothesis). Bộ giải mã đưa ra các hình thức mở rộng những giả thuyết này bằng cách quyết định cụm từ dịch tiếp theo. Do sự phức tạp tính toán của giải mã (NP-đầy đủ), chúng ta cần phải hạn chế không gian tìm kiếm. Chúng ta làm điều này bằng cách tái tổ hợp, dùng kỹ thuật quy hoạch động để loại bỏ giả thuyết mà có thể không phải là một phần của bản dịch tốt nhất. Giới hạn về sắp xếp lại (trật tự từ) cũng làm giảm đáng kể không gian tìm kiếm. Do không gian tìm kiếm là rất lớn, nên bộ giải mã trong mô hình SMT thường áp dụng các thuật toán tìm kiếm tối ưu. Thuật toán mà bộ giải mã thường áp dụng là A*, một kỹ thuật tìm kiếm chuẩn trong trí tuệ nhân tạo [4]. Thuật toán A* có thể tóm tắt như sau: tại mỗi bước mở rộng không gian tìm kiếm, ta sử dụng các hàm ước lượng, đánh giá trọng số để kết quả tìm được luôn là tốt nhất có thể và là kết quả tìm thấy đầu tiên. Hình 2.5 minh
họa quá trình giải mã câu đầu vào e = "He does not go home" từ tiếng Anh sang tiếng
Việt.
2.2.6. Ưu điểm của phương pháp dịch thống kê
Cách tiếp cận thống kê có những ưu điểm sau: Cho trước những từ trong ngôn ngữ nguồn, chúng ta phải quyết định chọn những từ trong ngôn ngữ đích. Vì vậy, nó tạo cho chúng ta một cảm giác là có thể giải quyết nó bằng định lý quyết định thống kê. Điếu đó dẫn đến cách tiếp cận thống kê được đề xuất.
Mối quan hệ giữa đối tượng ngôn ngữ như từ, cụm từ và cấu trúc ngữ pháp thường yếu và mơ hồ. Để mô hình hóa những phụ thuộc này, chúng ta cần một công thức hóa như đưa ra phân phối xác suất mà nó có thể giải quyết với những vấn đề phụ thuộc lẫn nhau.
Để thực hiện dịch máy, chúng ta nhất thiết phải kết hợp nhiều nguồn trí thức. Trong dịch thống kê, chúng ta dựa vào toán học để thực hiện kết hợp tối ưu của các nguồn trí thức. Trong dịch máy thống kê, trí thức dịch được học một cách tự động từ dữ liệu huấn luyện. Với kết quả như vậy, việc phát triển một hệ dịch dựa vào thống kê sẽ rất nhanh so với hệ dịch dựa vào luật.
Dịch máy thống kê khá phù hợp với ứng dụng nhúng mà ở đây dịch máy là một phần của ứng dụng lớn hơn.
Việc đưa ra khái niệm “chính xác” của mối quan hệ ngữ pháp, ngữ nghĩa, văn phong là rất khó khăn nếu không nói là không thể. Vì vậy, việc hình thức hóa vấn đề này càng chính xác càng tốt không thể dựa vào sự giằng buộc bởi các luật mô tả chúng. Thay vào đó, trong cách tiếp cận thống kê, các giả định mô hình được kiểm định bằng thực nghiệm dựa vào dữ liệu huấn luyện.
2.2.7. Các phương pháp đánh giá chất lượng dịch máy
Việc đánh giá chất lượng dịch rất phức tạp vì mỗi câu nguồn thường có thể có nhiều câu dịch khác nhau. Tuỳ theo cách chọn từ, văn phong mà ta có thể tạo ra câu dịch khác nhau cho cùng một câu nguồn. Phương pháp đáng tin cậy nhất là để con người đánh giá (đánh giá chủ quan – Subjective). Tuy nhiên, để người đánh giá sẽ chậm và tốn nhiều chi phí. Mặc khác, mỗi người sẽ có cách nhìn nhận chủ quan khác nhau. Do vậy, đánh giá bằng máy được sử dụng vì khách quan (đánh giá khách quan – Objective) và nhanh chóng, ít tốn chi phí. Để ước lượng hiệu quả của hệ dịch, phương pháp đánh giá tự động thường đo độ tương tự giữa câu máy dịch và câu dịch tham chiếu trong ngữ liệu.
Trong các phương pháp đánh giá tự động thì điểm BLEU được sử dụng phổ biết nhất, và trong khuôn khổ của luận văn này nhóm chỉ sử dụng điểm BLEU để khảo sát chất lượng kết quả dịch, tuy nhiên ngoài phương pháp đánh giá điểm BLEU hiện nay còn một số phương pháp khác như sau:
2.2.4. 2.2.5. 2.2.6. 2.2.7.
2.2.7.1. BLEU (BiLingual Evaluation Understudy)
Điểm BLEU là một trong những tiêu chuẩn đo hiệu quả dịch được sử dụng rộng rãi nhất hiện nay. BLEU được đề xuất bởi IBM tại hội nghị ACL ở Philadelphia vào tháng 7-2001. Ý tưởng chính của phương pháp là so sánh kết quả bản dịch tự động bằng máy với một bản dịch chuẩn dùng làm bản đối chiếu.
Để đo điểm BLEU, người ta tính dựa trên trung bình hình học (geometric mean) số lần đồng xuất hiện của các gram ở câu dịch tự động và câu dịch tham chiếu. Các n- gram gồm: 1-gram, 2-gram, 3-gram và 4-gram. Điểm BLEU có giá trị trong khoảng [0,1],
theo tiêu chuẩn này thì sẽ có rất ít câu dịch đạt được điểm tối đa, ngoại trừ những
câu thực sự khớp với câu dịch mà hệ thống đánh giá tham chiếu tới. Với tiêu chuẩn BLEU thì điểm càng cao có nghĩa là hệ thống dịch càng tốt.
2.2.7.2. NIST (National Institute of Standards and Technology)
NIST được phát triển dựa trên phương pháp BLEU nhưng có một khác biệt về quan điểm đánh giá là việc chọn lựa N-grams và thông tin trên mỗi n-gram sẽ được dùng để đánh giá. NIST đánh số điểm cao hơn cho các n-gram chứa nhiều thông tin hơn trong khi đối với BLEU là như nhau nếu có cùng số từ. Với tiêu chuẩn này thì điểm số cao thì được coi là hệ dịch tốt.
2.2.7.3. TER (Translation Error Rate)
TER là tiêu chuẩn đánh giá dựa trên số lần chỉnh sửa để chuyển câu kết quả từ máy dịch thành câu tham chiếu. Đây là độ đo được đánh giá là gần với con người nhất. Tỉ lệ lỗi sẽ được tính theo công thức:
𝑇𝐸𝑅 = 𝑠ố 𝑏ướ𝑐 𝑐ℎỉ𝑛ℎ 𝑠ử𝑎
𝑠ố 𝑡ừ 𝑡𝑟𝑢𝑛𝑔 𝑏ì𝑛ℎ 𝑡𝑟𝑜𝑛𝑔 𝑐â𝑢 𝑡ℎ𝑎𝑚 𝑐ℎ𝑖ế𝑢
Các bước chỉnh sửa bao gồm thêm, xoá hoặc thay thế từ trong câu. Với độ đo này, tỉ lệ lỗi càng thấp đồng nghĩa với hệ dịch càng tốt.
2.2.8. Chu kì phát triển của hệ thống dịch thống kê
Bước đầu tiên là tập hợp dữ liệu huấn luyện. Ở đây, chúng ta cần thu thập các văn bản song ngữ, thực hiện việc dóng hàng câu và trích lọc ra các cặp câu phù hợp. Trong bước thứ hai, chúng ta thực hiện huấn luyện tự động hệ thống dịch máy. Đầu ra của bước này là hệ thống dịch máy có hiệu lực.
Tiếp theo hệ thống dịch máy được kiểm tra và việc phân tích lỗi được thực hiện. Dựa vào kiến trúc của hệ thống dịch máy thống kê, chúng ta có thể phân biệt các kiểu lỗi khác nhau: lỗi tìm kiếm, lỗi mô hình, lỗi huấn luyện, lỗi corpus huấn luyện và lỗi tiền xử lý.
Mô hình tốt hơn: Ở đây, mục tiêu là phải phát triển mô hình mà mô hình này mô tả càng nhiều các thuộc tính của ngôn ngữ tự nhiên và các tham số tự do của nó có thể được ước lượng từ dữ liệu huấn luyện
Huấn luyện tốt hơn: Thuật toán huấn luyện thường dựa vào cách tiếp cận hợp lý cực đại. Thông thường, các thuật toán huấn luyện thường cho ta kết quả là tốt ưu địa phương. Do vậy, để làm tốt việc huấn luyện này, cần xây dựng các thuật toán mà kêt quả tối ưu địa phương thường gần với tối ưu toàn cục.
Tìm kiếm tốt hơn: Lỗi tìm kiếm xuất hiện nếu thuật toán tìm kiếm ra câu dịch của câu nguồn. Vấn đề tìm kiếm trong dịch máy thống kê là NP-hoàn thành. Vì vậy, chỉ có
các cách tìm kiếm gần đúng để tìm ra câu dịch. Thuật toán hiệu quả là thuật toán mà cân bằng giữa chất lượng và thời gian.
Nhiều dữ liệu huấn luyện hơn: Chất lượng dịch càng tăng khi cỡ của corpus càng lớn. Quá trình học của hệ thống dịch máy sẽ cho biết cỡ của dữ liệu huấn luyện là bao nhiêu để thu được kết quả khả quan.
Tiền xử lý tốt hơn: Hiện tượng ngôn ngữ tự nhiên khác nhau là rất khó xử lý ngay cả trong cách tiếp cận thống kê tiên tiến. Do đó để cho việc sử dụng cách tiếp cận thống kê được tốt thì trong bước tiền xử lý, chúng ta làm tốt một số việc như: loại bỏ các kí hiệu không phải là văn bản, đưa các từ về dạng gốc của nó, ...
2.3. Tích hợp tri thức ngôn ngữ vào dịch máy thống kê
Hướng tiếp cận dịch máy dựa trên ngữ hiện được xem là kinh điển trong dịch máy thống kê. Tuy nhiên, cách tiếp cận này bị hạn chế khi không trực tiếp tích hợp các tri thức ngôn ngữ vào hệ thống, chẳng hạn như hình thái từ, ngữ pháp hoặc ngữ nghĩa. Những tri thức này đã được nghiên cứu tích hợp vào các hệ thống dịch máy dựa trên ngữ trong quá trình tiền xử lí hoặc hậu xử lí và đã đạt được một số kết quả nhất định. Cách tích hợp tri thức ngôn ngữ vào hệ dịch máy thống kê có thể chia làm hai hướng chính là sử dụng tri thức để tiền xử lý và đưa tri thức ngôn ngữ vào hệ dịch.
2.3.
2.3.1. Sử dụng tri thức ngôn ngữ để tiền xử lý
Hướng tiếp cận thứ nhất được tập trung nghiên cứu rất nhiều và đạt được một số kết quả khả quan. Hướng này chủ yếu tập trung vào chuyển đổi trật tự từ hoặc phân tích từ pháp ở câu nguồn nhằm giảm bớt sự khác biệt giữa hai ngôn ngữ. Các tri thức để chuyển đổi bao gồm tri thức về hình thái từ, phân tích cây cú pháp và các luật chuyển đổi dựa trên sự khác biệt giữa hai ngôn ngữ. Thông thường, quá trình biến đổi này được thực