Cách tiếp cận thống kê có những ưu điểm sau:
Dịch máy là vấn đề quyết định:cho trước tập hợp từ trong ngôn ngữ nguồn, cần phải quyết định chọn những từ thích hợp trong ngơn ngữ đích. Bài tốn có thể giải quyết bằng nhiều biện pháp khác nhau, một trong số đó là sử dụng các định lý quyết định trong thống kê.
Mối quan hệ giữa đối tượng ngôn ngữ như từ, cụm từ và cấu trúc ngữ pháp thường yếu và mơ hồ. Để mơ hình hóa những phụ thuộc này, một cơng thức mơ hình hóa được đưa ra như phân phối xác suất mà nó có thể giải quyết với những vấn đề phụ thuộc lẫn nhau.
Để thực hiện dịch máy, chúng ta nhất thiết phải kết hợp nhiều nguồn tri thức. Trong dịch thống kê, chúng ta dựa vào toán học để thực hiện kết hợp tối ưu của các nguồn tri thức.
Trong dịch máy thống kê, tri thức dịch được học một cách tự động từ dữ liệu huấn luyện. Với kết quả như vậy, việc phát triển một hệ dịch dựa vào thống kê sẽ rất nhanh so với hệ dịch dựa vào luật.
Dịch máy thống kê khá phù hợp với ứng dụng nhúng mà ở đây dịch máy là một phần của ứng dụng lớn hơn.
Việc đưa ra khái niệm “chính xác” của mối quan hệ ngữ pháp, ngữ nghĩa, văn phong là rất khó khăn nếu khơng nói là khơng thể. Vì vậy, việc hình thức hóa vấn đề này càng chính xác càng tốt không thể dựa vào sự giằng buộc bởi các luật mô tả chúng. Thay vào đó, trong cách tiếp cận thống kê, các giả định mơ hình được kiểm định bằng thực nghiệm dựa vào dữ liệu huấn luyện.
Bước đầu tiên là xây dựng tập dữ liệu huấn luyện. Ở đây, chúng ta cần thu thập các văn bản song ngữ, thực hiện việc gióng hàng câu và trích lọc ra các cặp câu phù hợp. Trong bước thứ hai, chúng ta thực hiện huấn luyện tự động hệ thống dịch máy. Sau bước huấn luyện, dựa trên những tham số đã được học, hệ thống dịch máy sẽ tự động chuyển đổi văn bản thuộc ngôn ngữ nguồn ra văn bản thuộc ngơn ngữ đích.
Tiếp theo hệ thống dịch máy được kiểm tra và việc phân tích lỗi được thực hiện. Dựa vào kiến trúc của hệ thống dịch máy thống kê, chúng ta có thể phân biệt các kiểu lỗi khác nhau: lỗi tìm kiếm, lỗi mơ hình, lỗi huấn luyện, lỗi ngữ liệu huấn luyện và lỗi tiền xử lý.
Mơ hình tốt hơn: ở đây, mục tiêu là phải phát triển mơ hình có khả năng mơ tả càng nhiều các thuộc tính của ngơn ngữ tự nhiên càng tốt, và các tham số tự do của nó có thể được ước lượng từ dữ liệu huấn luyện.
Huấn luyện tốt hơn: thuật toán huấn luyện thường dựa vào cách tiếp cận hợp lý cực đại. Thông thường, các thuật toán huấn luyện thường cho kết quả là tốt ưu địa phương. Do vậy, để làm tốt việc huấn luyện này, cần xây dựng các thuật toán mà kết quả tối ưu địa phương thường gần với tối ưu tồn cục.
Tìm kiếm tốt hơn: lỗi tìm kiếm xuất hiện nếu thuật tốn khơng tìm kiếm ra câu dịch của câu nguồn.Vấn đề tìm kiếm trong dịch máy thống kê là NP – đầy đủ. Vì vậy, chỉ có các cách tìm kiếm gần đúng để tìm ra câu dịch. Thuật toán hiệu quả là thuật toán mà cân bằng giữa chất lượng và thời gian.
Nhiều dữ liệu huấn luyện hơn: chất lượng dịch càng tăng khi cỡ của ngữ liệu càng lớn. Quá trình học của hệ thống dịch máy sẽ cho biết cỡ của dữ liệu huấn luyện là bao nhiêu để thu được kết quả khả quan.
Tiền xử lý tốt hơn: hiện tượng ngôn ngữ tự nhiên khác nhau là rất khó xử lý ngay cả trong cách tiếp cận thống kê tiên tiến. Do đó để cho việc sử dụng cách tiếp cận thống kê được tốt thì trong bước tiền xử lý, chúng ta làm tốt một số việc như: loại bỏ các kí hiệu khơng phải là văn bản, đưa các từ về dạng gốc của nó, ...
Chương 3 – Bài tốn gióng hàng văn bản song ngữ
3.1. Các bộ ngữ liệu song ngữ lớn
Từ nhu cầu cấp thiết phải xây dựng một bộ ngữ liệu song ngữ lớn và có tính chính xác cao của các hệ thống dịch máy hiện nay, đã dẫn đến nhiều dự án quy mô lớn được triển khai trên thế giới cho nhiều loại ngôn ngữ khác nhau.
3.1.1. Khối Châu Âu
Một trong nhữngbộ ngữ liệusong ngữ được tham chiếu rộng rãi nhất trong nghiên cứu ngơn ngữ học tính tốn là bộ ngữ liệu Canada Hansard. Hansard Canada là tập hợp các ghi chép của các cuộc tranh luận tại quốc hội Canada. Các bản ghi chép đó được ghi lại bằng hai ngơn ngữtiếng Anh và Tiếng Pháp. Hiện tại có nhiều phiên bản của Hansard Canada được phát triển độc lập. Phiên bản của Đại học Nam California [2] – gồm các bản ghi chép tại Quốc hội Canada lần thứ 36 từ năm 1997 đến năm 2000. Phiên bản này có khoảng 2 triệu từ bằng tiếng Anh và Tiếng Pháp. Một phiên bản khác được phát triển bởi Linguistic Data Consortium gồm các ghi chép từ khoảng giữa năm 1979 đến năm 1988; nó chứa khoảng hơn 2,87 triệu cặp câu song ngữ.
Bộ ngữ liệu Europarl (Quốc hội Châu Âu Kỷ yếu) [3] là tập hợp các thủ tục tố tụng từ Nghị viện châu Âu. Các thủ tục tố tụng được sưu tập từ năm 1996 đến năm 2006.Trong đó có tới mười một loại ngơn ngữ là: Pháp, Ý, Tây Ban Nha, Bồ Đào Nha, Anh, Hà Lan, Đức, Đan Mạch, Thụy Điển, Hy Lạp và Phần Lan. Bộ ngữ liệu này bao gồm khoảng hơn 44 triệu từ mỗi ngôn ngữ.
Bộ ngữ liệutiếng Anh – Na Uy [4] bao gồm bản gốc bằng cảtiếng Anh, Na Uy và bản dịch tương ứng. Kho lấy dữ liệu từ các đầu sách tiểu thuyết và phi tiểu thuyết; có tầm 100 đầu sách gốc và bản dịch song song. Tổng số từ là gần 2,6 triệu. Họ đã thu thập được trong giai đoạn từ năm 1994 đến năm 1997.
Bộ ngữ liệutiếng Anh – Thụy Điển [5] rất giống vớibộ ngữ liệutiếng Anh – Na Uy. Bộ ngữ liệu này có 64 văn bản làtiếng Anh và bản dịch là tiếng Thụy Điển. Ngồi ra, nó cịn có 72 văn bản tiếng Thụy Điển và bản dịch bằng tiếng Anh. Tập dữ liệu bao gồm cả tiểu thuyết và các tác phẩm phi tiểu thuyết. Tổng số từ trong ngữ liệu là 2,8
Bộ ngữ liệu Hunglish [6] bao gồm các văn bản tiếng Hungary và tiếng Anh thu thập từ các bài giảng, từ sách văn bản tôn giáo, văn bản pháp luật, tài liệu thuộc lĩnh vực công nghệ, phụ đề phim, tạp chí và tin tức. Bộ ngữ liệu bao gồm khoảng 54,2 triệu từ 2,07 triệu câu.
3.1.2. Khối Đông Nam Á
Tập văn bản song ngữ Hồng Kông [7], được xây dựng bởi Linguistic Data Consortium, là sự kết hợp của ba bộ ngữ liệu khác nhau. Ba hệ thống đó là: Hồng Kơng Hansards, Hồng Kông Law và Hồng Kông News. Hồng Kông Hansards là tập các thủ tục tố tụng của Hội đồng lập pháp ở Hồng Kông. Bộ ngữ liệu này chứa các bản ghi từ tháng 10 năm 1995 đến tháng 4, năm 2003. Gồm 714 tập tài liệu bằng cảtiếng Anh và Trung Quốc; có tổng cộng 36 triệu từ tiếng Anh và 56 triệu từ Trung Quốc. Hồng Kông Luật gồm tập các luật được ban hành bởi Sở Tư pháp của Hồng Kông đến năm 2000; có tổng cộng 8 triệu từ tiếng Anh và 14 triệu từ Trung Quốc trong 42,255 tài liệu. Hồng Kông Newsgồm các ấn phẩm được lưu hành bởi chính phủ Hồng Kơng. Các án phẩm báo chí được lưu trữ từ tháng bảy năm 1997 đến tháng mười năm 2003. Hồng Kơng News có tổng cộng 59 triệu từ tiếng Anh và 98 triệu từ Trung Quốc trong 87.590 tài liệu.
Bộ ngữ liệuASAHI tập hợp các bài viết từ tờ báo Asahi Shimbun của Nhật Bản. Báo Asahi Shimbun là một trong những tờ báo lâu đời nhất của Nhật Bản, và được xuất bản trong cả hai phiên bản tiếng Nhật và tiếng Anh. Ngữ liệu gồm 472 bài viết bằng tiếng Nhật và bản dịch song song của nó từ năm 1989 tới năm 1991.
Bộ ngữ liệu Anh – Việt bao gồm các bản dịch từ sách công nghệ thông tin, từ vựng Longmantrích trong từ điển tiếng Anh hiện đại (phiên bản Tiếng Việt của Trần Tất Thắng), từ điển song ngữ Anh-Việt, bản dịch của bộ ngữ liệu SUSANNE, sách điện tử, bách khoa toàn thư cho trẻ em, và các cuốn sách khác. Nó có tổng cộng 5 triệu từ tiếng Việt và tiếng Anh. Câu được liên kết bằng tay nếu văn bản gốc ở dạng bản in đánh máy, đồng thời dùng thuật toánGale và Churchđể gióng hàng câu tự động nếu nguồn có định dạng điện tử.
Thư viện ngôn ngữ Đông Nam Á (SEALang) [8]là tập dữ liệu song ngữ gồm tiếng Thái – tiếng Anh và tiếng Khmer – tiếng Anh. Song ngữ Thái – Anh được thu thập từ 3 dự án nghiên cứu:Wanakam World Classics [9], Thái Fiction in Translation [10], và Bangkok Post [11]. Tập song ngữ Khmer – Anh được biên soạn bằng cách trích xuất các câu ví dụ của từ điển Headley Campuchia –tiếng Anh.
Asia Online [12] là một công ty tư nhân tại Bangkok, Thái Lan. Hoạt động kinh doanh liên quan đến phát triển phần mềm và cung cấp dịch vụ trong các lĩnh vực dịch máy, cổng thơng tin điện tử và tìm kiếm. Hệ thống dịch máy của họ sử dụng ngữ liệu song ngữgióng hàng tự động bằng cách dung mơ hình n-gram và sau đó kiểm tra bằng tay.
Ngược lại với bộ ngữ liệu châu Âu, hầu hết các bộ ngữ liệu song ngữ châu Á được liên kết bằng tay. Mặc dù nhiều nghiên cứu đã được thực hiện đối với tiếng Trung Quốc, Nhật Bản và Hàn Quốc, nhưng lại có rất ít cơng trình cho các ngơn ngữ Đơng Nam Á, cụ thể là Tiếng Việt.
3.2. Các phương pháp gióng hàng hiện tại 3.2.1. Theo độ dài 3.2.1. Theo độ dài
Phương pháp tiếp cận dựa trên độ dài dựa trên quan điểm là độ dài của các đoạn văn bản thường tỷ lệ thuận với các bản dịch tương đương của nó. Giải thuật gióng hàng sớm nhất phải kể đếnGale và Church [1], họ đã đề xuất một phương pháp đếm các ký tự (sau này được cải tiến trong giải thuật Vanilla Aligner [13]), và Brown – thay thế bằng việc đếm các từ. Một trong những điểm yếu của phương pháp tiếp cận dựa trên chiều dài là khó phát hiện các câu lệch, bị xóa, hoặc thêm trong bản dịch.
Vanilla Aligner có thể giải quyết vấn đề tinh tế hơn, nó cho phép gióng hàng câu thuộc loại 1 – 2 và 2 – 1. Đây cũng là một vấn đề hay gặp phảivới các ngôn ngữ thuộc Đơng Nam Á nói chung và với Tiếng Việt nói riêng, khi mà khơng phải lúc nào cũng có đánh dấu ranh giới câu rõ ràng.
Mặc dù vẫn có một số nhược điểm trong việc phát hiện câu ghép và xóa, đồng thời hiệu suất thực hiện cũng không cao, nhưng phương pháp gióng hàng theo chiều dài này khá là độc lập với ngôn ngữ, đặc biệt là giữa các ngôn ngữ châu Âu, đây là một đặc điểm rất đáng được quan tâm.
3.2.2. Hướng tiếp cận dựa vào ngữ nghĩa
Tính chất từ vựng, chẳng hạn như cùng nguồn gốc hoặc những cụm từ và từ“neo”có thể được sử dụng để gióng hàng. Đặc biệt với sự trợ giúp của từ điển song ngữ, phương pháp này hồn tồn có thể mở rộng hơn nữa.
Kay và Roscheisen sử dụng các từ có phân bố tương tự nhau trong tập hợp các câu có khả năng phù hợp nhất như điểm neo trong gióng hàng câu. Fung sử dụng vector để xác định hàm phân phối của các từ trong các phân đoạn tùy ý của văn bản. Các thơng tin phân phối sau đó được sử dụng để xây dựng một tập các từ neo có thể được sử dụng cho gióng hàng câu. Nevado [14] cũng được sử dụng một tập các từ neo, mà họ
tự xác định, ví dụ, “for”, “and”, “I would like”, và “I wish”.
Simard áp dụng những từ cùng nguồn gốc như một tiêu chuẩn chính thay vì chiều dài ký tự trong cách tiếp cận của họ. Trong tiếng Anh, cũng như tiếng Latin, các từ có cùng nguồn gốc là những từ biến đổi từ cùng một từ gốc và do đó âm vị học hay chữ
viết sẽ tương tự nhau. Ví như từ “haus”trong tiếng Đức và từ “house”trong tiếng
Anhđược coi như là có chung từ gốc. Sử dụng sự tương tự trong chữ viết như ý tưởng cơ bản, Simard cho rằng những từ gọi là cùng nguồn gốc khi mà chúng chia sẻ ít nhất bốn ký tự đầu tiên của từ, và phải có ít nhất bốn ký tự. Rõ ràng, cặp từ tương tự như
“haus” và “house” sẽ không được công nhận là cùng nguồn gốc trong phương pháp
tiếp cận của họ. Do đó việc dung từcùng nguồn gốc chỉ có thể được áp dụng trong bài tốn gióng hàng đối với cặp ngôn ngữ chia sẻ cùng một nguồn gốc.
Tần số xuất hiện của thứ tự từ cũng có thể được áp dụng để xây dựng một danh sách các từ được sử dụng trong gióng hàng.Trật tự từ là sự kết hợp các từ cùng xảy ra
một cách thường xuyên với một xác suất nào đó. Ví dụ, “stock market” và “make a
decision” là những cụm từ mang ý nghĩa và thường xuất hiện cùng nhau trong cùng
văn bản.
Cách tiếp cận dựa trên ngữ nghĩa là mang ý nghĩa của câu góp vào q trình xem xét đánh giá một cặp câu là dịch của nhau. Hunalign, sử dụng một bản dịch thô dựa trên từ điển để kiểm tra sự giống nhau của các câu trong văn bản nguồn và ngơn ngữ đích. Phương pháp của Piperidis lại dựa vào tìm kiếm động từ, danh từ, tính từ và trạng từ trong câu. Họ xác định phần lớn nghĩa của câu(semantic load)dựa trên những từ đó. Sau đó các từ đó được sử dụng như một tiêu chuẩn cho bài tốn gióng hàng.
3.2.3. Kết hợp độ dài và ngữ nghĩa
Một số phương pháp kết hợpcả haihướng tiếp cận vừa dựa trên đặc điểm ngữ nghĩa của từ vựng, vừa dựa trên đặc điểm chiều dài. Brown sử dụng một tập các từ “neo” để chia văn bản thành nhiều phần nhỏ trước khi sắp xếp câu bằng phương pháp đếm từ. Simard và Hoftland sử dụng từ cùng nguồn gốc để cải thiện một cặp câu liên kết dựa trên chiều dài.
Một cách cải tiến tốt nhất khi kết hợp cả độ dài và ngữ nghĩa được phát triển choHunalign. Varga sử dụngphương pháp của Gale và Church với thông tin và từ vựng để gióng hàng cho văn bản tiếng Hungary – tiếng Anh.
Đầu tiên, hunaligntính điểm tương đồng dựa trên chiều dài và mã (tag) của mỗi
câu. Tính điểm tương tự về chiều dài được dựa trên số lượng các ký tự có trong cả hai văn bản. Điểm tương tự của được tính tốn bằng cách sử dụng từ điển nếu nó có sẵn. Một bản dịch thơ từ ngơn ngữ nguồn sang ngơn ngữ đích được thực hiện dựa trên từ điển. Bản dịch sau đó được so sánh với văn bản từ ngôn ngữ đích để tính lại điểm tương tự của mỗi câu.
Saukhi thực hiện gióng hàng ban đầu bằng cách tính điểm số tương tự dựa trên độ dài và nhãn đã được gán. Trong bước tiếp theo, phương pháp sẽ tự động sinh ra một bộ từ điển mới. Bộ từ điển mới xây dựng tiếp tục được sử dụng để cải thiện chất lượng bản dịch. Tiếp theo, việc gióng hàng được thực hiện bằng cách sử dụng kết hợp từ điển nội tạivà từ điển được cải thiện cho qua trình tính điểm.
3.3. Vấn đề sai thứ tự và thiếu câu trong gióng hàng
Một trong những vấn đề của bài tốn gióng hàng văn bản là câu bị sai thứ tự hoặc mất tích trong bản dịch. Về ngun tắc, bài tốn gióng hàng câu cũng có nhưng vấn đề tương tự, và có thể sử dụng các phương pháp đóđể giúp xử lý vấn đề của bài tốn gióng hàng văn bản. Trong q trình gióng hàng, những câu tương ứng sẽ được đánh giá mức độ tương tự, nếu chúng càng có điểm tương tự cao thì càng có khả năng hai câu đó là dịch của nhau, khi đócác câu có thể được đổi lại vị trí cho nhau.
Ngôn ngữ 1 Ngôn ngữ 2 aaaaa bbbbb bbbbb AAAAA
Trong ví dụ trên, câu aaaaa / bbbbb thuộc cùng một ngôn ngữ, trong khi bbbbb / AAAAA thuộcngôn ngữ khác. Giả thiết rằng cặp aaaaa và AAAAA có độ tương tự