TIỂU LUẬN XỬ LÝ NGÔN NGỮ TỰ NHIÊN DỊCH MÁY DỰA TRÊN CƠ SỞ CỤM TỪ KHÔNG LIÊN TỤC Xử lý ngôn ngữ là một kĩ thuật quan trọng nhằm giúp máy tính hiểu được ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những công việc có liên quan đến ngôn ngữ như : dịch thuật, phân tích dữ liệu văn bản, nhận dạng tiếng nói, tìm kiếm thông tin...
ĐẠI HỌC DUY TÂN TIỂU LUẬN XỬ LÝ NGÔN NGỮ TỰ NHIÊN Đề tài: DỊCH MÁY DỰA TRÊN CƠ SỞ CỤM TỪ KHÔNG LIÊN TỤC Giảng viên: TS. NGUYỄN THỊ THANH HUYỀN Học viên : LÊ VĂN TỊNH ĐOÀN SINH CÔNG NGÔ MINH CƯỜNG Lớp : K7MCS Đà Nẵng, 4/2014 MỤC LỤC Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 2 1. MỞ ĐẦU Xử lý ngôn ngữ là một kĩ thuật quan trọng nhằm giúp máy tính hiểu được ngôn ngữ của con người, qua đó hướng dẫn máy tính thực hiện và giúp đỡ con người trong những công việc có liên quan đến ngôn ngữ như : dịch thuật, phân tích dữ liệu văn bản, nhận dạng tiếng nói, tìm kiếm thông tin Dịch máy là một trong những ứng dụng chính của xử lý ngôn ngữ tự nhiên. Mặc dù dịch máy đã được nghiên cứu và phát triển trong hơn 50 năm qua, song vẫn tồn tại nhiều vấn đề cần nghiên cứu đối với từng loại ngôn ngữ, đối với từng chuyên ngành khác nhau (ví dụ: Y tế, luật ) Do chất lượng chưa thật tốt nên hầu hết các sản phẩm dịch tự động đều chỉ mang tính tham khảo, các bản dịch chỉ cho biết đại ý và nó hoàn toàn có thể dịch sai một phần hoặc toàn bộ nội dung cốt lõi của văn bản. Trong quá trình dịch thuật nếu lạm dụng dịch tự động sẽ làm ảnh hưởng nghiêm trọng đến văn phong, bởi vì người dịch giữ nguyên cách hành văn của bản dịch nhưng cách hành văn này thường không chính xác, máy móc và thiếu "chất người". So sánh giữa các thể loại văn bản khác nhau cho thấy dịch tự động dịch tài liệu chuyên ngành có chất lượng tốt nhất, nguyên nhân là vì các tài liệu này từ vựng có nghĩa rõ ràng (đơn nghĩa), cấu trúc ngữ pháp mạch lạc, đơn giản, ngược lại thể loại văn học là khó dịch nhất vì từ thường đa nghĩa, nhiều khẩu ngữ, cấu trúc ngữ pháp phức tạp, hay sử dụng nghĩa bóng. Phương pháp “Dịch máy dựa trên cơ sở cụm từ“ được xây dựng trên cơ sở sử dụng hai phương pháp dịch máy thống kê và dịch máy trên cơ sở ví dụ với những nét ngữ cảnh trong cơ sở tri thức là phương pháp mới được quan tâm nhất. Vì vậy nhóm thực hiện tìm hiểu phương pháp “Dịch máy dựa trên cơ sở cụm từ“ trong tiểu luận này. Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 3 2. GIỚI THIỆU 2.1. Tổng quan: Dịch máy là chương trình dịch tự động từ ngôn ngữ này sang ngôn ngữ khác. Một phần mềm điển hình Google, về tiếng Việt của chương trình này là Evtrans của Softex, dịch tự động từ tiếng Anh sang tiếng Việt và ngược lại, phần mềm từng được trang web vdict.com mua bản quyền, đây cũng là trang đầu tiên đưa ứng dụng này lên mạng. Tháng 10 năm 2008 có hai công ty tham gia vào lĩnh vực này cho ngôn ngữ tiếng Việt là công ty Lạc Việt (công ty phát hành từ điển Lạc Việt) và một thời gian sau đó Xalo.vn cũng đưa ra dịch vụ tương tự. Lĩnh vực dịch tự động trong vài năm qua đã có những thay đổi lớn, có rất nhiều nghiên cứu dựa trên các nền tảng thống kê và ví dụ mẫu. Hiện nay có một số công ty xây dựng chương trình dựa trên thống kê như Language Weaver (chuyên cung cấp các sản phẩm và dịch vụ thương mại liên quan đến dịch thuật), Google và Microsoft cũng có các sản phẩm tương tự do chính họ giữ bản quyền. Một hướng tiếp cận mới là kết hợp (lai ghép) các phương pháp với nhau, như những nghiên cứu phối hợp giữa các nguyên tắc cú pháp và hình thái học vào trong các hệ thống thống kê. 2.2. Các phương pháp dịch máy cơ sở: Hiện nay, dịch máy được phân chia thành một số phương pháp như: dịch máy trên cơ sở luật, dịch máy thống kê và dịch máy trên cơ sở ví dụ, dịch máy dựa trên cụm từ Do những khác biệt về ngữ hệ, khác biệt về văn hóa và thiếu vắng nguồn tài nguyên, nên các phương pháp dịch máy hiện hữu thường gặp trở ngại. Phương pháp dịch máy trên cơ sở luật cần phải xây dựng hệ thống luật cú pháp, ngữ nghĩa và phải có một từ điển khá đầy đủ thông tin cho các mục từ như ngữ nghĩa, ngữ dụng Để thực hiện phương pháp dịch máy dựa trên cơ sở luật, người ta cần nhiều thời gian và tiền bạc nhưng sản phẩm dịch vẫn không đạt độ chính xác như mong đợi. Dịch máy bằng phương pháp thống kê chưa có nhiều nghiên cứu áp dụng cho một sô ngôn ngữ phổ biến. Do sự khác biệt khá lớn về cấu trúc cú pháp của câu và nguồn ngữ liệu song ngữ chuẩn, nên ảnh hưởng đến chất lượng đối sánh, mà kết quả của đối sánh từ lại quyết định đến chất lượng Phương pháp dịch máy trên cơ sở ví dụ truyền thống sử dụng các câu mẫu hay Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 4 còn gọi là câu ví dụ. Các câu này được lưu trữ trên cơ sở dữ liệu với đầy đủ các thông tin như cây chú giải, các liên kết giữa các thành phần của hai câu thuộc hai ngôn ngữ. Phương pháp này cũng cần tập luật cú pháp của các câu ngôn ngữ nguồn để xây dựng cơ sở dữ liệu cho mẫu câu ví dụ. Sự khác biệt từ sẽ được xác định thông qua từ điển phân lớp, câu nhập sẽ được phân tích bằng tập luật cú pháp và xác định cặp cây cú pháp của câu nguồn và câu đích. Một tiếp cận khác với phương pháp dịch máy trên cơ sở ví dụ là xây dựng ngân hàng mẫu câu ví dụ. Câu nguồn chỉ cần so trùng từng phần với mẫu câu ví dụ bằng các giải thuật phù hợp (có sử dụng từ đồng nghĩa trong từ điển phân lớp). Phương pháp này cần khá nhiều thời gian tìm kiếm, xử lý thông tin để so trùng mẫu. Độ chính xác của phương pháp phụ thuộc vào số mẫu được lưu trữ nhiều hay ít. Trong thực tế thật khó để có thể lưu trữ đầy đủ các câu mẫu trên cơ sở dữ liệu vì số câu song ngữ trong kho ngữ liệu là nhiều vô kể. Dịch máy dựa trên ngữ liệu đang được áp dụng vào nhiều hệ thống dịch tự động trong những năm gần đây, việc lấy đúng được cặp ánh xạ đích và nguồn một cách tự động là một yêu cầu thiết yếu cho các phương pháp dịch dựa trên ngữ liệu. Phương pháp dịch thống kê hiện tại đang cải thiện được chất lượng dịch bằng các mô hình huấn luyện không chỉ dựa trên cơ sở các từ đơn mà còn dựa trên các cụm từ đã cho kết quả khả quan. Tuy nhiên các cụm từ trong các nghiên cứu này không thực sự là cụm từ của ngôn ngữ học. Phương pháp dựa trên cơ sở từ (Single Word-Based Translation - SWB) có nhiều hạn chế. Do thiếu thông tin ngữ cảnh khi xác định xác suất của các từ, nên nghĩa của từ được chọn nhiều lúc không đúng với ngữ cảnh. Ngữ nghĩa của từ khi dịch lại phụ thuộc vào các từ khác xuất hiện cùng với nó trong câu, ví dụ cụm từ “to kick the bucket” đồng nghĩa với “to die”, “around the clock” có nghĩa là “continuously” và “as a matter of fact” mang nghĩa “actually”. Đôi khi ngữ nghĩa một từ của ngôn ngữ đích không đủ để diễn tả nghĩa một từ trong ngôn ngữ nguồn và ngược lại. Mô hình dịch song ngữ dựa trên cơ sở từ thì quá trình xác định nghĩa của câu đích chỉ được thực hiện bởi sự ghép từ và hoán đổi vị trí của từ theo cấu trúc cú pháp. Trong một số trường hợp người ta cần có thêm các thao tác phụ như chèn thêm từ hoặc xóa bớt từ. Thực tế các mô hình dịch theo từ không bảo đảm đúng nghĩa cho câu đích là do nó không có khả năng lưu chứa đủ các luật sinh cho tất cả Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 5 các câu trong thực tế và các đặc tả chi tiết các hành vi ngữ nghĩa nhúng trong mỗi luật sinh của từng ngữ cảnh cụ thể. Để khắc phục những hạn chế đó thì phương pháp dịch máy dựa trên cơ sở cụm từ (Phrase Based Machine Translation – PBT) sử dụng cách xác định ngữ nghĩa của cụm từ thay vì ngữ nghĩa của từ, xác định ngữ cảnh và luật chuyển đổi của câu dịch một lựa chọn mới cho mô hình dịch máy sắp tới . Tuy nhiên mô hình trên chỉ có thể khai thác được các cụm từ liên tục còn gặp hạn chế đối với các cụm từ có phân cấp không liên tục (phrasal discontinuities). Dịch máy dựa trên cụm từ không liên tục mở rộng dựa trên cụm từ giải mã để cho phép cả hai nguồn và đích mệnh đề gián đoạn, trong đó cung cấp tổng quát tốt hơn trên dữ liệu vô hình và cải thiện đáng kể năng suất một cụm từ dựa trên tiêu chuẩn hệ thống (Moses) . 3. PHƯƠNG PHÁP DỊCH DỰA VÀO CỤM TỪ KHÔNG LIÊN TỤC (DPBT): 3.1. Mô tả: Mô hình dịch dựa vào cụm từ không liên tục (Discontinuous Phrases Based Machine Translation - DPBT) nhanh hơn so với state-of-the-art hierarchical system (Joshua) by a very significant margin (+1.03 BLEU on average on five Chinese- English NIST test sets). - Đầu vào: văn bản ngôn ngữ tự nhiên của một ngôn ngữ bất kỳ. - Đầu ra: văn bản ngôn ngữ tự nhiên của một ngôn ngữ bất kỳ. Việc đánh giá chất lượng bản dịch thường sử dụng phương pháp BLEU (BiLingual Evaluation Understudy) hoặc NIST (National Institute of Standards and Technology) Dịch dựa vào cụm từ không liên tục xác định đơn vị dịch thuật như bất kỳ tập hợp con của những nghĩa của một câu, tức là , một cụm từ không liên tục. Việc khái quát đa chùm chuỗi dựa trên giải mã thông thường (Koehn, 2004) để cho phép gián đoạn biến kích thước trong cả hai dữ liệu cụm từ ở ngôn ngữ nguồn và cụm từ ở ngôn ngữ đích. Vì mỗi cặp câu có thể được linh hoạt hơn phân hủy thành các đơn vị dịch, nó có thể khai thác bối cảnh phong phú của ngôn ngữ nguồn (có thể không liên tục ) cụm từ để cải thiện chất lượng bản dịch. Bộ giải mã của cung cấp hai phần mở rộng cho Moses: Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 6 (a) Để đối phó với những khoảng trống ở câu nguồn, chúng tôi làm theo ( Lopez , 2007) để tìm một cách hiệu quả tất cả các cụm từ liên tục trong dữ liệu huấn luyện cũng xuất hiện trong câu ngôn ngữ nguồn ( Koehn et al , 2007. ) (b) Để cho phép gián đoạn ngôn ngữ xuất, chúng tôi tăng thêm giả thuyết dịch không chỉ ghi lại bản dịch một phần hiện tại, mà còn là một tập hợp các nhóm cụm từ có thể được nối vào dịch một phần ở một số giai đoạn sau của giải mã. 3.2. Rút trích cụm từ không liên tục: Mục tiêu của dịch máy là tự động chuyển ý nghĩa của một câu từ ngôn ngữ nguồn sang ngôn ngữ đích . Trong dịch máy thống kê các điều kiện xác suất để mô tả sự tướng ứng giữa 2 câu (theo Och and Ney, 2004). Mỗi cụm từ được đặc trưng bởi một giá trị chỉ số, tức là một tập hợp các chỉ số từ. Giả định rằng cặp câu (f, e) được phân rã thành K cụm từ không liên tục, ta có: và Để lần lượt đại diện cho sự phân hủy của câu ngôn ngữ nguồn và ngôn ngữ đích với K tập con từ đó được bổ sung và không chồng lấn. Một cặp giá trị chỉ số phù hợp (s k, t k ) Đối với các cụm từ liên tục việc tìm kiếm tất cả các cặp cụm từ đó đáp ứng điều kiện này có thể được thực hiện trong O(nm 3 ) lần ( Och and Ney , 2004), trong đó n là độ dài của câu và m là chiều dài tối đa cụm từ . Tập hợp các cụm từ không liên tục là theo cấp số nhân trong chiều dài khoảng tối đa, vì vậy cụm từ khai thác phải phù hợp với một văn bản cụ thể (e.g., a given test sentence) cho các giá trị m tương đối lớn. Lopez (2007) trình bày một giải pháp hiệu quả sử dụng các mảng hậu tố cho việc tìm kiếm tất cả các cụm từ liên tục của dữ liệu huấn luyện có liên quan đến một câu kiểm tra nhất định hoặc kiểm tra thiết lập . Nó giải quyết một vấn đề cụm từ sắp xếp thứ tự bằng cách xác định hiệu quả vị trí cụm từ liên tục dữ liệu huấn luyện cũng xảy ra được tìm vị trí trong câu kiểm tra . Với các mảng kỹ thuật hậu tố cho chúng ta cho mỗi câu đầu vào một danh sách các giá trị phù hợp có liên quan. Đối với mỗi s k như vậy, chúng ta có thể dễ dàng liệt kê mỗi t k thỏa mãn phương trình (1). Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 7 Hình 1 – Ví dụ: về cách giải mã một câu sử dụng phương pháp dịch dựa trên cụm từ không liên tục. Khi bộ giải mã của không áp đặt những hạn chế phân cấp thì việc khai thác tất cả các cặp cụm từ không liên tục phù hợp với sự liên kết từ. 3.3. Giải mã: Vấn đề chính của việc giải mã hệ thống dựa trên cụm từ, theo mệnh đề (Cer et al., 2010), là một bộ giải mã đa ngăn xếp tương tự như Moses ( Koehn, 2004), Việc mở rộng để hỗ trợ khoảng cách biến kích thước trong các ngôn ngữ nguồn và ngôn ngữ đích. Trong Moses , giả thuyết dịch một phần được sắp xếp vào ngăn xếp khác nhau tùy theo tổng số từ đầu vào. Từng bước dịch, ngăn xếp được chia bằng cách sử dụng điều kiện dịch một phần và thấp hơn ràng buộc về điều kiện ước tính trong tương lai. Đề xuất mới giải thích cho sự gián đoạn ngôn ngữ nguồn, cụm từ có chứa những khoảng trống trong các ngôn ngữ nguồn được nối vào một giả thuyết dịch một phần trong nhiều bước. Cụ thể, mỗi giả thuyết dịch trong bộ giải mã là không chỉ biểu diễn như là một tiền tố dịch và giá trị phù hợp thiết lập như trong Moses, nhưng nó cũng chứa một tập hợp các cụm từ bị cô lập (hiển thị chữ in nghiêng trong hình. 1) phải được bổ sung vào dịch tại một số lần sau đó . Ví dụ , con số này cho thấy cách cặp cụm từ được thêm vào đoạn dịch. Tiền tố (arrangements) được nối vào để tạo thành (he said arrangements), và cô lập cụm từ (made) được lưu lại để sử dụng sau. • Các bước rút trích cụm từ: Bước 1: Phân tích câu nguồn để xác định các cụm từ không liên tục Bước 2: Giá giá trị phù hợp cho câu nguồn. Bước 3: Sắp xếp lại trật tự từ của câu nguồn theo trật tự từ của câu đích dựa vào cặp giá trị phù hợp. Bước 4: Đối sánh từ của câu nguồn sau khi đã được sắp xếp với câu đích. Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 8 Bước 5: Viết lại luật sinh cho ngôn ngữ nguồn từ ngữ liệu đã đối sánh và gán nhãn. Bước 6: Rút trích cụm danh từ • Thuật toán tìm kiếm cụm từ không liên tục Bảng 1 – Thuật toán tìm kiếm cụm từ không liên tục Thuật toán sử dụng 2J + 1 ngăn xếp và trong đó mỗi ngăn xếp chứa đến N giả thuyết H j1 , ,H jN. Thuật toán gồm 2 vòng lặp chính grow (dòng 7–15) và consolidate (dòng 3–6). • Vòng lặp grow: o tương tự như tiêu chuẩn cụm từ dựa dịch máy : lấy giả thuyết từ và so sánh với tùy chọn (s k , t k ), sau đó thêm giả thuyết mới phù hợp vào ngăn xếp (với l = |s k |) • Vòng lặp consolidate: o Cho phép các bộ giải mã chọn bất kỳ số lượng các cụm từ bị cô lập (không nhất thiết tất cả , và có thể không) và nối thêm chúng trong bất kỳ thứ tự vào cuối của bản dịch hiện hành. o Bất kỳ giả thuyết trong chùm cuối cùng được tự động loại bỏ nếu nó chứa bất kỳ cụm từ bị cô lập. o Hàm chức năng translation_options(m) trả về tập hợp các tùy chọn áp dụng ở vị trí m sử dụng thuật toán ở vị trí phù hợp. Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 9 Xử lý cụm từ không liên tục như là cụm từ liên tục. cụ thể với L là danh sách tối đa của các cụm từ ngôn ngữ nguồn K (L≥K) được lựa chọn cho một giả thiết nhất định. Với mỗi cụm từ ta được liệt kê theo trật tự của ngôn ngữ đích có thể khác so với ngôn ngữ nguồn sau đó tính toán sự biến dạng tuyến tính giữa cặp kế tiếp , theo công thức sau: Điều kiện là first và last tương ứng tham khảo vị trí nguồn của từ đầu tiên và cuối cùng của một cụm từ nhất định. Hình 2, cho thấy một ví dụ về cách biến dạng được tính toán cho các cụm từ (s 1, s 2 ,s 3 ) bao gồm cụm từ s 2 không liên tục. Hình 2: Biến dạng tuyến tính tính toán sử dụng cụm từ liên tục và không liên tục 4. KẾT QUẢ: 4.1 Môi trường thử nghiệm: Hệ thống dịch dựa trên cụm từ không liên tục được tích hợp trong bộ công cụ dịch dựa trên cụm từ của đại học Standford (Stanford Phrasal is a state-of-the-art statistical phrase-based machine translation system). Thử nghiệm thực hiện trên phiên bản 3.3.1, phát hành ngày 04/01/2014 có thể tải về tại địa chỉ: http://nlp.stanford.edu/software/phrasal/phrasal.3.3.1.tar.gz http://nlp.stanford.edu/software/stanford-corenlp-full-2014-01-04.zip Hướng dẫn cài đặt và thực nghiệm chi tiết: http://www-nlp.stanford.edu/wiki/Software/Phrasal Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 10 [...]... dụng các cụm từ duy nhất Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 12 5 KẾT LUẬN 5.1 Kết quả đặt được của tiểu luận: o Trình bày một phương pháp dịch máy dựa trên cụm từ không liên tục Công cụ thực hiện đánh giá mô hình dịch theo cụm từ mở rộng này được cải thiện hơn so với mô hình dịch dựa trên cụm từ chuẩn (Moses) o Hiểu được hoạt động của một công cụ xử lý ngôn ngữ tự nhiên thực... Lợi ích của hệ thống dịch dựa trên cụm từ không liên tục được phép sử dụng các đơn vị dịch lớn hơn khi bị giới hạn ở những cụm từ liên tục Hình 4 – Biểu đồ độ dài số cụm từ theo mô hình MT06 Bộ giải mã sử dụng hiệu quả các thiết lập mở rộng các lựa chọn dịch theo ý của nghĩa ngữ cảnh: Trong khi các Moses dịch MT06 với trung bình 1,73 từ mỗi cụm từ, thêm hỗ trợ cho các bất liên tục tăng trung bình này...4.2 Kết quả thử nghiệm: Mô hình đưa ra bởi Joshua, Moses, và hệ thống dịch dựa trên cụm từ không liên tục Các mũi tên màu xanh đại diện cho sự sắp xếp giữa các cụm từ không liên tục, trong khi màu đỏ phân đoạn mũi tên sắp xếp cụm từ liên tục như hình dưới Hình 3 – Mô tả các cụm từ không liên tục mũi tên màu xanh Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 11 Kết quả... tiến hành thử nghiệm, thiết lập môi trường thử nghiệm o Tìm hiểu được cơ chế, cấu trúc giải thuật phương pháp dịch máy dựa trên cụm từ không liên tục 5.2 Hướng phát triển của tiểu luận: o Áp dụng phương pháp thực hiện với cặp ngôn ngữ Anh – Việt o Tìm hiểu, nghiên cứu sau hơn về các phương pháp mở rộng cho dịch máy dựa trên cụm từ Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 13 . cụm từ“ trong tiểu luận này. Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 3 2. GIỚI THIỆU 2.1. Tổng quan: Dịch máy là chương trình dịch tự động từ ngôn ngữ này sang ngôn ngữ khác. Một. nhất. Lê Văn Tịnh - Đoàn Sinh Công – Ngô Minh Cường - Lớp: K7MCS 12 5. KẾT LUẬN 5.1 Kết quả đặt được của tiểu luận: o Trình bày một phương pháp dịch máy dựa trên cụm từ không liên tục. Công cụ thực. DUY TÂN TIỂU LUẬN XỬ LÝ NGÔN NGỮ TỰ NHIÊN Đề tài: DỊCH MÁY DỰA TRÊN CƠ SỞ CỤM TỪ KHÔNG LIÊN TỤC Giảng viên: TS. NGUYỄN THỊ THANH HUYỀN Học viên : LÊ VĂN TỊNH ĐOÀN SINH CÔNG NGÔ MINH CƯỜNG