THAY đổi TRỌNG số mô HÌNH GIẢI mã TRONG DỊCH máy THỐNG kê

Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM VII-O-13 THAY ĐỔI TRỌNG SỐ MÔ HÌNH GIẢI MÃ TRONG DỊCH MÁY THỐNG KÊ Lê Phúc Thịnh Trường Đại học Tôn Đức Thắng lephucthinh@tdt.edu.vn TÓM TẮT Mỗi cặp ngôn ngữ khác nhau sẽ có những đặc thù khác nhau, vì thế mô hình dịch máy thống kê dựa trên cụm từ (Phrase-based Statistical Machine Translation – PBSMT) dùng bộ trọng số để điều chỉnh cho phù hợp với các đặc thù này và giá trị của chúng được học từ ngữ liệu trong giai đoạn tối ưu các tham số. Giai đoạn này cải thiện chất lượng dịch một cách rõ rệt. Tuy nhiên, trên cùng một ngôn ngữ thì các đặc thù này cũng không đồng nhất, do đó việc sử dụng giá trị bộ trọng số này một cách cứng nhắc không thay đổi trong suốt quá trình dịch sau này là một hạn chế của PBSMT. Để khắc phục hạn chế này, chúng tôi phân chia ngôn ngữ ra thành những phạm vi riêng biệt sao cho trên mỗi phạm vi thì sự đa dạng và phức tạp không còn nữa và chúng tôi sẽ học các giá trị của bộ trọng số trên từng phạm vi riêng này. Khi cần dịch một câu chúng tôi phân tích xem câu này thuộc phạm vi nào để dịch với bộ trọng số tương ứng. Để phân chia ngôn ngữ thành các phạm vi riêng biệt chúng tôi thực hiện theo hai cách: phân chia theo đặc trưng ngôn ngữ và phân chia theo thuật toán tối đa hóa điểm BLEU. Kết quả thực nghiệm trên tập ngữ liệu song ngữ Anh-Việt cho thấy hướng tiếp cận của chúng tôi giúp PBSMT tăng 0.6 điểm BLEU. Từ khóa: dịch máy thống kê, tối ưu trọng số, trọng số của mô hình giải mã. GIỚI THIỆU Dịch máy (Machine Translation - MT) là một trong những hướng ứng dụn g chính của xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP). Trong dịch máy có các hướng tiếp cận như: dịch máy dựa trên luật (Rule-based Machine Translation - RBMT), dịch máy dựa trên thống kê (Statistic Machine Translation - SMT), dịch máy dựa trên phương pháp lai giữa luật và thống kê (Hybrid Machine Translation). Trong các hướng tiếp cận này, dịch máy thống kê dựa trên cụm từ (Phrase-based SMT) là mô hình dịch hiệu quả nhất. Mỗi cặp ngôn ngữ khác nhau có đặc thù khác nhau, vì thế mô hình dịch dựa trên ngữ dùng bộ trọng số để điều chỉnh cho phù hợp với các đặc thù này và giá trị của chúng được học từ ngữ liệu trong giai đoạn tối ưu các tham số.Giai đoạn này cải thiện chất lượng dịch một cách rõ rệt. Tuy nhiên, trên cùng một cặp ngôn ngữ thì các đặc thù này cũng không đồng nhất, do đó việc sử dụng giá trị bộ trọng số này một cách cứng nhắc không thay đổi trong suốt quá trình dịch sau này là một hạn chế của mô hình. Nếu trong quá trình dịch ta chọn các giá trị trọng số khác nhau cho phù hợp với sự không đồng nhất của ngôn ngữ thì có thể sẽ làm tăng cao hiệu quả của quá trình dịch. Xét các trường hợp về sự thay đổi trọng số của ví dụ sau đây: Ví dụ Câu Nguồn Tham khảo Dịch với bộ trọng số MERT Dịch với trọng số khác Nội dung "protecting life and property is not as simple as issuing a forecast," Hayes said. Ông Hayes nói , "bảo vệ cuộc sống và tài sản là không đơn giản như việc ban hành dự báo". "bảo vệ tài sản và không đơn giản như phát hành một dự báo Hayes nói, ". "bảo vệ cuộc sống và tài sản là không đơn giản như phát hành một dự báo Hayes nói, ". Trọng số MHNN BLEU 0.0565924 0.3745 0.0265924 0.6703 Với ví dụ này chúng ta nhận thấy rằng chất lượng dịch có thể được cải tiến bằng cách linh động thay đổi trọng số mô hình ngôn ngữ cho phù hợp.Nhưng vấn đề đặt ra ở đây là thay đổi trọng số như thế nào là phù hợp.Để giải quyết vấn đề vừa nêu chúng tôi đi tìm cách để hiệu chỉnh trọng số của mô hình giải mã theo sự không đồng nhất của ngôn ngữ. Hướng tiếp cận của chúng tôi là sử dụng phương pháp chia để trị. Chúng tôi thực hiện gom nhóm sao cho một tập ngữ liệu không đồng nhất ban đầu sẽ được gom lại thành các tập con có sự đồng nhất cao hơn, sau đó sẽ tìm bộ trọng số tối ưu cho từng tập con này, mỗi tập con sẽ cho một bộ trọng số tối ưu. Như vậy tập hợp các bộ trọng số này sẽ giải quyết được bài toán tối ưu trọng số trên toàn cục theo phương ISBN: 978-604-82-1375-6 81 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM pháp chia để trị. Tương tự cho khi dịch một câu ta phân lớp câu này vào một trong số các nhóm đã được chia và dịch nó với bộ trọng số tương ứng của nhóm đó. Phần còn lại của bài báo sẽ bao gồm các nội dung sau: phần 2 trình bày về những hướng tiếp cận liên quan hiện nay, phần 3 trình bày chi tiết các bước xây dựng mô hình để giải quyết bài toán, phần 4 trình bày các thực nghiệm để đánh giá mô hình, phần 5 kết luận về tính khả thi của mô hình và định hướng phát triển. Các Công Trình Liên Quan Các công trình tối ưu trọng số dựa trên một số phương thức như: sự tương tự (Och và Ney 2002), tối thiểu hóa tỷ lệ lỗi (MERT) (Och 2003; Bertoldi cùng cộng sự 2009; Galley và Quirk 2011), biên độ (Chiang cùng cộng sự 2008), xếp hạng (Hopkins và May 2011)trong đó MERT là phổ biến nhất. Để khắc phục sự không đồng nhất và đa dạng của ngôn ngữthì có hai nhánh chính là chọn dữ liệu và chọn trọng số: các công trình theo hướng tiếp cận chọn dữ liệu rút trích từ tập tổng quát ra tập câu có liên quan với tập hoặc câu cần dịchsau đó tối ưu lại bộ trọng số trước khi dịch (Zhao 2004;Hildebrand 2005; Lü 2007; Moore và Lewis 2010; Axelrod 2011;Liu 2012), các công trình theo hướng tiếp cận chọn trọng số gán lại trọng số cho phù hợp giữa ngữ liệu huấn luyện với câu hoặc tập các câu cần dịch (Matsoukas 2009;Mohit và cộng sự 2010; Zhao2011). Không giống như các công trình của Zhao (2011) và Matsoukas (2009) chỉ xử lý trên những lĩnh vực chuyên biệt nào đó ví dụ như văn bản luật, văn bản thể thao…, phương pháp của chúng tôi xử lý các câu trên lĩnh vực bất kỳ. Trong khi các công trình của Liu (2012), Axelrod (2011) và Lewis (2010) phải tối ưu lại giá trị bộ trọng số trước khi dịch, phương pháp của chúng tôi tính trước giá trị các bộ trọng số, do đó tối ưu hơn về mặt thời gian. Mô Hình Trong các hướng tiếp cận dịch máy liên quan đến việc tối ưu bộ trọng số, chúng tôi chọn hướng tiếp cận là phân chia tập ngữ liệudùng để tối ưu bộ trọng số (chúng tôi tạm gọi tập ngữ liệu này là tập dev) thành các tập con có tính đồng nhất cao hơn tập dev. Tính đồng nhất ở đây có nghĩa là giá trị trọng số giữa các câu tương đương và xấp xỉ nhau.Tương ứng với mỗi tập con và tập dev chúng tôi tìm được một giá trị tối ưu của bộ trọng số. Khi cần dịch một câu chúng tôi phân tích xem câu này cần dịch với bộ trọng số nào trong số các bộ trọng số vừa tìm là phù hợp nhất. Để phân tập dev thành các tập con chúng tôi sử dụng hai phương pháp:Gom nhóm dựa trên đặc trưng ngôn ngữ và gom nhóm dựa trên tối đa hóa điểm BLEU mà chúng tôi sẽ trình bày ở các phần tiếp theo. Mô hình gom nhóm dựa trên đặc trƣng ngôn ngữ Trong mô hình này chúng tôi cố gắng tìm kiếm khai thác các đặc trưng ngôn ngữ có thể dùng để gom nhóm nhằm phát hiện ra các đặc trưng có ảnh hưởng đến sự phân bố giá trị của các trọng số.Đồng thời cũng dùng đặc trưng này để quyết định một câu đầu vào sẽ được dịch bằng bộ giá trị trọng số nào.Đầu tiên, chúng tôi áp dụng cho từng đặc trưng riêng biệt để phát hiện đặc trưng nào thật sự có ảnh hưởng đến giá trị của bộ trọng số, sau đó kết hợp các đặc trưng này lại để gom nhóm. Các đặc trưng mà chúng tôi sử dụng là cross-entropy, chiều dài câu nguồn, từ chưa biết, từ không được gióng hàng, từ được gióng hàng với nhiều từ, gióng hàng chéo. Cross-entropy Cross-entropy của một câu cho ta biết mức độ phổ biến của câu đó, nếu một câu có cross-entropy càng nhỏ thì câu đó càng phổ biến tức là xác suất câu đó xuất hiện trong ngữ liệu càng lớn.Ngược lại nếu cross-entropy càng lớn thì xác suất xuất hiện của nó càng nhỏ. Chiều dài câu nguồn Chiều dài của một câu cũng có thể ảnh hưởng đến bộ trọng số, vì một câu dài thì cấu trúc và ngữ nghĩa phức tạp hơn một câu ngắn.Trong thực tế, một câu dài có cấu trúc phức tạp vì nó chứa các mệnh đề chính/phụ hoặc các cấu trúc lồng ghép nhau. Do đó, việc phân chúng ra thành hai nhóm: nhóm câu dài và nhóm câu ngắn để xử lý cũng có thể đem lại hiệu quả tốt hơn. Từ chưa biết Khi dịch một câu đầu vào hệ thống có thể gặp phải một từ chưa từng xuất hiện trong dữ liệu học.Trong trường hợp ngữ liệu song ngữ đủ lớn, từ này có thể là dấu hiệu cho một câu ít xuất hiện hoặc thuộc một lĩnh vực khác. Do đó, từ chưa biết cũng có thể là một đặc trưng để gom nhóm ngữ liệu. Từ không được gióng hàng Từ không được gióng hàng thể hiện sự không đồng bộ giữa hai ngôn ngữ. Ta có thể hiểu một từ không được gióng hàng của ngôn ngữ nguồn là từ mà không được dịch bằng bất kỳ từ nào trong ngôn ngữ đích. Từ không được gióng hàng là một thách thức lớn đối với dịch máy thống kê.Khi xuất hiện một từ không được gióng hàng thì có thể coi đây là một trường hợp đặc biệt và được xử lý riêng. Do đó trong phương pháp này chúng tôi ISBN: 978-604-82-1375-6 82 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM chia tập dev thành hai nhóm, nhóm các câu có từ không được gióng hàng và nhóm các câu không có từ không được gióng hàng. Từ được gióng hàng với nhiều từ Một thử thách nữa của hệ thống dịch máy thống kê là trường hợp một từ được gióng hàng với nhiều từ.Từ gióng hàng với nhiều từ là từ (thuộc ngôn ngữ nguồn) được dịch thành 1 ngữ (gồm nhiều từ) trong ngôn ngữ đích.Từ gióng hàng với nhiều từ sẽ dẫn đến chiều dài câu nguồn và câu đích không đồng bộ với nhau. Nó có thể là nhân tố ảnh hưởng đến bộ trọng số, do đó trong phương pháp này chúng tôi chia tập tối thành hai nhóm, nhóm các câu có từ gióng hàng với nhiều từ (nhóm đa gióng hàng) và nhóm các câu không có từ gióng hàng với nhiều từ (nhóm đơn gióng hàng). Gióng hàng chéo Gióng hàng chéo là một thách thức lớn nhất đối với dịch máy thống kê, đặc biệt là đối cặp song ngữ AnhViệt thì mức độ gióng hàng chéo rất cao.Đây cũng là một yếu tố có thể ảnh hưởng rất lớn đến bộ trọng số.Vì thế chúng tôi cố gắng phân chúng ra thành những trường hợp riêng biệt để xử lý.Trong phần này chúng tôi phân tập dev thành hai nhóm là nhóm gióng hàng chéo và nhóm thường. Gom nhóm dựa trên tối đa hóa điểm BLEU MERT thực hiện tối ưu bộ trọng số bằng cách giảm tối đa tỉ lệ lỗi nhằm tăng tối đa điểm BLEU trong tập dev với kỳ vọng rằng bộ trọng số này cũng đem lại hiệu quả cao nhất cho tập kiểm nghiệm. Áp dụng ý tưởng này chúng tôi cũng tìm phương pháp để tối đa hóa điểm BLEU trên tập dev và sau đó áp dụng lại cho tập kiểm nghiệm với hy vọng là mang lại hiệu quả tốt nhất cho tập kiểm nghiệm. Bộ giá trị trọng số mà MERT tìm được chỉ là bộ trọng số tối ưu trên toàn tập dev chứ không tối ưu trên tất cả các câu. Có rất nhiều câu dịch bằng trọng số khác cho điểm BLEU cao hơn nhiều so với trọng số của MERT, bảng 1 trình bày kết quả thống kê của chúng tôi về việc tăng điểm BLEU bằng cách dịch với những trọng số khác. Điều này cho thấy rằng chỉ có một bộ trọng số sẽ không thể hiện được sự đa dạng của ngôn ngữ.Do đó cần phải chia tập dev thành các tập con có độ đồng nhất cao hơn. Một cách tiếp cận khác ngoài cách tiếp cận sử dụng đặc trưng ngôn ngữ để phân chia tập dev thành các tập con có độ đồng nhất cao hơn là dựa trực tiếp trên điểm BLEU. Điểm BLEU là tiêu chuẩn vàng để đánh giá độ đồng nhất giữa hai tập câu A và B. Chúng tôi gọi 𝜆𝐴 là bộ giá trị tối ưu của tập A, 𝜆𝐵 là bộ giá trị tối ưu của tập 1 𝑛 𝜆 𝑀𝑎𝑥 B, độ bất đồng nhất của tập A là Δ𝐴𝐵𝐿𝐸𝑈 = − 𝐵𝐿𝐸𝑈𝑖 𝐴 ) và độ bất đồng nhất của tập B là 𝑖=1 (𝐵𝐿𝐸𝑈𝑖 Δ𝐵𝐿𝐸𝑈 = 𝐵 1 𝑚 𝑚 𝑀𝑎𝑥 𝑖=1(𝐵𝐿𝐸𝑈𝑖 𝜆 𝑛 𝜆𝐴 − 𝐵𝐿𝐸𝑈𝑖 𝐵 ) trong đó n là số câu của tập A, m là số câu tập B, 𝐵𝐿𝐸𝑈𝑖 là điểm 𝜆 𝜆𝐴 , 𝐵𝐿𝐸𝑈𝑖 𝐵 BLEU của câu thứ i dịch với bộ trọng số là điểm BLEU của câu thứ i dịch với bộ trọng số 𝜆𝐴 , 𝑀𝑎𝑥 𝐵𝐿𝐸𝑈𝑖 là điểm BLEU tối đa của câu thứ i có thể dịch bằng bất cứ bộ trọng số nào. Nếu Δ𝐴𝐵𝐿𝐸𝑈 < Δ𝐵𝐿𝐸𝑈 ta nói 𝐵 tập A có độ đồng nhất cao hơn tập B. Bảng 1. So sánh điểm BLEU giữa bộ trọng số của MERT và 9 bộ trọng số khác trên tập dev Tổng số câu Số câu tăng điểm 1000 457 Trung bình số điểm tăng/1 câu 5.22 Mục đích của việc chia tập dev thành các tập con là nhằm tìm cho mỗi câu một bộ trọng số tối ưu sao cho điểm BLEU của câu đó cao nhất. Chúng tôi lấy điểm BLEU tối ưu của MERT làm điểm cơ sở. Thuật toán gồm các bước như sau: Bước 1: Tính điểm BLEU cao nhất cho từng câu trong tập dev (𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥 ), tối ưu và dịch tương ứng trên từng câu. Bước 2: Tính điểm BLEU trên từng câu trong tập dev (𝐵𝐿𝐸𝑈𝑖𝑀𝐸𝑅𝑇 ) bằng trọng số của tập dev. Bước 3: Tính (∆𝐵𝐿𝐸𝑈𝑖 ) khả năng điểm BLEU có thể tăng so với điểm BLEU trong bước 1 cho từng câu trong tập dev bằng công thức (3.2.5). ∆𝐵𝐿𝐸𝑈𝑖 = Max 0, 𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥 − 𝐵𝐿𝐸𝑈𝑖𝑀𝐸𝑅𝑇 (3.2.5) Khởi tạo cho tổng số nhóm (N=0) Bước 4: Tìm trong tập dev câu có BLEU lớn nhất (chỉ tìm một câu). Tối ưu trọng số cho câu vừa tìm được bằng MERT. Bước 5: Dịch lại tập dev sử dụng bộ trọng số vừa tìm được ở bước 4 và tính điểm BLEU cho từng câu 𝑗 (𝐵𝐿𝐸𝑈𝑖 ). ISBN: 978-604-82-1375-6 83 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM Bước 6: Lưu danh sách điểm BLEU vào mảng, tăng số nhóm lên 1 (N=N+1) và cập nhật ∆BLEU cho từng câu bằng công thức (3.2.6). 𝑗 ∆𝐵𝐿𝐸𝑈𝑖 = Min 𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥 − 𝐵𝐿𝐸𝑈𝑖 , 𝐵𝐿𝐸𝑈𝑖𝑀𝑎𝑥 − 𝐵𝐿𝐸𝑈𝑖𝑀𝐸𝑅𝑇 (3.2.6) Bước 7: Nếu còn tồn tại ∆𝐵𝐿𝐸𝑈𝑖 > 0 thì quay về bước 4. Bước 8: Nếu không còn ∆BLEUi > 0 thì ta có kết quả tổng số nhóm là N nhóm. Câu i thuộc vào nhóm j j khi mà điểm BLEUi là lớn nhất với 1  i  tổng số câu trong tập dev, 1  j  N. Sau khi áp dụng thuật toán tối đa hóa điểm BLEU thì sẽ xuất hiện nhiều nhóm nhỏ rất đặc thù với số lượng câu rất ít, để giảm độ phức tạp tính toán và nhiễu chúng tôi nhập những nhóm này vào nhóm lớn gần nhất với nó.Các nhóm có số câu lớn hơn số câu của nhóm dịch bằng trọng số của MERT là nhóm lớn, các nhóm còn lại là nhóm nhỏ.Sau đó đi tìm giá trị tối ưu tương ứng cho tường nhóm lớn này. Một vấn đề ở đây là khi cần dịch câu đầu vào chúng tôi sẽ phải dịch bằng bộ trọng số nào? Chúng tôi sẽ giải quyết bài toán này theo hai cách. Thứ nhất chúng tôi sẽ dùng các đặc trưng như TF-IDF, cross-entropy, chiều dài câu nguồn, từ chưa biết, từ không được gióng hàng, từ được gióng hàng với nhiều từ, gióng hàng chéo để phân lớp cho câu đầu vào, thứ hai chúng tôi dịch câu đầu vào với tất cả các bộ trọng số và sử dụng mô hình xếp hạng để chọn câu đầu ra tốt nhất. Phân lớp cho câu đầu vào theo các đặc trƣng Phân lớp dựa trên TF-IDF Tương tự như các công trình Lü cùng cộng sự (2007) và Liu cùng cộng sự (2012) chúng tôi sử dụng tf-idf để đo sự tương tự của câu đầu vào với các phân nhóm. Sau đó phân nhóm cho câu đầu vào dựa vào độ đo này, câu được phân vào nhóm nào sẽ được dịch bằng bộ trọng số của nhóm đó. Phân lớp dựa trên các đặc trưng ngôn ngữ Một khi chúng tôi đã gom nhóm được ngữ liệu huấn luyện và có các bộ trọng số tối ưu tương ứng, thì vấn đề còn lại là làm thế nào để phân lớp chính xác câu đầu vào để nó được dịch với bộ trọng số tốt nhất và mang lại kết quả cao nhất. Chúng tôi chọn một công cụ điển hình cho bài toán phân lớp là công cụ SVM(Support Vecter Machine). Trong thử nghiệm này chúng tôi sử dụng công cụ multi-SVM để phân lớp. Để SVM đạt được hiệu quả tốt thì cần có một tập các đặc trưng tốt vì câu đầu vào thuộc ngôn ngữ nguồn nên chúng tôi chỉ có thể khai thác các đặc trưng trên ngôn ngữ nguồn. Các đặc trưng mà chúng tôi sử dụng để phân lớp gồm các đặc trưng như sau: Trung bình tần số của các từ trong câu Cross-entropy của câu Chiều dài câu Số từ chưa biết trong câu Trung bình xác suất gióng hàng chéo của các từ trong câu Trung bình số từ không gióng hàng của một câu Trung bình số từ đa gióng hàng trong một câu Số từ chức năng trong một câu Các từ xuất hiện trên 5 lần Công cụ multi-SVM cần một tập huấn luyện để học trước khi phân lớp và chúng tôi sử dụng tập dev để làm tập huấn luyện với số phân lớp chính là số nhóm đã được gom bằng phương pháp tối đa hóa điểm BLEU. Sau khi phân lớp cho các đầu vào thì chúng tôi tiến hành dịch với trọng số tương ứng cho từng câu. Xếp hạng câu đầu ra Tương ứng với số bộ trọng số của giai đoạn gom nhóm chúng tôi có số câu dịch ứng cử viên. Chúng tôi phải cho ra một ứng cử viên dịch tốt nhất. Chúng tôi so sánh ứng cử viên của MERT lần lượt với các ứng cử viên khác. Như vậy mỗi lần so sánh chúng tôi chỉ so sánh hai ứng cử viên. Nếu không có ứng viên nào tốt hơn ứng viên của MERT chúng tôi sẽ chọn nó làm câu dịch cuối cùng, nếu có nhiều ứng viên tốt hơn MERT chúng tôi sẽ chọn ứng viên của bộ trọng số có số câu trong nhóm nhiềuhơn. Mô hình xếp hạng của chúng tôi phân làm hai giai đoạn: giai đoạn phân loại các cặp câu dịch và giai đoạn phân tích quyết định chọn ứng cử viên tốt nhất. Phân loại các cặp câu dịch Theo quan sát và phân tích của chúng tôi thì sự khác biệt của hai ứng cử viên dịch bắt nguồn từ ba lỗi sai cơ bản sau: lỗi chọn sai nghĩa, lỗi trật tự từ, lỗi chèn hoặc xóa từ không hợp lý. Dựa trên nguồn gốc hình thành sự khác biệt này chúng tôi chia chúng thành bốn loại để xử lý riêng. ISBN: 978-604-82-1375-6 84 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM Loại 1: Sự khác biệt của hai ứng cử viên dịch chỉ bắt nguồn từ lỗi chọn sai từ. Loại 2: Sự khác biệt của hai ứng cử viên dịch chỉ bắt nguồn từ lỗi trật tự từ. Loại 3: Sự khác biệt của hai ứng cử viên dịch chỉ bắt nguồn từ lỗi chèn hoặc xóa từ không hợp lý. Loại 4: Tổng hợp các trường hợp, có thể bao gồm cả ba lỗi. Chọn ứng cử viên tốt nhất Để xếp hạng cho hai ứng cử viên dịch, một là ứng cử viên dịch bằng bộ trọng số của MERT và ứng cử viên còn lại là ứng cử viên được dịch bằng một trong số các bộ trọng số của nhóm lớn được tạo ra trong giai đoạn tối ưu hóa điểm BLEU, chúng tôi phân loại chúng vào một trong số bốn loại đã nêu như trên vàsau đó xử lý như sau: Nếu là loại 1, 2, 3 chúng tôi sử dụng tiêu chí Ngram trùng khớp với ngữ liệu để so sánh hai ứng cử viên dịch và chọn ứng cử viêntốt hơn.Nếu tiêu chí này không phân biệt ứng cử viên nào tốt hơn chúng tôi sẽ chọn ứng cử viên dịchbằngbộ trọng số của MERT.Nếu là loại 4 chúng tôi sẽ chọn ứng cử viên của MERT. KÊT QUẢ THỰC NGHIỆM VÀ ĐÁNH GIÁ Chương này sẽ mô tả chi tiết về các thí nghiệm đã thực hiện để đánh giá hiệu quả hướng tiếp cận của chúng tôi, đồng thời so sánh hiệu quả dịch của mô hình với mô hình của Och (2003). Ngữ liệu Ngữ liệu được sử dụng để huấn luyện và kiểm chứng trong hệ thống của chúng tôi là một phần của bộ ngữ liệu song ngữ Anh – Việt của nhóm VCL (Vietnamese Computation Linguistic) gồm 20000 câu được chuẩn hóa theo tiêu chí: đồng bộ về mặt nội dung, đồng bộ về mặt hình thức (dấu câu, số liệu, tên riêng,…), kiểm lỗi chính tả, loại bỏ câu trùng, tất cả các từ trong câu đều được viết thường nhằm làm giảm độ nhiễu loạn trong đánh giá chất lượng dịch. Ngữ liệu được chia ngẫu nhiên thành 3 tập con: tập huấn luyện (Train), tập tối ưu (Dev), tập kiểm nghiệm (Test) lần lượt theo tỉ lệ 9:0,5:0,5. Các đặc trưng của ngữ liệu được trình bày trong bảng 2. Bảng 2. Các đặc trưng của ngữ liệu Tập NL Trainset Devset Testset Số cặp câu 18,000 1,000 1,000 Chiều dài trung bình câu Anh Việt 25.47 35.16 26.28 35.21 27.81 39.46 Tiêu chuẩn đánh giá chất lƣợng dịch Trong bài báo này, chúng tôi sử dụng BLEU (Bilingual Evaluation Understudy) của Kishore Papineni và cộng sự (2002), đây là một độ đo thường được sử dụng trong dịch máy thống kê. BLEU là thuật giải đánh giá chất lượng của kết quả do máy dịch so với câu tham chiếu do con người dịch và được dùng phổ biến nhất hiện nay. Câu kết quả càng gần với người dịch thì được đánh giá càng cao.Ý tưởng chính của phương pháp này là tìm xem n-gram trong câu dịch có thuộc câu tham chiếu không. Các n-gram gồm: 1-gram, 2-gram, 3-gram và 4gram. BLEU sẽ được tính dựa trên trung bình hình học (geometric mean) số lần đồng xuất hiện của các n-gram ở câu dịch tự động và câu dịch tham chiếu. Điểm BLEU có giá trị trong khoảng [0,1], theo tiêu chuẩn này thì có rất ít câu dịch đạt được điểm tối đa, ngoại trừ những câu thực sự khớp với câu dịch mà hệ thống đánh giá tham chiếu tới. Với độ đo BLEU thì điểm càng cao nghĩa là hệ thống dịch càng tốt. Kết quả thực nghiệm Mô hình gom nhóm dựa trên đặc trưng ngôn ngữ Để tránh trường hợp số lượng câu trong từng nhóm con không đủ lớn để tiến hành tối ưu trọng số, chúng tôi chỉ chia tập dev (1000 câu) thành hai nhóm và chọn ngưỡng sau cho hai nhóm con có số lượng câu gần bằng nhau. Cross-entropy Trong thử nghiệm này chúng tôi chỉchia tập devthành hai nhóm.Nhóm phổ biến là nhóm các câu có perplexity nhỏ hơn 5.8, nhóm không phổ biếnlà nhóm các câu có perplexity lớn hơn 5.8.sau đó dụng phương pháp MERT để tối ưu hóa trọng số và cũng dùng ngưỡng này cho câu đầu vào. Chúng tôi thử nghiệm trên 3 hình thức dịch như sau và so sánh với MERT: Dịch PB-M: dịch phân lớp phổ biến bằng bộ trọng số phổ biến, phân lớp không phổ biến bằng bộ trọng số của MERT. ISBN: 978-604-82-1375-6 85 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM Dịch M-KPB: dịch phân lớp phổ biến bằng bộ trọng số MERT, phân lớp không phổ biến bằng bộ trọng số không phổ biến. Dịch PB-KPB: dịch tương ứng phân lớp phổ biến bằng bộ trọng số phổ biến, phân lớp không phổ biến bằng bộ trọng số không phổ biến. Chiều dài câu nguồn Trong thử nghiệm này, chúng tôi dùng ngưỡng 26 từ (token) phân lớp cũng như chia nhóm.Câu có số từ nhỏ hơn 26được xem là câu ngắn, câu có số từ lớn hơn 26được xem là câu dài. Chúng tôi cũng thử nghiệm trên 3 hình thức dịch như sau và so sánh với MERT: Dịch N-M: dịch phân lớp câu ngắn bằng bộ trọng số câu ngắn, phân lớp câu dài bằng bộ trọng số MERT. Dịch M-D: dịch phân lớp câu ngắn bằng bộ trọng số MERT, phân lớp câu dài bằng bộ trọng số câu dài. Dịch N-D: dịch tương ứng phân lớp câu ngắn bằng bộ trọng số câu ngắn, phân lớp câu dài bằng bộ trọng số câu dài. Từ chưa biết Trong thử nghiệm này, chúng tôi chia tập dev vào hai nhóm, nhóm dễ dịch và nhóm khó dịch.Các câu có từ chưa biết vào nhóm khó dịch, các câu còn lại vào nhóm dễ dịch.Và cũng thử nghiệm trên 3 hình thức dịch sau đó so sánh với MERT. Dịch DB-M: dịch phân lớp chưa biết với bộ trọng số chưa biết, phân lớp chưa biết với bộ trọng số MERT. Dịch M-CB: dịch phân lớp chưa biết với bộ trọng số MERT, phân lớp chưa biết với bộ trọng số chưa biết. Dịch CB-DB: dịch tương ứng phân lớp chưa biết với bộ trọng số chưa biết, phân lớp đã biết với bộ trọng số đã biết. Từ không được gióng hàng Kết quả tính toán trên tập dev cho ta thấy rằng trung bình xác suất số từ không gióng hàng trong một câu lớn nhất là 0.140284 nhỏ nhất là 0.006356 và trung bình là 0.055114.Chúng tôi quyết định dùng giá trị trung bình làm ngưỡng để chia tập dev thành hai nhóm và khi dịch chúng tôi cũng thử nghiệm trên 3 hình thức và so sánh với MERT. Dịch KGH-M: dịch phân lớp từ không gióng hàng với bộ trọng từ không gióng hàng, phân lớp không có từ không gióng hàng với bộ trọng số MERT. Dịch M-GH: dịch phân lớp từ không gióng hàng với bộ trọng số MERT, phân lớp không có từ không gióng hàng với bộ trọng số không có từ không gióng hàng. Dịch KGH-GH: dịch phân lớp từ không gióng hàng với bộ trọng từ không gióng hàng, phân lớp không có từ không gióng hàng với bộ trọng số không có từ không gióng. Từ được gióng hàng với nhiều từ Chúng tôi sử dụng 0.817738 làm ngưỡng để phân chia tập dev và phân lớp câu đầu vào thành hai nhóm.Chúng tôi cũng thử nghiệm trên 3 hình thức dịch và so sánh với MERT. Dịch DA-M: dịch phân lớp từ đa gióng hàng với bộ trọng từ đa gióng hàng, phân lớp đơn gióng hàng với bộ trọng số MERT. Dịch M-DON: dịch phân lớp đa gióng hàng với bộ trọng số MERT, phân lớp đơn gióng hàng với bộ trọng số đơn gióng hàng. Dịch DA-DON: dịch phân lớp từ đa gióng hàng với bộ trọng từ đa gióng hàng, phân lớp đơn gióng hàng với bộ trọng số đơn gióng hàng. Gióng hàng chéo Chúng tôi cũng tính toán được xác suất gióng hàng chéo trên từng câu trong tập dev với giá cao nhất 0.6327, thấp nhất 0.2005 và trung bình 0.3960.Chúng tôi sử dụng ngưỡng 0.3960 để chia tập dev thành hai nhóm, sau đó sử dụng chúng để tối ưu trọng số.Chúng tôi cũng thử nghiệm trên 3 hình thức dịch và so sánh với MERT. Dịch GHC-M: dịch phân lớp gióng hàng chéo với bộ trọng gióng hàng chéo, phân lớp gióng hàng thường với bộ trọng số MERT. Dịch M-GHT: dịch phân lớp gióng hàng chéo với bộ trọng số MERT, phân lớp gióng hàng thường với bộ trọng số gióng hàng thường. Dịch GHC-GHT: dịch phân lớp gióng hàng chéo với bộ trọng gióng hàng chéo, phân lớp gióng hàng thường với bộ trọng số gióng hàng thường. Kết hợp các đặc trưng ISBN: 978-604-82-1375-6 86 Báo cáo toàn văn Kỷ yếu hội nghị khoa học lần IX Trường Đại học Khoa học Tự nhiên, ĐHQG-HCM Chúng tôi sử dùng 6 đặc trưng trên để gom nhóm và sử dụng phương pháp K-Means và độ đo khoảng cách euclidean để gom nhóm. Kết quả Toàn bộ kết quả thực nghiệm của phương pháp gom nhóm dựa trên các đặc trưng ngôn ngữ được trình bày trong bảng 3, kết quả này cho thấy rằng việc thay đổi trọng số theo các đặc trưng hầu hết là giúp cho hệ thống dịch tốt hơn. Có trường hợp cho điểm BLEU tăng đến 0.65 điểm. Bảng 3. Kết quả thực nghiệm trên đặc trưng ngôn ngữ Đặc trƣng Cross entropy Chiều dài câu Từ chưa biết Từ không gióng hàng Từ đa gióng hàng Gióng hàng chéo Tổng hợp các đặc trưng Phƣơng pháp Cơ sở MERT Phổ Biến-MERT MERT-Không Phổ Biến Phổ Biến-Không Phổ Biến Ngắn-MERT MERT-Dài Ngắn-Dài Dễ-MERT MERT-Khó Dễ-Khó Không gióng hàng-MERT MERT-gióng hàng Không gióng hàng-gióng hàng Đa gióng hàng-MERT MERT-đơn gióng hàng Đa gióng hàng-đơn gióng hàng Gióng Hàng Chéo-MERT MERT-Gióng Hàng Thường Gióng Hàng Chéo-Gióng HàngThường K-Mean BLEU 43.71 43.79 43.60 44.01 44.36 43.90 43.89 44.04 43.14 44.07 44.31 43.90 43.81 43.95 43.70 43.82 43.95 43.93 43.65 43.42 NIST 9.6218 9.6999 9.6974 9.7163 9.8128 9.7108 9.7145 9.7419 9.6458 9.7222 9.8102 9.7162 9.7155 9.7315 9.6901 9.7081 9.7327 9.7077 9.7002 9.6160 43.81 9.6952 Gom nhóm dựa trên tối đa hóa điểm BLEU Chúng tôi áp dụng thuật toán này lên 1000 câu của tập dev và thu được 83 nhóm. Trong các nhóm này, nhóm có số câu ít nhất là 1 câu, nhóm có số câu nhiều nhất là 57 câu, nhóm với trọng số của MERT là 39 câu. Chúng tôi lấy con số 39 này làm ngưỡng cho việc loại bỏ các nhóm quá đặc trưng (các nhóm có số câu ... nghiệm hình thức dịch sau so sánh với MERT: Dịch N-M: dịch phân lớp câu ngắn trọng số câu ngắn, phân lớp câu dài trọng số MERT Dịch M-D: dịch phân lớp câu ngắn trọng số MERT, phân lớp câu dài trọng. .. tối ưu lại giá trị trọng số trước dịch, phương pháp tính trước giá trị trọng số, tối ưu mặt thời gian Mô Hình Trong hướng tiếp cận dịch máy liên quan đến việc tối ưu trọng số, chọn hướng tiếp... chưa biết với trọng số MERT Dịch M-CB: dịch phân lớp chưa biết với trọng số MERT, phân lớp chưa biết với trọng số chưa biết Dịch CB-DB: dịch tương ứng phân lớp chưa biết với trọng số chưa biết,

Định dạng
Số trang	10
Dung lượng	1,16 MB