Tiếp cận của luận văn với phát hiện kế thừa văn bả- 123docz.net

Như luận văn đã trình bày ở trên, qua quá trình khảo sát các phương pháp tiếp cận cho bài tốn phát hiện kế thừa văn bản đa ngơn ngữ, luận văn nhận thấy cĩ hai hướng tiếp cận chính để giải quyết bài tốn này: hướng tiếp cận cơ bản và hướng tiếp cận nâng cao. Hầu hết các nhĩm nghiên cứu khoa học đều phát triển bài tốn phát hiện kế thừa văn bản đa ngơn ngữ theo hai hướng tiếp cận này.

Hướng tiếp cận cơ bản cĩ những ưu điểm như:Việc tách hệ thống phát hiện kế thừa văn bản đa ngơn ngữ thành hai thành phần riêng biệt (thành phần MT và thành phần TE) sẽ dễ dàng hơn cho việc phát triển, gỡ lỗi và bảo trì hệ thống; dễ dàng mở rộng với các ngơn ngữ khác bằng cách sửa đổi thành phần dịch máy MT, thành phần TE vẫn được giữ nguyên. Tuy nhiên, hướng tiếp cận này cĩ nhược điểm là việc phụ thuộc vào các thành phần dịch máy MT cĩ sẵn và chất lượng của các bản dịch. Nếu chất lượng bản dịch khơng tốt thì thành phần phát hiện kế thừa TE cĩ thể cho kết quả khơng chính xác. Theo hướng tiếp cận này, Fandong Meng và cộng sự [2] đã thực nghiệm với kêt quả độ chính xác trung bình là 0.50, Jiang ZHAO và cộng sự [4] đã thực nghiệm với kêt quả độ chính xác trung bình là 0.43.

Để khắc phục nhược điểm của hướng tiếp cận cơ bản, hướng tiếp cận nâng cao tận dụng ưu điểm của việc tích hợp chặt chẽ dịch máy MT với các kỹ thuật, thuật tốn phát hiện kế thừa văn bản TE. Điều này giúp phát hiện kế thừa văn bản đa ngơn ngữ mà khơng cần dịch văn bản với độ phức tạp thấp. Do đĩ, hướng tiếp cận này khơng bị phụ thuộc vào các thành phần dịch máy và nĩ cĩ thể kiểm sốt được tồn bộ hành vi của hệ thống.

Tuy nhiên, hạn chế của nguồn tài nguyên từ vựng song ngữ cùng với việc các ngơn ngữ khác nhau cĩ cấu trúc cú pháp khác nhau nên kết quả thu được từ hướng tiếp cận này vẫn chưa cao.Theo hướng tiếp cận này, Marco Turchi và cộng sự cĩ kết quả thực nghiệm với độ chính xác trung bình là 0.43.

Hiện nay, trên thế giới cĩ rất nhiều ngơn ngữ khác nhau được sử dụng giao tiếp. Trong số các ngơn ngữ này, tiếng Việt vẫn chưa được sử dụng phổ biến. Do đĩ, ngữ liệu song ngữ giữa tiếng Việt với ngơn ngữ khác vẫn cịn hạn chế cả về kích thước và chất lượng. Ngồi ra, các cặp ngơn ngữ cĩ thể khác nhau về cấu trúc cú pháp, ví dụ, tiếng Việt và tiếng Anh cĩ cấu trúc cú pháp ngược nhau. Từ nhược điểm này, luận văn thấy rằng việc áp dụng hướng tiếp cận cơ bản của Mehdadvà cộng sự [13] hiện tại sẽ mang lại kết quả tốt hơn cho việc áp dụng bài tốn phát hiện kết thừa văn bản đa ngơn ngữ với ngơn ngữ chính là tiếng Việt (qua quá trình khảo sát các kết quả thu được từ các thực nghiệm được thực trên cùng một bộ dữ liệu được cung cấp trong hội nghị SemEval 12, hiện tại, hướng tiếp cận nâng cao cĩ độ chính xác thấp hơn). Vì vậy, luận văn sẽ áp dụng hướng tiếp cận cơ bản vào mơ hình đề xuất trong chương tiếp theo.

Theo hướng tiếp cận cơ bản, Fandong Meng cộng sự [2] đã đề xuất mơ hình phát hiện kế thừa văn bản đa ngơn ngữ với độ chính xác cao hơn các nhĩm nghiên cứu khác. Do đĩ, luận văn sẽ xây dựng mơ hình giải quyết bài tốn bằng cách vận dụng mơ hình củaFandong Meng cộng sự [2]. Tuy nhiên, thành phần phát hiện kế thừa TE trong mơ hình của nhĩm tác giả chưa thực sự mang lại kết quả chưa cao. Do đĩ, luận văn sẽ cải thiện thành phần TE dựa trên việc sử dụng học máy SVM. Kiến trúc của thành phần TE này được xây dựng dựa trên mơ hình phát hiện kế thừa văn bản dựa trên học máy của Julio Javier Castillo và cộng sự [6] như luận văn đã trình bày ở trên.

Tiếp cận của luận văn với phát hiện kế thừa văn bảnđa ngơn ngữ

Thành phần phát hiện kế thừa