4 Xác định cụm từ song ngữ cho dịch máy thống kê
2.6 Tổng hợp số trang web được tải về và số cặp ứng viên
Web-site Số trang tải về Số cặp ứng viên
BBC 37.665 721
VOA News 14.105 129 VietnamPlus 12.553 320
Kết quả, chúng tôi đã loại bỏ hơn 90% cặp không được xem là ứng viên. Từ đó, chúng tôi nhận được 1.170 cặp ứng viên để xác định mỗi cặp trong số đó là song
Hình 2.4: Định dạng dữ liệu huấn luyện phù hợp cho việc sử dụng công cụ LIBSVM.
ngữ hay không. Tiếp theo, chúng tôi thiết kế các đặc trưng về nội dung và cấu trúc cho tất cả các cặp ứng viên như trình bày ở các phần trước. Sau đó, chúng tôi thực hiện gán nhãn 0 hoặc 1 cho mỗi cặp ứng viên. Một cặp được gán nhãn bằng 1 nếu nó là song ngữ, ngược lại nó được gán nhãn 0. Có 433 cặp được gán nhãn 1 và 737 cặp có nhãn 0 từ 1.170 cặp ứng viên. Sau đó, chúng tôi xây dựng dữ liệu huấn luyện từ tập này với định dạng như trình bày ở Hình 2.4 - định dạng này phù hợp cho việc sử dụng công cụ LIBSVM8. Chúng tôi sử dụng kỹ thuật kiểm tra chéo 5 lần (5-folds cross-validation), mỗi phần (fold) có 234 cặp làm dữ liệu đánh giá và 936 cặp làm dữ liệu huấn luyện. Để đánh giá hiệu quả của phương pháp đã đề xuất, chúng tôi so sánh với hai cách tiếp cận trước đó: dựa trên cấu trúc [100] và dựa trên nội dung [76].
2.3.1.2 Kết quả thực nghiệm
Chúng tôi tiến hành các thực nghiệm với bốn phương pháp, cụ thể như sau:
1. Chỉ sử dụng các đặc trưng dựa trên cấu trúc theo phương pháp của Resnik [100] (hệ thống STRAND). Kết quả thực nghiệm được thể hiện ở Bảng2.7.