4 Xác định cụm từ song ngữ cho dịch máy thống kê
4.4.1 Thực nghiệm về rút trích cụm từ song ngữ
Để đánh giá hiệu quả của việc rút trích cụm từ song ngữ từ ngữ liệu song ngữ, chúng tôi sử dụng các độ đoprecision và recall như sau:
P recision= |X∩Y|
|X| (4.5)
Recall= |X∩Y|
|Y| (4.6)
Trong đó,
• X là tập hợp các cụm từ song ngữ được rút trích theo phương pháp áp dụng.
• Y là tập hợp các cụm từ song ngữ có trong ngữ liệu.
Ngoài ra, để cân bằng giữa độ chính xác và độ bao phủ, chúng sử dụng độ đo
Fscore như sau:
Fscore = (2∗P recision∗Recall)
(P recision+Recall) (4.7)
Các thực nghiệm về rút trích cụm từ song ngữ được thực hiện trên 5.000 câu song ngữ Anh - Việt (được tạo bởi Hoàng Cường và cộng sự [44]). Để gán nhãn từ loại cho dữ liệu thực nghiệm, chúng tôi sử dụng các bộ công cụ:vnTagger cho văn bản tiếng Việt và posTagger-1.0 cho văn bản tiếng Anh. Chúng tôi xây dựng một tập hợp các cặp mẫu cú pháp tiếng Anh và tiếng Việt, tập này bao gồm 10 cặp mẫu. Bảng 4.3 mô tả thông tin về các cặp mẫu cú pháp này.
4.4.1.2 Kết quả thực nghiệm
Chúng tôi đã thử nghiệm với một số giá trị của ngưỡng θ. Chi tiết được tóm tắt trong Bảng 4.4. Chúng ta có thể thấy, điểm precision (độ chính xác) cao hơn nếu
Bảng 4.3:10 mẫu cú pháp song ngữ Anh - Việt được sử dụng để xác định cụm từ cho SMT.
STT Tiếng Anh Tiếng Việt
1. DT/NN M/Nc/N, Nc/N/P 2. DT/NNS L/Nc/N/P, L/N/P
3. DT/JJ/NN Nc/N/A/P, M/Nc/N/A, M/N/A
4. DT/JJ/JJ/NN Nc/N/A/A/P, M/Nc/N/A/A, M/N/A/A 5. DT/JJ/NNS L/N/A 6. DT/JJ/JJ/NNS L/N/A/A 7. PRP$/NN Nc/N/E/P 8. PRP$/JJ/NN N/A/E/P 9. PRP$/NNS L/N/E/P 10. PRP$/JJ/NNS L/N/A/E/P
Bảng 4.4: Kết quả thử nghiệm sử dụng một số giá trị của ngưỡng θ.
Ngưỡng θ Precision Recall F_score Số lượng cụm từ
không sử dụng 75,97 13,25 22,57 828 0,05 79,36 13,04 22,40 780 0,10 82,24 12,68 21,98 732 0,15 83,71 12,24 21,36 694 0,20 84,73 11,69 20,55 655 0,25 86,24 11,36 20,07 625 0,50 87,94 7,22 13,36 390
giá trị của ngưỡng θ tăng lên và dĩ nhiên, giá trị củarecall (độ bao phủ) sẽ giảm xuống. Cần lưu ý rằng trong bài toán này, độ chính xác là tiêu chí quan trọng nhất để đánh giá hiệu quả của hệ thống. Theo kết quả từ các thực nghiệm, chúng tôi thấy rằng với ngưỡng θ = 0,25 chúng tôi đạt được kết quả tốt nhất, trong đó sự cân bằng giữaprecision và recall được đảm bảo. Hình 4 cho thấy mối tương quan giữa ngưỡng θ và số lượng các cụm từ rút trích được. Số lượng các cụm từ giảm
xuống khi chúng ta tăng giá trị của ngưỡng θ. Chúng ta có thể thấy trong biểu đồ, khi θ = 0,1 có 732 cụm từ song ngữ và con số này giảm xuống còn 655 khi
θ = 0,2. Bảng 4.5 trình bày kết quả thực nghiệm với phương pháp của chúng tôi
0.1 0.2 0.3 0.4 0.5 400 500 600 700 Ngưỡng θ Số lượng cụm từ
Hình 4.2: Tương quan giữa ngưỡngθ và số lượng cụm từ song ngữ.
và phương pháp so khớp mẫu cú pháp ở hai phía như trong [7]. Kết quả cho thấy, phương pháp của chúng tôi đạt được điểm số cao hơn trên cả hai độ đoprecision
và recall. Cụ thể, điểm Fscore của phương pháp chúng tôi là 36,07 trong khi của phương pháp so khớp mẫu cú pháp ở hai phía là 20,07. Các kết quả này đã cho thấy phương pháp chúng tôi đề xuất là khá hiệu quả.
Bảng 4.5: Kết quả thực nghiệm với phương pháp của chúng tôi và phương
pháp so khớp mẫu cú pháp ở hai phía.
Phương pháp Precision Recall F_score Số lượng cụm từ
So khớp mẫu cú pháp 86,24 11,36 20,07 625 ở hai phía
Phương pháp 89,12 22,61 36,07 1.204 chúng tôi đề xuất