Kết quả của năm lần thực nghiệm

Một phần của tài liệu SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪLOẠI TIẾNG VIỆT (Trang 57 - 60)

a. Kết qu thc nghim áp dng mô hình MEM

Dữ liệu huấn luyện và kiểm thử được xử lý theo từng câu một, thủ tục kiểm thử

tuân theo thuật toán beam search, thuật toán này sẽ tìm kiếm để liệt kê các chuỗi nhãn

49

 Ở mức từ

Bảng 9. Độ chính xác khi áp dụng mô hình MEM ở mức từ

Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình

Bộ dữ liệu thứ nhất 86.47 86.73 86.56 86.24 86.11 86.42

Bộ dữ liệu thứ hai 85.17 85.64 85.51 85.71 85.81 85.57

Thực nghiệm áp dụng mô hình MEM để gán nhãn cho văn bản tiếng Việt ở mức từ cho độ chính xác trung bình với bộ dữ liệu thứ nhất là 86.42% trong đó kết quả cao nhất là 86.73%. Với bộ dữ liệu thứ hai, độ chính xác trung bình là 85.57% và độ chính xác cao nhất là 85.81%.

Thời gian huấn luyện MEM vào khoảng gần 3 tiếng với bộ dữ liệu thứ nhất và khoảng 2 tiếng với bộ dữ liệu thứ hai. MEM cần khá nhiều thời gian để tiến hành kiểm thử, khoảng hơn 10 phút trong cả 2 bộ dữ liệu.

 Ở mức hình vị

Bảng 10. Độ chính xác khi áp dụng mô hình MEM ở mức hình vị

Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình

Bộ dữ liệu thứ nhất 89.72 89.93 89.76 90.07 89.86 89.87

Bộ dữ liệu thứ hai 88.63 89.64 89.26 89.36 89.63 89.30

Trong thực nghiệm ở mức hình vị, độ chính xác ở cả hai bộ dữ liệu nhìn chung

đều tăng lên đáng kể: Với bộ dữ liệu thứ nhất là 89.87% ở giá trị trung bình, trong đó kết quả cao nhất là 90.07%; Với bộ dữ liệu thứ hai, độ chính xác trung bình là 89.30% và cao nhất là 89.64%.

Thời gian huấn luyện tăng lên khoảng hơn 1.5 lần so với ở mức từ (khoảng 4,5 tiếng để huấn luyện mô hình sử dụng bộ dữ liệu thứ nhất và khoảng 3 tiếng nếu sử

dụng bộ dữ liệu thứ hai). Thời gian kiểm thử vào khoảng 20 phút với bộ dữ liệu thứ

nhất và 15 phút với bộ dữ liệu thứ hai.

Tương tự MEM, đối với CRF dữ liệu huấn luyện và kiểm thử cũng được xử lý theo từng câu một. Trong thực nghiệm này, việc ước lượng các tham số cho mô mình CRF được tiến hành bằng phương pháp LBFGS.

50 b. Kết qu thc nghim áp dng mô hình CRF  Ở mức từ Bảng 11. Độ chính xác khi áp dụng mô hình CRF ở mức từ Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình Bộ dữ liệu thứ nhất 90.91 91.02 90.87 90.86 90.93 90.92 Bộ dữ liệu thứ hai 89.36 89.61 89.48 89.76 89.72 89.59 Áp dụng CRF ở mức từ, độ chính xác trung bình đạt được với bộ dữ liệu thứ nhất là 90.92% (cao nhất là 91.02%). Với bộ dữ liệu thứ hai, độ chính xác trung bình là 89.59% (cao nhất đạt được là 89.72%).

Thời gian huấn luyện nhìn chung là khá lớn (khoảng 5 tiếng với bộ dữ liệu thứ

nhất và 4 tiếng với bộ dữ liệu thứ hai). Nhưng ngược lại, thời gian kiểm thử nhỏ, chỉ

xấp xỉ 1-2 giây với cả 2 bộ dữ liệu  Ở mức hình vị Bảng 12. Độ chính xác khi áp dụng mô hình CRF ở mức hình vị Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình Bộ dữ liệu thứ nhất 91.32 91.88 91.49 91.68 91.83 91.64 Bộ dữ liệu thứ hai 89.82 90.35 90.76 89.95 89.98 90.17 Ở mức hình vị, độ chính xác trung bình đạt được với bộ dữ liệu thứ nhất là 91.64%, trong đó cao nhất là là 91.88%, với bộ dữ liệu thứ hai, độ chính xác trung bình là 90.17% và độ chính xác cao nhất là 90.76%. Như vậy, độ chính xác có tăng so với thực nghiệm ở mức từ, nhưng độ tăng không nhiều (khoảng 0,6 – 0,7%).

Thực nghiệm ở mức hình vị với CRF mất nhiều thời gian để huấn luyện và kiểm thử hơn so với thực nghiệm ở mức từ, mức tăng vào khoảng hơn 3 tiếng, thời gian kiểm thử tăng không đáng kể và vẫn ở mức thấp.

c. Kết qu thc nghim áp dng mô hình SVM

Để phục vụ cho việc trích chọn các đặc trưng về từ hoặc hình vị, một từđiển các từ và hình vị đã được xây dựng, việc số hóa các đặc trưng theo yêu cầu đầu vào của mô hình dựa trên số thứ tự của từ hoặc hình vị trong từđiển này. Kết quả thực nghiệm áp dụng mô hình SVM được cho ở bảng 14 và bảng 15 dưới đây.

51  Ở mức từ Bảng 13. Độ chính xác khi áp dụng mô hình SVM ở mức từ Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình Bộ dữ liệu thứ nhất 89.44 88.59 88.62 88.21 88.96 88.76 Bộ dữ liệu thứ hai 87.27 86.89 87.16 86.93 87.05 87.06

Thực nghiệm áp dụng mô hình SVM ở mức từ cho độ chính xác trung bình với bộ dữ liệu thứ nhất là 88.76%, kết quả cao nhất là 89.44%, hai con số này với bộ dữ

liệu thứ hai lần lượt là 87.06% và 87.27%.

SVM không cần quá nhiều thời gian để huấn luyện, (khoảng nửa giờ đến một giờ

trong cả 2 bộ dữ liệu). Tốc độ kiểm thử cũng khá tốt, chỉ nằm trong khoảng 4-5 giây.

 Ở mức hình vị Bảng 14. Độ chính xác khi áp dụng mô hình SVM ở mức hình vị Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình Bộ dữ liệu thứ nhất 90.41 91.24 90.81 90.88 90.56 90.78 Bộ dữ liệu thứ hai 89.96 89.16 89.79 89.16 88.96 89.41 Ở mức hình vị, nhìn chung độ chính xác tăng hơn khá nhiều so mới mức từ

(khoảng 2%), độ chính xác trung bình với bộ dữ liệu thứ nhất là 90.78%, cao nhất là 91.24%, với bộ dữ liệu thứ hai là 89.41% ở mức trung bình và 89.96% là độ chính xác cao nhất.

Thời gian huấn luyện ở mức hình vị chỉ tăng lên khoảng 20 phút so với huấn luyện ở mức từ, thời gian kiểm thử tăng không đáng kể và vẫn ở mức thấp, nằm trong khoảng 5-6 giây.

Một phần của tài liệu SO SÁNH MỘT SỐPHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪLOẠI TIẾNG VIỆT (Trang 57 - 60)

Tải bản đầy đủ (PDF)

(68 trang)