Một mơ hình gán nhãn từ loại tiếng Việt

Một phần của tài liệu đồ án tốt nghiệp so sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt (Trang 59 - 65)

Thực nghiệm trong nội dung khóa luận sẽ tiến hành gán nhãn từ loại theo 2 hướng tiếp cận khác nhau, cùng với đó là tập đặc trưng có thay đổi phù hợp với từng cách tiếp cận:

• Gán nhãn từ loại dựa vào thơng tin về từ (Tiếp cận dựa trên mức từ).

4.3.1. Gán nhãn từ loại dựa vào thông tin về từ

Gán nhãn từ loại dựa vào thông tin về từ là việc gán nhãn sử dụng các đặc trưng ngữ cảnh xung quanh từ đang xét. Các mẫu đặc trưng được mô tả như ở dưới đây, trong đó W đề cập tới từ còn POS đề cập tới nhãn từ loại của từ.

• Từ Wi (i = -2, -1, 0, 1, 2)

• Nhãn của từ đằng trước từ hiện tại POS(W-1)

• Hai nhãn hai từ đằng trước từ hiện tại POS(W-2) POS(W-1) • Từ đang xét có phải dấu câu?

• Từ đang xét có phải từ đầu tiên của câu?

• Từ đang xét có ký tự đầu của mỗi hình vị viết hoa hay khơng?

4.3.2. Gán nhãn từ loại dựa vào thơng tin hình vị

Hướng tiếp cận gán nhãn từ loại ở mức hình vị dựa trên đặc điểm của tiếng Việt là các từ được cấu thành từ các hình vị. Trong tiếng việt, hình vị nhỏ nhất là “tiếng” được hình thành bởi nhiều ký tự trong bảng chữ cái. Dưới đây là mơ tả đặc trưng dựa trên hình vị:

• Hình vị S-i (i = -2, -1, 0, 1, 2)

• Nhãn của hình vị đằng trước từ hiện tại POS(S-1wo)

• Nhãn của 2 hình vị đằng trước từ hiện tại POS(S-2Wo) POS(S-1Wo) • Hình vị đang xét có phải dấu câu?

• HÌnh vị đang xét có phải hình vị đầu tiên của một câu? • Hình vị đang xét có ký tự đầu tiên viết hoa hay khơng?

Trong đó, với chú ý thêm là đặc trưng POS(S-1wo) chính là nhãn từ loại của hình vị đầu tiên thuộc từ đứng ngay trước từ hiện tại. Và POS(S-2Wo) POS(S-1Wo) chính là nhãn từ loại của hình vị đầu tiên thuộc từ đứng trước và cách từ hiện tại một từ.

4.4. Phương pháp thực nghiệm và các tham số đánh giá thực nghiệm 4.4.1. Phương pháp thực nghiệm

Thực nghiệm theo phương pháp kiểm thử chéo 5 lần (5-fold cross validation).

Theo phương pháp này, dữ liệu thực nghiệm được chia thành 5 phần bằng nhau, lần lượt lấy 4 phần để huấn luyện và 1 phần còn lại để kiểm thử, kết quả sau 5 lần thực nghiệm được ghi lại và đánh giá tổng thể.

4.4.2. Các tham số đánh giá thực nghiệm

Khóa luận đánh giá độ “tốt” của các thực nghiệm dựa trên hai yếu tố chính:

• Độ chính xác của kết quả (tức là dữ liệu đầu ra của mơ hình). Đây là một trong những yếu tố quan trọng nhất cần phải xem xét để đánh giá độ tốt của một mơ hình. Đối với các thực nghiệm đã được tiến hành, độ chính xác của dữ liệu đầu ra được tính bằng cơng thức:

P = correct

correct + incorrect

• Thời gian xử lý của bộ gán nhãn. Thời gian này bao gồm: thời gian huấn luyện và thời gian gán nhãn (ở đây ta tính bằng thời gian kiểm thử trong các thực nghiệm). Ở đây ta ký hiệu thời gian huấn luyện là T (tính bằng đơn vị giây) và thời gian kiểm thử là t (tính bằng đơn vị giây); thời gian kiểm thử được tính bằng thời gian từ lúc mơ hình bắt đầu gán nhãn cho dữ liệu kiểm thử đến lúc đầu ra được in ra file một cách hoàn chỉnh.

4.5. Kết quả thực nghiệm

Các mơ hình học máy MEM, CRF và SVM đã được huấn luyện trên cùng một môi trường phần cứng và sử dụng cùng tập đặc trưng đã được thiết kế ở phần trước.

4.5.1. Kết quả của năm lần thực nghiệm

a. Kết quả thực nghiệm áp dụng mơ hình MEM

Dữ liệu huấn luyện và kiểm thử được xử lý theo từng câu một, thủ tục kiểm thử tuân theo thuật tốn beam search, thuật tốn này sẽ tìm kiếm để liệt kê các chuỗi nhãn ứng cử viên cho câu và chuỗi nhãn cao nhất được chọn là đáp án.

• Ở mức từ

Bảng 9. Độ chính xác khi áp dụng mơ hình MEM ở mức từ

Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình

Bộ dữ liệu thứ nhất 86.47 86.73 86.56 86.24 86.11 86.42

Bộ dữ liệu thứ hai 85.17 85.64 85.51 85.71 85.81 85.57

Thực nghiệm áp dụng mơ hình MEM để gán nhãn cho văn bản tiếng Việt ở mức từ cho độ chính xác trung bình với bộ dữ liệu thứ nhất là 86.42% trong đó kết quả cao nhất là 86.73%. Với bộ dữ liệu thứ hai, độ chính xác trung bình là 85.57% và độ chính xác cao nhất là 85.81%.

Thời gian huấn luyện MEM vào khoảng gần 3 tiếng với bộ dữ liệu thứ nhất và khoảng 2 tiếng với bộ dữ liệu thứ hai. MEM cần khá nhiều thời gian để tiến hành kiểm thử, khoảng hơn 10 phút trong cả 2 bộ dữ liệu.

• Ở mức hình vị

Bảng 10. Độ chính xác khi áp dụng mơ hình MEM ở mức hình vị

Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình

Bộ dữ liệu thứ nhất 89.72 89.93 89.76 90.07 89.86 89.87

Bộ dữ liệu thứ hai 88.63 89.64 89.26 89.36 89.63 89.30

Trong thực nghiệm ở mức hình vị, độ chính xác ở cả hai bộ dữ liệu nhìn chung đều tăng lên đáng kể: Với bộ dữ liệu thứ nhất là 89.87% ở giá trị trung bình, trong đó kết quả cao nhất là 90.07%; Với bộ dữ liệu thứ hai, độ chính xác trung bình là 89.30% và cao nhất là 89.64%.

Thời gian huấn luyện tăng lên khoảng hơn 1.5 lần so với ở mức từ (khoảng 4,5 tiếng để huấn luyện mơ hình sử dụng bộ dữ liệu thứ nhất và khoảng 3 tiếng nếu sử dụng bộ dữ liệu thứ hai). Thời gian kiểm thử vào khoảng 20 phút với bộ dữ liệu thứ nhất và 15 phút với bộ dữ liệu thứ hai.

Tương tự MEM, đối với CRF dữ liệu huấn luyện và kiểm thử cũng được xử lý theo từng câu một. Trong thực nghiệm này, việc ước lượng các tham số cho mô mình CRF được tiến hành bằng phương pháp LBFGS.

b. Kết quả thực nghiệm áp dụng mơ hình CRF • Ở mức từ Bảng 11. Độ chính xác khi áp dụng mơ hình CRF ở mức từ Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình Bộ dữ liệu thứ nhất 90.91 91.02 90.87 90.86 90.93 90.92 Bộ dữ liệu thứ hai 89.36 89.61 89.48 89.76 89.72 89.59

Áp dụng CRF ở mức từ, độ chính xác trung bình đạt được với bộ dữ liệu thứ nhất là 90.92% (cao nhất là 91.02%). Với bộ dữ liệu thứ hai, độ chính xác trung bình là 89.59% (cao nhất đạt được là 89.72%).

Thời gian huấn luyện nhìn chung là khá lớn (khoảng 5 tiếng với bộ dữ liệu thứ nhất và 4 tiếng với bộ dữ liệu thứ hai). Nhưng ngược lại, thời gian kiểm thử nhỏ, chỉ xấp xỉ 1-2 giây với cả 2 bộ dữ liệu

• Ở mức hình vị

Bảng 12. Độ chính xác khi áp dụng mơ hình CRF ở mức hình vị

Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình

Bộ dữ liệu thứ nhất 91.32 91.88 91.49 91.68 91.83 91.64

Bộ dữ liệu thứ hai 89.82 90.35 90.76 89.95 89.98 90.17

Ở mức hình vị, độ chính xác trung bình đạt được với bộ dữ liệu thứ nhất là 91.64%, trong đó cao nhất là là 91.88%, với bộ dữ liệu thứ hai, độ chính xác trung bình là 90.17% và độ chính xác cao nhất là 90.76%. Như vậy, độ chính xác có tăng so với thực nghiệm ở mức từ, nhưng độ tăng không nhiều (khoảng 0,6 – 0,7%).

Thực nghiệm ở mức hình vị với CRF mất nhiều thời gian để huấn luyện và kiểm thử hơn so với thực nghiệm ở mức từ, mức tăng vào khoảng hơn 3 tiếng, thời gian kiểm thử tăng không đáng kể và vẫn ở mức thấp.

c. Kết quả thực nghiệm áp dụng mơ hình SVM

Để phục vụ cho việc trích chọn các đặc trưng về từ hoặc hình vị, một từ điển các từ và hình vị đã được xây dựng, việc số hóa các đặc trưng theo yêu cầu đầu vào của mơ hình dựa trên số thứ tự của từ hoặc hình vị trong từ điển này. Kết quả thực nghiệm áp dụng mơ hình SVM được cho ở bảng 14 và bảng 15 dưới đây.

• Ở mức từ

Bảng 13. Độ chính xác khi áp dụng mơ hình SVM ở mức từ

Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình

Bộ dữ liệu thứ nhất 89.44 88.59 88.62 88.21 88.96 88.76

Bộ dữ liệu thứ hai 87.27 86.89 87.16 86.93 87.05 87.06

Thực nghiệm áp dụng mơ hình SVM ở mức từ cho độ chính xác trung bình với bộ dữ liệu thứ nhất là 88.76%, kết quả cao nhất là 89.44%, hai con số này với bộ dữ liệu thứ hai lần lượt là 87.06% và 87.27%.

SVM không cần quá nhiều thời gian để huấn luyện, (khoảng nửa giờ đến một giờ trong cả 2 bộ dữ liệu). Tốc độ kiểm thử cũng khá tốt, chỉ nằm trong khoảng 4-5 giây.

• Ở mức hình vị

Bảng 14. Độ chính xác khi áp dụng mơ hình SVM ở mức hình vị

Lần 1 Lần 2 Lần 3 Lần 4 Lần 5 Trung bình

Bộ dữ liệu thứ nhất 90.41 91.24 90.81 90.88 90.56 90.78

Bộ dữ liệu thứ hai 89.96 89.16 89.79 89.16 88.96 89.41

Ở mức hình vị, nhìn chung độ chính xác tăng hơn khá nhiều so mới mức từ (khoảng 2%), độ chính xác trung bình với bộ dữ liệu thứ nhất là 90.78%, cao nhất là 91.24%, với bộ dữ liệu thứ hai là 89.41% ở mức trung bình và 89.96% là độ chính xác cao nhất.

Thời gian huấn luyện ở mức hình vị chỉ tăng lên khoảng 20 phút so với huấn luyện ở mức từ, thời gian kiểm thử tăng không đáng kể và vẫn ở mức thấp, nằm trong khoảng 5-6 giây.

4.5.2. Tổng hợp kết quả

Để phục vụ cho việc đánh giá và so sánh kết quả áp dụng các mơ hình học máy khác nhau cho bài tốn gán nhãn từ loại tiếng Việt, hình 16 và 17 dưới đây tổng hợp các kết quả trung bình về độ chính xác khi áp dụng ba mơ hình học máy cho bộ dữ liệu thứ nhất và bộ dữ liệu thứ hai.

a. Thực nghiệm với bộ dữ liệu thứ nhất

Các lần thực nghiệm tiến hành với trung bình khoảng 8000 câu cho huấn luyện và 2000 câu cho kiểm thử. Kết quả được tổng hợp trong hình 16.

100 95 90 86.42 89.87 90.92 91.64 88.76 90.78 Mức từ Mức hình vị 85 80 MEM CRF SVM

Một phần của tài liệu đồ án tốt nghiệp so sánh một số phương pháp học máy cho bài toán gán nhãn từ loại tiếng việt (Trang 59 - 65)

Tải bản đầy đủ (DOCX)

(72 trang)
w