Các thí nghiệm cơ bản

Một phần của tài liệu nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn (Trang 34)

Thí nghiệm sử dụng thuật toán gán nhãn Viterbi và huấn luyện RF

Trong thí nghiệm đã trích ra N câu từ dữ liệu huấn luyện. Ta tính các tần số quan hệ trên các câu này và xây dựng một mô hình đã đƣợc làm mịn bằng thủ tục làm mịn. Mô hình này đƣợc sử dụng để gán 2000 câu thử nghiệm.

Ngƣời ta đã thử nghiệm với các giá trị khác nhau của N và thấy rằng kích cỡ dữ liệu huấn luyện tăng thì hệ số nội suy tăng và chất lƣợng gán nhãn cũng đƣợc cải tiến.

Thí nghiệm sử dụng thuật toán gán nhãn Viterbi và huấn luyện ML

Trong huấn luyện ML, ngƣời ta tận dụng tất cả các dữ liệu có sẵn nhƣng chỉ sử dụng chuỗi các từ, không dùng đến các nhãn liên quan.

Ngƣời ta thực hiện mô hình đƣợc tạo ra bằng phân phối đều. Chỉ các

ràng buộc trong mô hình đến từ các giá trị k(w/t) đƣợc đặt bằng 0 khi nhãn t là

của mô hình và giảm tỉ lệ lỗi của gán nhãn. Tuy nhiên, tỉ lệ lỗi này tƣơng đối cao, cao hơn tỉ lệ lỗi thu đƣợc với huấn luyện RF trên 100 câu đã gán nhãn.

Ngƣời ta giữ mô hình đầu tiên và sử dụng huấn luyện ML để gán nhãn cho chuỗi từ. Các kết quả cho thấy, khi sử dụng ít dữ liệu đã gán nhãn, mô hình thu đƣợc bởi RF không tốt và huấn luyện ML có thể cải tiến. Tuy nhiên khi mà dữ liệu đã gán nhãn tăng thì các mô hình thu đƣợc từ RF chính xác hơn và huấn luyện ML có thể làm giảm sút độ chính xác gán nhãn nếu chúng ta sử dụng nhiều hơn 5000 câu đã gán nhãn.

Một phần của tài liệu nghiên cứu gán nhãn từ loại cho văn bản tiếng việt bằng phương pháp học máy không có hướng dẫn (Trang 34)