Nền tảng học mỏy trong bài toỏn phõn loại văn bản

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung sai (Trang 75 - 77)

Phõn loại văn bản theo phương phỏp học mỏy bao gồm cỏc bước cơ bản như

sau:

1. Xõy dựng tập dữ liệu huấn luyện (Training Data) và tập dữ liệu kiểm tra (Test Data) từ tập dữ liệu ban đầu.

2. Tiền xử lý văn bản và tỏch từ 3. Biểu diễn văn bản về dạng cú cấu trỳc 4. Áp dụng phương phỏp học đối với tập dữ liệu huấn luyện để phõn loại văn bản. 5. Sử dụng tập dữ liệu để kiểm tra để thẩm định lại phương phỏp. 6. Đỏnh giỏ hiệu quả của phương phỏp học. Để xõy dựng hệ thống phõn loại văn bản tự động, chỳng ta cần một tập cỏc văn bản được phõn loại từ trước: training set là tập văn bản được phõn loại trước

dựng để huấn luyện phõn loại; test set là tập văn bản được phõn loại từ trước sử

dụng để kiểm tra tớnh hiệu quả của quỏ trỡnh phõn loại. Kớch thước của hai tập dữ

liệu này khụng nhất thiết phải bằng nhau.

Gọi D là tập tất cả cỏc văn bản đĩ được phõn lớp từ trước: D = {d1, d2, …,

dm}, trong đú di tương ứng với văn bản thứi. Tập cỏc lớp C = {c1, c2, …, c|C|}, ci là kớ hiệu của lớp thứi.

ƒ Tập huấn luyện: Ký hiệu tập dữ liệu huấn luyện là Tr = {d1, d2, …, dn}. Hàm phõn loại Φ cho cỏc phõn loại trong tập C được xõy dựng theo quy nạp bằng cỏch quan sỏt và “học” cỏc đặc trưng của cỏc văn bản trong Tr.

ƒ Tập kiểm tra: ký hiệu tập dữ liệu kiểm tra là Te = {dn+1, dn+2, …, dm},

được sử dụng để kiểm tra hiệu quả phõn lớp. Mỗi djTeđược đưa vào hệ

thống phõn loại để xỏc định giỏ trị hàm Φ(dj, Ci), và so sỏnh giỏ trị này với quyết định Φ~(dj, Ci) của chuyờn gia. Hiệu quả của việc phõn loại dựa trờn sự phự hợp giữa Φ(dj, Ci) và Φ~(dj, Ci).

Việc chọn cỏc tập dữ liệu huấn luyện và tập dữ liệu kiểm tra thường đảm bảo

TrTe = φ. Nếu điều kiện này bị vi phạm thỡ kết quả đỏnh giỏ hiệu quả của mụ hỡnh sẽ mất đi yếu tố khỏch quan, khoa học.

Hầu hết cỏc phương phỏp phõn loại văn bản dựa trờn kỹ thuật học mỏy hiện nay đều dựa vào tần suất xuất hiện của từ hoặc cụm từ trong văn bản, hoặc dựa vào tần suất xuất hiện của từ trong văn bản và tần suất văn bản. Độ chớnh xỏc của kết quả phõn loại phụ thuộc rất nhiều vào độ chớnh xỏc của kết quả tỏch từ, khụng thể

cú một kết quả phõn loại tốt nếu như khụng tỏch được đỳng cỏc từ trong văn bản. Mỗi văn bản được viết ra bằng một ngụn ngữ tự nhiờn nào đú thỡ cú cỏc đặc trưng riờng của ngụn ngữđú, do vậy để tỏch được từ loại một cỏch chớnh xỏc cần dựa vào

đặc trưng của ngụn ngữ này, khụng cú một giải thuật tổng quỏt nào để ỏp dụng cho mọi loại ngụn ngữ tự nhiờn.

Một phần của tài liệu Xử lý văn bản tiếng việt theo mô hình tập thô dung sai (Trang 75 - 77)