Kết luận chương 2

7. Nội dung luận văn

2.4. Kết luận chương 2

Support Vector Machines (SVM) là một trong những nghiên cứu vơ cùng thiết thực trong phân loại văn bản. Các kỹ thuật SVM tương tự với kNN trong đĩ chúng xem các tài liệu huấn luyện như các vector trong khơng gian đặc trưng, và chúng yêu cầu một hàm nhân (được gọi là kernel function) đĩng vai trị tương tự như hàm m trong giải thuật k láng giềng gần nhất. Tuy nhiên thay vì xem xét các tài liệu tương tự với tài liệu được phân loại, các giải thuật SVM học hướng quyết định trong quá trình huấn luyện và chia các khơng gian vector vào trong các vùng chỉ ra các thành viên phân loại. Sau đĩ sự phân loại đơn giản là quyết định nào cho từng tài liệu thuộc vào.

Ưu điểm chính của SVM là chúng cĩ thể giải quyết tốt với các khơng gian đặc trưng lớn, cả về tính chính xác của các thuật ngữ trong kết quả phân loại và hiệu quả huấn luyện và các giải thuật phân loại. Điều này cĩ nghĩa là một số ít hoặc khơng cĩ sự lựa chọn đặc trưng nào cần thực hiện trên dữ liệu huấn luyện, xố bỏ một sự tiêu tốn thời gian cĩ thể của quy trình phân loại. Tuy nhiên, SVM cĩ một số nhược điểm nếu tập mẫu lớn thì tốc độ huấn luyện và phân loại chậm, khơng đủ khơng gian nhớ để huấn luyện. Vì thế trong chương 3 xây dựng mơ hình thử nghiệm sẽ giải quyết một số nhược điểm trên.

CHƯƠNG 3

XÂY DỰNG CHƯƠNG TRÌNH THỬ NGHIỆM TRONG BÀI TỐN HỌC MÁY CĨ GIÁM SÁT ĐỂ PHÂN LOẠI VĂN BẢN TẠI

VĂN PHỊNG TỈNH

Theo sự tìm hiểu ở chương 1 về học máy cĩ giám sát tức là máy học dựa vào sự trợ giúp của con người, hay nĩi cách khác con người dạy cho máy học và giá trị đầu ra mong muốn được định trước bởi con người. Tập dữ liệu huấn luyện hồn tồn được gán nhãn dựa vào con người. Tập càng nhỏ thì máy tính học càng ít.

Trong chương này, luận văn trình bày một số kết quả nghiên cứu ứng dụng SVM vào bài tốn phân loại văn bản hành chính.

Phương pháp biểu diễn văn bản

Bộ phân loại Support Vector Machines (SVM)