Bài tốn phân lớp văn bản

Một phần của tài liệu Nghiên cứu xây dựng hệ thống tổng hợp, phân loại thông tin tự động trên Web (Trang 26 - 28)

CHƢƠNG 1 : KHAI PHÁ DỮ LIỆU

1.4. Phân lớp văn bản

1.4.1. Bài tốn phân lớp văn bản

Phân lớp văn bản đƣợc các nhà nghiên cứu định nghĩa thống nhất nhƣ là việc gán các chủ đề đã đƣợc xác định cho trƣớc vào các văn bản Text đựa trên nội dung của nĩ. Phân lớp văn bản là cơng việc đƣợc sử dụng để hỗ trợ trong quá trình tìm kiếm thơng

tin (Inrmation Retrieval), chiết lọc thơng tin (Information Extraction), lọc văn bản hoặc tự động dẫn đƣờng cho các văn bản tới những chủ đề xác định trƣớc. Để phân loại văn bản, ngƣời ta sử dụng phƣơng pháp học máy cĩ giám sát (supervised learning). Tập dữ liệu đƣợc chia ra làm hai tập là tập huấn luyện và tập kiểm tra¸ trƣớc hết phải xây đựng mơ hình thơng qua các mẫu học bằng các tập huấn luyện, sau đĩ kiểm tra sự chính xác bằng tập đữ liệu kiểm tra.

Hình 1.6. Phân lớp văn bản [1]

Hình trên là mơt khung cho việc phân lớp văn bản, trong đĩ bao gồm ba cơng đoạn chính: cơng đoạn đầu là biểu diễn văn bản, tức là chuyển các dữ liệu văn bản thành một dạng cĩ cấu trúc nào đĩ, tập hợp các mẫu cho trƣớc thành một tập huấn luyện. Cơng đoạn thứ hai là việc sử dụng các kỹ thuật học máy để học trên các mẫu huấn luyện vừa biểu diễn. Nhƣ vậy là việc biểu diễn ở cơng đoạn một sẽ là đầu vào cho cơng đoạn thứ hai. Cơng đoạn thứ ba là việc bổ sung các kiến thức thêm vào do ngƣời dùng cung cấp để làm tăng độ chính xác trong biểu diễn văn bản hay trong quá trình học máy.

Trong cơng đoạn hai, cĩ nhiều phƣơng pháp học máy đƣợc áp dụng, mơ hình mạng Bayes, cây quyết định, phƣơng pháp k ngƣờii láng giềng gần nhất, mạng Neuron, SVM, …

Một phần của tài liệu Nghiên cứu xây dựng hệ thống tổng hợp, phân loại thông tin tự động trên Web (Trang 26 - 28)

Tải bản đầy đủ (PDF)

(82 trang)