PHÁT BIỂU BÀI TỐN

Một phần của tài liệu Luận văn khai phá dữ liệu (datamining) (Trang 27 - 28)

Trong tự nhiên, con ng−ời th−ờng cĩ ý t−ởng chia sự vật thành các phần, các lớp khác nhau. T−ơng tự nh− vậy, giải thuật phân lớp đơn giản chỉ là một phép ánh xạ cơ sở dữ liệu đã cĩ sang một miền giá trị cụ thể nào đĩ, dựa vào một thuộc tính hoặc một tập hợp các thuộc tính của dữ liệu.

Phõn lớp văn bản được cỏc nhà nghiờn cứu định nghĩa thống nhất như là việc gỏn cỏc chủ đề đĩ được xỏc định cho trước vào cỏc văn bản Text đựa trờn nội dung của nú. Phõn lớp văn bản là cụng việc được sử dụng để hỗ trợ trong quỏ trỡnh tỡm kiếm thụng tin (Inrmation Retrieval), chiết lọc thụng tin (Information Extraction), lọc văn bản hoặc tự động dẫn đường cho cỏc văn bản tới những chủ đề xỏc định trước.Để phõn loại văn bản, người ta sử dụng phương phỏp học mỏy cú giỏm sỏt (supervised learning). Tập dữ liệu được chia ra làm hai tập là tập huấn luyện và tập kiểm trấ trước hết phải xõy đựng mụ hỡnh thụng qua cỏc mẫu học bằng cỏc tập huấn luyện, sau đú kiểm tra sự chớnh xỏc bằng tập đữ liệu kiểm tra.

Hỡnh sau là mụt khung cho việc phõn lớp văn bản, trong đú bao gồm ba cụng đoạn chớnh: cụng đoạn đầu là biểu diễn văn bản, tức là chuyển cỏc dữ liệu văn bản thành một dạng cú cấu trỳc nào đú, tập hợp cỏc mẫu cho trước thành một tập huấn luyện. Cụng đoạn thứ hai là việc sử dụng cỏc kỹ thuật học mỏy để học trờn cỏc mẫu huấn luyện vừa biểu diễn. Như vậy là việc biểu diễn ở cụng đoạn một sẽ là đầu vào cho cụng đoạn thứ hai. Cụng đoạn thứ ba là việc bổ sung cỏc kiến thức thờm vào do người dựng cung cấp để làm tăng độ chớnh xỏc trong biểu diễn văn bản hay trong quỏ trỡnh học mỏy.

Trong cụng đoạn hai, cú nhiều phương phỏp học mỏy được ỏp dụng, mụ hỡnh mạng Bayes, cõy quyết định, phương phỏp k ngườii lỏng giềng gần nhất, mạng Neuron, SVM,… Dữ liệu vào Giải thuật phân lớp hoạt động Lớp 1 Lớp 2 Lớp n

Một phần của tài liệu Luận văn khai phá dữ liệu (datamining) (Trang 27 - 28)