Quá trình phân lớp cịn đƣợc gọi là quá trình gán nhãn cho các tập dữ liệu cụ thể đây là các tin nhắn theo các nhãn đƣợc định nghĩa trƣớc. Nhiệm vụ của bài tốn phân lớp tin nhắn là cần xây dựng mơ hình phân lớp để khi cĩ một tin nhắn mới tới thì mơ hình phân lớp sẽ cho biết tin nhắn đĩ thuộc lớp nào.
Cho trƣớc một tập các nhãn (các lớp) C = {c1, . . . , cn}và một tập các dữ liệu D = {d1, d2, . . .} là những tin nhắn cần phân loại, một bộ phân lớp là một hàm K ánh xạ từ D tới tập của tất cả các tập con của C. Hoạt động của khối 4 hình 10 đƣợc minh họa ở hình 11
Học viên thực hiện: Nguyễn Minh Đức – CAC16010 Khĩa CLC2016 Trang 28
Hình 11: Minh họa chi tiết khối 4 hình 10
Đối với bài tốn đƣợc nghiên cứu trong luận văn, tập D trong hình 11 là các tin nhắn cần phân loại. Tập các nhãn C đƣợc xây dựng dựa trên các tiêu chí phân loại của các tin nhắn. Trong bài tốn của luận văn là năm nhãn đƣợc định nghĩa trƣớc : tin nhà đất, tin nhà mạng, tin quảng cáo, tin bán sim và tin thƣờng.
Hàm K (xem hình 11) sẽ đƣợc xây dựng bằng phƣơng pháp phân loại sử dụng học
máy và hàm này đƣợc sử dụng để dự dốn một tin nhắn di đƣợc phân loại vào một lớp
cj trong C.
Trong cách phân loại truyền thống dựa vào con ngƣời, việc phân loại dữ liệu địi hỏi phải xây dựng một ngƣỡng phân loại để xác định điều kiện quyết định dữ liệu thuộc về lớp nào.
Trong kĩ thuật học máy, các hàm phân loại đƣợc xây dựng dựa trên một tập tin nhắn huấn luyện T đƣợc tập hợp, lọc lựa và gán nhãn từ nhiều nguồn nhƣ ngƣời dùng, mạng internet. Các giải thuật sau đĩ cĩ thể đƣợc phát triển để tạo ra các sự tổng quát hố về quan hệ giữa nội dung tin nhắn và các nhãn, mã hố các sự tổng quát hố đĩ trong hàm học K.
Cĩ nhiều cách để biểu diễn m ột mô hình phân lớp và có rất nhiều thu ật tốn giải quyết nó. Các thuật tốn phân lớp tiêu biểu bao gồm: Cây quyết định (Decision Tree), Naive Bayes, Support vector machine (SVM), K Láng giềng gần nhất …
Học viên thực hiện: Nguyễn Minh Đức – CAC16010 Khĩa CLC2016 Trang 29
Trong nội dung khuơn khổ của luận văn sẽ đi sâu vào nghiên cứu và đánh giá về hiệu năng của 3 thuật tốn :
NB : Xác suất Bayes(Naive Bayes)
KNN : K láng giềng gần nhất (K Nearest Neigbour) SVM :Máy vector hỗ trợ (Support Vector Machine)