Quá trình phân lớp

Phân lớp là một tiến trình gồm hai bước. Trong bước thứ nhất, một mô hình được xây dựng để mô tả một tập hợp các lớp dữ liệu đã được xác định trước. Mô hình này được xây dựng bằng việc phân tích các bản ghi của cơ sở dữ liệu được mô tả bằng các thuộc tính (các trường). Mỗi một bản ghi được giả định thuộc về một lớp đã biết - lớp được xác định bởi một trong các thuộc tính, được gọi là thuộc tính nhãn lớp (class label attribute). Trong bài toán phân lớp, các bản ghi thường được xem như là các mẫu (samples) hay các đối tượng (objects). Các bản ghi dữ liệu đó được phân tích để tạo nên một tập dữ liệu huấn luyện (training data set). Mỗi một mẫu trong tập dữ liệu huấn luyện được coi là một mẫu huấn luyện (training samples) và được chọn một cách ngẫu nhiên từ trong các mẫu. Do nhãn lớp của từng mẫu huấn luyện được cung cấp, nên bước này cũng được xem như là học có giám sát (supervised learning). Có nhiều phương pháp học máy được áp dụng như mô hình mạng Bayes, cây quyết định, phương pháp k - người láng giềng gần nhất, SVM…

Thông thường các mô hình học được biểu diễn dưới dạng các quy tắc phân lớp, các cây quyết định hay các công thức toán học. Ví dụ, cho một cơ sở dữ liệu các trang Web, các quy tắc phân lớp có thể được học để xác định các quy tắc phân lớp cho một trang Web khác (Hình 5). Các quy tắc có thể được dùng để phân lớp các mẫu dữ liệu khác, cùng với việc cung cấp một sự hiểu biết hơn của người dùng về nội dung của cơ sở dữ liệu.

Trong bước thứ hai (Hình 6), một mô hình được sử dụng cho việc phân lớp. Đầu tiên, sự chính xác dự đoán của mô hình được đánh giá bằng việc sử dụng một tập các dữ liệu kiểm thử (test). Các mẫu kiểm thử được chọn một cách ngẫu nhiên và độc lập với các mẫu huấn luyện. Độ chính xác của mô hình được xác định là tỉ lệ phần trăm các mẫu kiểm thử được phân lớp chính xác bằng mô hình. Với mỗi mẫu kiểm thử, nhãn lớp thực tế của nó sẽ được so sánh với nhãn lớp do mô hình dự đoán cho mẫu đó. Nếu độ chính xác được xem là đạt, thì mô hình đó sẽ được dùng để phân lớp cho các mẫu hay các đối tượng khác mà chưa biết nhãn lớp.

Hình 6. Mô hình phân lớp-đánh giá độ chính xác của mô hình

Như vậy, công đoạn đầu tiên của bài toán phân lớp đặt ra đó chính là biểu diễn các văn bản, tức là chuyển các văn bản thành một dạng có cấu trúc nào đó, và xây dựng một tập huấn luyện từ tập hợp các mẫu cho trước. Việc biểu diễn này sẽ là dữ liệu vào cho công đoạn tiếp theo: sử dụng các kỹ thuật học máy để học trên các mẫu huấn luyện vừa được biểu diễn. Một công đoạn nữa đó là công đoạn bổ sung các kiến thức của người dùng cung cấp để làm tăng độ chính xác trong biểu diễn văn bản hay trong quá trình học máy.

Thuật toán phân lớp Bayes

Phân lớp dựa vào cây quyết định