Các vấn đề quan tâm của phân loại

Các bước tiền xử lý dữ liệu sau đây giúp cải thiện độ chính xác, hiệu suất và khả năng mở rộng của phân loại.

- Làm sạch dữ liệu: Đây là quá trình thuộc về tiền xử lý dữ liệu để gỡ bỏ hoặc làm giảm nhiễu và cách xử lý các giá trị khuyết. Bước này giúp làm giảm sự mập mờ khi học.

- Phân tích sự thích hợp: Nhiều thuộc tính trong dữ liệu có thể không thích hợp hay không cần thiết để phân loại. Vì vậy, phép phân tích sự thích hợp được thực hiện trên dữ liệu với mục đích gỡ bỏ bất kỳ những thuộc tính không thích hợp hay không cần thiết. Trong học máy, bước này gọi là trích chọn đặc trưng. Phép phân tích này giúp phân loại hiệu quả và nâng cao khả năng mở rộng.

- Biến đổi dữ liệu: Dữ liệu có thể được tổng quát hoá tới các mức khái niệm cao hơn. Điều này rất hữu ích cho các thuộc tính có giá trị liên tục. Ví dụ, các giá trị số của thuộc tính thu nhập được tổng quát hoá sang các phạm vi rời rạc như thấp, trung bình và cao. Tương tự, các thuộc tính giá trị tên như đường phố được tổng quát hoá tới khái niệm mức cao hơn như thành phố. Nhờ đó các thao tác vào/ra trong quá trình học sẽ ít đi.

Dữ liệu cũng có thể được tiêu chuẩn hoá, đặc biệt khi các mạng nơron hay các phương pháp dùng phép đo khoảng cách trong bước học. Tiêu chuẩn hoá biến đổi theo tỷ lệ tất cả các giá trị của một thuộc tính cho trước để chúng rơi vào phạm vi chỉ định nhỏ như [-1.0,1.0] hay [0,1.0]. Tuy nhiên điều này sẽ cản trở các thuộc

tính có phạm vi ban đầu lớn (như thu nhập) có nhiều ảnh hưởng hơn đối với các thuộc tính có phạm vi nhỏ hơn ban đầu (như các thuộc tính nhị phân).

3.2.2So sánh các phương pháp phân loại

Các phương pháp phân loại có thể được so sánh và đánh giá theo các tiêu chí sau:

- Độ chính xác dự đoán: Dựa trên khả năng mô hình dự đoán đúng nhãn lớp của dữ liệu mới.

- Tốc độ: Dựa trên các chi phí tính toán. Chi phí này bao gồm sinh và sử dụng mô hình.

- Tính bền vững: Dựa trên khả năng mô hình đưa ra các dự đoán chính xác dữ liệu nhiễu hay dữ liệu với các giá trị khuyết cho trước.

- Khả năng mở rộng: Dựa trên khả năng trình diễn hiệu quả của mô hình đối với dữ liệu lớn.

- Khả năng diễn giải: Dựa trên mức khả năng mà mô hình cung cấp để hiểu thấu đáo dữ liệu.

Phân loại dựa vào luật kết hợp