Chuẩn bị dữ liệu cho phân lớp và dự báo

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 45)

Các bước tiền xử lý dữ liệu sau đây có thể được áp dụng với dữ liệu để giúp cải thiện độ chính xác, tăng tính hiệu quả và sự mềm dẻo của phân lớp và dự báo.

Làm sạch dữ liệu (data cleaning): Bước này liên quan đến tiền xử lý dữ liệu để loại bỏ hay giảm nhiễu (ví dụ, áp dụng kỹ thuật làm mịn), xử lý những giá trị bị mất (chẳng hạn, bằng cách thay thể một giá trị bị mất bằng giá trị chung nhất đã tìm thấy của thuôc tính, hoặc bằng giá trị có khả năng đúng nhất dựa vào thống kê). Mặc dù hầu hết các thuật toán phân lớp đều có vài cơ chế để kiểm soát nhiễu và dữ liệu mất, bước này có thể làm giảm sự phức tạp trong quá trình học và nâng cao độ chính xác của mô hình thu được.

Phân tích liên quan: Một số thuộc tính trong dữ liệu có thể không liên quan đến công việc phân lớp hoặc dự báo. Lấy ví dụ, dữ liệu ghi ngày trong tuần của một ứng dụng cho vay ngân hàng được đưa ra là không liên quan đến sự thành công của ứng dụng. Hơn thế nữa, một số thuộc tính có thể dư thừa. Vì vậy, phân tích liên quan có thể được thực hiện trên dữ liệu với mục đích loại bỏ những thuộc tính không có quan hệ hoặc dư thừa đối với quá trình học. Trong học máy, bước này được biết đến như lựa chọn đặc điểm. Việc học sẽ chậm đi và có thể bị lệch hướng nếu không có bước này.

Trường hợp lý tưởng, thời gian sử dụng vào việc phân tích liên quan, cộng với thời gian sử dụng vào việc học trên kết quả của việc đã giảm các thuộc tính sẽ nhỏ hơn thời gian sẽ sử dụng để học trên dữ liệu gốc. Vì thế, việc phân tích này có thể giúp tăng hiệu quả phân lớp và sự mềm dẻo.

Biến đổi dữ liệu: Dữ liệu có thể được tổng quát hóa lên mức khái niệm cao hơn. Thứ bậc khái niệm có thể được sử dụng cho mục đích này. Điều này đặc biệt

47

hữu ích khi thuộc tính có kiểu dữ liệu liên tục. Lấy ví dụ, thuộc tính lợi nhuận có dữ liệu kiểu số có thể được tổng quát thành những khoảng rời rạc là cao, thấp, trung bình. Tương tự, đối với những thuộc tính có giá trị để chỉ tên, như “phố” có thể được tổng quát hóa thành khái niệm cao hơn ở mức “thành phố”. Vì tổng quát hóa nén dữ liệu huấn luyện gốc nên làm giảm các thao tác vào/ra liên quan đến quá trình học.

Dữ liệu có thể được chuẩn hóa, đặc biệt khi sử dụng mạng neural hay phương pháp liên quan đến đo khoảng cách trong bước học. Chuẩn hóa bao hàm việc co dãn tất cả giá trị của một thuộc tính rơi vào trong một khoảng nhỏ cụ thể, ví dụ như từ –1 đến 1 hay từ 0 đến 1.

Một phần của tài liệu Một số vấn đề liên quan đến khai phá dữ liệu bằng cây quyết định (Trang 45)

Tải bản đầy đủ (PDF)

(90 trang)