Trong bước chuyển đổi dữ liệu, dữ liệu được chuyển đổi hay hợp nhất thành những dạng thích hợp cho việc khai phá. Chuyển đổi dữ liệu có thể bao gồm những bước sau [4]:
Làm mịn, đó là công việc loại bỏ nhiễu khỏi dữ liệu, như những kỹ thuật binning, phân cụm và hồi quy.
Sự kết hợp, đó là biện pháp tóm lược hay kết hợp những thao tác được áp dụng với dữ liệu. Lấy ví dụ, dữ liệu bán hàng hàng ngày có thể được kết hợp lại để tính tổng lượng hàng tháng hay hàng năm.
Tổng quát hóa dữ liệu, đó là biện pháp thay thế những dữ liệu mức thấp bằng những dữ liệu mức cao hơn thông qua việc sử dụng mức khái niệm. Lấy ví dụ thuộc tính “phố” có thể được tổng quát hóa lên mức khái niệm cao hơn là “thành phố” hay “quốc gia”. Hay thuộc tính “tuổi” có thể ánh xạ vào mức khái niệm cao hơn đó là “trẻ”, “trung niên”, hay “già”.
Chuẩn hóa, các thuộc tính được co dãn giá trị sao cho rơi vào các khoảng nhỏ, cụ thể như –1 đến 1 hay từ 0 đến 1. Chuẩn hóa đặc biệt có ích cho các thuật toán phân lớp. Nếu sử dụng thuật toán mạng neural lan truyền ngược cho khai phá phân lớp thì chuẩn hóa giá trị đầu vào cho mỗi thuộc tính làm tăng tốc độ của quá trình học. Nếu sử dụng phương pháp đo khoảng cách,
32
chuẩn hóa làm hạn chế các thuộc tính có khoảng giá trị khởi tạo lớn khỏi những thuộc tính có ảnh hưởng tốt hơn với khoảng giá trị khởi tạo nhỏ hơn. Có một số kỹ thuật chuẩn hóa như: chuẩn hóa cực đại-cực tiểu; chuẩn hóa trung bình không (zero-min normalization), chuẩn hóa bằng tỷ lệ thập phân…Chú ý rằng, chuẩn hóa làm thay đổi dữ liệu gốc, chúng ta phải lưu giữ các tham số trong quá trình chuẩn hóa để những dữ liệu về sau cũng được chuẩn hóa theo cách giống nhau.
Xây dựng thuộc tính. (hay xây dựng đặc tính), các thuộc tính mới được xây dựng và thêm vào từ một tập các thuộc tính đã cho để giúp cho quá trình khai phá thuận lợi hơn. Những thuộc tính này làm cải tiến độ chính xác và sự hiểu biết về cấu trúc trong dữ liệu nhiều chiều. Ví dụ, chúng ta muốn thêm thuộc tính “diện tích” dựa vào hai thuộc tính “rộng” và “dài”. Xây dựng thuộc tính có thể làm giảm bớt đi vấn đề phân mảnh khi sử dụng thuật toán cây quyết định cho phân lớp. Bằng cách kết hợp các thuộc tính, xây dựng thuộc tính mới có thể tìm ra những thông tin bị mất do dựa vào quan hệ giữa các thuộc tính, điều này rất có ích trong quá trình khai phá tri thức.