Do dữ liệu đƣợc thu thập từ nhiều nguồn và thủ công nên có nhiều sai sót. Ngƣời ta chia giai đoạn thu thập và tiền xử lí dữ liệu thành các công đoạn nhƣ: lựa chọn dữ liệu, làm sạch, làm giàu, mã hóa dữ liệu. Các công đoạn đƣợc thực hiện theo trình tự đƣa ra đƣợc một cơ sở dữ liệu thích hợp cho các giai đoạn sau. Tuy nhiên, tùy từng dữ liệu cụ thể mà quá trình trên đƣợc điều chỉnh cho phù hợp vì ngƣời ta đƣa ra một phƣơng pháp cho mọi loại dữ liệu.
Chọn lọc dữ liệu: Đây là bƣớc chọn lọc các dữ liệu có liên quan trong các nguồn dữ liệu khác nhau. Các thông tin đƣợc chọn lọc sao cho có chứa nhiều thông tin liên quan tới lĩnh vực cần phát hiện tri thức đã xác định trong giai đoạn xác định vấn đề.
nhau thƣờng không đồng nhất. Do đó còn có biện pháp xử lí để đƣa về một cơ sở dữ liệu thống nhất phục vụ cho khai thác. Nhiệm vụ làm sạch dữ liệu thƣờng bao gồm: Điều hoà dữ liệu, xử lí các giá trị khuyết, xử lí nhiễu và các ngoại lệ.
Làm giàu dữ liệu: Việc thu nhập dữ liệu đôi khi không đảm bảo tính đầy đủ của dữ liệu. Một số thông tin quan trọng có thể thiếu hoặc không đầy đủ. Chẳng hạn, dữ liệu về khách hàng lấy từ một nguồn bên ngoài không có hoặc không đầy đủ thông tin về thu nhập. Nếu thông tin về thu nhập là quan trọng trong quá trình khai thác dữ liệu để phân tích hành vi khách hàng thì rõ ràng là ta không thể chấp nhận đƣa các dữ liệu khuyết thiếu vào đƣợc.
Mã hóa: Các Phƣơng pháp dùng để chọn lọc, làm sạch, làm giàu dữ liệu sẽ đƣợc mã hóa dƣới dạng các thủ tục, chƣơng trình hay tiện ích nhằm tự động hóa việc kết xuất, biến đổi và di chuyển dữ liệu. Các hệ thống con đó có thể đƣợc thực thi định kỳ làm tƣơi dữ liệu phục vụ cho việc phân tích.