Thuật toán khai phá dữ liệu bao gồm 3 thành phần chính như sau: [1]
Biểu diễn mô hình: mô hình được biểu diễn bằng một ngôn ngữ L để mô tả các mẫu có thể khai thác được. Nếu như sự mô tả bị hạn chế quá thì sẽ không thể học được hoặc sẽ không thể có các mẫu tạo ra mô hình chính xác cho dữ liệu.
Mô hình ban đầu được xác định bằng cách kết hợp biến đầu ra (phụ thuộc) với các biến độc lập mà biến đầu ra phụ thuộc vào. Sau đó phải tìm những tham số mà bài toán cần tập trung giải quyết. Việc tìm kiếm mô hình sẽ đưa ra được mô hình phù hợp với các tham số được xác định dựa trên dữ liệu. Trong một số trường hợp, tập dữ liệu được chia thành tập dữ liệu học và tập dữ liệu thử nghiệm. Tập dữ liệu học được sử dụng để làm cho các tham số của mô hình phù hợp với dữ liệu. Sau đó mô hình được đánh giá bằng cách đưa các dữ liệu thuộc tập thử nghiệm vào mô hình và thay đổi các tham số cho phù hợp nếu cần.
Đánh giá mô hình: đánh giá xem mẫu có đáp ứng được các tiêu chuẩn của quá trình phát hiện tri thức hay không. Việc đánh giá độ chính xác dự đoán dựa trên đánh giá chéo. Đánh giá chất lượng mô tả liên quan đến độ chính xác dự đoán, độ mới, khả năng sử dụng, khả năng hiểu được của mô
hình. Cả hai chuẩn thống kê và logic đều có thể được sử dụng để đánh giá mô hình.
Phương pháp tìm kiếm: phương pháp tìm kiếm bao gồm 2 thành phần: tìm kiếm các tham số và tìm kiếm mô hình.
Trong tìm kiếm tham số, thuật toán cần tìm kiếm các tham số để tối ưu hóa các tiêu chuẩn đánh giá mô hình với các dữ liệu quan sát được và với một mô tả mô hình đã định. Việc tìm kiếm không cần thiết đối với những bài toán khá đơn giản: các đánh giá tham số tối ưu có thể đạt được bằng cách đơn giản hơn.
Tìm kiếm mô hình xảy ra giống như một vòng lặp qua phương pháp tìm kiếm tham số: mô tả mô hình bị thay đổi tạo nên một họ các mô hình. Với mỗi một mô tả mô hình, phương pháp tìm kiếm tham số được áp dụng để đánh giá chất lượng mô hình. Các phương pháp tìm kiếm mô hình thường được sử dụng trong các kỹ thuật tìm kiếm heuristic vì kích thước của không gian các mô hình có thể thường ngăn cản các tìm kiếm tổng thể.