Giai đoạn thứ nhất gồm các quá trình biến đổi các dữ liệu Web thành các dạng thức phù hợp. Giai đoạn này bao gồm các tiền xử lý (data preprocessing), nhận dạng giao dịch (transaction identification) để chuyển về dữ liệu giao dịch và tích hợp dữ liệu (data intergration).
Giai đoạn thứ hai bao gồm các ứng dụng độc lập có phạm vi sử
dụng lớn, sử dụng các kỹ thuật khai phá dữ liệu tổng quát, chẳng hạn phát hiện và phân tích mẫu, như là một phần của hệ thống khai phá dữ liệu.
Kiến trúc tổng quan của quá trình khai phá Web được minh họa ở hình
1.1 có trong [7].
Trong quá trình khai phá Web, bước đầu tiên liên quan đến làm sạch dữ liệu. Ngoài ra, một số lượng công việc tích hợp dữ liệu ở mức thấp như kết hợp các bản ghi logs cũng được thực hiện trong giai đoạn này. Bằng việc sử dụng các modules nhận dạng giao dịch, các đầu vào logs được chia thành các nhóm logic để tạo ra các
nhóm có tầm quan trọng khác nhau để cho người sử dụng tham khảo. Việc nhận
dạng các giao dịch hoạt động hoặc là hợp nhất module bằng việc kết hợp các giao dịch nhỏ thành một giao dịch lớn hoặc phân chia module bằng cách chia nhỏ các giao dịch lớn thành giao dịch nhỏ.
Ngoài việc truy xuất các dữ liệu log, dữ liệu đăng ký người sử dụng cũng có thể được sử dụng trong quá trình khai phá Web. Tuy nhiên, dữ liệu đăng ký người dùng phải được tích hợp với dữ liệu log truy nhập. Hơn thế nữa, các thuộc tính đã được phát hiện hoặc đã biết của các trang Web liên quan cũng có thể được tích hợp vào các giản đồ cơ sở dữ liệu ở mức cao hơn.
Sau khi giai đoạn chuyển đổi dữ liệu hoàn thành, dữ liệu giao dịch đã có kết quả phải được định dạng để phù hợp với khuôn dạng dữ liệu của lĩnh vực khai phá dữ liệu. Ví dụ, dạng của dữ liệu cho việc phát hiện luật liên kết (association rules) có thể khác so với dạng dùng cho việc khai phá mẫu tuần tự (sequential patterns).
Cuối cùng, các nhà phân tích (hoặc người sử dụng) có thể điều khiển quá trình phát hiện bằng cụ thể hóa các ràng buộc với sự giúp đỡ của cơ chế truy vấn; điều này cho phép họ tìm ra các luật khai phá dữ liệu giá trị và hữu ích.