Ưu điểm lớn nhất của khai phá Web là chúng ta có thể đo các tương tác của người sử dụng một cách hiệu quả hơn. Để đạt được các mục tiêu thương mại điện tử, các nhà marketing muốn giải quyết một số vấn đề phổ biến như làm thế nào nhắm tới các quảng cáo, cá nhân hóa các trang web, tạo ra các trang web mà trưng bày sản phẩm thường được mua bán cùng nhau, phân loại các vật phẩm tự động, mô tả đặc điểm của nhóm khách hàng viếng thăm tương tự nhau, đánh giá các số liệu bị thiếu và dự đoán được hành vi tương lai. Tất cả các vấn đề này liên quan đến khám phá các mẫu tiềm ẩn trong dữ
liệu. Một vài kỹ thuật khai phá Web được sử dụng để phát hiện các tri thức ẩn và khi tri thức được phát hiện, phân tích các mẫu khác nhau giúp chúng ta hiểu và diễn giải được các kết quả đó.
Các kỹ thuật thông dụng được dùng cho khai phá Web là: liên kết (Associtation), phân nhóm (Clustering), phân lớp (Classification), ước lượng và dự đoán (Estimation and Prediction), đặc trưng hóa (Characterization), phân tách ngoài (Outlier) và phân tích đường dẫn.
Kiến trúc trang Web
Crawling the Web
World Wide Web, hay gọi ngắn gọn là Web, là tập hợp của hàng tỉ trang tài liệu, được biểu diễn để có thể dẫn tới các trang khác sử dụng các siêu liên kết (hyperlink), đó cũng chính là lý do mà chúng được gọi là siêu văn bản. Các tài liệu hay, hay gọi là các trang web (web pages) thường có độ dài vài nghìn ký tự, với ngôn ngữ đa dạng. Chúng được cung cấp trên Internet, sử dụng giao thức truyền siêu văn bản (hypertext transport protocol - HTTP) để truyền tới các máy trạm, nơi chúng được xem nhờ dùng các trình duyệt
(browser).
Để tự động phân tích các tài liệu siêu văn bản và mạng theo các liên kết tới chúng, người ta dùng chương trình gọi là crawler. Chương trình này sẽ giúp tìm nạp các trang web vào máy tính, phục vụ cho các tác vụ xử lý cần thiết.