Cỏc ứng dụng của phõn cụm theo truy cập web
- Cỏc luật liờn hệ: Tỡm ra những trang web mà nú thường được xem cựng nhau.
- Phõn cụm: Cụm người sử dụng dựa trờn mẫu duyệt, cụm web dựa trờn nội dung.
Khai phỏ dữ liệu theo sử dụng web
- Người sử dụng (User): Nguyờn tắc chung là sử dụng mỏy trạm tương tỏc để lấy và gửi cỏc tài nguyờn.
- Xem trang (Page view): Cú thể nhỡn trực tiếp trang web từ một mụi trường mỏy trạm cụ thể tại một phiờn làm việc được chỉ rừ.
- Chọn luồng dữ liệu (Click Stream): Một chuỗi thứ tự cỏc trang xem được yờu cầu.
- Phiờn người sử dụng (User Session): Một tập phõn định những kớch chọn (kớch chọn luồng) của người sử dụng từ vượt qua từ một hoặc nhiều mỏy chủ web.
- Phiờn của mỏy chủ (Server Session): Một tập kớch chọn của người sử dụng tới một mỏy chủ web đơn lẻ trong suốt phiờn làm việc của người sử dụng.
- Hồi (Episode): Một tập con của những kớch chọn người sử dụng cú liờn quan xảy ra trong một phiờn của người sử dụng.
WUM-Quỏ trỡnh tiền xử lý
- Làm sạch dữ liệu: Loại bỏ những truy cập vào mà nú khụng cần thiết cho quỏ trỡnh KPDL.
- Tớch hợp dữ liệu: Đồng bộ húa dữ liệu từ cỏc truy cập ở nhiều mỏy chủ. - Xỏc định người sử dụng: Kết hợp cỏc trang tham chiếu với những người sử dụng khỏc nhau.
- Xỏc định phiờn/hồi: Nhúm cỏc trang người sử dụng tham chiếu trong cỏc phiờn sử dụng.
- Hoàn thiện đường dẫn: Điền vào những tham chiếu trang bị mất do trỡnh duyệt hoặc bộ nhớ đệm của Proxy.