Nguồn dữ liệu tiềm năng

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 100 - 102)

Cỏc ứng dụng của phõn cụm theo truy cập web

- Cỏc luật liờn hệ: Tỡm ra những trang web mà nú thường được xem cựng nhau.

- Phõn cụm: Cụm người sử dụng dựa trờn mẫu duyệt, cụm web dựa trờn nội dung.

Khai phỏ dữ liệu theo sử dụng web

- Người sử dụng (User): Nguyờn tắc chung là sử dụng mỏy trạm tương tỏc để lấy và gửi cỏc tài nguyờn.

- Xem trang (Page view): Cú thể nhỡn trực tiếp trang web từ một mụi trường mỏy trạm cụ thể tại một phiờn làm việc được chỉ rừ.

- Chọn luồng dữ liệu (Click Stream): Một chuỗi thứ tự cỏc trang xem được yờu cầu.

- Phiờn người sử dụng (User Session): Một tập phõn định những kớch chọn (kớch chọn luồng) của người sử dụng từ vượt qua từ một hoặc nhiều mỏy chủ web.

- Phiờn của mỏy chủ (Server Session): Một tập kớch chọn của người sử dụng tới một mỏy chủ web đơn lẻ trong suốt phiờn làm việc của người sử dụng.

- Hồi (Episode): Một tập con của những kớch chọn người sử dụng cú liờn quan xảy ra trong một phiờn của người sử dụng.

WUM-Quỏ trỡnh tiền xử lý

- Làm sạch dữ liệu: Loại bỏ những truy cập vào mà nú khụng cần thiết cho quỏ trỡnh KPDL.

- Tớch hợp dữ liệu: Đồng bộ húa dữ liệu từ cỏc truy cập ở nhiều mỏy chủ. - Xỏc định người sử dụng: Kết hợp cỏc trang tham chiếu với những người sử dụng khỏc nhau.

- Xỏc định phiờn/hồi: Nhúm cỏc trang người sử dụng tham chiếu trong cỏc phiờn sử dụng.

- Hoàn thiện đường dẫn: Điền vào những tham chiếu trang bị mất do trỡnh duyệt hoặc bộ nhớ đệm của Proxy.

Một phần của tài liệu (LUẬN văn THẠC sĩ) một số vấn đề về phân cụm dữ liệu luận văn ths công nghệ thông tin 1 01 10 (Trang 100 - 102)

Tải bản đầy đủ (PDF)

(118 trang)