KPDL theo sử dụng web (web usage mining) là tương đương với KPDL theo truy cập web (web log mining) [9][20].
Cỏc kỹ thuật KPDL nhận ra những mẫu sử dụng thụng thường liờn quan từ những dữ liệu thứ yếu truyền tải từ những người sử dụng khi lướt
web. Nú bao gồm (dữ liệu web truy cập, luồng dữ liệu được tải khi kớch chuột, dữ liệu trong bộ nhớ đệm, truy vấn người sử dụng và bất kỳ kết quả nào của sự tương tỏc giữa người sử dụng với web).
Cỏc ứng dụng
- Mục tiờu của những khỏch hàng tiềm năng trong thương mại điện tử. - Nõng cao chất lượng và sự truyền tải của cỏc dịch vụ thụng tin Internet
đến người sử dụng cuối.
- Cải tiến hiệu suất hệ thống của cỏc mỏy chủ web. - Xỏc định những quảng cỏo tiềm năng.
- Thuận tiện cho mục tiờu cỏ nhõn húa/ những miền tương ứng. - Cải tiến những thiết kế miền.
- Phỏt hiện những gian lận/ xõm nhập trỏi phộp. - Dự đoỏn những tỏc động của người sử dụng.
Một vớ dụ về nguồn dữ liệu tiềm năng như hỡnh 4.14.
Hỡnh 4.14. Nguồn dữ liệu tiềm năng
Cỏc ứng dụng của phõn cụm theo truy cập web
- Cỏc luật liờn hệ: Tỡm ra những trang web mà nú thường được xem cựng nhau.
- Phõn cụm: Cụm người sử dụng dựa trờn mẫu duyệt, cụm web dựa trờn nội dung.
Khai phỏ dữ liệu theo sử dụng web
- Người sử dụng (User): Nguyờn tắc chung là sử dụng mỏy trạm tương tỏc để lấy và gửi cỏc tài nguyờn.
- Xem trang (Page view): Cú thể nhỡn trực tiếp trang web từ một mụi trường mỏy trạm cụ thể tại một phiờn làm việc được chỉ rừ.
- Chọn luồng dữ liệu (Click Stream): Một chuỗi thứ tự cỏc trang xem được yờu cầu.
- Phiờn người sử dụng (User Session): Một tập phõn định những kớch chọn (kớch chọn luồng) của người sử dụng từ vượt qua từ một hoặc nhiều mỏy chủ web.
- Phiờn của mỏy chủ (Server Session): Một tập kớch chọn của người sử dụng tới một mỏy chủ web đơn lẻ trong suốt phiờn làm việc của người sử dụng.
- Hồi (Episode): Một tập con của những kớch chọn người sử dụng cú liờn quan xảy ra trong một phiờn của người sử dụng.
WUM-Quỏ trỡnh tiền xử lý
- Làm sạch dữ liệu: Loại bỏ những truy cập vào mà nú khụng cần thiết cho quỏ trỡnh KPDL.
- Tớch hợp dữ liệu: Đồng bộ húa dữ liệu từ cỏc truy cập ở nhiều mỏy chủ. - Xỏc định người sử dụng: Kết hợp cỏc trang tham chiếu với những người sử dụng khỏc nhau.
- Xỏc định phiờn/hồi: Nhúm cỏc trang người sử dụng tham chiếu trong cỏc phiờn sử dụng.
- Hoàn thiện đường dẫn: Điền vào những tham chiếu trang bị mất do trỡnh duyệt hoặc bộ nhớđệm của Proxy.
Hỡnh 4.15. Phiờn sử dụng Heristics
Hỡnh 4.16. Hoàn thành đường dẫn
- Khỏm phỏ ra sự tương quan giữa những trang mà hầu hết được tham chiếu cựng nhau trong một phiờn làm việc cụ thể.
- Cung cấp những thụng tin:
+ Tập hợp cỏc trang được truy cập thường xuyờn cựng nhau bởi người dựng dung web là gỡ ?
+ Trang nào sẽ được tỡm tiếp ?
+ Đường dẫn thường xuyờn được truy cập bởi người sử dụng web là gỡ ? - Luật kết hợp:
- Vớ dụ:
50% người khỏch truy cập vào đường dẫn URLs /infor-f.html and labo/infos.html thỡ cũng sẽ viếng thăm vào trang situation.html
WUM-Phõn cụm
- Nhúm cựng nhau một tập những đối tượng cú những đặc điểm tương tự nhau.
- Cụm người sử dụng:
+ Khỏm phỏ ra những nhúm người sử dụng cú mẫu duyệt biểu thị giống nhau.
+ Gợi ý trang: Từng phiờn của người sử dụng được phõn lớp vào từng cụm đơn lẻ. Đường liờn kết nối đến cụm này được gợi ý.
Phõn cụm theo sử dụng web
- Khỏch thường truy cập vào trang
/products/software/webminer.html
thường cú xu hướng từ những tổ chức giỏo dục.
- Khỏch cú một vị trớ trực tuyến trờn mạng để đặt mua phần mềm thường cú xu hướng là những nhúm sinh viờn từ 20-25 tuổi ở Mỹ.
- 75% khỏch thường tải về phần mềm từ /products/software/demos/ visit vào quóng từ 7 giờ đến 11 giờ tối những ngày cuối tuần.