- Khỏm phỏ ra sự tương quan giữa những trang mà hầu hết được tham chiếu cựng nhau trong một phiờn làm việc cụ thể.
- Cung cấp những thụng tin:
+ Tập hợp cỏc trang được truy cập thường xuyờn cựng nhau bởi người dựng dung web là gỡ ?
+ Trang nào sẽ được tỡm tiếp ?
+ Đường dẫn thường xuyờn được truy cập bởi người sử dụng web là gỡ ? - Luật kết hợp:
- Vớ dụ:
50% người khỏch truy cập vào đường dẫn URLs /infor-f.html and labo/infos.html thỡ cũng sẽ viếng thăm vào trang situation.html
WUM-Phõn cụm
- Nhúm cựng nhau một tập những đối tượng cú những đặc điểm tương tự nhau.
- Cụm người sử dụng:
+ Khỏm phỏ ra những nhúm người sử dụng cú mẫu duyệt biểu thị giống nhau.
+ Gợi ý trang: Từng phiờn của người sử dụng được phõn lớp vào từng cụm đơn lẻ. Đường liờn kết nối đến cụm này được gợi ý.
Phõn cụm theo sử dụng web
- Khỏch thường truy cập vào trang
/products/software/webminer.html
thường cú xu hướng từ những tổ chức giỏo dục.
- Khỏch cú một vị trớ trực tuyến trờn mạng để đặt mua phần mềm thường cú xu hướng là những nhúm sinh viờn từ 20-25 tuổi ở Mỹ.
- 75% khỏch thường tải về phần mềm từ /products/software/demos/ visit vào quóng từ 7 giờ đến 11 giờ tối những ngày cuối tuần.
4.5. PHÂN CỤM THEO KẾT QUẢ TèM KIẾM WEB
Tỡm kiếm theo nội dung trờn web thường tổ chức thành cỏc nhúm, do đú những nhúm khỏc nhau thỡ tương ứng với những nhu cầu khỏc nhau. Vớ dụ:
Tại sao khụng cú những kỹ thuật tỡm kiếm khỏc ? [8][16] v Sử dụng nội dung của tài liệu
- Tạo ra cỏc cụm dựa trờn những đoạn trớch ra bởi cỏc cụng cụ tỡm kiếm web.
- Cỏc cụm dựa trờn những đoạn trớch hầu hết cú chất lượng bằng với cỏc cụm tạo ra từ nội dung đầy đủ của web.
- Tiếp hậu tố cõy phõn cụm (STC-Suffix Tree Clustering) cú độ phức tạp của giải thuật đạt đến cỡ O(n). Cõy này cú những đặc điểm (tuyến tớnh, lớn dần, chồng chộo, cú thể mở rộng để phõn cấp).
ỉ Thuật toỏn STC
1. Bước 1: Quỏ trỡnh làm sạch
- Bự vào những phần khuyết thiếu của cõu.
- Xỏc định ranh giới của cõu.
- Loại bỏ cỏc dấu cõu.
2. Bước 2: Cấu tạo của cõy tiếp hậu tố
- Những cụm cơ sở được tớnh điểm dựa trờn cỡ (nú phụ thuộc vào độ dài và chất lượng của từ tỡm kiếm).
3. Bước 3: Nối lại những cụm cơ sở
- Những cụm bị chồng chộo được nối lại.
v Sử dụng truy cập của người sử dụng
- Thuận lợi: Sự phự hợp thụng tin là những đối tượng được phản hồi từ truy cập sử dụng.
- Một kết quả thớ nghiệm cụ thể cú thể tham khảo tại www.nasa.gov/ như hỡnh 4.17.