V. Wap-tree:
3. WAP-mine và WAP-tree:
Với động lực cải tiến quá trình khai thác các mẫu truy cập web, nhóm các giáo sƣ, tác giả Jian Pei, Jiawei Han, Behzad Mortazavi-asl, và Hua Zhu của bài báo khoa học “Mining Access Patterns Efficiently from Web Logs” – School of Computing Science, Simon Fraser University, Canada đã đề xuất một thuật giải gọi là WAP- mine để khai thác các mẫu truy cập web. Thuật giải WAP – mine sử dụng cấu trúc dữ liệu cây gọi là WAP –Tree để giảm thiểu không gian lƣu trữ các chuỗi truy cập tuần tự và cải tiến q trình tính tốn độ phổ biến của các chuỗi truy cập bằng việc kết hợp sử dụng tính chất heuristic phát biểu dƣới đây:
Tính chất 2:(Suffix heuristic)
Nếu e là một biến cố phổ biến trong danh sách tập hợp các tiền tố (Prefixes), của tương ứng với mẫu P của những chuỗi truy cập tuần tự có trong WAS, thì chuỗi truy cập tuần tự eP sẽ là một mẫu truy cập (chuỗi truy cập phổ biến) trong WAS.
Ƣu điểm của WAP-tree :
- Giảm chi phí cho q trình tính độ support.
- WAP-tree cũng duy trì liên kết để duyệt qua các tiền tố tƣơng ứng có cùng các hậu tố (suffixes) một cách đầy hiệu quả.
- WAP-tree chứa đầy đủ những thông tin cần thiết và đặc biệt chỉ lƣu trữ những thơng tin sẽ đƣợc sử dụng cho q trình khai khống. Một khi cấu trúc này đƣợc xây dựng xong, tất cả các xử lý khai thác dữ liệu từ các mẫu truy cập đều đƣợc thực hiện dựa trên cấu trúc này mà không cần phải sử dụng lại cơ sở dữ liệu các chuỗi truy cập tuần tự ban đầu, hơn thế nữa chính vì kích thƣớc của WAP-Tree thƣờng nhỏ hơn kích thƣớc của cơ sở dữ liệu các chuỗi truy cập tuần tự ban đầu rất nhiều, nên chi phí và q trình khai thác dữ liệu nhờ đó trở nên hợp lý hơn.
Ý tƣởng của giải thuật WAP-mine đƣợc trình bày nhƣ sau :
- Ta sẽ duyệt qua cơ sở dữ liệu các truy cập tuần tự WAS 2 lần.
- Ở lần đầu tiên, ta sẽ xác định đƣợc tập các biến cố phổ biến e. Một biến cố e sẽ đƣợc gọi là một biến cố phổ biến trong WAS khi và chỉ khi số lần mà biến cố này xuất hiện trong các chuỗi truy cập tuần tự ít nhất là minSup*|WAS|.
- Ở lần duyệt tiếp theo, WAP-mine xây dựng lên một cấu trúc dữ liệu cây, gọi là WAP-tree bằng cách sử dụng tập các biến cố phổ biến ở lần duyệt đầu tiên.
- Sau đó, WAP-mine sẽ dùng đệ quy để khai thác thông tin trên WAP-tree bằng cách dùng kỹ thuật tìm kiếm có điều kiện để tìm ra các mẫu truy cập web.
-
Lƣu ý : Độ hỗ trợ (sup) : là số lần suất hiện của chuỗi S trong cơ sở dữ liệu WAS.
Ký hiệu: supWAS(S) = |{ | }|