V. Wap-tree:
2. Mẫu truy cập tuần tự Apriori:
Khai thác mẫu truy cập tuần tự (hay còn gọi là tìm ra các mẫu phổ biến từ cơ sở dữ liệu tuần tự) đƣợc giới thiệu lần đầu tiên bởi Agrawal và Srikant nhƣ sau: Cho một cơ sở dữ liệu tuần tự, có các chuỗi là một danh sách các transaction đƣợc xếp theo thứ tự thời gian và mỗi transaction là một tập các item, tìm tất cả các mẫu tuần tự thỏa độ hỗ trợ tối thiểu do ngƣời sử dụng chỉ định, với độ hỗ trợ là số các chuỗi dữ liệu có chứa mẫu.
Từ khi nó đƣợc giới thiệu, đã có nhiều nghiên cứu về các kỹ thuật thuật khai thác tối ƣu nhất cũng nhƣ các phƣơng pháp mở rộng của khai thác mẫu tuần tự để khai thác các mẫu tuần tự phổ biến phụ thuộc thời gian khác nhau.
Tất cả các nghiên cứu về các phƣơng pháp khai thác các mẫu phổ biến phụ thuộc thời gian (tuần tự hoặc định kỳ) đều áp dụng thuật toán Apriori nhƣ là một mô hình mẫu, thúc đẩy việc hình thành một phƣơng thức tạo và kiểm tra (generate- and-test method) nhƣ sau: đầu tiên, sẽ tạo ra tập các mẫu dự tuyển và sau đó kiểm tra mỗi mẫu dự tuyển đó có đƣợc hỗ trợ đầy đủ trong cơ sở dữ liệu hay ko. (Chẳng hạn nhƣ: nó có thỏa một ngƣỡng minSup cho trƣớc hay ko).
Do độ dài của một Web log là khá lớn nên tập các mẫu dữ tuyển phát sinh cũng sẽ không nhỏ. Cho nên các phƣơng pháp Apriori Heuristic đƣợc sử dụng để làm giảm các mẫu dự tuyển này ở mỗi lần lặp.
Tính chất 1:
Gọi WAS là cơ sở dữ liệu các chuỗi truy cập tuần tự. Nếu chuỗi G không là mẫu truy cập tuần tự (E-pattern) trong WAS thì các chuỗi cha của G sẽ không là mẫu truy cập tuần tự trong WAS. Tức là : supWAS(G) ≤ E.
Với tính chất mẫu tuần tự Apriori này, số lƣợng các chuỗi truy cập phổ biến dự tuyển phát sinh sẽ đƣợc giảm đáng kể. Tuy nhiên, theo đặc tính của quá trình khai thác các mẫu tuần tự, việc kết hợp các chuỗi tuần tự phổ biến để phát sinh các chuỗi tuần tự phổ biến dự tuyển vẫn còn tạo ra một số lƣợng khổng lồ các chuỗi phổ biến dự tuyển, đặc biệt là trong trƣờng hợp độ dài của các mẫu/chuỗi tuần tự dài, mà trong bài toán khai thác các mẫu tuần tự truy cập web, độ dài của một mẫu tuần tự truy cập web hầu nhƣ luôn là dài hoặc rất dài.