Khai thác WAS từ web log

Một phần của tài liệu Cải tiến thuật toán cây PLWAP cho khai thác chuỗi dữ liệu (Trang 31 - 33)

Web log là một chuỗi các sự kiện, với một cặp thuộc tính giá trị của người sử dụng nhận dạng, truy cập thông tin. Thông tin có thể được kết hợp bất kỳ các giá trị trong định dạng web log ban đầu được cung cấp trước đó. Ví dụ, truy cập thông tin ở đây là viết tắt của nội dung truy cập. Để đơn giản, nội dung truy cập trang web log được biểu diễn như là các mục {a, b, c, d, e, f}. Một đoạn chuỗi các trang truy cập đã được xử lý từ web log được hiển thị trong định dạng <ID, nội dung truy cập> như sau:

< 100, a >< 100, b >< 200, e >< 200, a >< 300, b >< 200, e >< 100, d >< 200, b > < 400, a >< 400, f >< 100, a >< 400, b >< 300, a >< 100, c >< 200, c >< 400, a > < 200, a >< 300, b >< 200, c >< 300, f >< 400, c >< 400, f >< 400, c >< 300, a > < 300, e >< 300, c >

Những sự kiện web log được xử lý trước, nhóm chúng vào bộ chuỗi truy cập cho mỗi định danh người dùng và tạo ra các chuỗi truy cập web trong hình thức của một cơ sở dữ liệu giao dịch. Chuỗi web log trong một cơ sở dữ liệu giao dịch thu được sau khi tiền xử lý các web log có mỗi tuple gồm một ID giao dịch và chuỗi truy cập web của giao dịch này. Vì vậy, ví dụ như người sử dụng ID 100, từ web log đưa ra ở

trên, đã truy cập nội dung a b, d, a, và c. Các giao dịch chuỗi truy cập web từ các dữ liệu web log được hiển thị như Bảng 2.3. Vấn đề khai thác mẫu tuần tự từ các web log bây giờ dựa trên cơ sở dữ liệu của Bảng 2.3. Với một tập hợp các sự kiện E, chuỗi truy cập S có thể được biểu diễn như là e1 e2. . . en, trong đó ei ∈ E (1 ≤ I ≤ n).

Bảng 2.3 - Danh sách dữ liệu chuỗi truy cập web [3]

ID giao dịch Chuỗi truy cập web

100 abdac

200 eaebcac

300 babfaec

400 babfaec

Dữ liệu chuỗi truy cập web là tập hợp S1, S2 , . . . , Sm , trong đó Si , (1 ≤ i ≤ m ) là chuỗi truy cập. Ví dụ, cơ sở dữ liệu web trên là một dữ liệu chuỗi truy cập web với 4 chuỗi truy cập abdac, eaebcac, babfaec và babfaec trong cơ sở dữ liệu. Chuỗi truy cập S’ = e’1 e’2 …e’l gọi là chuỗi con của một chuỗi truy cập S = e1 e2 …en , và S là một siêu chuỗi của S’ ký hiệu là S’ ⊆ S, nếu và chỉ nếu với mỗi sự kiện e’j trong S’ có một sự kiện bằng ek trong S, trong khi thứ tự các sự kiện xảy ra trong S phải theo thứ tự của các sự kiện trong S’.Ví dụ, với S’ = ab, S = babcd, chúng ta có thể nói rằng S’ là một chuỗi con của S. Chúng ta cũng có thể nói ac đó là một chuỗi con của S, mặc dù có xảy ra b giữa a và c trong S. Một mẫu phổ biến là một chuỗi truy cập được tìm ra trong quá trình khai thác và nó cần phải có một độ hỗ trợ đó là cao hơn so với hỗ trợ cực tiểu. Theo thứ tự truy cập S = e1e2 . . . ek ek+1. . . en , nếu chuỗi Shậu tố = ek+1. . . en là một chuỗi siêu mẫu P = e1’e2’ ….. el’ , nơi ek+1 = el’, Stiền tố = e1e2 . . . ek , được gọi là tiền tố của S đối với mẫu P, trong khi S hậu tố là chuỗi hậu tố của S tiền tố. Ví dụ, trong chuỗi eaebcac, eae là một tiền tố của bcac, trong khi bcac là một hậu tố của eae.

Độ hỗ trợ của mẫu S trong dữ liệu chuỗi truy cập web được định nghĩa là số chuỗi Si, có chứa các chuỗi S, chia bởi số lượng giao dịch trong các dữ liệu chuỗi truy cập web cơ sở dữ liệu. Mặc dù sự kiện có thể được lặp đi lặp lại trong một chuỗi truy cập, một mẫu có thể có nhiều nhất một độ hỗ trợ đóng góp số từ một chuỗi truy cập. Ví dụ, từ Bảng 2.5, fc là một mẫu, mà được 50% hỗ trợ từ ID người sử dụng 300 và 400, fc xuất hiện lần thứ nhất trong chuỗi ID người sử dụng 300 và lần thứ hai trong ID người sử dụng là 400. Vấn đề khai thác sử dụng web là tìm kiếm tất cả các mẫu có hỗ trợ lớn hơn hơn λ, cho cơ sở dữ liệu chuỗi truy cập web và một ngưỡng hỗ trợ cực tiểu λ. Những mẫu có hỗ trợ lớn hơn λ là mẫu chuỗi phổ biến.

Một phần của tài liệu Cải tiến thuật toán cây PLWAP cho khai thác chuỗi dữ liệu (Trang 31 - 33)