Đánh giá giải thuật PLWAP và PLWAP

Để đánh giá giải thuật PLWAP trước và sau khi cải tiến, độ chính xác của hệ thống đề xuất được đo bởi precision, satisfation. Vì vậy, chúng ta sử dụng hai phương pháp này để đánh giá hiệu suất của hệ thống đề xuất dựa trên giải thuật PLWAP và PLWAP-Markov.

- Đối với giải thuật cây PLWAP:

Cho một chuỗi test các trang web truy cập web hiện tại của người dùng S = a1 a2 ... ak ak+1 ...an.

RR={e1, e2, ..., eM } dựa trên cây PLWAP, nơi mà các sự kiện được sắp xếp theo độ hỗ trợ, sau đó xác định luật nào là luật đúng, và luật thỏa mãn, hoặc luật rỗng dựa theo các điểu kiện sau:

+ Nếu ak+1 ∈ RR thì RR đúng.

+ Nếu ∃ai ∈ RR (k+1 ≤ i ≤ k+1+m, m>0) thì m-bước thỏa mãn (tức RR thỏa mãn), ngược lại m-bước không thỏa mãn.

R={RR1, RR2,...RRN} là một bộ của các luật đề xuất với RRi (1≤ i ≤ N) là một luật đề xuất. R=|N| là tổng số luật đề xuất trong R bao gồm cả tập rỗng. Precision và satisfation được tính như sau:

Precision = | 𝑅𝑐 |

| 𝑅 | [16]

Trong đó, Rc là tập con của R bao gồm tất cả các luật đề xuất đúng.

Satisfactory(m) = | 𝑅𝑠 |

| 𝑅 | [16]

Trong đó, Rs là tập con của R bao gồm tất cả các luật đề xuất thỏa mãn.

Bảng 4.2 - Thuật toán sinh luật cho cây PLWAP [16]

Đầu vào:

1. T: cây PLWAP

2. S= a1 a2 …an: chuỗi truy cập hiện tại của người dùng 3. MinLength: Chiều dài tối thiểu của chuỗi truy cập

4. MaxLength: Chiều dài tối đa của chuỗi truy cập (thấp hơn độ sâu của cây PLWAP)

Đầu ra:

RR: luật đề xuất cho S

1. Bắt đầu RR=null

2. Nếu |S| > MaxLength thì gỡ bỏ các mục |S|-MaxLength+1 đầu tiên từ S

3. Nếu |S| < MinLength thì trở về RR, ngược lại thiết lập nút_hiện tại trỏ tới nút gốc R của T

4. Lặp mỗi mục ai từ đầu của S đến cuối:

a. Nếu nút_hiện tại có nút con có nhãn là ai+1, thì thiết lập nút_hiện tại trỏ tới nút con này

b. Ngược lại, gỡ bỏ mục đầu tiên khỏi S, và lặp lại bước 3

5. Nếu nút_hiện tại có các nút con, sau đó thêm các nút con này vào RR theo thứ tự của độ hỗ trợ của chúng

6. Trở về RR

Bảng 4.3 - Thuật toán tính toán độ chính xác cho cây PLWAP [16]

Đầu vào:

1. T: cây PLWAP 2. WAS

3. MinLength: chiều dài tối thiểu của WAS

4. MaxLength: độ sâu của cây PLWAP

Đầu ra:

1. Precision 2. Satisfactory

1. Si= a1 a2 …ak ak+1 …an

2. Chạy mỗi k ≥ MinLength tới (n-1): a. sub S = a1 a2 …ak

b. Các tham số (T, sub S, MinLength, MaxLength), sinh các luật đề xuất RR={e1, e2,…, em}

c. Nếu ak+1∈ RR thì luật đề xuất đúng, |Rc| tăng 1

d. Nếu ∃ai∈ RR (k+1 ≤ i ≤ k+1+m, m>0) thì luật đề xuất thỏa mãn m bước, |Rs| tăng 1

e. Nếu RR ≠ null thì tăng luật đề xuất không rỗng lên 1, tức |R| tăng 1 Trở về: precision, satisfactory của T

- Đối với giải thuật PLWAP-Markov:

Cho một chuỗi test bao gồm các truy cập web truy cập hiện tại của người dùng S = a1 a2 ...an.

Xét trang truy cập đầu tiên a1, ta tạo ra tập luật đề xuất từ ngưỡng trên ma trận truyền, nơi mà các cặp liên kết trang được sắp xếp theo xác suất, sau đó luật sẽ được xác định như sau:

+ Nếu ai+1 ∈ RR thì RR đúng.

+ Nếu ∃aj ∈ RR (i+1 ≤ j ≤ i+1+m, m>0) thì m-bước thỏa mãn (tức RR thỏa mãn), ngược lại m-bước không thỏa mãn.

R={RR1, RR2,...RRN} là một bộ của các luật đề xuất với RRi (1≤ i ≤ N) là một luật đề xuất. R=|N| là tổng số luật đề xuất trong R. Precision và satisfation được tính như sau:

Precision = | 𝑅𝑐 |

| 𝑅 | [16]

Trong đó, Rc là tập con của R bao gồm tất cả các luật đề xuất đúng.

Satisfactory(m) = | 𝑅𝑠 |

| 𝑅 | [16]

Trong đó, Rs là tập con của R bao gồm tất cả các luật đề xuất thỏa mãn.

Bảng 4.4 - Thuật toán tính toán độ chính xác cho cây PLWAP-Markov

Đầu vào:

1. Ngưỡng 𝛽 2. WAS

3. Ma trận truyền

1. Si= a1 a2 …an

2. Nếu xác suất các cặp liên kết trang trong ma trận truyền > ngưỡng, sinh các luật đề xuất RR

3. Chạy i=0 tới (n-1) trong Si:

Đầu ra:

1. Precision 2. Satisfactory

đúng, |Rc| tăng 1

b. Nếu ∃ai∈ RR (k+1 ≤ i ≤ k+1+m, m>0) thì luật đề xuất thỏa mãn m bước, |Rs| tăng 1

c. |R| tăng 1

Trở về: precision, satisfactory

Đánh giá giải thuật PLWAP và PLWAP–Markov

Khai thác WAS từ web log

Thuật toán khai thác cây PLWAP