Thuật toán Full 35

Một phần của tài liệu Khai thác luật tuần tự trên cơ sở dữ liệu chuỗi (Trang 42 - 44)

Spiliopoulou [19] đã đề xuất việc tạo ra tập luật tuần tựđầy đủ (tất cả các luật thỏa ngưỡng hỗ trợ và tin cậy) từ tập đầy đủ các mẫu tuần tự (tất cả các mẫu tuần tự). Việc tạo ra tập luật tuần tự đầy đủ tiêu tốn rất nhiều thời gian và bộ nhớ. Số

lượng mẫu con phổ biến tỉ lệ lũy thừa với độ dài cực đại của mẫu cha. Cụ thể, nếu một mẫu tuần tự kích thước k là phổ biến thì 2k mẫu con của nó cũng phổ biến. Mà mỗi mẫu tuần tự kích thước k có thể tạo ra (k-1) luật (tùy thuộc vào ngưỡng tin cậy tối thiểu). Do đó, số lượng luật sẽ gia tăng đồ sộ theo kích thước của mẫu. Thuật toán Full được trình bày trong hình 2.5 [14].

Trước hết, thuật toán tìm tập tất cả các mẫu tuần tự, là những mẫu tuần tự có

độ hỗ trợ thỏa ngưỡng minSup. Với mỗi mẫu tuần tự trong tập chuỗi tìm được, thuật toán tiến hành sinh tất cả các luật có thể có ứng với chuỗi đó. Cụ thể:

Với mỗi mẫu tuần tự có kích thước k, có thể tạo ra (k-1) luật. Mỗi luật có dạng

prepost, trong đó pre là tiền tố của mẫu fpre++post = f.

Do đó, với mỗi mẫu tuần tự, thuật toán xét lần lượt từng tiền tố. Với mỗi mẫu tiền tố, thuật toán phải duyệt toàn bộ tập mẫu tuần tựđể tìm độ hỗ trợ của mẫu tiền

tố, từđó tính độ tin cậy có thể có nếu sinh luật ứng theo tiền tố này. Nếu độ tin cậy thỏa ngưỡng minConf thì xuất ra luật đó.

Nếu gọi n là số lượng mẫu của tập các mẫu tuần tự, k là kích thước trung bình của mẫu, thì độ phức tạp của thuật toán này là O(n2×k).

Thuật toán Full:

Đầu vào: CSDL chuỗi, minSup, minConf

Kết quả: Tất cả các luật có ý nghĩa Phương pháp thực hiện: 1.Tìm tập tất cả các mẫu tuần tự Freq, gồm các mẫu có độ hỗ trợ ≥ minSup 2.Với mỗi mẫu f Freq thực hiện 3. Với mỗi tiền tố pre của f thực hiện 4. Duyệt tập mẫu tuần tự để tìm sup(f)

5. Đặt post = px, sao cho pre++px = f

6. Đặt r = prepost, sup = sup(f)

conf = sup(f)/sup(pre) 7. Nếu conf minConf thì:

Xuất luật r(sup, conf)

Hình 2.5. Thuật toán Full [14]

Chương 3 . PHƯƠNG PHÁP KHAI THÁC LUT TUN T DA TRÊN CÂY TIN T

Một phần của tài liệu Khai thác luật tuần tự trên cơ sở dữ liệu chuỗi (Trang 42 - 44)