Phát hiện luật kết hợp có ràng buộc mục dữ liệu

Một phần của tài liệu Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng.PDF (Trang 27 - 28)

Phát hiện luật kết hợp trong CSDL sinh ra rất nhiều luật trong khi người sử

dụng lại chỉ quan tâm đến một phần trong các luật được phát hiện, chẳng hạn, chỉ

quan tâm đến các luật có chứa một mục dữ liệu cụ thể, vì vậy, các nghiên cứu phát hiện luật kết hợp theo ràng buộc mục dữ liệu ra đời.

Đầu vào: CSDL D, độ hỗ trợ cực tiểu minSup

Kết qu: Tập các tập phổ biến đóng C

CHARM(D Í I ´O)

1. Nodes = {Ij ´ g(Ij) : Ij ÎIL½g(Ij)½³ minSup}

2. CHARM-EXTEND(Nodes, C) CHARM-EXTEND(Nodes, C): 3. for each Xi ´ g(Xi) in Nodes 4. NewN = Æ and X = Xi

5. for each Xj ´ g(Xj) in Nodes, with j > i 6. X = XÈXj and Y = g(Xi)Çg(Xj)

7. CHARM-PROPERTY(Nodes, NewN)

8. if NewN ¹Æ then CHARM-EXTEND(NewN) 9. C = CÈX // if X is not subsumed

CHARM-PROPERTY(Nodes, NewN): 10. if (½Y½³ minSup then

11. if g(Xi) = g(Xj) then //Property 1 12. Remove Xj from Nodes 13. Replace all Xi with X

14. else if g(Xi) Ì g(Xj) then //Property 2 15. Replace all Xi with X

16. else if g(Xi) É g(Xj) then //Property 3 17. Remove Xj from Nodes

18. Add X ´ Y to NewN

19. else if g(Xi) ¹ g(Xj) then //Property 4 20. Add X ´ Y to NewN

28

R. Srikant và cộng sự [74] đề xuất ràng buộc mục dữ liệu dạng biểu thức nhị

phân thể hiện việc có xuất hiện hay không các mục ở trong luật. Các tác giả giới thiệu ba cách kết hợp thuật toán Apriori với bước tiền xử lý để phát hiện luật dạng này và chỉ ra rằng việc kết hợp tiền xử lý làm giảm đáng kể thời gian thực hiện.

Trong [81], S.V. Tseng đề xuất bài toán tìm luật kết hợp thỏa mãn điều kiện IS (IS ÌI), theo đó thuật toán đi tìm luật từ các tập dữ liệu chứa IS thỏa mãn độ hỗ trợ

và độ tin cậy cực tiểu. Sau khi tiền xử lý để nhận được thông tin hữu ích về CSDL (như ước lượng số lượng luật ứng với điều kiện ràng buộc), áp dụng thuật toán Apriori để phát hiện hiệu quả các luật kết hợp.

Một phần của tài liệu Nghiên cứu phát hiện luật kết hợp hiếm và ứng dụng.PDF (Trang 27 - 28)

Tải bản đầy đủ (PDF)

(133 trang)