Giới thiệu luật kết hợp vỏ thuật tõn Apriori

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 25 - 27)

1 2 3 1 Giới thiệu luật kết hợp

Trong lĩnh vực khai phõ dữ liệu, mục đợch của luật kết hợp lỏ tớm ra cõc mối quan hệ giữa cõc đối tượng trong khối lượng lớn dữ liệu Nội dung cơ bản của luật kết hợp được tụm tắt như dưới đĩy

Cho cơ sở dữ liệu T gồm cõc giao dịch t1, t2, …, tn

T = {t1, t2, …, tn} T gọi lỏ cơ sở dữ liệu giao dịch (Transaction Database)

Mỗi giao dịch ti bao gồm tập cõc phần tử I (gọi lỏ itemset) I = {i1, i2, …, im} Một itemset gồm k phần tử gọi lỏ k-itemset

Mục đợch của luật kết hợp lỏ tớm ra sự kết hợp (association) hay tương quan

(correlation) giữa cõc phần tử Những luật kết hợp nỏy cụ dạng XY 1 2 3 2 Độ hỗ trợ vỏ độ tin cậy

Độ hỗ trợ (Support) của luật kết hợp X Y lỏ tần suất của giao dịch chứa tất cả cõc phần tử trong cả hai tập X vỏ Y Vợ dụ, độ hỗ trợ của luật XY lỏ 5% cụ nghĩa lỏ 5% cõc giao dịch X vỏ Y được mua cỳng nhau

( → ) = ( ∪ ) =  (   ∪ ) (1 1)

Trong đụ:

-( ∪ ) lỏ số giao dịch của tập ∪  - N lỏ tổng số giao dịch

Độ tin cậy (Confidence) của luật kết hợp XY lỏ xõc suất xảy ra Y khi đọ biết X Vợ dụ độ tin cậy của luật kết hợp {Tõo} {Cam} lỏ 80% cụ nghĩa lỏ 80% khõch hỏng mua Tõo cũng mua Cam

Cừng thức để tợnh độ tin cậy của luật kết hợp XY lỏ xõc suất cụ điều kiện

Y khi đọ biết X như sau:

( → ) = (|) =  (  ( ∪) ) (1 2)

Trong đụ: n(X) lỏ số giao dịch chứa X

Để thu được cõc luật kết hợp, ta thường õp dụng hai tiởu chợ: độ hỗ trợ tối thiểu (minimum support viết tắt lỏ min_sup) vỏ độ tin cậy tối thiểu (minimum confidence viết tắt lỏ min_conf) Cõc luật thỏa mọn cụ giõ trị support vỏ

confidence lớn hơn hoặc bằng cả min_sup vỏ min_conf gọi lỏ cõc luật mạnh

min_sup vỏ min_conf gọi lỏ cõc giõ trị ngưỡng vỏ phải xõc định trước khi sinh cõc luật kết hợp

Một giao dịch mỏ tần suất xuất hiện của nụ ≥ min_sup gọi lỏ tập phổ biến

(frequent itemset)

1 2 3 3 Một số loại luật kết hợp

- Luật kết hợp nhị phĩn (Binary association rules)

- Luật kết hợp định lượng (Quantitative association rules)

- Luật kết hợp mờ (Fuzzy association rules)

Thuật tõn phổ biến nhất tớm cõc luật kết hợp lỏ thuật tõn Apriori sử dụng luật kết hợp nhị phĩn

1 2 3 4 Thuật tõn Apriori

Apriori lỏ thuật tõn được Agarwal vỏ cộng sự [6] đề xuất vỏo năm 1994 Bỏi tõn được phõt biểu như sau: Tớm t cụ độ hỗ trợ support thỏa mọn support

min_sup vỏ độ tin cậy Confidence min_conf Ký hiệu Lk lỏ tập cõc tập k - mục phổ biến, Ck tập cõc tập k-mục ứng viởn Bỏi tõn đặt ra lỏ:

1 Tớm tất cả cõc tập mục phổ biến với giõ trị min_sup nỏo đụ

2 Sử dụng cõc tập mục phổ biến để sinh ra cõc luật kết hợp với độ tin cậy

min_conf nỏo đụ

Luận õn sử dụng thuật tõn Apriori tớm tất cả cõc tập mục phổ biến lớn hơn giõ trị tối thiểu min_sup

Giả mọ vỏ mừ tả thuật tõn được trớnh bỏy dưới đĩy:

Thuật tõn 1 1: Thuật tõn Apriori

Đầu vỏo: Cơ sở dữ liệu giao dịch; min_sup: độ phổ biến tối thiểu

1: 2: 3: 4: 5: 6: 7 L[1] = {1-itemset} k=2 While(L[k-1]!=ì) C[k] = getUnion(L[k-1]) C[k] = pruning(C[k]) L[k] = getAboveMinSup(C[k], min_sup) k = k+1 Đầu ra: L

Mừ tả: Thuật tõn 1 1 nhận cõc tham số đầu vỏo gồm CSDL giao dịch vỏ giõ độ phổ biến tối thiểu min_sup Khởi tạo tập ứng viởn gồm 1 phần tử cụ giõ trị phổ biến lớn hơn giõ trị min_sup (dúng 1) Thực hiện mở rộng độ dỏi cõc phần tử từ 2 (dúng 2) Với mỗi lần mở rộng, tạo cõc tập ứng viởn kợch thước k phần tử (k –itemset) từ cõc tập phổ biến cụ kợch thước (k-1) phần tử (dúng 4) vỏ loại bỏ cõc tập ứng viởn nếu cụ tập mục khừng thường xuyởn (dúng 5) Tợnh tõn tập phổ biến cuối cỳng bằng cõch nhận những tập hợp thỏa mọn hỗ trợ tối thiểu (dúng 6) Kết quả thu được cõc tập phổ biến cụ độ phổ biến lớn hơn min_sup

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng việt (Trang 25 - 27)

Tải bản đầy đủ (DOCX)

(175 trang)
w