Giới thiệu luật kết hợp vỏ thuật tõn Apriori

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng Việt. (Trang 25 - 27)

1.2.3.1 Giới thiệu luật kết hợp

Trong lĩnh vực khai phõ dữ liệu, mục đợch của luật kết hợp lỏ tớm ra cõc mối quan hệ giữa cõc đối tượng trong khối lượng lớn dữ liệu. Nội dung cơ bản của luật kết hợp được tụm tắt như dưới đĩy.

Cho cơ sở dữ liệu T gồm cõc giao dịch t1, t2, …, tn.

T = {t1, t2, …, tn}. T gọi lỏ cơ sở dữ liệu giao dịch (Transaction Database)

Mỗi giao dịch ti bao gồm tập cõc phần tử I (gọi lỏ itemset) I = {i1, i2, …, im}. Một itemset gồm k phần tử gọi lỏ k-itemset

Mục đợch của luật kết hợp lỏ tớm ra sự kết hợp (association) hay tương quan

(correlation) giữa cõc phần tử. Những luật kết hợp nỏy cụ dạng X→Y

1.2.3.2 Độ hỗ trợ vỏ độ tin cậy

Độ hỗ trợ (Support) của luật kết hợp X→ Y lỏ tần suất của giao dịch chứa tất cả cõc phần tử trong cả hai tập X vỏ Y. Vợ dụ, độ hỗ trợ của

luật X→Y lỏ 5% cụ nghĩa lỏ 5% cõc giao dịch X vỏ Y được mua cỳng nhau.

∪ ) �(� � �������( →� �) = �( ∪� �) = � Trong đụ: - �(� ∪ �) lỏ số giao dịch của tập � ∪ � - N lỏ tổng số giao dịch.

Độ tin cậy (Confidence) của luật kết hợp X→Y lỏ xõc suất xảy ra Y khi đọ biết X. Vợ dụ độ tin cậy của luật kết hợp {Tõo} → {Cam} lỏ 80% cụ nghĩa lỏ 80% khõch hỏng mua Tõo cũng mua Cam.

Cừng thức để tợnh độ tin cậy của luật kết hợp X→Y lỏ xõc suất cụ điều kiện

Y khi đọ biết X như sau:

∪ ) �(� � ����������( →� �) = �(�|�) =

) �(� Trong đụ: n(X) lỏ số giao dịch chứa X

Để thu được cõc luật kết hợp, ta thường õp dụng hai tiởu chợ: độ hỗ trợ tối thiểu (minimum support viết tắt lỏ min_sup) vỏ độ tin cậy tối thiểu (minimum

confidence viết tắt lỏ min_conf). Cõc luật thỏa mọn cụ giõ trị support vỏ confidence lớn hơn hoặc bằng cả min_sup vỏ min_conf gọi lỏ cõc luật mạnh. min_sup vỏ min_conf gọi lỏ cõc giõ trị ngưỡng vỏ phải xõc định trước khi sinh

cõc luật kết hợp.

Một giao dịch mỏ tần suất xuất hiện của nụ ≥ min_sup gọi lỏ tập phổ biến

(frequent itemset).

1.2.3.3 Một số loại luật kết hợp

- Luật kết hợp nhị phĩn (Binary association rules)

- Luật kết hợp định lượng (Quantitative association rules) - Luật kết hợp mờ (Fuzzy association rules)

Thuật tõn phổ biến nhất tớm cõc luật kết hợp lỏ thuật tõn Apriori sử dụng luật kết hợp nhị phĩn.

1.2.3.4 Thuật tõn Apriori

Apriori lỏ thuật tõn được Agarwal vỏ cộng sự [6] đề xuất vỏo năm 1994. Bỏi tõn được phõt biểu như sau: Tớm t cụ độ hỗ trợ support thỏa mọn support 

min_sup vỏ độ tin cậy Confidence min_conf. Ký hiệu Lk lỏ tập cõc tập k - mục phổ biến, Ck tập cõc tập k-mục ứng viởn. Bỏi tõn đặt ra lỏ:

1. Tớm tất cả cõc tập mục phổ biến với giõ trị min_sup nỏo đụ.

2. Sử dụng cõc tập mục phổ biến để sinh ra cõc luật kết hợp với độ tin cậy

min_conf nỏo đụ.

Luận õn sử dụng thuật tõn Apriori tớm tất cả cõc tập mục phổ biến lớn hơn giõ trị tối thiểu min_sup.

Giả mọ vỏ mừ tả thuật tõn được trớnh bỏy dưới đĩy:

Thuật tõn 1.1: Thuật tõn Apriori

Đầu vỏo: Cơ sở dữ liệu giao dịch; min_sup: độ phổ biến tối thiểu

1: L[1] = {1-itemset} 2: k = 2 3: While(L[k-1]!=ì) 4: C[k] = getUnion(L[k-1]) 5: C[k] = pruning(C[k]) 6: L[k] = getAboveMinSup(C[k], min_sup) 7 k = k+1 Đầu ra: L

Mừ tả: Thuật tõn 1.1 nhận cõc tham số đầu vỏo gồm CSDL giao dịch vỏ giõ độ phổ biến tối thiểu min_sup. Khởi tạo tập ứng viởn gồm 1 phần tử cụ giõ trị phổ biến lớn hơn giõ trị min_sup (dúng 1). Thực hiện mở rộng độ dỏi cõc phần tử từ 2 (dúng 2). Với mỗi lần mở rộng, tạo cõc tập ứng viởn kợch thước k phần tử (k

–itemset) từ cõc tập phổ biến cụ kợch thước (k-1) phần tử (dúng 4) vỏ loại bỏ cõc tập ứng viởn nếu cụ tập mục khừng thường xuyởn (dúng 5). Tợnh tõn tập phổ biến cuối cỳng bằng cõch nhận những tập hợp thỏa mọn hỗ trợ tối thiểu (dúng 6). Kết quả thu được cõc tập phổ biến cụ độ phổ biến lớn hơn min_sup.

Một phần của tài liệu Nghiên cứu phát triển một số kỹ thuật hỗ trợ phát hiện đạo văn và ứng dụng cho văn bản tiếng Việt. (Trang 25 - 27)

Tải bản đầy đủ (DOC)

(193 trang)
w