Bài viết giới thiệu các thuật toán khai thác luật phân lớp kết hợp, đặc biệt là thuật toán PCAR đề xuất tỷ lệ dự đoán, được chọn ưu tiên hơn độ tin cậy, độ hỗ trợ để đánh giá luật, tạo ra bộ phân lớp chính xác hơn. Tuy nhiên, việc dự đoán đơn luật ưu tiên chọn tỷ lệ dự đoán dẫn đến việc dự đoán sai ở nhiều tập dữ liệu mất cân bằng về lớp.
TRƯỜNG ĐẠI HỌC SÀI GỊN SAIGON UNIVERSITY TẠP CHÍ KHOA HỌC SCIENTIFIC JOURNAL ĐẠI HỌC SÀI GÒN OF SAIGON UNIVERSITY Số 77 (06/2021) No 77 (06/2021) Email: tcdhsg@sgu.edu.vn ; Website: http://sj.sgu.edu.vn/ KHAI THÁC LUẬT PHÂN LỚP KẾT HỢP THEO TẬP DỰ ĐOÁN Mining class association rule based on predictive collection ThS Nguyễn Anh Tú Trường Đại học Ngoại ngữ – Tin học TP.HCM TÓM TẮT Bài viết giới thiệu thuật toán khai thác luật phân lớp kết hợp, đặc biệt thuật toán PCAR đề xuất tỷ lệ dự đoán, chọn ưu tiên độ tin cậy, độ hỗ trợ… để đánh giá luật, tạo phân lớp xác Tuy nhiên, việc dự đốn đơn luật ưu tiên chọn tỷ lệ dự đoán dẫn đến việc dự đoán sai nhiều tập liệu cân lớp Do đó, viết đề xuất thuật toán DPCAR để cải tiến giai đoạn dự đoán cách ưu tiên chọn nhóm cao số luật phủ; trung bình điều hịa tỷ lệ dự đoán độ tin cậy; độ hỗ trợ luật phân lớp Kết thực nghiệm cho thấy thuật toán đề xuất tăng khoảng 1.31% 1.93% so sánh với hai phiên thuật toán PCAR vượt trội so với thuật tốn trước độ xác 14 tập liệu tập UCI Từ khóa: phân lớp, luật phân lớp kết hợp, tập dự đoán, khai thác liệu ABSTRACT This paper will present the algorithms for mining the class association rule, especially an algorithm named PCAR that has proposed a novel measure, known as the predictive rate, which has priority over confidence, support, etc., in the rule evaluation, has built the classifier with high accuracy However, by using single accurate rule prediction, many cases were incorrectly covered by the rule which higher predictive rate, especially in imbalanced real datasets Therefore, this paper proposes the DPCAR algorithm to improve PCAR algorithm at the prediction phase by selecting the class with priority dominant class groups; the highest harmonic mean ratio between predictive rate and confidence; and the highest support of rule in the classifier The experimental results show that the proposed algorithm has increased by 1.31% and 1.93% compared to two versions of PCAR algorithm as well as outperformed the previous algorithms over 14 data sets of UCI Repository Keywords: classification, class association rules, predictive collection, data mining cho liệu vào lớp xác định trước liệu giao dịch Từ định nghĩa trên, nhà nghiên cứu đề xuất phương pháp kết hợp hai kỹ thuật lại để tạo phương pháp gọi phân lớp kết hợp Phân lớp kết hợp (Associative Classification - AC) phương pháp Giới thiệu Khai thác luật kết hợp phân lớp toán quan trọng nghiên cứu khai thác liệu Trong khai thác luật kết hợp trình tìm mối liên kết hạng mục tốn phân lớp có nhiệm vụ xây dựng phân lớp từ liệu huấn luyện để phân lớp Email: tu.na@huflit.edu.vn 26 NGUYỄN ANH TÚ TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GỊN kết hợp việc khai thác luật kết hợp để xây dựng phân lớp hay mơ hình phân lớp (classifier) dự đoán mẫu chưa biết trước lớp toán phân lớp liệu Đầu tiên, luật kết hợp tạo việc sử dụng thuật toán khai thác tập phổ biến để sinh luật, kể đến Apriori [1], Eclat [2], FP-growth [3] v.v Sau đó, luật sinh dạng luật phân lớp kết hợp (Class Association Rules - CARs) giữ lại để đánh giá Luật phân lớp kết hợp dạng đặt biệt luật kết hợp mà vế trái (hay tiền đề) hạng mục vế phải (hay hệ quả) thuộc tính lớp Trong giai đoạn đánh giá, AC sử dụng độ đo độ tin cậy (confidence - conf), độ hỗ trợ (support supp), độ dài tiền đề (cardinality) hay tần suất xuất lớp (frequency)… luật để xếp hạng, cắt tỉa luật dư thừa xây dựng phân lớp phục vụ cho q trình dự đốn Khai thác luật phân lớp kết hợp đề xuất Liu cộng vào năm 1998 [4] việc kết hợp hai kỹ thuật khai thác liệu khai thác luật kết hợp phân lớp; thuật tốn CBA đề xuất cơng trình Thuật tốn bao gồm hai giai đoạn chính: giai đoạn sinh luật (áp dụng thuật toán CBARG) giai đoạn xây dựng phân lớp (áp dụng thuật toán CBA-CB) chứng minh cải thiện độ xác so với thuật toán phân lớp dựa luật trước định [5], ILA [6] v.v Vào năm 2001, W Li cộng đề xuất thuật toán phân lớp dựa đa luật (Classification based on Multiple Association Rules - CMAR) [7], sử dụng FP (Frequent Pattern Tree) để nén liệu dùng phép chiếu để tìm luật phân lớp Ở giai đoạn dự đoán luật tập kiểm thử, CMAR chia luật dự đốn thành nhóm theo thuộc tính lớp tính giá trị chi bình phương trọng số (Weighted Chi-square weighted2) cho nhóm chọn thuộc tính lớp nhóm có giá trị weighted2 lớn để dự đốn cho mẫu kiểm thử Thuật toán CMAR đem lại hiệu cao việc tăng độ xác tập luật CARs khai thác Tiếp sau đó, Thabtah cộng đề xuất thuật toán MMAC (Multi-class, Multi-label Associative Classification) [8] để khai thác luật phân lớp kết hợp đa lớp, đa nhãn vào năm 2004 Thuật toán MMAC bao gồm ba giai đoạn: đầu tiên, thuật toán sinh tập luật CARs thỏa ngưỡng tin cậy tối thiểu (minimum confidence - minconf) xếp hạng, cắt tỉa để bỏ luật dư thừa; sau đó, thuật tốn dùng đệ quy để khai thác dòng liệu lại tập liệu huấn luyện sau qua bước cắt tỉa giai đoạn đầu, sinh tập luật gộp với tập luật khai thác giai đoạn đầu để tạo phân lớp có tính đa lớp, phục vụ cho giai đoạn dự đốn lớp cho dịng tập liệu kiểm thử Với việc thực bước giai đoạn 2, thuật toán MMAC cải thiện độ xác với trường hợp dự đoán luật đa nhãn lớp so với thuật tốn trước Vào năm 2005, nhóm tác giả lại đề xuất thuật toán gọi phân lớp luật kết hợp đa lớp (Multi-class Classification based on Association Rule - MCAR) [9] áp dụng kỹ thuật tìm tập phổ biến hiệu để tạo tập luật CARs hướng tiếp cận đánh giá luật để tạo phân lớp có độ tin cậy độ xác cao, phục vụ cho q trình dự đốn lớp chưa biết nhãn Một số điểm hạn chế thuật toán khai thác luật phân lớp 27 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 77 (06/2021) huấn luyện chọn để dự đoán Nội dung nghiên cứu 2.1 Sơ khai thác luật phân lớp kết hợp (Class association rule mining) Khai thác luật phân lớp kết hợp tốn tìm tập luật kết hợp có sở liệu mà luật kết hợp tập chứa vế phải giá trị thuộc tính lớp Bài tốn phát biểu sau: kết hợp kể phụ thuộc chủ yếu vào việc chọn ngưỡng hỗ trợ, ngưỡng tin cậy tối thiểu Một ngưỡng cao dẫn đến lớp chứa mẫu khơng phổ biến khơng luật lớp nằm phân lớp; ngưỡng thấp dẫn đến việc phân lớp chứa số lượng lớn luật đa lớp hai ảnh hưởng đến trình dự đốn lớp Vào năm 2017, nhóm tác giả Song Lee đề xuất thuật toán đưa tiêu chí gọi tỷ lệ dự đốn (predictive rate - pr), ưu tiên độ tin cậy, độ hỗ trợ… để đánh giá luật, xây dựng phân lớp dự đốn xác hướng tiếp cận trước, thuật tốn PCAR (Predictability-based Collective Class Association Rule mining) [10] Tuy nhiên, giai đoạn dự đoán luật, Song Lee [10] chọn tỷ lệ dự đốn làm tiêu chí ưu tiên hàng đầu dẫn đến nhiều trường hợp bị dự đoán sai luật có tỷ lệ dự đốn thấp lại có thuộc tính lớp với mẫu tập liệu kiểm thử, đặc biệt trường hợp tập liệu bị cân lớp Do vậy, viết đề xuất hướng cải tiến để khắc phục nhược điểm Giải pháp viết tập trung giai đoạn dự đoán, mẫu chưa biết trước lớp tập kiểm thử đưa vào dự đoán, thuật toán chọn theo thứ tự lớp nhóm có số lượng luật phủ mẫu kiểm thử nhiều (Dominant Class - DC), nhóm có giá trị trung bình cộng trung bình điều hòa HM (Average Harmonic Mean - AHM) tỷ lệ dự đốn độ tin cậy cao nhất, nhóm có giá trị trung bình độ hỗ trợ (Average Support - AS) cao để dự đốn Trường hợp khơng có luật phủ mẫu, lớp mặc định (default class) – lớp xuất nhiều tập liệu Cho tập liệu huấn luyện T với m thuộc tính A1, A2,…, Am 𝐶 danh sách thuộc tính lớp |𝑇| lực lượng T Định nghĩa 1: AttributeValueSet tập thuộc tính giá trị nó, ký hiệu < (𝐴𝑖1 , 𝑎𝑖1 ), … , (𝐴𝑖𝑚 , 𝑎𝑖𝑚 ) > Định nghĩa 2: Một luật phân lớp kết hợp r phép kéo theo có dạng 𝐴𝑡𝑡𝑟𝑖𝑏𝑢𝑡𝑒𝑉𝑎𝑙𝑢𝑒𝑆𝑒𝑡 → 𝑐 đó, 𝑐 ∈ 𝐶 nhãn lớp Định nghĩa 3: Số lần xuất luật r T, ký hiệu 𝑎𝑐𝑡𝑜𝑐𝑐𝑟𝑇 (𝑟), số dòng T chứa AttributeValueSet r Định nghĩa 4: Số hỗ trợ luật r T, ký hiệu 𝑠𝑢𝑝𝑝𝑐𝑜𝑢𝑛𝑡𝑇 (𝑟), số dịng T chứa AttributeValueSet r thuộc tính lớp C giống với thuộc tính 𝑐 r Định nghĩa 5: Một luật r vượt qua ngưỡng hỗ trợ tối thiểu (minsupp) 𝑠𝑢𝑝𝑝𝑐𝑜𝑢𝑛𝑡𝑇 (𝑟) |𝑇| ≥ 𝑚𝑖𝑛𝑠𝑢𝑝𝑝 Định nghĩa 6: Một luật r vượt qua ngưỡng tin cậy tối thiểu (minconf) 𝑠𝑢𝑝𝑝𝑐𝑜𝑢𝑛𝑡𝑇 (𝑟) 𝑎𝑐𝑡𝑜𝑐𝑐𝑟𝑇 (𝑟) ≥ 𝑚𝑖𝑛𝑐𝑜𝑛𝑓 Ví dụ 1: Cho T sở liệu giao dịch Bảng với dòng liệu |𝑇|=6, thuộc tính {X, Y, Z}, thuộc tính lớp thuộc tính định Lớp = {Yes, No} 28 NGUYỄN ANH TÚ TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN hai tập con: inner training set (TR i ) inner testing set (TEi ) theo tỷ lệ tương ứng (k-1):1 Ở lần chạy, thuật tốn tính tỷ lệ dự đoán luật RS theo cơng thức: Bảng Dữ liệu giao dịch T ví dụ OID X Y Z Lớp x1 y1 z1 Yes x1 y2 z1 No x2 y2 z1 No x3 y1 z2 No x3 y3 z1 No 𝑝̂ (𝑗|𝑖 ) = 𝑠𝑢𝑝𝑝 (𝑟) 𝑇 |𝑇𝐸𝑖 | (1) Trong đó, i lần chạy vịng lặp k j lần duyệt luật RS Sau đó, RS xếp hạng theo thứ tự ưu tiên Hình để sử dụng cho giai đoạn cắt tỉa luật, xây dựng phân lớp RSi lần chạy thứ i Sau k lần chạy, RSi hợp lại thành phân lớp chung URS, trình hợp nhất, luật xuất nhiều lần phân lớp RSi, thuật tốn tính trung bình cộng tỷ lệ dự đốn cho luật theo cơng thức: 𝑝̂𝑗 = ∑𝑘𝑖=1 𝑝̂ (𝑗|𝑖 ) (2) x1 y2 z2 Yes Xét luật r: (𝑋, 𝑥1 ) → 𝑌𝑒𝑠 với A = (𝑋, 𝑥1 ) c = Yes, ta có: 𝑎𝑐𝑡𝑜𝑐𝑐𝑟𝑇 (𝑟) = 3; 𝑠𝑢𝑝𝑝𝑐𝑜𝑢𝑛𝑡𝑇 (𝑟) = 2; 𝑐𝑜𝑛𝑓𝑇 (𝑟) = 𝑎𝑐𝑡𝑜𝑐𝑐𝑟𝑇 𝑠𝑢𝑝𝑝𝑐𝑜𝑢𝑛𝑡𝑇𝐸𝑖 (𝑟𝑗 ) = (𝑟) 2.2 Thuật toán khai thác luật phân lớp kết hợp dựa tập dự đoán PCAR Phương pháp đề xuất viết phiên cải tiến thuật tốn PCAR, vậy, giai đoạn sinh luật đánh giá luật để xây dựng phân lớp tương đồng với thuật toán ban đầu Trong nghiên cứu mình, Song Lee [10] áp dụng thuật toán Eclat [2] (với minsupp = 0.05 minconf = 0.4) để khai thác luật kết hợp từ chọn CARs tạo thành tập luật (RuleSet - RS) Sau đó, thuật tốn áp dụng kỹ thuật đánh giá chéo (cross-validation) chạy k vòng lặp, lần chia tập liệu huấn luyện thành 𝑘 Sau cùng, URS xếp hạng dùng để dự đoán luật tập liệu kiểm thử Với mẫu t tập liệu kiểm thử chưa biết lớp, thuật tốn tìm luật tập URS phủ t chọn lớp luật để dự đốn cho mẫu t Nếu khơng có luật URS phủ t, lớp mặc định chọn để dự đoán cho mẫu t Hình Thứ tự xếp hạng luật thuật toán PCAR 29 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 77 (06/2021) thường gặp phải vấn đề giới hạn ngưỡng minsupp minconf Thông thường, giai đoạn sinh luật cắt tỉa luật dư thừa, thuật toán chọn luật có giá trị 𝑠𝑢𝑝𝑝 ≥ 𝑚𝑖𝑛𝑠𝑢𝑝𝑝 𝑐𝑜𝑛𝑓 ≥ 𝑚𝑖𝑛𝑐𝑜𝑛𝑓 dẫn đến nhiều luật có ích bị loại bỏ Lấy ví dụ, với minsupp = 0.2 minconf = 0.6 luật với supp = 0.6 conf = 0.5 không sinh giai đoạn sinh luật giữ lại giai đoạn tỉa luật Bằng việc áp dụng cách tính trung bình điều hịa độ tin cậy độ phổ biến, vấn đề giải Tương tự trên, viết áp dụng cách tính trung bình điều hịa tỷ lệ dự đốn độ phổ biến để khắc phục vấn đề mà thuật toán PCAR gặp phải chọn luật URS với tỷ lệ dự đoán từ cao xuống thấp để dự đoán trước xét đến độ phổ biến luật có tỷ lệ dự đốn Xét ví dụ: luật r1: a c1 có pr = 0.8, conf = 0.5 luật r2: a c2 có pr = 0.6, conf = 0.65 URS; mẫu t cần dự đốn có vế trái a (thuộc tính lớp c2) Vì luật r2 có giá trị HM 0.624 lớn giá trị HM luật r1 0.615 nên ta chọn lớp c2 để dự đoán cho mẫu t (nếu áp dụng trung bình cộng pr conf trường hợp chọn lớp luật r1 dẫn đến dự đốn sai) Nếu giá trị AHM nhóm tiếp tục nhau, thuật tốn tính AS trung bình cộng độ hỗ trợ nhóm chọn lớp nhóm có giá trị AS cao để dự đốn, trường hợp cịn lại chọn lớp nhóm ngẫu nhiên để dự đốn Nếu khơng có luật URS phủ mẫu t, lớp mặc định chọn để dự đoán cho t 3.2 Thuật toán Đầu vào: Bộ phân lớp chung (URS), Đề xuất thuật toán DPCAR cải tiến giai đoạn dự đốn luật 3.1 Ý tưởng Như trình bày trên, nhóm tác giả Song Lee [10] dựa vào tỷ lệ dự đốn làm tiêu chí ưu tiên hàng đầu giai đoạn dự đoán luật dẫn đến nhiều trường hợp bị dự đốn sai Do đó, viết đề xuất thuật toán DPCAR để khắc phục nhược điểm Với mẫu t cần dự đoán lớp liệu kiểm thử, thuật toán đếm số lượng luật phủ t tập URS khai thác từ thuật tốn PCAR chia nhóm luật theo lớp, sau lớp nhóm có số lượng luật cao gọi dominant class chọn để dự đoán lớp cho t Phương pháp giúp khắc phục việc luật xếp hạng cao dự đoán sai mẫu thử, đặc biệt luật mà vế trái có thuộc tính thường có tỷ lệ dự đốn, độ tin cậy, độ hỗ trợ… cao nên xếp luật khác bước xếp hạng luật Trong trường hợp có hai nhóm dominant class trở lên, thuật tốn tính giá trị trung bình điều hịa (HM) luật nhóm theo cơng thức (3) chọn lớp nhóm có trung bình cộng HM (AHM) cao để dự đoán 𝐻𝑀 = 2∗𝑝𝑟∗𝑐𝑜𝑛𝑓 𝑝𝑟+𝑐𝑜𝑛𝑓 (3) Trong đó, HM trung bình điều hịa tỷ lệ dự đoán độ tin cậy Về mặt lý thuyết, trung bình điều hịa thường dùng để tính giá trị trung bình biến biểu diễn dạng tỷ lệ giá trị biến có trọng số thay sử dụng giá trị trung bình khác Nhiều thuật toán AC 30 NGUYỄN ANH TÚ TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GỊN Tập liệu kiểm thử (TS) Đầu ra: lớp dự đoán Chi tiết thuật toán: prs = ∅ ; // tập chứa luật phủ mẫu TS for each i in TS for each r in URS if r phủ i prs = prs + r; end if end for if prs ≠ ∅ Chia prs thành nhóm lớp; Đếm số lượng luật nhóm; 10 Tính HM luật theo (3); 11 Tính trung bình cộng HM: 𝐴𝐻𝑀 = 12 𝐻𝑀1 +⋯+𝐻𝑀𝑛 ; 𝑛 13 if prs có nhóm lớp 14 Chọn lớp nhóm dự đốn; 15 else 16 if nhóm có AHM lớn = 17 Chọn lớp nhóm dự đốn; 18 else 19 if nhóm có AS lớn = 20 Chọn lớp nhóm dự đốn; 21 else 22 Chọn lớp ngẫu nhiên nhóm để dự đoán; 23 end if 24 end if 25 end if 26 else /*khơng có r phủ i*/ 27 Chọn lớp mặc định dự đoán; 28 end if 29 end for lớp (B, R, L) chia ngẫu nhiên thành tập liệu huấn luyện (gồm 562 giao dịch) tập liệu kiểm thử (63 giao dịch) (bảng 2) Sau chạy thuật toán PCAR [13] tập liệu huấn luyện (k = 5, minsupp = 0.05, minconf = 0.4) thu URS gồm 20 luật bảng Xét trường hợp liệu kiểm thử TID 1: 4 => R Thuật toán PCAR sử dụng luật UID 11: NA NA NA => L URS (với NA giá trị rỗng cột thuộc tính, luật UID 11 luật tìm tập URS phủ TID 1) để dự đoán dẫn đến dự đoán sai Thuật toán DPCAR xác định luật UID 11 (lớp L), UID 13 (lớp R), UID 15 (lớp R) dự đốn được; nhóm lớp R có số lượng nhóm lớp L có số lượng nên chọn nhóm lớp R để dự đốn, suy dự đoán Xét trường hợp liệu kiểm thử TID 13: => L Thuật toán PCAR sử dụng luật UID 3: NA NA NA => R để dự đoán dẫn đến dự đoán sai Thuật toán DPCAR xác định luật UID (lớp R), UID (lớp L), UID (lớp L), UID (lớp R) dự đốn được; xét số lượng hai nhóm có hai luật nên ta tính HM hai nhóm này: Nhóm R: Luật UID 3: 𝐻𝑀 = (2×0.7741×0.7838) (0.7741+0.7838) = 0.77892 Luật UID 9: 𝐻𝑀 = 3.3 Ví dụ minh họa Chọn tập liệu Balance lấy từ liệu chuẩn UCI, gồm 625 giao dịch, thuộc tính (Left Weight, Left Distance, Right Weight, Right Distance) phân vào (2×0.4985×0.6207) (0.4985+0.6207) = 0.55293 Nhóm L: Luật UID 4: 𝐻𝑀 = 31 (2×0.7424×0.7477) (0.7424+0.7477) = 0.745 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 77 (06/2021) Luật UID 6: 𝐻𝑀 = (2×0.7014×0.7043) (0.7014+0.7043) 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 = 0.7028 Vì AHM (L) = 0.7239 > AHM(R) = 0.6659 nên chọn lớp L để dự đoán, suy dự đoán Tương tự hai trường hợp trên, thuật toán PCAR dự đoán 49/63 (77.78%) mẫu thuật tốn DPCAR dự đốn tổng cộng 60/63 (95.23%) mẫu bao gồm 37 mẫu dùng Dominant Class, 14 mẫu dùng Average Harmonic Mean mẫu dùng luật tìm được, tăng 17.45% so với thuật toán PCAR Bảng Dữ liệu kiểm thử từ Balance TID 10 11 12 13 14 15 16 17 18 19 20 21 22 23 LW 5 1 2 4 3 LD 4 2 2 2 4 RW 2 1 RD 3 3 4 1 4 1 Lớp R L R L R L R R L R R R L R L L L L R L L L L 32 1 5 4 5 4 2 4 1 5 5 4 4 4 1 5 3 2 1 3 5 5 5 5 5 5 1 2 4 4 5 2 4 L R L L R L R L L L R R L R R R L L R L L L L L L L R L R L R R R R R R L L L R NGUYỄN ANH TÚ TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN Bảng Tập URS khai thác PCAR, k = 5, minsupp = 0.05, minconf = 0.4 UID LW LD RW RD Lớp PR Conf Supp 0.8 Số phần Tần suất xuất tử vế trái lớp NA NA NA L 0.8033 0.1566 50 NA NA NA R 0.7825 0.7807 0.1584 50 NA NA NA R 0.7741 0.7838 0.1548 50 NA NA NA L 0.7424 0.7477 0.1423 50 NA NA NA R 0.7163 0.7248 0.1406 50 NA NA NA L 0.7014 0.7043 0.1441 50 NA NA NA R 0.6856 0.6917 0.1477 50 NA NA NA L 0.5432 0.693 0.1406 50 NA NA NA R 0.4985 0.6207 0.1281 50 10 NA NA NA L 0.413 0.5752 0.1157 46 11 NA NA NA L 0.4092 0.5981 0.1139 50 12 NA NA NA L 0.3884 0.5929 0.1192 50 13 NA NA NA R 0.3802 0.1174 56 14 NA NA NA R 0.3721 0.5818 0.1139 50 15 NA NA NA R 0.2526 0.5586 0.1103 55 16 NA NA NA L 0.2414 0.5625 0.1121 48 17 NA NA NA L 0.1625 0.1032 50 18 NA NA NA L 0.13 0.4867 0.0979 48 19 NA NA NA L 0.1154 0.4107 0.0819 50 20 NA NA NA R 0.1077 0.5089 0.1014 47 Cài đặt thực nghiệm kết 4.1 Môi trường liệu thực nghiệm Nghiên cứu cài đặt thực nghiệm 14 tập liệu chuẩn UCI [11] bảng Các thí nghiệm tiến hành máy tính cá nhân hệ điều hành Windows 10 (64-bit), cấu hình @Intel CPU core i7 2.60 GHz RAM 8GB Bên cạnh việc so sánh với thuật toán PCAR [10] để chứng minh cải thiện độ xác, nghiên cứu 0.6 0.5 chạy thử nghiệm tập liệu thuật toán C4.5 [5], RIPPER [12], CBA [4], MCAR [9] để so sánh Các thuật toán C4.5, RIPPER, CBA chạy phần mềm WEKA [13]; MCAR, PCAR, PCAR2 (là phiên PCAR giai đoạn tính tỷ lệ dự đốn xếp hạng, nhóm tác giả sử dụng inner testing set thay sử dụng thêm inner training set PCAR) chạy 33 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 77 (06/2021) ngơn ngữ R nhóm tác giả Song Lee [10] cung cấp thuật toán đề xuất DPCAR chạy Java Bài viết bảo đảm thiết lập cài đặt giống hướng tiếp cận trước, giai đoạn tiền xử lý liệu, thuộc tính khơng có ý nghĩa mơ hình (ví dụ: ID, tên v.v.) bị lọc bỏ, thuộc tính có giá trị liên tục rời rạc hóa; giai đoạn sinh luật chọn minsupp = 0.05, minconf = 0.4 k = giai đoạn tính tỷ lệ dự đốn đánh giá luật Bảng 14 tập liệu mẫu UCI thực nghiệm Tập liệu Số giao dịch Số thuộc tính Số lớp Phân bố lớp (%) Balance 625 (7.84, 46.08, 46.08) Balloon 20 (60, 40) Breast Cancer Coimbra 116 10 (44.83, 55.17) Breast Tissue 106 (19.81, 14.15, 16.98, 15.09, 13.21, 20.76) Crx 690 (44.49, 55.51) Cryotherapy 90 (46.47, 53.33) Glass 214 10 (32.71, 35.52, 7.94, 6.07, 4.21, 13.55) Iris 150 (33.33, 33.33, 33.33) Led7 3200 10 (10.15, 10.41, 9.96, 8.44, 10.5, 10.47, 10.66, 9.5, 10.22, 9.69) Lenses 24 (16.67, 20.83, 62.5) Pima 768 (65.1, 34.9) Seeds 210 (33.33, 33.33, 33.33) Thyroid-new 215 (69.77, 16.28, 13.95) Wine 178 13 (33.14, 39.89, 26.97) độ xác so với thuật toán so sánh Tỷ lệ thắng - thua - hòa (won – loss - tied) DPCAR so với C4.5, RIPPER, CBA, MCAR PCAR 9-4-1, 10-3-1, 8-4-2, 8-4-2, 8-3-3; DPCAR2 so với C4.5, RIPPER, CBA, MCAR PCAR2 9-4-1, 12-1-1, 8-4-2, 8-3-3, 9-2-3 Xét 14 tập liệu, độ xác trung bình thuật tốn 4.2 Kết Kết thực nghiệm bảng thể độ xác chạy thuật tốn sử dụng kỹ thuật kiểm tra chéo (k-fold Cross Validation) với k = 10 14 tập liệu mẫu, giá trị in đậm thể độ xác cao thuật tốn tương ứng cho tập liệu Nhìn chung, thuật toán đề xuất viết vượt trội 34 NGUYỄN ANH TÚ TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN DPCAR DPCAR2 cải thiện khoảng 1.31% 1.93% tương ứng so với thuật toán PCAR PCAR2, đặc biệt tập liệu có chênh lệch phân bố lớp Balance, Glass, Lenses, Pima, Thydroid-new, Wine Bảng Độ xác (%) C4.5, RIPPER, CBA, MCAR, PCAR, PCAR2, DPCAR, DPCAR2 áp dụng kỹ thuật 10-fold cross validation Tập liệu C4.5 RIPPER CBA MCAR PCAR DPCAR PCAR2 DPCAR2 Balance 76.64 80.32 71.52 76.31 77.28 87.52 77.91 87.66 Balloon 100 100 100 100 100 100 100 100 69.81 63.21 69.81 64.27 68.91 73.55 72.64 69.91 Breast Cancer Coimbra 68.10 70.69 72.41 71.67 72.50 73.41 65.46 73.03 Crx 86.09 85.36 85.80 85.07 85.22 83.19 84.93 85.65 Cryotherapy 85.56 83.33 91.11 91.11 91.11 91.11 90.00 91.11 Glass 66.82 66.82 68.22 68.18 64.31 68.03 65.45 67.27 Iris 96.00 94.67 94.00 92.67 94.00 93.33 92.67 92.67 Led7 73.18 69.35 71.78 71.78 73.50 72.97 72.91 72.41 Lenses 83.33 75.00 66.67 68.33 70.00 70.00 71.67 76.67 Pima 73.83 75.13 77.47 77.74 75.39 75.40 73.94 76.69 Seed 90.48 91.43 92.38 90.95 92.38 92.86 93.33 93.33 Thyroid-new 92.09 92.56 93.02 95.37 94.00 94.94 92.99 93.94 Wine 93.82 94.94 96.07 97.75 97.22 97.78 97.78 98.33 Trung bình 82.55 81.63 82.16 82.23 82.56 83.86 82.26 84.19 Breast Tissue Bên cạnh độ xác, số thơng số tác động đến hiệu suất mơ hình dự đốn độ nhạy (sensitivity), độ đặc hiệu (specificity), khả xác định (precision), F1 (trung bình điều hịa precision sensitivity) diện tích AUC (area under the curve) đường biểu diễn ROC (Receiver operating characteristic) tập liệu y khoa Breast Cancer Coimbra, Cryotherapy Pima nghiên cứu Các số thường ứng dụng rộng rãi máy học (machine learning), phân lớp nhị phân (Binary classification), tính theo cơng thức (4), công thức (5), công thức (6) công thức (7) dựa ma trận chéo phân phối tần số chiều bảng 𝑇𝑃 𝑆𝑒𝑛𝑠𝑖𝑡𝑖𝑣𝑖𝑡𝑦 = 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃+𝐹𝑁 (4) 𝑇𝑁 𝑆𝑝𝑒𝑐𝑖𝑓𝑖𝑐𝑖𝑡𝑦 = 𝑇𝑁+𝐹𝑃 (5) 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃+𝐹𝑃 (6) 𝐹1 = (7) 𝑇𝑃 35 2∗𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛∗𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛+𝑅𝑒𝑐𝑎𝑙𝑙 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 77 (06/2021) Bảng 7, bảng 8, bảng thể cải thiện hiệu suất hình 2, hình 3, hình 4, hình 5, hình 6, hình đường biểu diễn ROC so sánh thuật toán DPCAR với PCAR, DPCAR2 với PCAR2 tập liệu tương ứng Breast Cancer Coimbra, Cryotherapy Pima Bảng Confusion Matrix Lớp Dự đoán Thực tế Lớp thực tế (Possitive) Lớp khác (Negative) TP FN FP TN Bảng So sánh hiệu suất (%) PCAR, DPCAR, PCAR2, DPCAR2 tập liệu Breast Cancer Coimbra PCAR DPCAR PCAR2 DPCAR2 Sensitivity 58.21 71.5 50.1 72.24 Specificity 83.12 72.67 81.69 71.67 Precision 72.67 84.12 66.26 82.15 F1 63.43 75.33 51.11 76.17 AUC 70.67 72.09 65.9 71.96 Bảng So sánh hiệu suất (%) PCAR, DPCAR, PCAR2, DPCAR2 tập liệu Cryotherapy PCAR DPCAR PCAR2 DPCAR2 Sensitivity 93 92.62 93.24 89.67 Specificity 88.17 95.14 89.07 92.74 Precision 92.62 93 87.67 93.24 F1 91.15 91.15 88.79 89.9 AUC 90.59 93.88 91.16 91.21 Bảng So sánh hiệu suất (%) PCAR, DPCAR, PCAR2, DPCAR2 tập liệu Pima PCAR DPCAR PCAR2 DPCAR2 Sensitivity 49.04 63.72 41.56 66.61 Specificity 89.95 81.96 91.23 81.59 Precision 72.52 66.91 73 65.31 F1 57.47 64.82 51 65.54 AUC 69.5 72.79 66.4 74.1 36 NGUYỄN ANH TÚ TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GỊN Hình Đường biểu diễn ROC PCAR DPCAR tập liệu Breast Cancer Coimbra Hình Đường biểu diễn ROC PCAR2 DPCAR2 tập liệu Cryotherapy Hình Đường biểu diễn ROC PCAR2 DPCAR2 tập liệu Breast Cancer Coimbra Hình Đường biểu diễn ROC PCAR DPCAR tập liệu Pima Hình Đường biểu diễn ROC PCAR DPCAR tập liệu Cryotherapy Hình Đường biểu diễn ROC PCAR2 DPCAR2 tập liệu Pima 37 SCIENTIFIC JOURNAL OF SAIGON UNIVERSITY No 77 (06/2021) cân lớp Do phương pháp đề xuất mang lại hiệu cao độ xác so với phương pháp giải toán định trước nên áp dụng tốt cho toán khác phân lớp, nhận diện mẫu liệu chuỗi liệu chuỗi thời gian v.v Trong tương lai, nghiên cứu tiếp tục mở rộng cải tiến xây dựng phân lớp có tính đa lớp cho dự đốn tập liệu đa lớp – tập liệu chứa luật mà luật thuộc nhiều lớp Ngoài ra, việc áp dụng kỹ thuật song song làm tăng tốc độ khai thác tập liệu có số lượng thuộc tính cao quan tâm Kết luận Nghiên cứu giới thiệu thuật toán đưa độ đo tỷ lệ dự đoán đề xuất phương pháp cải tiến giai đoạn dự đoán luật thuật toán để tăng hiệu dự đoán phân lớp khai thác Bằng phương pháp kết hợp việc chọn lớp có số lượng cao nhất, trung bình cộng trung bình điều hịa tỷ lệ dự đốn độ tin cậy, trung bình cộng độ hỗ trợ luật phân lớp phủ mẫu tập liệu kiểm thử hạn chế việc lạm dụng chọn luật có tỷ lệ dự đốn cao hay luật mặc định dự đoán sai, giúp cải thiện độ xác, đặc biệt tập liệu thực bị TÀI LIỆU THAM KHẢO [1] Agrawal, R., & Srikant, R., "Fast algorithms for mining association rules in large databases", Proceedings of the 20th International Conference on Very Large Databases, 1994 [2] Zaki, M., "Scalable algorithms for association mining", IEEE Transactions on Knowledge and Data Engineering, vol 12(3), pp 372-390, 2000 [3] Han, J., Pei, J., Yin, Y., & Mao, R., "Mining frequent patterns without candidate generation: A frequent-pattern tree approach", Data mining and knowledge discovery, 2004 [4] Liu, B., Hsu, W., Ma, Y., "Integrating classification and association rule mining", Proceedings of the 4th International Conference on Knowledge Discovery and Data Mining, pp (80-86), 1998 [5] Quinlan, J R., "C4.5: Programs for Machine Learning", San Mateo: Morgan Kaufmann, 1993 [6] Tolun, M.R., Abu-Soud, S.M., "ILA: An Inductive Learning Algorithm for Rule Extraction", Expert Systems with Applications, vol 14(3), pp 361-370, 1998 [7] Li, W., Han, J., & Pei, J., "CMAR: Accurate and efficient classification based on multiple-class association rule", Proceedings of the 1st IEEE International Conference on Data Mining, pp 369-376, 2001 [8] Thabtah, F., Cowling, P., & Peng, Y., "MMAC: A new multi-class, multi-label associative classification approach", Proceedings of the 4th IEEE International Conference on Data Mining , 2004 38 NGUYỄN ANH TÚ [9] TẠP CHÍ KHOA HỌC ĐẠI HỌC SÀI GÒN Thabtah, F., Cowling, P., & Peng, Y., "MCAR: multi-class classification based on association rule", Proceedings of the 3rd ACS/IEEE International Conference on Computer Systems and Applications, 2005 [10] Song, K., Lee, K., "Predictability-based collective class association rule mining", Expert Syst Appl., vol 79, pp 1-7, 2017 [11] Dua, D., & Graff, C., "UCI Machine Learning Repository", 2019 [12] Cohen, W W., "Fast effective rule induction", Proceedings of the twelfth international conference on machine learning, pp 115-123, 1995 [13] Hall, M., Franks, E., Holmes, G., Pfaringer, B., Reutemann, P., & Witten, I H., "The WEKA datamining software: an update", ACM SIGKDD explorations newsletter, 2009 [14] Al-Tapan, A.A., Al-Maqaleh, B.M., "An effective mining of exception class association rules from medical datasets", Int J Comput Sci Eng., vol 7, pp 191198, 2017 [15] Alwidian, J., Hammo, H.B., & Obeid, N., "WCBA: Weighted classification based on association rules algorithm for breast cancer disease", Appl Soft Comput., vol 62, pp 536-549, 2018 [16] Nguyen, L.T.T., Nguyen, N.T., "An improved algorithm for mining class association rules using the difference of Obidsets", Expert Syst, Appl, vol 42(9), pp 4361-4369, 2015 [17] Nguyen L.T.T., Vo B., Mai T., Nguyen TL., "A Weighted Approach for Class Association Rules", Sieminski A., Kozierkiewicz A., Nunez M., Ha Q (eds) Modern Approaches for Intelligent Information and Database Systems Studies in Computational Intelligence, Springer, Cham, vol 769, pp 213-222, 2018 [18] Thabtah, Hadi, W., Abdelhamid, N., & Issa, A., "Prediction phase in associative classification mining", International Journal of Software Engineering and Knowledge Engineering, vol 21, pp 855-876, 2011 Ngày nhận bài: 13/2/2020 Biên tập xong: 15/6/2021 39 Duyệt đăng: 20/6/2021 ... chọn để dự đoán Nội dung nghiên cứu 2.1 Sơ khai thác luật phân lớp kết hợp (Class association rule mining) Khai thác luật phân lớp kết hợp tốn tìm tập luật kết hợp có sở liệu mà luật kết hợp tập. .. ĐẠI HỌC SÀI GÒN kết hợp việc khai thác luật kết hợp để xây dựng phân lớp hay mơ hình phân lớp (classifier) dự đoán mẫu chưa biết trước lớp toán phân lớp liệu Đầu tiên, luật kết hợp tạo việc sử... suất xuất lớp (frequency)… luật để xếp hạng, cắt tỉa luật dư thừa xây dựng phân lớp phục vụ cho trình dự đoán Khai thác luật phân lớp kết hợp đề xuất Liu cộng vào năm 1998 [4] việc kết hợp hai