Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu mất cân bằng về lớp

7 56 0
Khai thác luật phân lớp kết hợp trên cơ sở dữ liệu mất cân bằng về lớp

Đang tải... (xem toàn văn)

Thông tin tài liệu

Bài viết đề xuất một phương pháp biến đổi CSDL sao cho sự phân bố các lớp được cân bằng, sau đó khai thác luật phân lớp kết hợp dựa trên tập dữ liệu đã biến đổi. Để biến đổi dữ liệu, chúng tôi chia tập dữ liệu thành m tập con, mỗi tập con tương ứng với một giá trị của thuộc tính lớp.

Kỷ yếu Hội nghị Khoa học Quốc gia lần thứ IX “Nghiên cứu ứng dụng Công nghệ thông tin (FAIR'9)”; Cần Thơ, ngày 4-5/8/2016 DOI: 10.15625/vap.2016.00030 KHAI THÁC LUẬT PHÂN LỚP KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU MẤT CÂN BẰNG VỀ LỚP Nguyễn Thị Thúy Loan1, Trần Thị Minh Thúy2, Giang Hào Côn1 Khoa Công nghệ thông tin, Đại học Nguyễn Tất Thành, Tp.HCM Khoa Công nghệ thông tin, Trung cấp Kinh tế kỹ thuật Quận 12, Tp.HCM nttloan@ntt.edu.vn; ttmthuy@dttec.edu.vn; ghcon@ntt.edu.vn TÓM TẮT: Phân lớp dựa vào luật phân lớp kết hợp chứng minh tốt phương pháp phân lớp dựa vào luật có định, ILA, v.v Tuy nhiên, dựa vào khai thác luật kết hợp nên luật phổ biến (có độ hỗ trợ cao) khai thác Trong sở liệu (CSDL) cân lớp, lớp thiểu số đóng vai trị quan trọng chúng không khai thác dựa vào luật phân lớp kết hợp Trong báo này, đề xuất phương pháp biến đổi CSDL cho phân bố lớp cân bằng, sau khai thác luật phân lớp kết hợp dựa tập liệu biến đổi Để biến đổi liệu, chia tập liệu thành m tập con, tập tương ứng với giá trị thuộc tính lớp Với tập liệu, chúng tơi sử dụng K-means để gom chúng thành k nhóm (k số dịng liệu tập liệu có dịng nhất) Với nhóm, chúng tơi chọn dịng đại diện dịng có khoảng cách gần với trọng tâm Sau gom nhóm, chúng tơi tập hợp liệu lại sử dụng CAR-Miner để khai thác luật phân lớp Kết thực nghiệm cho thấy phương pháp chúng tơi thường có độ xác cao so với phương pháp khai thác luật phân lớp từ toàn sở liệu Từ khố: Khai thác luật phân lớp kết hợp, gom nhóm, sở liệu cân lớp, độ xác I GIỚI THIỆU Khai thác luật phân lớp kết hợp đề xuất Liu đồng vào năm 1998 [2] Thuật toán CBA đề xuất cơng trình Phương pháp thường cho độ xác cao so với phương pháp phân lớp dựa luật khác định [8], ILA [15], v.v Từ đến nay, có nhiều thuật tốn phát triển nhằm làm tăng độ xác, giảm thời gian khai thác CMAR [3], MMAC [10], MCAR [11], ECR-CARM [12], CAR-Miner [6], CAR-Miner-Diff [7] Trong số thuật toán kể trên, CMAR MMAC đề xuất phương pháp dự đoán lớp mẫu dựa vào đa luật nên thường có độ xác cao so với CBA ECR-CARM, CAR-Miner CAR-Miner-Diff tập trung giải vấn đề thời gian khai thác cho tập luật khai thác bảo đảm CBA/CMAR thời gian khai thác nhanh Một điểm yếu phân lớp dựa vào luật phân lớp kết hợp chọn ngưỡng độ hỗ trợ tối thiểu Một ngưỡng cao dẫn đến lớp chứa mẫu khơng phổ biến vậy, không luật chứa lớp ảnh hưởng đến giai đoạn dự đốn lớp Trong chọn ngưỡng độ hỗ trợ tối thiểu thấp để khai thác luật chứa lớp thiểu số số lượng luật lớp đa số áp đảo nên ảnh hưởng đến giai đoạn dự đoán lớp Để cải thiện khuyết điểm này, đề xuất phương pháp cân lại liệu sở liệu cân lớp, nhằm cân tỉ lệ luật sinh lớp góp phần tăng độ xác cho giai đoạn dự đốn lớp Đầu tiên, chúng tơi chia tập liệu có n mẫu chứa m lớp thành m tập liệu con, tập liệu thứ i chứa mẫu liệu có giá trị lớp thứ i Sau đó, với tập liệu có số dịng lớn k (k số dòng liệu tập liệu có dịng nhất), chúng tơi sử dụng K-means (thường ứng dụng cộng đồng khai thác liệu [14]) để gom tập liệu thành k nhóm chọn nhóm mẫu đại diện Như vậy, số dòng tập liệu cịn k dịng Cuối cùng, chúng tơi tập trung m tập liệu lại (mỗi tập có k dịng nên CSDL tổng hợp cân bằng) sử dụng thuật tốn CAR-Miner để khai thác luật Phần cịn lại báo tổ chức sau: Phần trình bày định nghĩa khái niệm liên quan đến toán khai thác luật phân lớp kết hợp gom nhóm liệu Phần trình bày số nghiên cứu liên quan đến toán khai thác luật phân lớp kết hợp gom nhóm liệu Phần trình bày phương pháp đề xuất bao gồm bước thực hiện, thuật toán áp dụng bước nhận xét đánh giá phương pháp đề xuất Phần trình bày kết so sánh độ xác phương pháp đề xuất phương pháp khai thác dựa toàn tập liệu Kết luận hướng phát triển trình bày phần II MỘT SỐ ĐỊNH NGHĨA VÀ KHÁI NIỆM Khai thác luật phân lớp dựa vào khai thác luật kết hợp (Class Associaton Rules – CARs) tìm tập luật kết hợp có sở liệu Mỗi luật tập chứa vế phải giá trị thuộc tính lớp Bài tốn phát biểu sau: Cho sở liệu D, I tập tất item D Y tập nhãn lớp Luật phân lớp kết hợp biểu thức có dạng X  y X  I y  Y Độ tin cậy luật c c% mẫu D chứa X gán nhãn lớp y Độ phổ biến luật s có s% mẫu D chứa X gán nhãn lớp y Nguyễn Thị Thúy Loan, Trần Thị Minh Thúy, Giang Hào Côn 241 Mục tiêu khai thác luật phân lớp dựa vào khai thác luật kết hợp là: (1) Khai thác tập CARs thỏa ngưỡng độ hỗ trợ tối thiểu (MinSup) ngưỡng độ tin cậy tối thiểu (MinConf) (2) Xây dựng phân lớp từ CARs Một cách hình thức, tốn khai thác CARs phát biểu sau: Cho D CSDL huấn luyện với n thuộc tính A1, A2, …, An, thuộc tính có tập giá trị tương ứng C thuộc tính lớp chứa k giá trị khác c1, c2, …, ck đại diện lớp D Chẳng hạn, cho D CSDL huấn luyện cho bảng 1, với dòng liệu ( B, C}, lớp thuộc tính định, chẳng hạn Class = {y, n}, hai lớp = 8), A = {A, Bảng Một ví dụ sở liệu huấn luyện mẫu OID A B C Class a1 b1 c1 y a1 b2 c1 n a2 b2 c1 n a3 b3 c1 n a3 b1 c2 n a3 b3 c1 y a1 b3 c2 y a2 b2 c2 n Định nghĩa 1: Itemset tập thuộc tính với giá trị xác định tập đó, kí hiệu Định nghĩa 2: Luật phân lớp r phép kéo theo có dạng → cj Trong Itemset c ∈ C nhãn lớp Định nghĩa 3: Độ phổ biến r, ký hiệu Sup(r), số dòng r chứa vế trái lẫn vế phải Định nghĩa 4: Độ tin cậy r, ký hiệu Conf(r), Conf(r) = Sup{(Ai1, ai1 ),…,(Aim, aim), c}/ Sup{(Ai1, ai1), …, (Aim, aim )} Ví dụ: Xét luật r: (A, a1)  y với X = (A, a1) ci = y từ bảng 1, có Supp(X) = 3, Supp(r) = 2, Conf(r) = Supp(r )  Supp( X ) III CÁC NGHIÊN CỨU LIÊN QUAN A Khai thác luật phân lớp kết hợp Năm 1998, Liu đồng đề xuất phương pháp CBA [2] (Classification based on associations) để khai thác luật phân lớp kết hợp CBA bao gồm hai giai đoạn chính:  Giai đoạn sinh luật – thuật toán CBA-RG  Giai đoạn xây dựng phân lớp Năm 2001, Li đồng đề xuất thuật toán CMAR (classification based on multiple association rules) [3] Phương pháp dựa vào FP-tree để nén liệu dùng phép chiếu để tìm luật phân lớp Vào năm 2004, Thabtah đồng đề xuất thuật toán MMAC (multi-class, multi-label associative classification) [9] Năm 2008, Vo Le đề xuất thuật toán ECR-CARM (Equivalence class rule – class association rule mining) [12] Đầu tiên, tác giả đề xuất cấu trúc ECR, dựa này, tác giả đề xuất thuật toán ECR-CARM để khai thác CARs với lần quét CSDL dựa vào phần giao tập định danh đối tượng để tính nhanh độ hỗ trợ itemset luật Mặc dù ECR-CARM có số ưu điểm quét CSDL lần khai thác luật nhanh số hạn chế sau: Do nhóm tất giá trị tập thuộc tính thành nút nên ECR-CARM tốn thời gian kiểm tra tiền tố để kết hợp phần tử từ nút Chính vậy, năm 2013, Nguyen đồng đề xuất thuật toán CAR-Miner để khai thác nhanh CARs [6] CAR-Miner cải tiến ECR-CARM cách nút chứa giá trị (thay tập giá trị ECR-CARM) vậy, khơng cần kiểm tra tiền tố Dựa cấu trúc (MECR-tree), CAR-Miner phát triển hai định lý nhằm tỉa sớm ứng viên không phổ biến xác định nhanh thông tin nút dựa thơng tin nút cha Ngồi ra, Nguyen đồng sử dụng kỹ thuật diffset để khai thác nhanh CARs [7] Ngoài ra, việc khai thác CARs với ràng buộc [5] khai thác CARs sử dụng liệu chứng khoáng [1] đề xuất B Thuật toán K-means Thuật toán K-means MacQueen đề xuất vào năm 1967 [4] Thuật toán dựa độ đo khoảng cách đối tượng liệu nhóm Trong thực tế, đo khoảng cách đến giá trị trung bình liệu nhóm, KHAI THÁC LUẬT PHÂN LỚP KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU MẤT CÂN BẰNG VỀ LỚP 242 trọng tâm nhóm Do đó, cần khởi tạo tập trọng tâm nhóm ban đầu, thơng qua lặp lại bước: gán nhãn đối tượng tới trọng tâm gần tính lại trọng tâm nhóm sở gán cho đối tượng Quá trình dừng lại trọng tâm nhóm hội tụ K-means thuật tốn gom nhóm liệu ứng dụng rộng rãi cộng đồng khai thác liệu [13] Đây thuật toán xếp thứ hai top 10 thuật toán khai thác liệu (được đề cử nhà khoa học uy tín khai thác liệu hội nghị IEEE ICDM 2006) [14] IV PHƢƠNG PHÁP ĐỀ XUẤT Cách tiếp cận báo chia làm giai đoạn A Giai đoạn tạo luật phân lớp dựa gom nhóm Trong giai đoạn này, tập liệu huấn luyện chia thành m tập tương ứng với m lớp có CSDL huấn luyện Với tập có số mẫu lớn k (với k số mẫu tập chứa mẫu nhất), sử dụng thuật toán Kmeans để gom mẫu thành k nhóm, nhóm giữ lại mẫu đại diện (là phần tử gần trọng tâm nhóm chẳng hạn) Như vậy, cuối tập giữ lại k mẫu Cách tiếp cận giúp CSDL tổng hợp có số mẫu thuộc lớp cân vậy, phát huy tốt ưu điểm phương pháp khai thác luật phân lớp kết hợp Các bước thực giai đoạn trình bày Hình a) Các bước thực Bước 1: Chia CSDL thành m bảng tương ứng với m giá trị thuộc tính lớp Gọi k số dịng liệu bảng có số dịng Bước 2: Với bảng có số dòng liệu lớn k, tiến hành gom nhóm dịng liệu bảng thành k nhóm Mỗi nhóm chọn mẫu đại diện Bước 3: Thực khai thác luật phân lớp kết hợp tập liệu tổng hợp từ m nhóm Hình Các bước thực phương pháp tạo luật phân lớp dựa vào gom nhóm Ở bước 2, chọn K-means, K-medoids phương pháp phân cấp để thực Do K-means thuật toán lặp đơn giản gom nhóm hiệu nên phạm vi báo, sử dụng K-means cho bước Để chọn mẫu đại diện cho nhóm, cách đơn giản chọn phần tử gần trọng tâm nhóm Ở bước 3, sử dụng thuật tốn phân lớp kết hợp để khai thác luật Kết thực nghiệm từ [6] cho thấy CAR-Miner thường hiệu so với thuật tốn sinh luật trước nên sử dụng CAR-Miner cho bước Ở bước này, sử dụng phương pháp tỉa luật thừa sử dụng [2] hay [13] nhằm giảm thiểu số lượng luật cần xét giai đoạn b) Ví dụ minh họa Bảng Dữ liệu cân lớp (5 mẫu thuộc lớp mẫu thuộc lớp 1) OID A 5 6 B C 4 5 D 4 3 CLASS 0 0 1 Bước 1: Đầu tiên chia sở liệu thành bảng tương ứng với lớp Do số dòng liệu chứa lớp (2 dịng) nên k = Bước 2: Dùng K-means gom dịng có lớp thành cụm Mỗi cụm rút dịng đại diện, ta có kết bảng (bên sau đánh lại OID) Bước 3: Thực khai thác luật phân lớp kết hợp thuật toán CAR-Miner với liệu bảng Bảng Bảng CSDL phân lớp OID’ A 6 B C 5 D CLASS 1 0 Cây MECR xây dựng từ CSDL bảng sau: Đầu tiên, nút gốc Lr chứa nút 1-itemset phổ biến sau: Nguyễn Thị Thúy Loan, Trần Thị Minh Thúy, Giang Hào Côn  1   1   1   1 ,  ,  ,   1(0,1)   2(0,1)   34(2,0)  1(0,1) 243                             ,  ,  ,  ,  ,  ,  ,  ,  ,     2(0,1)   3(1,0)   4(1,0)  1(0,1)   2(0,1)   34(2,0)  1(0,1)   24(1,1)   3(1,0)  Áp dụng thuật toán CAR-Miner với MinSup = 10% MinConf = 60% để tính tốn cho itemset Thủ tục CAR-Miner gọi với tham số Lr Áp dụng thủ tục CAR-Miner gọi với tham số Lr Nút li =    1(0,1)     Xét nút lj =  1  : hai nút li lj có thuộc tính khác giá trị nên không kết với Tương tự    2(0,1)  nút  1  không kết với  34(2,0)     Xét nút lj =    : Vì hai nút khác thuộc tính nhau, nên ba yếu tố tính lại sau O.att = li.att  1(0,1)    lj.att = | = 11 theo biểu diễn bit; O.values = li.values  lj.values =  = 21 O.Obidset = li.Obidset  lj.Obidset = {1}  {1} = {1} Bởi |li.Obidset| = |O.Obidset|, thuật tốn chép thơng tin từ li xuống O nút O nút li Điều có nghĩa O.count = li.count = (0,1) O.pos = Vì O.count[O.pos] = > MinSup, O thêm vào Pi  Pi =   21    1(0,1)   Xét nút lj =    : Vì hai nút khác thuộc tính nhau, nên ba yếu tố tính lại sau O.att = li.att   2(0,1)    lj.att = | = 11 theo biểu diễn bit; O.values = li.values  lj.values =  = 22, O.Obidset = li.Obidset  lj.Obidset = {1}  {2} = {} Vì O.count[O.pos] = < MinSup, O không thêm vào Pi  Tương tự    ,    Obidset giao ={} khơng thêm vào Pi  3(1,0)   4(1,0)         : Vì hai nút khác thuộc tính nhau, nên ba yếu tố tính lại sau O.att = l att   i 1(0,1)   Xét nút lj =   lj.att = | = 101 theo biểu diễn bit; O.values = li.values  lj.values =  = 22, O.Obidset = li.Obidset  lj.Obidset = {1}  {1} = {1} Bởi |li.Obidset| = |O.Obidset|, thuật tốn chép thơng tin từ li xuống O(theo định lý 2.2) Điều có nghĩa O.count = li.count = (0,1) O.pos =2 Vì O.count[O.pos] = ≥ MinSup, O thêm vào   21    22  P i  Pi =  ,    1(0,1)   1(0,1)   Xét       Obidset giao ={} khơng thêm vào Pi      2(0,1)   34(2,0)     : Vì hai nút khác thuộc tính nhau, nên ba yếu tố tính lại sau O.att = l att   i 1(0,1)   Xét nút lj =   lj.att = | = 1001 theo biểu diễn bit; O.values = li.values  lj.values =  = 22, O.Obidset = li.Obidset  lj.Obidset = {1}  {1} = {1 Bởi |li.Obidset| = |O.Obidset|, thuật tốn chép thơng tin từ li xuống O Điều có nghĩa O.count = li.count = (0,1) O.pos = Vì O.count[O.pos] = ≥ MinSup, O thêm vào Pi   21    22    22   Pi =  ,  ,    1(0,1)   1(0,1)  1(0,1)  8    24(1,1)   Xét      Obidset giao ={} khơng thêm vào P i    3(1,0)   Sau Pi tạo ra, thuật toán CAR-Miner gọi đệ quy với tham số Pi, MinSup, MinConf để tạo nút Pi Xét việc xử lý để tạo nút nút li =   21  : 1(0,1)    KHAI THÁC LUẬT PHÂN LỚP KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU MẤT CÂN BẰNG VỀ LỚP 244 o Xét nút lj =   22  : Vì hai nút khác thuộc tính nhau, nên ba yếu tố tính lại sau O.att = li.att  1(0,1)    lj.att = | = 11 theo biểu diễn bit; O.values = li.values  lj.values = 21  22 = 212, O.Obidset = li.Obidset  lj.Obidset = {1}  {1} = {1} = lj.Obidset Thuật tốn chép thơng tin từ lj xuống O, điều có nghĩa O.count = lj.count = (0,1) O.pos = Vì O.count[O.pos] = > MinSup, O thêm vào Pi’  Pi’ =   212     1(0,1)  o Tương tự cho nút lj =   22  , ta có kết Pi’ =  1(0,1)      212   11 212  ,     1(0,1)   1(0,1)  o Sau Pi tạo ra, thuật toán CAR-Miner gọi đệ quy với tham số Pi, MinSup, MinConf để tạo nút Pi Xét việc xử lý để tạo nút nút  15 li=   212  Ta tính Pi’’ =   2122       1(0,1)   1(0,1)  o Tương tự để xét tiếp việc xử lý để tạo nút nút li =   22    22   1(0,1)   1(0,1)      Tương tự thuật toán dừng (khơng cịn nút sinh ra) B Giai đoạn kiểm tra Dựa vào luật khai thác giai đoạn 1, tiến hành thử nghiệm liệu kiểm tra Các bước cụ thể trình bày Hình Định nghĩa 5: Cho hai luật ri rj, (kí hiệu ri  rj) ri có thứ bậc lớn rj nếu: Độ tin cậy ri lớn rj, Độ tin cậy chúng độ phổ biến ri lớn rj, hoặc: Cả độ tin cậy độ phổ biến ri tạo trước rj Bước 1: Sắp xếp luật theo chiều giảm dần thứ bậc (Theo định nghĩa 5) Bước 2: Với dòng liệu tập kiểm tra, xét với tập luật xếp từ xuống, tìm luật chứa vế trái thỏa mãn điều kiện dòng liệu vế phải luật kết dự đốn lớp mẫu Hình Các bước để dự đoán lớp mẫu thuộc liệu kiểm tra V KẾT QUẢ THỰC NGHIỆM A Cơ sở liệu mơi trường thực nghiệm Các thuật tốn sử dụng phần thực nghiệm cài đặt máy tính chạy C# 2012 với cấu hình máy tính cá nhân sau: Intel Core i3-350 2.26GHz, 4GB RAM, 320GB Các CSDL thực nghiệm lấy từ website UCI http://mlearn.ics.uci.edu Tập liệu Breast Geman Iris Bảng CSDL Dữ liệu thực nghiệm Số thuộc tính Số lớp Số mẫu Mô tả Lớp 0: 458 (65.5%) 10 699 Lớp 1: 241 (34.5%) Lớp 0: 700 (70%) 21 1000 Lớp 1: 300 (30%) Lớp 0: 50 (33.33%) 150 Lớp 1: 50 (33.33%) Lớp 2: 50 (33.33%) B Kết thực nghiệm Kết thực nghiệm đánh giá tập liệu từ bảng Kết so sánh độ xác, việc dùng CAR-Miner K-means-CAR-Miner Chúng so sánh liệu thực nghiệm thuật toán sử dụng độ tin cậy cố định MinConf = 60% cho tất lần thực nghiệm độ hỗ trợ thay đổi 10%, 5%, 3%, 1% Nguyễn Thị Thúy Loan, Trần Thị Minh Thúy, Giang Hào Côn 245 Độ xác phân lớp CSDL bảng Kết thực nghiệm so sánh độ xác hai phương pháp K-means-CAR-Miner CAR-Miner trình bày hình từ đến Độ xác(%) Độ xác(%) Breast 100 90 K-Means_CAR-Miner CAR-Miner 80 50 70 0.5 0.3 MinSup(%) German 100 K-Means_CAR-Miner CAR-Miner 0.1 Hình So sánh độ xác phân lớp K-means-CARMiner CAR-Miner cho CSDL Breast 0.5 0.3 MinSup(%) 0.1 Hình So sánh độ xác phân lớp K-means-CARMiner CAR-Miner cho CSDL German Iris Độ xác(%) 82 K-Means_CAR-Miner CAR-Miner 80 78 76 74 72 0.5 0.3 MinSup(%) 0.1 Hình So sánh độ xác phân lớp K-means-CAR-Miner CAR-Miner cho CSDL Iris Các kết từ hình đến hình cho thấy CSDL cân lớp Breast German, Kmeans-CAR-Miner có độ xác cao CAR-Miner, đặc biệt ngưỡng MinSup lớn Đối với CSDL không cân lớp chẳng hạn CSDL Iris hai phương pháp có độ xác VI KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Trong báo đề xuất phương pháp tích hợp gom nhóm phân lớp để giải toán phân lớp CSDL cân lớp Đối với lớp có số mẫu lớn, chúng tơi tiến hành gom chúng thành k nhóm (với k số mẫu nhóm nhất), nhóm chọn mẫu đại diện (trong báo này, chọn mẫu gần trọng tâm nhất) Sau đó, CAR-Miner sử dụng CSDL lấy mẫu nhờ gom nhóm để khai thác luật phân lớp kết hợp dùng cho dự đoán lớp mẫu Kết thực nghiệm bước đầu cho thấy phương pháp chúng tơi cho độ xác cao so với phương pháp khơng gom nhóm (sử dụng CAR-Miner CSDL gốc) Trong tương lai, tiếp tục thử nghiệm nhiều CSDL để đánh giá khả ứng dụng phương pháp đề xuất Ngoài ra, phương pháp áp dụng vào loại phân lớp khác định, ILA, SVM, v.v Lời cảm ơn: Nghiên cứu tài trợ Quỹ Phát triển khoa học công nghệ NTTU đề tài mã số 2016.02.06 TÀI LIỆU THAM KHẢO [1] [2] [3] [4] Y W C Chien, Y L Chen (2010), Mining associative classification rules with stock trading data – A GA-based method Knowledge-Based Systems, vol.23, no.6, pp 605-614 B Liu, W Hsu, Y Ma (1998) Integrating classification and association rule mining In Proc of the 4th International Conference on Knowledge Discovery and Data Mining, New York, USA, pp 80-86 W Li, J Han, J Pei (2001), CMAR: Accurate and efficient classification based on multiple class-association rules, 1st IEEE international conference on Data mining, pp 369–376 J B MacQueen (1967) Some methods for classification and analysis of multivariate observations Proceedings of the Fifth Berkeley Symposium on Mathematical Statistics and Probability, University of California Press, Berkeley, Califormia, vol.1, pp 281-297 246 KHAI THÁC LUẬT PHÂN LỚP KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU MẤT CÂN BẰNG VỀ LỚP [5] D Nguyen, L T T Nguyen, B Vo, T P Hong (2015) A novel method for constrained Class-association rule mining Information Sciences, vol 320, pp 107-125 L T T Nguyen, B Vo, T P Hong, H C Thanh (2013) CAR-Miner: An efficient algorithm for mining class-association rules Expert Systems with Applications, vol.40, no.6, pp 2305-2311 L T T Nguyen, N T Nguyen (2015) An improved algorithm for mining class association rules using the difference of Obidsets Expert Systems with Applications, vol.42, no.9, pp 4361-4369 R Quinlan (1992), C4.5: programs for machine learning, Machine Learning, vol.16, pp 235-240 F A Thabtah, P Cowling, Y Peng (2004), MMAC: A new multi-class, multi-label associative classification approach, the 4th IEEE International Conference on Data mining, pp 217-224 F Thabtah, P Cowling, Y Peng (2005), MCAR: Multi-class classification based on association rule, 3rd ACS/IEEE international conference on computer systems and applications, pp 33–39 M R Tolun, S M Abu-Soud (1998), ILA: an inductive learning algorithm for rule extraction, Expert Systems with Applications, vol.14, no.3, pp 361– 370 B Vo, B Le (2008), A novel classification algorithm based on association rule mining In Proc of the 2008 Pacific Rim Knowledge Acquisition Workshop (Held with PRICAI’08), LNAI 5465, vol 5465, pp 61-75 J Wu (2012), Advances in K-means clustering: a data mining thinking Springer Sceience & Business Media, pp 17-35 X Wu et al (2008), Top 10 algorithms in data mining Knowledge and Information Systems, vol.14, no.1, pp 1-37 [6] [7] [8] [9] [10] [11] [12] [13] [14] ... đo khoảng cách đối tượng liệu nhóm Trong thực tế, đo khoảng cách đến giá trị trung bình liệu nhóm, KHAI THÁC LUẬT PHÂN LỚP KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU MẤT CÂN BẰNG VỀ LỚP 242 trọng tâm nhóm Do... Xét việc xử lý để tạo nút nút li =   21  : 1(0,1)    KHAI THÁC LUẬT PHÂN LỚP KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU MẤT CÂN BẰNG VỀ LỚP 244 o Xét nút lj =   22  : Vì hai nút khác thuộc tính... California Press, Berkeley, Califormia, vol.1, pp 281-297 246 KHAI THÁC LUẬT PHÂN LỚP KẾT HỢP TRÊN CƠ SỞ DỮ LIỆU MẤT CÂN BẰNG VỀ LỚP [5] D Nguyen, L T T Nguyen, B Vo, T P Hong (2015) A novel

Ngày đăng: 26/11/2020, 00:23

Tài liệu cùng người dùng

Tài liệu liên quan