Giải thuật rừng ngẫu nhiên với luật gán nhãn cục bộ cho phân lớp

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	9
Dung lượng	663,03 KB

Nội dung

Bài viết Giải thuật rừng ngẫu nhiên với luật gán nhãn cục bộ cho phân lớp đề xuất sử dụng luật gán nhãn cục bộ trong giải thuật rừng ngẫu nhiên để nâng cao hiệu quả phân lớp. Kết quả cho thấy phân loại tốt khi so sánh với rừng ngẫu nhiên của cây quyết định C4.5 và máy học véctơ hỗ trợ dựa trên các tiêu chí Precision, Recall, F1, Accuracy.

Kỷ yếu Hội nghị Quốc gia lần thứ VIII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 9-10/7/2015 GIẢI THUẬT RỪNG NGẪU NHIÊN VỚI LUẬT GÁN NHÃN CỤC BỘ CHO PHÂN LỚP Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Hữu Hòa, Nguyễn Minh Trung Khoa CNTT-TT, Trường ĐHCT dtnghi@cit.ctu.edu.vn TÓM TẮT - Trong viết này, đề xuất sử dụng luật gán nhãn cục giải thuật rừng ngẫu nhiên để nâng cao hiệu phân lớp Giải thuật rừng ngẫu nhiên Breiman đề xuất giải thuật phân lớp xác so sánh với giải thuật học có giám sát Tuy nhiên, sử dụng luật bình chọn số đơng nút định làm dự báo rừng ngẫu nhiên giảm hiệu Để cải thiện kết dự báo rừng ngẫu nhiên, đề xuất thay luật bình chọn số đơng luật gán nhãn cục bộ, k láng giềng Kết thử nghiệm tập liệu gen từ website datam.i2r.a-star.edu.sg/datasets/krbd cho thấy giải thuật rừng ngẫu nhiên sử dụng luật gán nhãn cục đề xuất cho kết phân loại tốt so sánh với rừng ngẫu nhiên định C4.5 máy học véctơ hỗ trợ dựa tiêu chí Precision, Recall, F1, Accuracy Từ khóa - Rừng ngẫu nhiên, định, luật gán nhãn, luật cục bộ, k láng giềng, phân lớp liệu nhiều chiều I GIỚI THIỆU Phân lớp liệu hay học có giám sát bốn nhóm tốn quan trọng khám phá tri thức khai mỏ liệu [Han et al., 2011] Phân lớp liệu xây dựng mơ hình phân lớp từ tập liệu có nhãn (lớp) định nghĩa trước, để thực gán nhãn tự động cho phần tử liệu đến Phân lớp liệu có số chiều lớn biết 10 vấn đề khó cộng đồng khai mỏ liệu [Yang & Wu, 2006] Mơ hình học phân lớp thường cho kết tốt học lại cho kết thấp tập kiểm tra Vấn đề khó khăn thường gặp số chiều q lớn liệu thường tách rời không gian có số chiều lớn việc tìm mơ hình phân lớp tốt có khả làm việc với liệu có số chiều lớn khó khăn có nhiều khả lựa chọn mơ hình Việc tìm mơ hình phân lớp hiệu (phân lớp liệu tốt tập thử) không gian giả thiết lớn vấn đề khó Đã có hai lớp giải thuật tiêu biểu, máy học véctơ hỗ trợ Vapnik (SVM [Vapnik, 1995]) rừng ngẫu nhiên [Breiman, 2001], giải thuật phân lớp hiệu tập liệu có số chiều lớn Tiếp cận rừng ngẫu nhiên cho độ xác cao so sánh với thuật tốn học có giám sát nay, bao gồm AdaBoost [Freund & Schapire, 1995], ArcX4 [Breiman, 1998] SVM [Vapnik, 1995] Khi xử lý liệu cho có số chiều lớn, rừng ngẫu nhiên SVM hai giải thuật học nhanh, chịu đựng nhiễu tốt không bị tình trạng học vẹt, điều ngược lại với AdaBoost, ArcX4 dễ bị học vẹt ảnh hưởng lớn với nhiễu [Grove & Schuurmans, 1998] Tuy nhiên, luật định nút rừng ngẫu nhiên dựa vào luật bình chọn số đơng, điều dẫn đến độ xác giải thuật rừng ngẫu nhiên bị giảm phân lớp liệu Để khắc phục nhược điểm trên, đề xuất thay luật bình chọn số đơng nút luật gán nhãn cục dựa giải thuật k láng giềng [Fix & Hodges, 1952] Giải thuật rừng ngẫu nhiên sử dụng luật gán nhãn cục chúng tơi đề xuất thường cho kết phân lớp xác so với giải thuật gốc Kết thử nghiệm tập liệu gen [Jinyan & Huiqing, 2002] cho thấy giải thuật rừng ngẫu nhiên cải tiến đề xuất cho kết phân loại tốt so sánh với rừng ngẫu nhiên định C4.5 máy học véctơ hỗ trợ dựa tiêu chí Precision, Recall, F1, Accuracy Phần lại viết tổ chức sau Chúng tơi trình bày tóm tắt giải thuật rừng ngẫu nhiên phần II, thay luật gán nhãn bình chọn số đơng luật gán nhãn cục phần III Kết thực nghiệm trình bày phần IV Phần thảo luận nghiên cứu liên quan trình bày phần V trước phần kết luận hướng phát triển phần VI II GIẢI THUẬT RỪNG NGẪU NHIÊN Từ năm 1990, cộng đồng máy học nghiên cứu cách để kết hợp nhiều mơ hình phân loại thành tập hợp mơ hình phân loại tính xác cao so với mơ hình phân loại Mục đích mơ hình tập hợp làm giảm thành phần lỗi variance và/hoặc bias giải thuật học Bias khái niệm lỗi mơ hình học (không liên quan đến liệu học) variance lỗi tính biến thiên mơ hình so với tính ngẫu nhiên mẫu liệu học [Buntine, 1992] giới thiệu kỹ thuật Bayes để giảm variance phương pháp học Phương pháp xếp chồng [Wolpert, 1992] hướng tới việc cực tiểu hóa bias giải thuật học Trong [Freund & Schapire, 1995] đưa Boosting, [Breiman, 1998] đề nghị ArcX4 để giảm bias variance, cịn Bagging [Breiman, 1996] giảm variance giải thuật học không làm tăng bias nhiều Tiếp cận rừng ngẫu nhiên [Breiman, 2001] phương pháp tập hợp mơ hình thành công Giải thuật rừng ngẫu nhiên xây dựng không cắt nhánh nhằm giữ cho bias thấp dùng tính ngẫu nhiên để điều khiển tính tương quan thấp rừng 278 GIẢI THUẬT RỪNG NGẪU U NHIÊN VỚI LU UẬT GÁN NHÃN N CỤC BỘ CHO PHÂN LỚP Rừng ngẫu n nhiên (đư ược mơ tả troong hình 1) tạạo tập hợp h qquyết định khhông cắt nhánh, đ xây dựngg tập mẫuu bootstrap (lấấy mẫu ngẫu nhiên có hồn lại), l núút phân hoạchh tốt c thực từ việc chọn nggẫu nhiên mộtt tập tthuộc tính Lỗi tổnng quát rừnng phụ thuộc vvào độ xác c thành viênn rừng vvà phụ thuộ ộc lẫn g thhành viên Giiải thuật rừng ngẫu nhiên ch ho độ xác x cao soo sánh với cácc thuật toán họ ọc có giám sát s nay, chịu đựng nhiễễu tốt Hình 11 Giải thuật rừn ng ngẫu nhiên cho c phân lớp dữữ liệu Tuy nhiên, chúngg ta trở lại luậật gán nhãn nút cácc địnnh rừngg ngẫu nhiên, giải thuật c địnhh phổ biến C CART [Breim man et al., 1984 4] C4.5 [Qu uinlan, 1993] thường dùng chiến lược bình chọn số đơng đ Thời điểểm xây dựng xây dựng câyy định, n nút có chứa phầần tử liệu ccủa lớp kh hông nhất, n việc gán nhãn cho nút tính ccho nhãn lớp l có số lượn ng phần tử lớnn chứa troong nút Xét ví dụ hình h 2, nút có chứa 14 phhần tử đđó lớp hình vu ng có phầần tử lớp hhình trịn có phần tử Nút gán g nhãn hìnnh vng ssố phần tử lớpp hình vng nhiều n hình h trịn Chiến lược gán nhãnn làm cho luật định đ không đư ược xác Khi phân lớpp, phần tử rơi vào nút láá gánn nhãn núút Vì vậy, phần tử p, q ớp khơng cao (dự đốn nhããn phần tửử p sai) đ gán nhãnn vuông Hiệu phân lớ Hình Luật gán nhãn bình chọn số đơng nút định (nútt có nhãn vvuông), điểm p q phân n lớp vuông Đỗ Đ Thanh Nghị, Phạm P Nguyên Khhang, Nguyễn Hữuu Hòa, Nguyễn Minh M Trung 279 III LUẬT GÁN G NHÃN CỤC C BỘ Để nânng cao hiệu quuả phân lớp củủa định đ giảii thuật rừng nngẫu nhiên, chhúng đề xu uất thay lu uật gán nhãn sở bìnnh chọn số đônng luật gáán nhãn cục ộ với giải thuậật k láng giềngg [Fix & Hodg ges, 1952] Thay T việc gán g nhãn nútt thựcc xây y dựng cây, ch húng trì ho ãn việc gán nnhãn Nghĩa nút v chưa đượcc gán nhãn C Chúng tthực việcc gán nhãn tro ong dự báoo phần tử ới đến Xét nút hình h chư ưa gán nnhãn Với luậtt định cục dựa n láng giềngg Khi phần tử liệu đến chẳng hạn h p q, q rơi vào cùngg nút lá; chúnng tơi thực n tìm phần tử t nút láá gần vớii liệu đến, đ sau m thực việc gán nhããn cho phần tử cần dự báo đ dựa n nhãn cácc láng giềng K Khi phân lớp,, phần tử p rơi r vào nút lá, tìm láng giềng p, gán nhãn cho p dựa bình chọnn số đơng từ láng giềng, nhãn n p đ gán tròòn Tương tự, phần tử q đượ ợc gán nhãn làà vng từ bìn nh chọn số đơơng từ láng ggiềng Luật định đ giúp cho việc phânn lớp đạt xác cao chiến lượợc này, mặc dùù phần tử dự báo rơi vào v nút l nhãnn có thểể khác trrong chiến n lược bình chhọn số đơng thhường sử dụng g q định lại gán nhãnn cho phầần tử rơi vào cù ùng nút Hình Luật gán nhãn cục bbộ (3 láng giềngg) nút định (n nút chưa đượợc gán nhãn), điiểm p, q gán g nhãn ttrịn, vng dựaa bình chọn n số đơng láng giềng Để minnh họa ảnh hưởng đến m mơ hình phân lớ ớp qu uyết định th thay luật ggán nhãn nútt Chúng ta xét víí dụ phân lớp (3 lớp gồm trịịn, vng, chééo) hình Giải thuuật học quuyết định sử ddụng luật bình h chọn số đơn ng để gán nhãnn nút lá, C44.5 [Quinlan, 1993] huấn lu uyện mơ hìnhh phân lớp trênn tập liệu nnày, sinh mơ hình có biên n giới tách lớpp hình cchữ nhật hình h Các phần p tử rơi vàào vùng L1, đđược gán nhãnn vuông Các phần tử tro ong vùng L2 đđược gán nhããn tròn, phần p tử phânn vùng L3 đượ ợc gán nhãn làà chéo Có thể thấy lớpp trịn có phầần tử bị gán nhãn n sai, phầần tử bị gán nnhãn sang lớp vuông bị gán nhãn lớp chéo Lớp chéo có phần tử bị ggán nhãn sai sang s lớp vuông g H Hình Cây quyyết định sử dụng g luật bình chọn n số đơng để gán án nhãn nút Giải thuuật học quuyết định sử ddụng luật gán nhãn cục láng giềng nút lá, huấn luyện mơ hình phân lớp h lớp mềm dẽo o (có thể khơnng hình chữ ữ nhật) hình h Các trrên tập liệệu này, sinh raa mơ hình có biên giới tách phần p tử rơi vàào vùng L1, đđược gán nhãnn vuông Các phần tử tro ong vùng L2 đđược gán nhããn tròn, phần p tử phânn vùng L3 đượ ợc gán nhãn làà chéo 280 GIẢI THUẬT RỪNG NGẪU U NHIÊN VỚI LU UẬT GÁN NHÃN N CỤC BỘ CHO PHÂN LỚP Có thể thấy cácc phần tử tập liệu đ mơ hình h gán nhãnn xác v ới lớp Điều chứng c tỏ việc thay luật ggán nhãn núút giúp cho mơ hình q định đượợc sử dụng troong giải thuật rừng ngẫu nhiên n trở nên hiệu h Hìn nh Cây quyếtt định sử dụng luật cục (1 lááng giềng) để ggán nhãn nút llá IV KẾT QU UẢ THỰC NGHIỆM Để t đánh giá hhiệu ggiải thuật rừng g ngẫu nhiên sử dụng luật ggán nhãn cục bbộ, cài c đặt giải th huật rừng ngẫẫu nhiên qquyết định C4.5 sử dụng luậật bình chọn số đông để gánn nhãn nút llá, RF-C4.5(M Maj) giải th huật sử dụng luật gán nhãnn cục k lángg giềng nút lá, RF-C4.5(kN kNN), nggơn ngữ lập trìình C/C++ có kế thừa từ mã m nguồn C4.5 cuung cấp [Q Quinlan, 1993]] Bảng Mô tả tậập liệu gen ID 10 Tập ữ liệu Số ố phần tử Số chiều AML-Leukemiia ALL-A 72 7129 MLL-L Leukemia 72 12582 Breast Cancer 97 24481 Prostate Cancer 136 12600 Lung Cancer C 181 12533 Diffusee Large B-Celll Lymphoma 47 4026 Subtyppes of Acute L Lymphoblasticc (Hyperrdip) Subtyppes of Acute L Lymphoblasticc (TEL-A AML1) Subtyppes of Acute L Lymphoblasticc (T-ALL L) Subtyppes of Acute L Lymphoblasticc (Otherss) 327 12558 327 12558 327 12558 327 12558 Lớp ALL, AML MLL, rest relapse, non-relappse cancer, normal cancer, normal germinal,, activatedd Hyperdipp, rest TEL-AM ML1, rest TEL-ALL L, rest Others, diagnostiic groups Nghi thức trn-tst trn-tst trn-tst trn-tst trn-tst loo trn-tst trn-tst trn-tst trn-tst Dữ liệuu dùng thhực nghiệm làà 10 tập liệu gen có số ch hiều lớn, đđược lấy [Jiinyan & Huiqing, 2002] Bên B cạnh đó, chúng c tơi quaan sát kết giải thuậtt đềề xuất RF-C4.55(kNN) trongg thực nghiệm cách so s sánh với giiải thuật RF-C C4.5(Maj) m máy học véctơ hỗ trợ LibS SVM [Chang & Lin, 2011] Tất kết k đ thực hiệnn máyy tính cá nhânn (Intel Core2 Duo 2.4 GHzz, 4GB RAM) chạy hệ điều hành Linux Mandriva M Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Hữu Hòa, Nguyễn Minh Trung 281 Chúng tiến hành thực nghiệm 10 tập liệu gen có số chiều lớn từ kho liệu sinh-y học Mô tả tập liệu tìm thấy bảng Chúng tơi ý đến nghi thức kiểm tra liệt kê cột cuối bảng Với tập liệu có sẵn tập học tập kiểm tra, dùng tập học để thử điều chỉnh tham số đầu vào giải thuật nhằm thu độ xác tốt học Sau đó, dùng mơ hình thu để phân lớp tập kiểm tra Nếu tập học tập kiểm tra khơng có sẵn, nghi thức kiểm tra chéo (cross-validation protocol) để đánh giá Do tập liệu có 300 phần tử, dùng nghi thức kiểm tra chéo leave-one-out (loo) Tức dùng phần tử tập liệu để làm tập kiểm tra, phần tử khác dùng để học Lặp lại đến tất phần tử dùng để kiểm thử lần Để thấy rõ tính hiệu RF-C4.5(kNN) so với RF-C4.5(Maj) LibSVM, tiến hành so sánh hiệu thuật toán phân lớp dựa tiêu chí Precision, Recall, F1-measure Accuracy [van Rijsbergen, 1979] • Precision lớp số phần tử liệu phân lớp lớp chia cho tổng số phần tử liệu phân lớp • Recall lớp số phần tử liệu phân lớp lớp chia cho tổng số phần tử liệu lớp • F1-measure tổng hợp Precision Recall định nghĩa hàm trung bình điều hòa hai giá trị Precision Recall: F1 = • × Pr ecision × Re call Pr ecision + Re call Độ xác Accuracy số điểm liệu phân lớp tất lớp chia cho tổng số điểm liệu Khi xây dựng mơ hình, giải thuật rừng ngẫu nhiên xây dựng 200 định cho tất tập liệu Luật gán nhãn cục sử dụng láng giềng Riêng máy học LibSVM cần sử dụng hàm nhân tuyến tính phân lớp tốt tập liệu gen Chúng thu kết giải thuật trình bày bảng (Precision, Recall, F1), bảng (Accuracy) Bảng Kết phân lớp LibSVM, RF-C4.5(Maj) RF-C4.5(kNN) Precision ID 10 LibSVM 100 75 69.23 73.53 88.26 91.3 95.45 100 100 92.59 RF-C4.5 (Maj) 95.24 100 83.33 75.76 93.75 95.65 95.24 100 100 100 Recall RFC4.5 (kNN) 100 100 75 100 100 91.67 95.45 100 100 100 LibSVM 95 100 75 100 100 87.5 95.45 100 100 39.68 RF-C4.5 (Maj) 100 100 83.33 100 100 91.67 90.91 96.3 100 29.63 F1-measure RFC4.5 (kNN) 95 100 85.71 66.67 100 95.65 95.45 100 100 74.07 LibSVM 97.44 85.71 72 84.75 93.75 89.36 95.45 100 100 55.56 RF-C4.5 (Maj) 97.56 100 83.33 86.21 96.77 93.62 93.02 98.11 100 45.71 RFC4.5 (kNN) 97.44 100 80 75 100 93.62 95.45 100 100 76.92 Nhìn vào bảng 2, đồ thị hình 6, 7, 8, 9, kết phân lớp để so sánh hiệu giải thuật LibSVM, RF-C4.5(Maj) RF-C4.5(kNN) Chúng ta thấy với tiêu chí Precision, giải thuật RF-C4.5(kNN) cho kết tốt 8/10 tập liệu Khi so sánh dựa vào tiêu chí Recall, RF-C4.5(kNN) cho kết tốt 8/10 tập liệu Xét tiêu chí F1 (trung bình điều hịa hai giá trị Precision Recall), RF-C4.5(kNN) cho kết tốt 7/10 tập liệu so sánh với LibSVM RF-C4.5(Maj) Giải thuật RF-C4.5(kNN) có độ xác tồn cục (Accuracy) cao tất 10 tập liệu so sánh với LibSVM RF-C4.5(Maj) 282 GIẢI THUẬT RỪNG NGẪU U NHIÊN VỚI LU UẬT GÁN NHÃN N CỤC BỘ CHO PHÂN LỚP Hình So sáánh tiêu chí Preecision giảải thuật 10 tập liệu Hình So sánh tiêu chí Recall R giảii thuật 10 tậập liệu Đỗ Thanh Nghị, P Phạm Nguyên Khhang, Nguyễn Hữuu Hòa, Nguyễn Minh M Trung 283 Hình S So sánh tiêu chí F1 giải th huật 10 tậpp liệu Bảng K Kết phân lớp p LibSVM, RF-C4.5(Maj) RF-C4.5(kN NN) ID 10 Lib-SVM M Accuracy y RF-C4.5(M R Maj) RF RF-C4.5(kNN N) 97.06 93.33 63.16 73.53 98.66 89.36 98.21 100 100 64.29 97.06 100 78.94 76.47 99.33 93.62 97.32 99.11 100 83.93 97.06 100 84.21 88.24 100 93.62 98.21 100 100 89.29 Hình So sáánh tiêu chí Acccuracy giải thuật 10 tập liệu 284 GIẢI THUẬT RỪNG NGẪU NHIÊN VỚI LUẬT GÁN NHÃN CỤC BỘ CHO PHÂN LỚP V THẢO LUẬN CÁC NGHIÊN CỨU LIÊN QUAN Nghiên cứu đề xuất thay luật gán nhãn bình chọn số đông luật cục k láng giềng nút giải thuật rừng ngẫu nhiên có liên quan đến nghiên cứu trước nhằm cải tiến giải thuật học định Q trình huấn luyện mơ hình định sử dụng hai chiến lược quan trọng, hàm phân hoạch liệu (chọn thuộc tính quan trọng, điểm phân hoạch) luật gán nhãn nút Giải thuật học CART [Breiman et al., 1984], C4.5 [Quinlan, 1993] sử dụng thuộc tính để thực phân hoạch liệu Điều làm giảm hiệu phân hoạch liệu bỏ qua phụ thuộc thuộc tính liệu Giải thuật OC1 [Murthy et al., 1993] đề xuất xây dựng xiên phân nhằm kết hợp thuộc tính để cải tiến phân hoạch liệu có phụ thuộc lẫn thuộc tính Nghiên cứu [Wu et al., 1999], [Do et al., 2010] đề xuất mở rộng giải thuật OC1, sử dụng máy học véctơ hỗ trợ [Vapnik, 1995], nhằm cải tiến chất lượng mơ hình tốc độ tính tốn Nghiên cứu [Cutler & Guohua, 2001], [Geurts et al., 2006] thực nhiều phân hoạch ngẫu nhiên để có mơ hình tương tự xiên phân Giải thuật Option tree [Kohavi & Kunz, 1997] giới thiệu thêm khái niệm nút tùy chọn để cải thiện hiệu phân lớp định Nghiên cứu [Marcellin et al., 2006], [Lenca et al., 2008], [Do et al., 2010] đề xuất thay hàm phân hoạch (Shannon entropy) entropy bất đối xứng hay khoảng cách Kolmogorov-Smirnov, nhằm cải tiến phân lớp liệu không cân (lớp quan tâm chiếm tỷ lệ tập huấn luyện so với lớp khác) Giải thuật Lazy tree [Friedman et al., 96] nhằm xây dựng “tốt nhất” cho phần tử cần phân lớp pha dự đoán nhãn Tuy nhiên luật gán nhãn nút giải thuật định thường dùng luật bình chọn số đông, điều làm giảm hiệu phân lớp Các nghiên cứu [Kohavi, 1996], [Seewald et al., 2000], [Pham et al., 2008] thực thay luật gán nhãn bình chọn số đơng luật cục Naïve Bayes [Good, 1965] hay k láng giềng [Fix & Hodges, 1952] Ritschard cộng đề xuất sử dụng statistical implicative analysis [Lerman et al., 1981] phân hoạch gán nhãn nút giải thuật huấn luyện định cho xử lý liệu không cân [Ritschard et al., 2009] Giải thuật OK3 [Geurts et al., 2006] sử dụng hàm nhân để thực phân hoạch gán nhãn giải thuật rừng ngẫu nhiên dự đoán cấu trúc protein VI KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Chúng tơi vừa trình bày đề xuất cải tiến giải thuật rừng ngẫu nhiên để nâng cao hiệu phân lớp tập liệu có số chiều lớn Ý tưởng xuất phát từ giải thuật rừng ngẫu nhiên Breiman đề xuất, chúng tơi đề xuất thay luật bình chọn số đông cho việc gán nhãn nút luật định cục dựa vào giải thuật k láng giềng Kết thực nghiệm tập liệu gen cho thấy giải thuật đề xuất RF-C4.5(kNN) cho kết tốt tiêu chí Precision, Recall, F1 độ xác tồn cục Accuracy so sánh với giải thuật gốc rừng ngẫu nhiên (sử dụng luật bình chọn số đơng để gán nhãn nút định) RF-C4.5(Maj) giải thuật máy học véctơ hỗ trợ LibSVM Trong tương lai, tiếp tục nghiên cứu luật định cục dựa giải thuật hiệu k láng giềng Ngồi nghiên cứu cải thiện chất lượng mơ hình phân lớp, tập trung cho cải tiến tốc độ học phân lớp giải thuật tương lai VII TÀI LIỆU THAM KHẢO [1] L Breiman, J.H Friedman, R.A Olshen and C Stone Classification and Regression Trees Wadsworth International, 1984 [2] L Breiman Bagging predictors Machine Learning, vol 24, no 2, pp 123 - 140, 1996 [3] L Breiman Arcing classifiers The annals of statistics, vol 26, no 3, pp 801-849, 1998 [4] L Breiman Random forests Machine Learning, vol 45, no 1, pp 5-32, 2001 [5] W Buntine Learning classification trees Statistics and Computing, vol 2, pp 63-73, 1992 [6] C.C Chang and C.J Lin LIBSVM: a library for support vector machines ACM Transactions on Intelligent Systems and Technology, vol.2, no 27, pp 1-27, 2011 http://www.csie.ntu.edu.tw/~cjlin/libsvm [7] A Cutler and Z Guohua PERT – perfect random tree ensembles Computing Science and Statistics, vol 33, 2001, pp 490-497 [8] T-N Do, S Lallich, N-K Pham and P Lenca Classifying very-high-dimensional data with random forests of oblique decision trees in Advances in Knowledge Discovery and Management, H Briand, F Guillet, G Ritschard, D Zighed Eds, Springer-Verlag, 2010, pp 39-55 [9] T-N Do, P Lenca and S Lallich Enhancing network intrusion classification through the kolmogorov-smirnov splitting criterion In: ICTACS 2010, Vietnam, 2010, pp 50-61 [10] E Fix and J Hodges Discriminatoiry Analysis: Small Sample Performance Technical Report 21-49-004, USAF School of Aviation Medicine, Randolph Field, USA, 1952 [11] Y Freund and R Schapire A decision-theoretic generalization of on-line learning and an application to boosting Computational Learning Theory, pp 23-37, 1995 Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyễn Hữu Hòa, Nguyễn Minh Trung 285 [12] J-H Friedman, R Kohavi and Y Yun Lazy decision trees In: Proceedings of the Thirteenth National Conference on Artificial Intelligence and Eighth Innovative Applications of Artificial Intelligence Conference, AAAI 96, IAAI 96, Portland, Oregon, August 4-8, 1996, vol 1, pp 717-724 [13] J Friedman, T Hastie and R Tibshirani Response to Mease and Wyner, Evidence Contrary to the Statistical View of Boosting Journal Machine Learning Research, vol 9, pp 175-180, 2008 [14] P Geurts, L Wehenkel and F d’Alché-Buc Kernelizing the output of tree-based methods In Cohen, W.W., Moore, A., eds.: Proceedings of the Twenty-Third International Conference (ICML 2006), Pittsburgh, Pennsylvania, USA, June 25-29, vol 148, pp 345-352, 2006 [15] P Geurts, D Ernst and L Wehenkel Extremely randomized trees Machine Learning, vol 63, no 1, pp 3-42, 2006 [16] I Good The Estimation of Probabilities: An Essay on Modern Bayesian Methods MIT Press, 1965 [17] A.J Grove and D Schuurmans Boosting in the limit: Maximizing the margin of learned ensembles In Proceedings of the Fifteenth National Conference on Artificial Intelligence (AAAI-98), 1998, pp 692-699 [18] J Han, M Kamber and J Pei Data Mining: Concepts and Techniques Morgan Kaufmann; edition, 2011 [19] L Jinyan and L Huiqing Kent ridge bio-medical dataset repository 2002, http://datam.i2r.astar.edu.sg/datasets/krbd/ [20] R Kohavi and C Kunz Option decision trees with majority votes In: Proceedings of the Fourteenth International Conference on Machine Learning (ICML 1997), Nashville, Tennessee, USA, July 8-12, 1997, pp 161-169 [21] R Kohavi Scaling up the accuracy of naive-bayes classifiers: A decision-tree hybrid In: Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), Portland, Oregon, USA, 1996, pp 202-207 [22] P Lenca, S Lallich, T-N Do and N-K Pham A comparison of different off-centered entropies to deal with class imbalance for decision trees In: The Pacific-Asia Conference on Knowledge Discovery and Data Mining, LNAI 5012, Springer-Verlag, 2008, pp 634-643 [23] I Lerman, R Gras and H Rostam Elaboration et évaluation d’un indice d’implication pour données binaires Mathématiques et Sciences Humaines, vol 74, pp 5-35, 1981 [24] S Marcellin, D Zighed and G Ritschard An asymmetric entropy measure for decision trees In: IPMU 2006, Paris, France, 2006, pp 1292-1299 [25] S Murthy, S., Kasif, S., Salzberg, R., Beigel OC1: Randomized induction of oblique decision trees In: Proceedings of the Eleventh National Conference on Artificial Intelligence, 1993, pp 322-327 [26] N-K Pham, T-N Do, P Lenca and S Lallich Using local node information in decision trees: coupling a local decision rule with an off-centered In: International Conference on Data Mining, Las Vegas, Nevada, USA, CSREA Press, 2008, pp 117-123 [27] J.R Quinlan C4.5: Programs for Machine Learning Morgan Kaufmann, 1993 [28] G Ritschard, S Marcellin and D Zighed Arbre de décision pour données déséquilibrées: sur la complémentarité de l’intentisé d’implication et de l’entropie décentrée In: Analyse Statistique Implicative - Une méthode d’analyse de données pour la recherche de causalités, 2009, pp 207-222 [29] A-K Seewald, J Petrak and G Widmer Hybrid decision tree learners with alternative leaf classifiers: An empirical study In: Int Florida Artificial Intelligence Research Society Conference, 2000, pp 407-411 [30] C.V van Rijsbergen Information Retrieval Butterworth, 1979 [31] V Vapnik The Nature of Statistical Learning Theory Springer-Verlag, 1995 [32] D Wolpert Stacked generalization Neural Networks, vol 5, pp 241-259, 1992 [33] W Wu, K Bennett, N Cristianini and J Shawe-Taylor Large margin trees for induction and transduction In: Proceedings of the Sixth International Conference on Machine Learning, 1999, pp 474-483 [34] Q Yang and X Wu 10 Challenging Problems in Data Mining Research Journal of Information Technology & Decision Making, vol 5, no 4, pp 597-604, 2006 RANDOM FORESTS USING LOCAL LABELING RULES FOR IMPROVING CLASSIFICATION CORRECTNESS Thanh-Nghi Do, Nguyen-Khang Pham, Huu-Hoa Nguyen, Minh-Trung Nguyen ABSTRACT - In this paper, we propose to use local labeling rules in random forests of decision trees for effectively classifying data The decision rules use the majority vote for labeling at terminal nodes in decision trees, maybe making the classical random forest algorithm degrade the classification performance Our investigation aims at replacing the majority rules with the local ones, i.e k nearest neighbors to improve the prediction correctness of decision forests The numerical test results on gene datasets from datam.i2r.a-star.edu.sg/datasets/krbd showed that that our proposal gives good classification results compared with classical random forests and support vector machine (SVM) in terms of Precision, Recall, F1 and Accuracy ... giải thuật 10 tập liệu 284 GIẢI THUẬT RỪNG NGẪU NHIÊN VỚI LUẬT GÁN NHÃN CỤC BỘ CHO PHÂN LỚP V THẢO LUẬN CÁC NGHIÊN CỨU LIÊN QUAN Nghiên cứu đề xuất thay luật gán nhãn bình chọn số đơng luật cục. .. III LUẬT GÁN G NHÃN CỤC C BỘ Để nânng cao hiệu quuả phân lớp củủa định đ giảii thuật rừng nngẫu nhiên, chhúng đề xu uất thay lu uật gán nhãn sở bìnnh chọn số đơnng luật gáán nhãn cục ộ với giải. .. đđược gán nhããn tròn, phần p tử phânn vùng L3 đượ ợc gán nhãn làà chéo 280 GIẢI THUẬT RỪNG NGẪU U NHIÊN VỚI LU UẬT GÁN NHÃN N CỤC BỘ CHO PHÂN LỚP Có thể thấy cácc phần tử tập liệu đ mơ hình h gán

Ngày đăng: 21/05/2021, 13:46