Nghiên cứu kỹ thuật chọn thuộc tính cho các thuật toán phân lớp

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH TRẦN THỊ XUÂN HƯƠNG LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã ngành: 60.48.02.01 ĐỀ TÀI NGHIÊN CỨU KỸ THUẬT CHỌN THUỘC TÍNH CHO CÁC THUẬT TOÁN PHÂN LỚP Người hướng dẫn: TS Phan Anh Phong Vinh, tháng 07/2018 MỤC LỤC MỞ ĐẦU .5 DANH MỤC BẢNG DANH MỤC HÌNH CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP 10 1.1 Khai phá liệu .10 1.2 Phân lớp liệu .12 1.2.1 Bài toán phân lớp 12 1.2.2 Quá trình phân lớp liệu 13 1.3 Một số thuật toán phân lớp liệu 14 1.3.1 Thuật toán phân lớp Navie Bayes 15 1.3.2 Thuật toán phân lớp J48 18 1.3.3 Thuật toán phân lớp KNN 20 1.4 Đợ đo hiệu cho các tḥt tốn phân lớp 23 1.4.1 Ma trận nhầm lẫn 23 1.4.2 Đợ xác phân lớp 24 1.4.3 Độ đo F 24 1.4.4 Độ nhạy độ đặc tả 25 1.4.5 Đường cong ROC 25 1.4.6 Giá trị AUC 27 1.4.7 Hệ số Gini .27 1.5 Các thách thức cho toán phân lớp 28 1.6 Kết luận chương 29 CHƯƠNG 2: KỸ THUẬT CHỌN THUỘC TÍNH CHO CÁC THUẬT TỐN PHÂN LỚP .30 2.1 Các tiếp cận chọn tḥc tính cho tốn phân lớp 30 2.1.1 Mơ hình Filter (mơ hình đợc lập) 31 2.1.2 Mơ hình Wrapper (mơ hình kết hợp) .32 2.1.3 So sánh mơ hình Filter mơ hình Wrapper 34 2.2 Chọn tḥc tính theo mơ hình đợc lập 34 2.2.1 Một số độ đo thông tin 34 2.2.2 Các bước lựa chọn tḥc tính 37 2.2.3 Kỹ thuật sử dụng độ lợi thông tin 39 2.2.4 Kỹ thuật sử dụng đo sự tương quan 40 2.2.5 Thuật toán Relief-F .41 2.3 Kết luận chương 42 CHƯƠNG 3: THỬ NGHIỆM 43 3.1 Tổng quan WEKA 43 3.1.1 Giới thiệu WEKA 43 3.1.2 Dữ liệu WEKA 45 3.2 Các bộ liệu thử nghiệm .46 3.2.1 Bộ liệu Labor .46 3.2.2 Bộ liệu Bank Marketing 47 3.3 Phương pháp thử nghiệm .48 3.4 Kết thử nghiệm với bộ liệu Labor 49 3.4.1 Các tḥc tính chọn theo đợ lợi thông tin 49 3.4.2 Các tḥc tính tính chọn theo Relief-F 51 3.4.3 Các tḥc tính chọn dựa sự tương quan 52 3.4.4 Các tḥc tính chọn dựa theo Wrapper 53 3.4.5 Kết phân lớp với tḥt tốn Nạve Bayes 54 3.4.6 Kết phân lớp với thuật toán thuật toán định J48 .58 3.4.7 Kết phân lớp sử dụng thuật toán K-NN 61 3.4.8 Đánh giá kết thử nghiệm 63 3.5 Kết thử nghiệm với bộ liệu Bank Marketing 66 3.5.1 Các tḥc tính chọn .66 3.5.2 Đánh giá hiệu suất phân lớp 69 3.5.3 Đánh giá kết thử nghiệm 74 KẾT LUẬN .77 TÀI LIỆU THAM KHẢO 78 LỜI CÁM ƠN Trước tiên, em xin chân thành cám ơn thầy giáo TS Phan Anh Phong tận tình bảo, giúp đỡ, hướng dẫn em thời gian qua Em xin bày tỏ lịng biết ơn tới thầy giáo Viện Kỹ tḥt Cơng nghệ nói riêng trường Đại học Vinh nói chung cung cấp cho em kiến thức quý báu trình học tập, nghiên cứu trường Em xin cám ơn gia đình, bạn bè người thân yêu cổ vũ, động viên, quan tâm, giúp đỡ em vượt qua khó khăn suốt thời gian học tập làm luận văn Do kiến thức thời gian nghiên cứu có hạn nên ḷn văn khơng tránh khỏi nhiều sai sót định Em mong nhận sự góp ý q báu thầy bạn bè Vinh, tháng năm 2018 Học viên Trầ Thị Xuân Hương MỞ ĐẦU Khoa học kỹ thuật ngày phát triển, với sự phát triển khơng ngừng liệu kích thước chủng loại Nhiệm vụ khai phá liệu nói chung nghiên cứu thuật toán phân lớp nói riêng trở nên ngày bức thiết đóng vai trò trung tâm việc giải toán cụ thể Vấn đề xử lý liệu lớn ngày trở thành vấn đề cấp thiết đóng vai trò chủ đạo việc giải toán thực tế Thực tế cho thấy, tìm mợt sớ tḥt tốn phù hợp với một số loại liệu cụ thể bị giới hạn kích thước liệu Kết tḥt tốn phụ tḥc nhiều vào việc xử lý liệu thô Trong khai phá liệu, phương pháp trích chọn đóng vai trị quan trọng tiền xử lý số liệu, đặc biệt đối với ngành tin sinh học, xử lý liệu âm thanh, hình ảnh, liệu mạng xã hội Đặc điểm chung lĩnh vực kích thước lớn (hàng trăm, hàng trăm nghìn tḥc tính) mợt sớ tḥc tính có giá trị dùng để phân tích Phần lớn thuật toán phân lớp phát triển giải với mợt lượng sớ liệu giới hạn với một độ phức tạp liệu biết trước Trong lượng liệu mà thu thập ngày trở nên phong phú đa dạng nhờ sự phát triển mạnh mẽ khoa học kỹ thuật Mặc dù nhiều kỹ thuật khai phá liệu dựa một số tảng lý thuyết khác phát triển ứng dụng từ lâu, thực tế cho thấy kết phụ tḥc nhiều vào đặc tính liệu khả xử lý liệu thô nhóm nghiên cứu Mợt điều hiển nhiên với phương pháp đáp ứng xử lý tốt một vài liệu ứng dụng cụ thể Trong khai phá liệu phương pháp trích chọn đóng mợt vai trị quan trọng tiền xử lý số liệu Hướng tiếp cận làm tăng hiệu thu nhận tri thức các ngành tin sinh, xử lý liệu web, xử lý tiếng nói, hình ảnh với đặc tính có nhiều tḥc tích (vài trăm vài trăm ngàn tḥc tính) thường có mợt sớ lượng tương đối nhỏ mẫu dùng để huấn luyện (thường vài trăm) Phương pháp trích chọn giúp giảm kích cỡ khơng gian liệu, loại bỏ tḥc tính khơng liên quan tḥc tính nhiễu không ảnh hưởng đến chất lượng toán phân lớp Những năm trở lại đây, nhu cầu giảm chiều số liệu ngày cao nên có nhiều nghiên cứu lựa chọn tḥc tính, lĩnh vực phát triển mạnh mẽ chiều rộng lẫn chiều sâu Bố cục luận văn: Ngồi các phần Mở đầu, Mục lục, Danh mụa hình, Danh mục bảng, Kết luận, Tài liệu tham khảo, luận văn chia làm chương: Chương I: TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP Phần giới thiệu tổng qua khai phá liệu, phân lớp liệu, thuật toán phân lớp liệu thách thức toán phân lớp Chương II: LỰA CHỌN THUỘC TÍNH CHO CÁC THUẬT TỐN PHÂN LỚP Phần giới thiệu cách tiếp cận toán phân lớp, lựa chọn tḥc tính theo các mơ hình Đặc biệt trình bày chi tiết đợ đo thơng tin, các bước lựa chọn tḥc tính, kỹ tḥt sử dụng độ đo Chương III: THỬ NGHIỆM Chương trình bày các bước thử nghiệm, tổng hợp kết đánh giá hiệu mơ hình phân lớp DANH MỤC BẢNG Bảng 1.1 Cở sở liệu Thời tiết 17 Bảng 1.2 Cở sở liệu Phim 22 Bảng 1.3 Ma trận nhầm lẫn 24 Bảng 1.4 Ví dụ ma trận nhầm lẫn lẫn cho Mơ hình phân lớp nhị phân 28 Bảng 2.1 Cơ sở liệu khả Mua máy tính 35 Bảng 3.1 Tập tḥc tính bợ liệu Labor 46 Bảng 3.2 Tập tḥc tính bợ liệu Bank Marketing .47 Bảng 3.3 So sánh hiệu suất phân lớp với thuật toán Naiver Bayes tập liệu Labor 56 Bảng 3.4 Ma trận nhầm lẫn cho tḥt tốn Nạve Bayes tập liệu Labor sử dụng phương pháp wrapper .57 Bảng 3.5 Các hiệu suất cho tḥt tốn Nạve Bayes tập liệu Labor sử dụng phương pháp wrapper 57 Bảng 3.6 Bảng so sánh hiệu suất cho thuật toán phân lớp J48 tập liệu Labor 60 Bảng 3.7 Ma trận nhầm lẫn cho thuật toán J48 tập liệu Labor sử dụng phương pháp wrapper 61 Bảng 3.8 Các hiệu suất cho thuật toán J48 tập liệu Labor sử dụng phương pháp wrapper .61 Bảng 3.9 Bảng so sánh hiệu suất cho thuật toán phân lớp K-NN tập liệu Labor 61 Bảng 3.10 Ma trận lẫn lợn cho K-NN hàng xóm gần sử dụng k = 1cho tập liệu Labor 63 Bảng 3.11 Hiệu suất phân lớp KNN cách sử dụng k = 1cho tập liệu Labor 63 Bảng 3.12 Đợ xác với tham sớ tới ưu lần chạy tập liệu Labor 64 Bảng 3.13 Kết AUC với tham số tối ưu lần chạy tập liệu Labor 64 Bảng 3.14 Kết F-Means với tham số tối ưu lần chạy tập liệu Labor .65 Bảng 3.15 Các thuộc tính chọn lựa Wrapper tập liệu banhk Marketing 68 Bảng 3.16 Kết phân lớp với Naïve Bayes cho tập liệu Bank Marketing .69 Bảng 3.17 Ma trận nhầm lẫn cho tḥt tốn Nạve Bayes tập liệu Bank sử dụng phương pháp Wrapper 70 Bảng 3.18 Hiệu suất cho tḥt tốn Nạve Bayes tập liệu Bank sử dụng phương pháp Wrapper .70 Bảng 3.19 Kết phân lớp với J48 cho tập liệu Bank Marketing 70 Bảng 3.20 Ma trận nhầm lẫn cho thuật toán J48 tập liệu Bank Marketing sử dụng phương pháp CFS 71 Bảng 3.21 Các biện pháp hiệu suất cho thuật toán J48 tập liệu Bank Marketing sử dụng phương pháp CFS 72 Bảng 3.22 Kết hiệu suất phân lớp cho thuật toán phân lớp K-NN tập liệu Bank Marketing 72 Bảng 3.23 Ma trận nhầm lẫn cho thuật toán K-NN với k=10 tập liệu Bank Maketing sử dụng phương pháp lựa chọn tḥc tính CFS .73 Bảng 3.24 Hiệu suất cho thuật toán K-NN với k=10 tập liệu Bank Maketing sử dụng phương pháp lựa chọn tḥc tính CFS 73 Bảng 3.25 Đợ xác với tham số tối ưu lần chạy tập liệu Bank Marketing 74 Bảng 3.26 Kết AUC với tham số tối ưu lần chạy tập liệu Bank Marketing 75 Bảng 3.27 Kết F-Means với tham số tối ưu lần chạy tập liệu Bank Marketing 75 DANH MỤC HÌNH Hình 1.1 Tập liệu phân thành lớp: bi vàng bi xanh .12 Hình 1.2 Tập liệu phân thành cụm 12 Hình 1.3 Liệu bi thêm vào tḥc lớp bi vàng hay lớp bi xanh .13 Hình 1.4 K-Nearest Neighbor với k = 20 Hình 1.5 Receiver Operating Characteristic (ROC) các điểm cong 26 Hình 1.6 Đường cong Receiver Operating Characteristic (ROC) 27 Hình 1.7 Vùng đường cong(AUC) Receiver Operating Characteristic 27 Hình 2.1 Mơ hình lọc Filter 31 Hình 2.2 Mơ hình lọc Wrapper 32 Hình 2.3 Quy trình lựa chọn tḥc tính 38 Hình 3.1 Giao diện Weka 44 Hình 3.2 Weka Explorer 44 Hình 3.3 Quy trình thử nghiệm 49 Hình 3.4 Hiệu suất phân lớp Nạve Bayes bợ tính tập liệu Labor đợ xác Accuracy, AUC, F-Measure, TPR TNR 57 Hình 3.5 Hiệu suất phân lớp J48 bộ tính tập liệu Labor đợ xác Accuracy, AUC, F-Measure, TPR TNR 61 Hình3.6 Hiệu suất phân lớp K-NN bợ tính tập liệu Labor 63 Hình 3.7 Hiệu suất phân lớp Nạve Bayes bợ tính tập liệu Bank Marketing độ Accuracy, AUC, F-Measure, TPR TNR 70 Hình 3.8 Hiệu suất phân loại J48 bợ tính tập liệu Bank Marketing đợ xác Accuracy, AUC, F-Meas, TPR TNR 71 Hình 3.9 Hiệu suất phân lớp K-NN bợ tính tập liệu Bank Marketing đợ xác Accuracy, AUC, F-Measure, TPR TNR 73 10 CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP Ngày nay, với sự phát triển mạnh mẽ ngành khoa học kĩ thuật, sự tích lũy liệu thực tế không ngừng tăng lên, lượng thông tin cần thiết phải lưu trữ thiết bị điện tử ngày nhiều Bên cạnh đó, việc tin học hóa mặt hoạt đợng sản xuất, kinh doanh các lĩnh vực khác đời sống tạo một lượng liệu cần lưu trữ khổng lồ Sớ lượng kích thước ghi ngày lớn gây khó khăn cho việc lưu trữ xử lí nên vấn đề xử lí liệu ngày bức thiết Vì vậy, việc khai phá liệu có phân lớp liệu mới quan tâm hàng đầu vấn đề xử lí liệu 1.1 Khai phá liệu Khai phá liệu một khái niệm bắt đầu xuất từ cuối năm 80 kỷ XX Nó bao hàm mợt loạt kỹ tḥt nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn.Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy tập liệu Năm 1989, các nhà nghiên cứu Fayyad, PiatestskyShapiro Smyth dùng khái niệm Phát tri thức sở liệu (Kownledge Discovery in Database – KDD) để tồn bợ q trình phát tri thức có ích từ tập liệu lớn Trong đó, khai phá liệu mợt bước thực tồn bợ q trình, cách sử dụng giải thuật đặc biệt để chiết xuất mẫu hay mơ hình từ liệu thu thập Khai phá liệu chủ yếu tập trung vào nhiệm vụ sau: Giảm chiều liệu: Giảm chiều liệu việc làm giảm chiều khơng gian tìm kiếm liệu, giảm chi phí thu thập lưu trữ liệu, nâng cao hiệu việc khai phá liệu làm đơn giản hóa kết khai phá liệu Trong nhiệm vụ làm giảm chiều liệu cần xem xét hai khái niệm sau: + Trích chọn thuộc tính (Feature Extraction): Trích chọn tḥc tính việc tìm mợt tập tḥc tính từ tập tḥc tính ban đầu nhằm nâng cao hiệu suất tính tốn đợ xác phân lớp Các kỹ tḥt trích chọn tḥc tính thường liên quan đến phép biến đổi phi tuyến (non-linear) Linear discriminant analysis (LDA) 65 CFS 0.984 0.871 0.859 WPP 0.871 0.844 0.871 Bảng cho thấy rằng, giá trị AUC một số tập liệu sau rút gọn tḥc tính nhỏ so với tập liệu gốc ban đầu thực phân lớp với mơ hình J48 KNN Tuy nhiên, mợt lần trình phân lớp Nạve Bayes tạo điểm AUC cao 98.8% tập liệu với tập tḥc tính tạo Information Gain Tiếp theo K-NN với AUC=87.6% J48 87.1% So sánh hiệu suất phân lớp thuật toán thực tất tập liệu thấy tḥt tốn Naiver Bayes có hiệu suất phân lớp tất nhất, điểm AUC cao nhiều so với tḥt tốn cịn lại Biện pháp cuối để so sánh hiệu suất phân lớp sử dụng điểm số FMeasure Bảng 3.14 Kết F-Means với tham số tối ưu lần chạy tập liệu Labor Data Set Naïve Bayes J48 K-NN ALL 0.841 0.858 0.858 IG 0.912 0.858 0.858 RLF 0.893 0.858 0.895 CFS 0.929 0.875 0.875 WPP 0.946 0.909 0.909 Quan sát bảng tổng hợp điểm số F-Measure trên, điểm số F-Measure tập liệu gốc mơ hình Nạve Bayes Nhưng so sánh tập liệu gốc với tập điểm sớ mơ hình J48 tập tḥc tính chọn lựa Information Gain Relief-F mơ hình KNN với tḥc tính chọn lựa Information Gain không cải thiện Một lần thấy rằng, điểm số F-Measure đạt giá trị cao 94.6% với phương pháp phân lớp Naïve Bayes tập liệu tạo phương 66 pháp Wrapper, J48 KNN đạt giá trị 90.9% So sánh điểm số F-measure tḥt tốn phân lớp điểm sớ F-Measure tḥt tốn Nạve Bayes tớt tất tập liệu Như vậy, việc giảm sớ tḥc tính tập liệu Labor đạt hiệu cao so với tập liệu gốc ban đầu đạt hiệu cao với tḥt tốn phân lớp Nạve Bayes So sánh phân tích kết cho thấy hiệu suất xác ba bộ phân lớp cải thiện nhiều sau áp dụng giảm tính cho tập liệu Lao động Điều đặc biệt trường hợp bợ phân lớp Nạve Bayes Trong trường hợp phân loại định J48, thấy việc giảm tập hợp tính khơng phải lúc hoạt động tốt cách sử dụng tất các tính Điều tḥt tốn định tự thực một số loại giảm liệu trình xây dựng Tỷ lệ phần trăm độ nhạy độ đặc hiệu tất kết hầu hết cao 3.5 Kết thử nghiệm với bộ liệu Bank Marketing 3.5.1 Các tḥc tính chọn a Information Gain Với phương pháp này, ta chọn lựa ngưỡng để loại bỏ tḥc tính 0.007 ta có kết sau: 0.10812 41 duration 0.03553 43 pdays 0.03393 48 poutcome=success 0.01633 26 contact=unknown 0.01623 44 previous 0.01623 45 poutcome=unknown 0.01103 25 contact=cellular 0.00985 29 month=oct 0.00972 age 0.00822 30 month=may 0.00783 23 housing=yes 67 Như vậy, có 11 tḥc tính có sớ Information Gain cao lựa chọn Trong tḥc tính “duration” có giá trị cao 0.1082 cao gấp lần so với thuộc tính xếp sau Tập tḥc tính chọn lựa xếp theo thứ tự quan trọng giảm dần b Relief_F Với phương pháp này, chọn ngưỡng 0.05 để lựa chọn tḥc tính cho tập liệu Kết chạy phương pháp làm giảm tính Relief-F thu tập tḥc tính từ phương pháp 0.0869 41 duration 0.0811 job=blue-collar 0.0726 30 month=may 0.0618 job=technician 0.0604 25 contact=cellular 0.0602 14 marital=married 0.0593 28 day 0.0583 18 education=secondary 0.054 23 housing=yes 0.0523 26 contact=unknown 0.0518 36 month=jul 0.0505 15 marital=single Như vậy với phương pháp này, có 12 tḥc tính xếp hạng hàng đầu tập liệu chọn lựa Mợt lần tḥc tính “duration” có giá trị 0.869 xếp hạng cao giống với phương pháp sử dụng Information Gain Giá trị tḥc tính trước khơng lớn nhiều so với tḥc tính kề sau c Lựa chọn tính dựa vào sự tương quan CFS Phương pháp lựa chọn tính kiểu filter cuối sử dụng cho tập liệu ngân hàng CFS Phương pháp tìm kiếm sử dụng thử nghiệm "Greedy Stepwise (forwards)" bắt đầu tìm kiếm khơng có tḥc tính 68 tìm kiếm Tập tḥc tính lựa chọn phương pháp CFS marital=married balance loan=yes contact=unknown month=oct month=mar duration poutcome=success Với phương pháp này, có tḥc tính chọn lựa tổng sớ 49 tḥc tính, kết có sự khác biệt so với phương pháp chọn lựa tḥc tính d Wrapper Phương pháp wrapper chạy lần, một lần cho thuật toán phân loại sử dụng nghiên cứu Naïve Bayes, J48 K-NN với k = Kết tổng hợp sau: Bảng 3.15 Các tḥc tính chọn lựa Wrapper tập liệu banhk Marketing Naïve Bayes J48 K-NN job=unemployed job=student job=technician education=unknown marital=married loan=yes month=oct education=tertiary contact=unknown month=jan default=yes month=may month=jul month=oct month=aug duration month=may month=nov poutcome=unknown month=jun poutcome=unknown poutcome=success month=aug poutcome=success month=jul duration poutcome=success 69 3.5.2 Đánh giá hiệu suất phân lớp Sau kết thúc trình lựa chọn tính năng, chúng tơi thu tập liệu để so sánh kiểm tra cho thuật toán phân lớp Các tập tḥc tính chọn sau: - Domain_ALL - Tập liệu với tất tḥc tính - DomainName_IG - Tập liệu chọn phương thức Information Gain DomainName_RLF - Tập liệu chứa tḥc tính chọn phương pháp Relief-F - DomainName_CFS - Tập liệu chứa tḥc tính chọn CFS - DomainName_WRP - Tập liệu bao gồm tḥc tính chọn phương pháp Wrapper Sử dụng phần mềm WEKA, thực thao tác tập liệu Bank Marketing giống với tập liệu Labor để so sánh hiệu suất a Sử dụng tḥt tốn Nạve Bayes: Bảng 3.16 Kết phân lớp với Naïve Bayes cho tập liệu Bank Marketing Data Set Accuracy AUC F-Measure TP Rate TN Rate NBALL 0.835 0.831 0.850 0.868 0.582 NBIG 0.867 0.830 0.871 0.917 0.488 NBRLF 0.889 0.822 0.874 0.966 0.294 NBCFS 0.898 0.795 0.886 0.969 0.351 NBWPP 0.902 0.841 0.895 0.963 0.436 Dựa vào bảng so sánh hiệu suất ta thấy rằng, việc giảm tính đặt tập liệu cải thiện đợ xác (Accuracy), AUC điểm số F-Measure so với việc sử dụng tất tḥc tính tập liệu ban đầu mơ hình phân lớp Bằng cách thực phương pháp lựa chọn tính dựa phương thức wrapper, tăng đợ xác từ 83.5% lên 90.2%, điểm số F-Measure từ 85% lên 89.5%, điểm số AUC từ 83.1% lên 84.1% Với xác nhận chéo 10-fold đợ xác 90.2% phương pháp lựa chọn tính dựa phương pháp wrapper 70 tạo đợ xác, F-Measure, AUC cao thử nghiệm Hiệu suất 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Accurac y AUC FMeasure Classification/Feature Subset Hình 3.7 Hiệu suất phân lớp Nạve Bayes bợ tính tập liệu Bank Marketing đợ Accuracy, AUC, F-Measure, TPR TNR Bảng 3.17 Ma trận nhầm lẫn cho tḥt tốn Nạve Bayes tập liệu Bank sử dụng phương pháp Wrapper No Yes ← Classified As 3850 (TP) 150 (FN) No 294 (FP) 227 (TN) Yes Bảng 3.18 Hiệu suất cho tḥt tốn Nạve Bayes tập liệu Bank sử dụng phương pháp Wrapper (*: lấy giá trị trung bình) Accuracy 0.902 Precision* 0.891 Recall* 0.902 F-Measure* 0.895 TP Rate 0.963 TN Rate 0.436 b Sử dụng thuật toán J48: Bảng 3.19 Kết phân lớp với J48 cho tập liệu Bank Marketing Data Set Accuracy AUC F-Measure TP Rate TN Rate J48ALL 0.887 0.747 0.879 0.955 0.369 J48IG 0.898 0.856 0.886 0.973 0.334 71 J48RLF 0.887 0.745 0.860 0.981 0.165 J48CFS 0.898 0.869 0.893 0.955 0.459 J48WPP 0.897 0.788 0.881 0.975 0.296 Dựa kết bảng trên, kết ḷn việc giảm tḥc tính khơng phải lúc làm tăng hiệu suất phân lớp so với tập liệu ban đầu Mơ hình phân lớp J48 có hiệu suất cao với tập tḥc tính bợ liệu lựa chọn phương pháp CFS Với phương pháp này, đợ xác đạt giá trị cao sử dụng phương pháp lựa chọn tḥc tính CFS 89.8%, AUC tớt 86.9% F-Measure 89.3% Quá trình phân lớp thực các phương thức chọn thuộc tính IG, CFS, Relief-F, wrapper sử dụng Hình 3.8 cho thấy hiệu suất tập liệu khác sử dụng thử nghiệm Hiệu suất 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Accuracy AUC F-Measure TP Rate TN Rate Classification/Feature Subset Hình 3.8 Hiệu suất phân loại J48 bộ tính tập liệu Bank Marketing đợ xác Accuracy, AUC, F-Meas, TPR TNR Bảng 3.20 Ma trận nhầm lẫn cho thuật toán J48 tập liệu Bank Marketing sử dụng phương pháp CFS No Yes ← Classified As 3877 (TP) 123 (FN) No 338 (FP) 183 (TN) Yes 72 Bảng 3.21 Các biện pháp hiệu suất cho thuật toán J48 tập liệu Bank Marketing sử dụng phương pháp CFS Accuracy 0.898 Precision* 0.883 Recall* 0.896 F-Measure* 0.883 TP Rate 0.955 TN Rate 0.459 c Sử dụng tḥt tốn K-NN: Đới với tḥt toán K-NN, ta thực phép thử nghiệm cách sử dụng giá trị k=1,k=5 k=10 cho tập liệu Kết hiển thị bảng sau Bảng 3.22 Kết hiệu suất phân lớp cho thuật toán phân lớp K-NN tập liệu Bank Marketing Data Set Accuracy AUC F-Measure TP Rate TN Rate 1KNNALL 0.861 0.600 0.851 0.939 0.257 1KNNIG 0.861 0.654 0.860 0.925 0.370 1KNNRLF 0.846 0.591 0.840 0.923 0.251 1KNNCFS 0.861 0.668 0.861 0.922 0.395 1KNN_J48WPP 0.896 0.689 0.865 0.993 0.155 5KNNALL 0.887 0.686 0.853 0.988 0.115 5KNNIG 0.891 0.788 0.877 0.967 0.311 5KNNRLF 0.881 0.693 0.850 0.98 0.123 5KNNCFS 0.889 0.810 0.879 0.958 0.359 5KNN_J48WPP 0.894 0.685 0.861 0.992 0.142 10KNNALL 0.887 0.699 0.840 0.998 0.038 10KNNIG 0.893 0.827 0.869 0.981 0.213 10KNNRLF 0.883 0.707 0.837 0.994 0.033 73 10KNNCFS 0.897 0.845 0.882 0.974 0.309 10KNNWPP 0.893 0.688 0.860 0.992 0.132 Kết chạy bộ liệu với phân lớp K-NN tập liệu thể bảng cho thấy một số tập liệu sau thực lựa chọn tḥc tính có hiệu suất nhỏ so với tập liệu gớc ban đầu Sử dụng mơ hình phân lớp KNN, đợ xác xác thực chéo 10-fold 89.7%, FMeasure 88.2% AUC 84.5% cao thử nghiệm thu chạy trình phân loại với bợ liệu với tập tḥc tính lựa chọn CFS k = 10 Độ đặc hiệu cao 39.5% đạt sử dụng tḥc tính chọn Hiệu suất phương pháp CFS với k = 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Accuracy AUC F-Measure TP Rate TN Rate Classification/Feature Subset Hình 3.9 Hiệu suất phân lớp K-NN bợ tính tập liệu Bank Marketing đợ xác Accuracy, AUC, F-Measure, TPR TNR Bảng 3.23 Ma trận nhầm lẫn cho thuật toán K-NN với k=10 tập liệu Bank Maketing sử dụng phương pháp lựa chọn tḥc tính CFS No Yes ← Classified As 3895 (TP) 105 (FN) No 360 (FP) 161 (TN) Yes Bảng 3.24 Hiệu suất cho thuật toán K-NN với k=10 tập liệu Bank Maketing sử dụng phương pháp lựa chọn tḥc tính CFS Accuracy 0.897 74 Precision* 0.880 Recall* 0.897 F-Measure* 0.882 TP Rate 0.974 TN Rate 0.309 3.5.3 Đánh giá kết thử nghiệm Sau thực thử nghiệm cách sử dụng nhiều tập liệu tất trình phân loại Bằng cách sử dụng mợt hạt giớng, đánh giá hiệu suất phân loại sở chung Tỷ lệ kết tốt cho số bộ phân loại hiển thị hàng tập liệu Bảng 3.25 Đợ xác với tham sớ tới ưu lần chạy tập liệu Bank Marketing Data Set Naïve Bayes J48 K-NN ALL 0.835 0.887 0.887 IG 0.867 0.898 0.893 RLF 0.889 0.887 0.883 CFS 0.898 0.898 0.897 WPP 0.902 0.897 0.893 Phân tích đợ xác tớt cho mơ hình phân lớp, tập liệu gớc mơ hình Nạve Bayes có đợ xác thấp mơ hình cịn lại Nhưng với tập liệu mơ hình Nạve Bayes với tập tḥc tính lựa chọn phương pháp Wrapper lại đạt giá trị tốt Qua bảng tổng hợp hiệu suất, ta kết luận mơ hình phân lớp Nạve Bayes tạo đợ xác xác thực chéo 10-fold cao phương pháp phân lớp 90.2% tập liệu lựa chọn phương pháp Wrapper, K-NN có đợ xác xác thực chéo 10-fold 89.8% tập liệu lựa chọn phương thức CFS mơ hình định J48 với đợ xác xác thực chéo 10fold 89.7% Như vậy, sử dụng tḥt tốn phân lớp Nạve Bayes bợ tính đạt hiệu cao việc giảm sớ lượng tḥc tính tạo kết tớt so với sớ tḥc tính ban đầu 75 Bảng 3.26 Kết AUC với tham số tối ưu lần chạy tập liệu Bank Marketing Data Set Naïve Bayes Cây định J48 K-NN ALL 0.831 0.747 0.699 IG 0.830 0.856 0.827 RLF 0.822 0.745 0.707 CFS 0.795 0.869 0.845 WPP 0.841 0.788 0.688 Bảng cho thấy rằng, trình phân lớp J48 tạo điểm AUC cao 86.9% bộ liệu tạo phương thức CFS, lại đạt giá trị tồi bợ liệu với tập tḥc tính lựa chọn Relief-F Wrapper Tiếp theo K-N đạt giá trị 84.5% cuối Naïve Bayes đạt giá trị 84.1% So với Naïve Bayes J48 K-NN đạt giá trị AUC chung thấp tḥt tốn phân lớp Sớ đo cuối sử dụng để kiểm tra so sánh hiệu suất phân lớp điểm số F-Measure Bảng 3.27 Kết F-Means với tham số tối ưu lần chạy tập liệu Bank Marketing Data Set Naïve Bayes Cây định J48 K-NN ALL 0.850 0.879 0.840 IG 0.871 0.886 0.869 RLF 0.874 0.860 0.837 CFS 0.886 0.893 0.882 WPP 0.895 0.881 0.860 Phân tích bảng so sánh, phân lớp J48 KNN có điểm sớ F-Measure tập tḥc tính lựa chọn phương pháp Relief-F nhỏ so với tập tḥc tính gớc ban đầu, cịn lại đạt điểm số cao Và thấy rằng, điểm số F-means đạt giá trị cao 89.5% với phương pháp phân lớp Nạve Bayes bợ liệu với tập tḥc tính chọn lựa phương thức Wrapper Tiếp theo J48 với điểm số 89.3% bộ liệu với tập 76 tḥc tính lựa chọn phương thức CFS So sánh phân tích kết cho thấy hiệu suất xác ba bợ phân lớp cải thiện sau áp dụng giảm tính cho tập liệu Bank Marketing đạt kết tớt nhât với mơ hình phân lớp Nạve Bayes tập tḥc tính đươc chọ lựa bỏi phương pháp wrapper Tuy nhiên, với bộ liệu mới, đạt hiệu cao thực phân lớp với thuật toán lại cho kết thấp thực phân lớp với thuật toán khác Tỷ lệ phần trăm độ nhạy độ đặc hiệu tất kết cao Tóm lại, chương tập trung vào trình bày so sánh các phương pháp lựa chọn tính khác đợ xác tiên đoán áp dụng cho ba thuật toán phân loại khác áp dụng chúng hai bộ liệu riêng biệt Ngoài ra, biện pháp hiệu suất khác sử dụng để đánh giá thuật toán phân loại trình bày 77 KẾT LUẬN Những kết mà luận văn đạt được: 1) So sánh đới chiếu các phương pháp lựa chọn tính khác so với tập liệu chiều cao đề cập tập liệu tham chiếu Cả hai phương pháp filter wrapper áp dụng cho bộ liệu kết chúng so sánh phân tích Đợ xác phân loại đạt theo phương pháp so sánh với phương pháp lựa chọn tính tớt tìm thấy 2) Lặp lại quy trình cách sử dụng các phương pháp phân lớp khác bao gồm Nạve Bayes, tḥt tốn J48, Hàng xóm K-gần (K-NN) 3) So sánh hiệu suất thuật toán phân lớp cách sử dụng tḥc tính tớt chọn từ thuật toán Tất các phương pháp kiểm tra xác nhận 4) Xác định thuật toán phân loại kết hợp lựa chọn tính tạo kết tớt Tóm lại, luận văn tập trung vào việc so sánh phương pháp lựa chọn tính khác tḥt tốn phân loại Nạve Bayes, J48 K-NN tập liệu liệu Lao động Ngân hàng Các nhiệm vụ thực theo ba giai đoạn quy trình CRISP-DM: Chuẩn bị liệu, Mơ hình hóa, Đánh giá Hướng nghiên cứu tiếp theo: 1) Nghiên cứu tập trung vào phương pháp lựa chọn tính phương pháp phân loại Có thể nghiên cứu thêm mợt số thuật toán khác để xác định phương án tối ưu để đạt hiệu cao 2) Nghiên cứu cài đặt tḥt tốn ngơn ngữ lập trình cụ thể, tính tốn thực nghiệm các sở liệu lớn thu thập từ thực tiễn Internet 78 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Văn Huân, Cải tiến thuật toán k-means ứng dụng phân cụm liệu tự động, Tạp chí Khoa học Cơng nghệ, 61(12/2): 102 – 106 Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, “Giáo trình khai phá liệu”, NXB Đại học Q́c gia Hà Nội , 2013 Tiếng Anh M Dash , H Liu, Department of Information Systems & Computer Science, National University of Singapore, “Feature Selection for Classification”, 1997 Jasmina NOVAKOVIĆ, Perica STRBAC, Dusan BULATOVIĆ, “Toward Optimal Feature Selection Using ranking method and classification Algorithms”, April 2009 S Dinakaran, Dr P Ranjit Jeba Thangaiah, “Role of Attribute Selection in Classification Algorithms”, International Journal of Scientific & Engineering Research, Volume 4, Issue 6, June-2013 Zdravko Markov Central Connecticut State University, Ingrid Russell, University of Hartford, “An Introduction to the WEKA Data Mining System” Dr Neeraj Bhargava, Girja Sharma, “Decision Tree Analysis on J48 Algorithm for Data Mining”, International Journal of Advanced Research in Computer Science and Software Engineering, Volume 3, Issue 6, June 2013 Tajunisha and Saravanan ,“An efficient method to improve the clustering performance for high dimensional data by Principal Component Analysis and modified K-means”, International Journal of Database Management Systems, Vol.3, No.1, February 2011 Jason D M Rennie, Lawrence Shih, Jaime Teeva, David R Karger, “Tackling the Poor Assumptions of Naive Bayes Text Classifiers”, Artificial Intelligence Laboratory; Massachusetts Institute of Technology; Cambridge, MA 02139 79 10 Kai Yu, Liang Ji, Xuegong Zhang (2002), “Kernel Nearest-Neighbor Algorithm”, Neural Processing Letters, 15 (2), pp.147-156 11 Viktoriya Krakovna, Jiong Du, Jun S Liu (2015), “ Selection Bayesian Forest Classifier : Simultaneous Variable Selection and Classification” arXiv:1506.02371v1 [start.ML] Jun 2015 12 R Kohavi, G.H John, “Wrappers for Feature Subset Selection”, Artificial Intelligence Vol 97 (1997) 13 Huazhen Wang, Cheng Wang∗ , Bing Lv, Xiaoming Pan (2015), “Improved Variable Importance Measure of Random Forest via Combining of Proximity Measure and Support Vector Machine for Stable Feature Selection” Journal ... cho toán phân lớp 28 1.6 Kết luận chương 29 CHƯƠNG 2: KỸ THUẬT CHỌN THUỘC TÍNH CHO CÁC THUẬT TOÁN PHÂN LỚP .30 2.1 Các tiếp cận chọn tḥc tính cho tốn phân lớp. .. tḥc vào phân lớp Có nhiều toán phân lớp liệu phân lớp nhị phân (binary), phân lớp đa lớp (multiclass), phân lớp đa trị Bài toán phân lớp nhị phân toán gán nhãn liệu cho đối tượng vào hai lớp khác... QUAN VỀ BÀI TOÁN PHÂN LỚP Phần giới thiệu tổng qua khai phá liệu, phân lớp liệu, thuật toán phân lớp liệu thách thức tốn phân lớp Chương II: LỰA CHỌN THUỘC TÍNH CHO CÁC THUẬT TOÁN PHÂN LỚP Phần

Định dạng
Số trang	79
Dung lượng	1,72 MB