1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu kỹ thuật chọn thuộc tính cho các thuật toán phân lớp

79 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 79
Dung lượng 1,72 MB

Nội dung

1 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH TRẦN THỊ XUÂN HƯƠNG LUẬN VĂN THẠC SĨ Chuyên ngành: CÔNG NGHỆ THÔNG TIN Mã ngành: 60.48.02.01 ĐỀ TÀI NGHIÊN CỨU KỸ THUẬT CHỌN THUỘC TÍNH CHO CÁC THUẬT TOÁN PHÂN LỚP Người hướng dẫn: TS Phan Anh Phong Vinh, tháng 07/2018 MỤC LỤC MỞ ĐẦU .5 DANH MỤC BẢNG DANH MỤC HÌNH CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP 10 1.1 Khai phá liệu .10 1.2 Phân lớp liệu .12 1.2.1 Bài toán phân lớp 12 1.2.2 Quá trình phân lớp liệu 13 1.3 Một số thuật toán phân lớp liệu 14 1.3.1 Thuật toán phân lớp Navie Bayes 15 1.3.2 Thuật toán phân lớp J48 18 1.3.3 Thuật toán phân lớp KNN 20 1.4 Đợ đo hiệu cho các tḥt tốn phân lớp 23 1.4.1 Ma trận nhầm lẫn 23 1.4.2 Đợ xác phân lớp 24 1.4.3 Độ đo F 24 1.4.4 Độ nhạy độ đặc tả 25 1.4.5 Đường cong ROC 25 1.4.6 Giá trị AUC 27 1.4.7 Hệ số Gini .27 1.5 Các thách thức cho toán phân lớp 28 1.6 Kết luận chương 29 CHƯƠNG 2: KỸ THUẬT CHỌN THUỘC TÍNH CHO CÁC THUẬT TỐN PHÂN LỚP .30 2.1 Các tiếp cận chọn tḥc tính cho tốn phân lớp 30 2.1.1 Mơ hình Filter (mơ hình đợc lập) 31 2.1.2 Mơ hình Wrapper (mơ hình kết hợp) .32 2.1.3 So sánh mơ hình Filter mơ hình Wrapper 34 2.2 Chọn tḥc tính theo mơ hình đợc lập 34 2.2.1 Một số độ đo thông tin 34 2.2.2 Các bước lựa chọn tḥc tính 37 2.2.3 Kỹ thuật sử dụng độ lợi thông tin 39 2.2.4 Kỹ thuật sử dụng đo sự tương quan 40 2.2.5 Thuật toán Relief-F .41 2.3 Kết luận chương 42 CHƯƠNG 3: THỬ NGHIỆM 43 3.1 Tổng quan WEKA 43 3.1.1 Giới thiệu WEKA 43 3.1.2 Dữ liệu WEKA 45 3.2 Các bộ liệu thử nghiệm .46 3.2.1 Bộ liệu Labor .46 3.2.2 Bộ liệu Bank Marketing 47 3.3 Phương pháp thử nghiệm .48 3.4 Kết thử nghiệm với bộ liệu Labor 49 3.4.1 Các tḥc tính chọn theo đợ lợi thông tin 49 3.4.2 Các tḥc tính tính chọn theo Relief-F 51 3.4.3 Các tḥc tính chọn dựa sự tương quan 52 3.4.4 Các tḥc tính chọn dựa theo Wrapper 53 3.4.5 Kết phân lớp với tḥt tốn Nạve Bayes 54 3.4.6 Kết phân lớp với thuật toán thuật toán định J48 .58 3.4.7 Kết phân lớp sử dụng thuật toán K-NN 61 3.4.8 Đánh giá kết thử nghiệm 63 3.5 Kết thử nghiệm với bộ liệu Bank Marketing 66 3.5.1 Các tḥc tính chọn .66 3.5.2 Đánh giá hiệu suất phân lớp 69 3.5.3 Đánh giá kết thử nghiệm 74 KẾT LUẬN .77 TÀI LIỆU THAM KHẢO 78 LỜI CÁM ƠN Trước tiên, em xin chân thành cám ơn thầy giáo TS Phan Anh Phong tận tình bảo, giúp đỡ, hướng dẫn em thời gian qua Em xin bày tỏ lịng biết ơn tới thầy giáo Viện Kỹ tḥt Cơng nghệ nói riêng trường Đại học Vinh nói chung cung cấp cho em kiến thức quý báu trình học tập, nghiên cứu trường Em xin cám ơn gia đình, bạn bè người thân yêu cổ vũ, động viên, quan tâm, giúp đỡ em vượt qua khó khăn suốt thời gian học tập làm luận văn Do kiến thức thời gian nghiên cứu có hạn nên ḷn văn khơng tránh khỏi nhiều sai sót định Em mong nhận sự góp ý q báu thầy bạn bè Vinh, tháng năm 2018 Học viên Trầ Thị Xuân Hương MỞ ĐẦU Khoa học kỹ thuật ngày phát triển, với sự phát triển khơng ngừng liệu kích thước chủng loại Nhiệm vụ khai phá liệu nói chung nghiên cứu thuật toán phân lớp nói riêng trở nên ngày bức thiết đóng vai trò trung tâm việc giải toán cụ thể Vấn đề xử lý liệu lớn ngày trở thành vấn đề cấp thiết đóng vai trò chủ đạo việc giải toán thực tế Thực tế cho thấy, tìm mợt sớ tḥt tốn phù hợp với một số loại liệu cụ thể bị giới hạn kích thước liệu Kết tḥt tốn phụ tḥc nhiều vào việc xử lý liệu thô Trong khai phá liệu, phương pháp trích chọn đóng vai trị quan trọng tiền xử lý số liệu, đặc biệt đối với ngành tin sinh học, xử lý liệu âm thanh, hình ảnh, liệu mạng xã hội Đặc điểm chung lĩnh vực kích thước lớn (hàng trăm, hàng trăm nghìn tḥc tính) mợt sớ tḥc tính có giá trị dùng để phân tích Phần lớn thuật toán phân lớp phát triển giải với mợt lượng sớ liệu giới hạn với một độ phức tạp liệu biết trước Trong lượng liệu mà thu thập ngày trở nên phong phú đa dạng nhờ sự phát triển mạnh mẽ khoa học kỹ thuật Mặc dù nhiều kỹ thuật khai phá liệu dựa một số tảng lý thuyết khác phát triển ứng dụng từ lâu, thực tế cho thấy kết phụ tḥc nhiều vào đặc tính liệu khả xử lý liệu thô nhóm nghiên cứu Mợt điều hiển nhiên với phương pháp đáp ứng xử lý tốt một vài liệu ứng dụng cụ thể Trong khai phá liệu phương pháp trích chọn đóng mợt vai trị quan trọng tiền xử lý số liệu Hướng tiếp cận làm tăng hiệu thu nhận tri thức các ngành tin sinh, xử lý liệu web, xử lý tiếng nói, hình ảnh với đặc tính có nhiều tḥc tích (vài trăm vài trăm ngàn tḥc tính) thường có mợt sớ lượng tương đối nhỏ mẫu dùng để huấn luyện (thường vài trăm) Phương pháp trích chọn giúp giảm kích cỡ khơng gian liệu, loại bỏ tḥc tính khơng liên quan tḥc tính nhiễu không ảnh hưởng đến chất lượng toán phân lớp Những năm trở lại đây, nhu cầu giảm chiều số liệu ngày cao nên có nhiều nghiên cứu lựa chọn tḥc tính, lĩnh vực phát triển mạnh mẽ chiều rộng lẫn chiều sâu Bố cục luận văn: Ngồi các phần Mở đầu, Mục lục, Danh mụa hình, Danh mục bảng, Kết luận, Tài liệu tham khảo, luận văn chia làm chương: Chương I: TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP Phần giới thiệu tổng qua khai phá liệu, phân lớp liệu, thuật toán phân lớp liệu thách thức toán phân lớp Chương II: LỰA CHỌN THUỘC TÍNH CHO CÁC THUẬT TỐN PHÂN LỚP Phần giới thiệu cách tiếp cận toán phân lớp, lựa chọn tḥc tính theo các mơ hình Đặc biệt trình bày chi tiết đợ đo thơng tin, các bước lựa chọn tḥc tính, kỹ tḥt sử dụng độ đo Chương III: THỬ NGHIỆM Chương trình bày các bước thử nghiệm, tổng hợp kết đánh giá hiệu mơ hình phân lớp DANH MỤC BẢNG Bảng 1.1 Cở sở liệu Thời tiết 17 Bảng 1.2 Cở sở liệu Phim 22 Bảng 1.3 Ma trận nhầm lẫn 24 Bảng 1.4 Ví dụ ma trận nhầm lẫn lẫn cho Mơ hình phân lớp nhị phân 28 Bảng 2.1 Cơ sở liệu khả Mua máy tính 35 Bảng 3.1 Tập tḥc tính bợ liệu Labor 46 Bảng 3.2 Tập tḥc tính bợ liệu Bank Marketing .47 Bảng 3.3 So sánh hiệu suất phân lớp với thuật toán Naiver Bayes tập liệu Labor 56 Bảng 3.4 Ma trận nhầm lẫn cho tḥt tốn Nạve Bayes tập liệu Labor sử dụng phương pháp wrapper .57 Bảng 3.5 Các hiệu suất cho tḥt tốn Nạve Bayes tập liệu Labor sử dụng phương pháp wrapper 57 Bảng 3.6 Bảng so sánh hiệu suất cho thuật toán phân lớp J48 tập liệu Labor 60 Bảng 3.7 Ma trận nhầm lẫn cho thuật toán J48 tập liệu Labor sử dụng phương pháp wrapper 61 Bảng 3.8 Các hiệu suất cho thuật toán J48 tập liệu Labor sử dụng phương pháp wrapper .61 Bảng 3.9 Bảng so sánh hiệu suất cho thuật toán phân lớp K-NN tập liệu Labor 61 Bảng 3.10 Ma trận lẫn lợn cho K-NN hàng xóm gần sử dụng k = 1cho tập liệu Labor 63 Bảng 3.11 Hiệu suất phân lớp KNN cách sử dụng k = 1cho tập liệu Labor 63 Bảng 3.12 Đợ xác với tham sớ tới ưu lần chạy tập liệu Labor 64 Bảng 3.13 Kết AUC với tham số tối ưu lần chạy tập liệu Labor 64 Bảng 3.14 Kết F-Means với tham số tối ưu lần chạy tập liệu Labor .65 Bảng 3.15 Các thuộc tính chọn lựa Wrapper tập liệu banhk Marketing 68 Bảng 3.16 Kết phân lớp với Naïve Bayes cho tập liệu Bank Marketing .69 Bảng 3.17 Ma trận nhầm lẫn cho tḥt tốn Nạve Bayes tập liệu Bank sử dụng phương pháp Wrapper 70 Bảng 3.18 Hiệu suất cho tḥt tốn Nạve Bayes tập liệu Bank sử dụng phương pháp Wrapper .70 Bảng 3.19 Kết phân lớp với J48 cho tập liệu Bank Marketing 70 Bảng 3.20 Ma trận nhầm lẫn cho thuật toán J48 tập liệu Bank Marketing sử dụng phương pháp CFS 71 Bảng 3.21 Các biện pháp hiệu suất cho thuật toán J48 tập liệu Bank Marketing sử dụng phương pháp CFS 72 Bảng 3.22 Kết hiệu suất phân lớp cho thuật toán phân lớp K-NN tập liệu Bank Marketing 72 Bảng 3.23 Ma trận nhầm lẫn cho thuật toán K-NN với k=10 tập liệu Bank Maketing sử dụng phương pháp lựa chọn tḥc tính CFS .73 Bảng 3.24 Hiệu suất cho thuật toán K-NN với k=10 tập liệu Bank Maketing sử dụng phương pháp lựa chọn tḥc tính CFS 73 Bảng 3.25 Đợ xác với tham số tối ưu lần chạy tập liệu Bank Marketing 74 Bảng 3.26 Kết AUC với tham số tối ưu lần chạy tập liệu Bank Marketing 75 Bảng 3.27 Kết F-Means với tham số tối ưu lần chạy tập liệu Bank Marketing 75 DANH MỤC HÌNH Hình 1.1 Tập liệu phân thành lớp: bi vàng bi xanh .12 Hình 1.2 Tập liệu phân thành cụm 12 Hình 1.3 Liệu bi thêm vào tḥc lớp bi vàng hay lớp bi xanh .13 Hình 1.4 K-Nearest Neighbor với k = 20 Hình 1.5 Receiver Operating Characteristic (ROC) các điểm cong 26 Hình 1.6 Đường cong Receiver Operating Characteristic (ROC) 27 Hình 1.7 Vùng đường cong(AUC) Receiver Operating Characteristic 27 Hình 2.1 Mơ hình lọc Filter 31 Hình 2.2 Mơ hình lọc Wrapper 32 Hình 2.3 Quy trình lựa chọn tḥc tính 38 Hình 3.1 Giao diện Weka 44 Hình 3.2 Weka Explorer 44 Hình 3.3 Quy trình thử nghiệm 49 Hình 3.4 Hiệu suất phân lớp Nạve Bayes bợ tính tập liệu Labor đợ xác Accuracy, AUC, F-Measure, TPR TNR 57 Hình 3.5 Hiệu suất phân lớp J48 bộ tính tập liệu Labor đợ xác Accuracy, AUC, F-Measure, TPR TNR 61 Hình3.6 Hiệu suất phân lớp K-NN bợ tính tập liệu Labor 63 Hình 3.7 Hiệu suất phân lớp Nạve Bayes bợ tính tập liệu Bank Marketing độ Accuracy, AUC, F-Measure, TPR TNR 70 Hình 3.8 Hiệu suất phân loại J48 bợ tính tập liệu Bank Marketing đợ xác Accuracy, AUC, F-Meas, TPR TNR 71 Hình 3.9 Hiệu suất phân lớp K-NN bợ tính tập liệu Bank Marketing đợ xác Accuracy, AUC, F-Measure, TPR TNR 73 10 CHƯƠNG 1: TỔNG QUAN VỀ BÀI TOÁN PHÂN LỚP Ngày nay, với sự phát triển mạnh mẽ ngành khoa học kĩ thuật, sự tích lũy liệu thực tế không ngừng tăng lên, lượng thông tin cần thiết phải lưu trữ thiết bị điện tử ngày nhiều Bên cạnh đó, việc tin học hóa mặt hoạt đợng sản xuất, kinh doanh các lĩnh vực khác đời sống tạo một lượng liệu cần lưu trữ khổng lồ Sớ lượng kích thước ghi ngày lớn gây khó khăn cho việc lưu trữ xử lí nên vấn đề xử lí liệu ngày bức thiết Vì vậy, việc khai phá liệu có phân lớp liệu mới quan tâm hàng đầu vấn đề xử lí liệu 1.1 Khai phá liệu Khai phá liệu một khái niệm bắt đầu xuất từ cuối năm 80 kỷ XX Nó bao hàm mợt loạt kỹ tḥt nhằm phát thơng tin có giá trị tiềm ẩn tập liệu lớn.Về chất, khai phá liệu liên quan đến việc phân tích liệu sử dụng kỹ thuật để tìm mẫu hình có tính quy tập liệu Năm 1989, các nhà nghiên cứu Fayyad, PiatestskyShapiro Smyth dùng khái niệm Phát tri thức sở liệu (Kownledge Discovery in Database – KDD) để tồn bợ q trình phát tri thức có ích từ tập liệu lớn Trong đó, khai phá liệu mợt bước thực tồn bợ q trình, cách sử dụng giải thuật đặc biệt để chiết xuất mẫu hay mơ hình từ liệu thu thập Khai phá liệu chủ yếu tập trung vào nhiệm vụ sau: Giảm chiều liệu: Giảm chiều liệu việc làm giảm chiều khơng gian tìm kiếm liệu, giảm chi phí thu thập lưu trữ liệu, nâng cao hiệu việc khai phá liệu làm đơn giản hóa kết khai phá liệu Trong nhiệm vụ làm giảm chiều liệu cần xem xét hai khái niệm sau: + Trích chọn thuộc tính (Feature Extraction): Trích chọn tḥc tính việc tìm mợt tập tḥc tính từ tập tḥc tính ban đầu nhằm nâng cao hiệu suất tính tốn đợ xác phân lớp Các kỹ tḥt trích chọn tḥc tính thường liên quan đến phép biến đổi phi tuyến (non-linear) Linear discriminant analysis (LDA) 65 CFS 0.984 0.871 0.859 WPP 0.871 0.844 0.871 Bảng cho thấy rằng, giá trị AUC một số tập liệu sau rút gọn tḥc tính nhỏ so với tập liệu gốc ban đầu thực phân lớp với mơ hình J48 KNN Tuy nhiên, mợt lần trình phân lớp Nạve Bayes tạo điểm AUC cao 98.8% tập liệu với tập tḥc tính tạo Information Gain Tiếp theo K-NN với AUC=87.6% J48 87.1% So sánh hiệu suất phân lớp thuật toán thực tất tập liệu thấy tḥt tốn Naiver Bayes có hiệu suất phân lớp tất nhất, điểm AUC cao nhiều so với tḥt tốn cịn lại Biện pháp cuối để so sánh hiệu suất phân lớp sử dụng điểm số FMeasure Bảng 3.14 Kết F-Means với tham số tối ưu lần chạy tập liệu Labor Data Set Naïve Bayes J48 K-NN ALL 0.841 0.858 0.858 IG 0.912 0.858 0.858 RLF 0.893 0.858 0.895 CFS 0.929 0.875 0.875 WPP 0.946 0.909 0.909 Quan sát bảng tổng hợp điểm số F-Measure trên, điểm số F-Measure tập liệu gốc mơ hình Nạve Bayes Nhưng so sánh tập liệu gốc với tập điểm sớ mơ hình J48 tập tḥc tính chọn lựa Information Gain Relief-F mơ hình KNN với tḥc tính chọn lựa Information Gain không cải thiện Một lần thấy rằng, điểm số F-Measure đạt giá trị cao 94.6% với phương pháp phân lớp Naïve Bayes tập liệu tạo phương 66 pháp Wrapper, J48 KNN đạt giá trị 90.9% So sánh điểm số F-measure tḥt tốn phân lớp điểm sớ F-Measure tḥt tốn Nạve Bayes tớt tất tập liệu Như vậy, việc giảm sớ tḥc tính tập liệu Labor đạt hiệu cao so với tập liệu gốc ban đầu đạt hiệu cao với tḥt tốn phân lớp Nạve Bayes So sánh phân tích kết cho thấy hiệu suất xác ba bộ phân lớp cải thiện nhiều sau áp dụng giảm tính cho tập liệu Lao động Điều đặc biệt trường hợp bợ phân lớp Nạve Bayes Trong trường hợp phân loại định J48, thấy việc giảm tập hợp tính khơng phải lúc hoạt động tốt cách sử dụng tất các tính Điều tḥt tốn định tự thực một số loại giảm liệu trình xây dựng Tỷ lệ phần trăm độ nhạy độ đặc hiệu tất kết hầu hết cao 3.5 Kết thử nghiệm với bộ liệu Bank Marketing 3.5.1 Các tḥc tính chọn a Information Gain Với phương pháp này, ta chọn lựa ngưỡng để loại bỏ tḥc tính 0.007 ta có kết sau: 0.10812 41 duration 0.03553 43 pdays 0.03393 48 poutcome=success 0.01633 26 contact=unknown 0.01623 44 previous 0.01623 45 poutcome=unknown 0.01103 25 contact=cellular 0.00985 29 month=oct 0.00972 age 0.00822 30 month=may 0.00783 23 housing=yes 67 Như vậy, có 11 tḥc tính có sớ Information Gain cao lựa chọn Trong tḥc tính “duration” có giá trị cao 0.1082 cao gấp lần so với thuộc tính xếp sau Tập tḥc tính chọn lựa xếp theo thứ tự quan trọng giảm dần b Relief_F Với phương pháp này, chọn ngưỡng 0.05 để lựa chọn tḥc tính cho tập liệu Kết chạy phương pháp làm giảm tính Relief-F thu tập tḥc tính từ phương pháp 0.0869 41 duration 0.0811 job=blue-collar 0.0726 30 month=may 0.0618 job=technician 0.0604 25 contact=cellular 0.0602 14 marital=married 0.0593 28 day 0.0583 18 education=secondary 0.054 23 housing=yes 0.0523 26 contact=unknown 0.0518 36 month=jul 0.0505 15 marital=single Như vậy với phương pháp này, có 12 tḥc tính xếp hạng hàng đầu tập liệu chọn lựa Mợt lần tḥc tính “duration” có giá trị 0.869 xếp hạng cao giống với phương pháp sử dụng Information Gain Giá trị tḥc tính trước khơng lớn nhiều so với tḥc tính kề sau c Lựa chọn tính dựa vào sự tương quan CFS Phương pháp lựa chọn tính kiểu filter cuối sử dụng cho tập liệu ngân hàng CFS Phương pháp tìm kiếm sử dụng thử nghiệm "Greedy Stepwise (forwards)" bắt đầu tìm kiếm khơng có tḥc tính 68 tìm kiếm Tập tḥc tính lựa chọn phương pháp CFS marital=married balance loan=yes contact=unknown month=oct month=mar duration poutcome=success Với phương pháp này, có tḥc tính chọn lựa tổng sớ 49 tḥc tính, kết có sự khác biệt so với phương pháp chọn lựa tḥc tính d Wrapper Phương pháp wrapper chạy lần, một lần cho thuật toán phân loại sử dụng nghiên cứu Naïve Bayes, J48 K-NN với k = Kết tổng hợp sau: Bảng 3.15 Các tḥc tính chọn lựa Wrapper tập liệu banhk Marketing Naïve Bayes J48 K-NN job=unemployed job=student job=technician education=unknown marital=married loan=yes month=oct education=tertiary contact=unknown month=jan default=yes month=may month=jul month=oct month=aug duration month=may month=nov poutcome=unknown month=jun poutcome=unknown poutcome=success month=aug poutcome=success month=jul duration poutcome=success 69 3.5.2 Đánh giá hiệu suất phân lớp Sau kết thúc trình lựa chọn tính năng, chúng tơi thu tập liệu để so sánh kiểm tra cho thuật toán phân lớp Các tập tḥc tính chọn sau: - Domain_ALL - Tập liệu với tất tḥc tính - DomainName_IG - Tập liệu chọn phương thức Information Gain DomainName_RLF - Tập liệu chứa tḥc tính chọn phương pháp Relief-F - DomainName_CFS - Tập liệu chứa tḥc tính chọn CFS - DomainName_WRP - Tập liệu bao gồm tḥc tính chọn phương pháp Wrapper Sử dụng phần mềm WEKA, thực thao tác tập liệu Bank Marketing giống với tập liệu Labor để so sánh hiệu suất a Sử dụng tḥt tốn Nạve Bayes: Bảng 3.16 Kết phân lớp với Naïve Bayes cho tập liệu Bank Marketing Data Set Accuracy AUC F-Measure TP Rate TN Rate NBALL 0.835 0.831 0.850 0.868 0.582 NBIG 0.867 0.830 0.871 0.917 0.488 NBRLF 0.889 0.822 0.874 0.966 0.294 NBCFS 0.898 0.795 0.886 0.969 0.351 NBWPP 0.902 0.841 0.895 0.963 0.436 Dựa vào bảng so sánh hiệu suất ta thấy rằng, việc giảm tính đặt tập liệu cải thiện đợ xác (Accuracy), AUC điểm số F-Measure so với việc sử dụng tất tḥc tính tập liệu ban đầu mơ hình phân lớp Bằng cách thực phương pháp lựa chọn tính dựa phương thức wrapper, tăng đợ xác từ 83.5% lên 90.2%, điểm số F-Measure từ 85% lên 89.5%, điểm số AUC từ 83.1% lên 84.1% Với xác nhận chéo 10-fold đợ xác 90.2% phương pháp lựa chọn tính dựa phương pháp wrapper 70 tạo đợ xác, F-Measure, AUC cao thử nghiệm Hiệu suất 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Accurac y AUC FMeasure Classification/Feature Subset Hình 3.7 Hiệu suất phân lớp Nạve Bayes bợ tính tập liệu Bank Marketing đợ Accuracy, AUC, F-Measure, TPR TNR Bảng 3.17 Ma trận nhầm lẫn cho tḥt tốn Nạve Bayes tập liệu Bank sử dụng phương pháp Wrapper No Yes ← Classified As 3850 (TP) 150 (FN) No 294 (FP) 227 (TN) Yes Bảng 3.18 Hiệu suất cho tḥt tốn Nạve Bayes tập liệu Bank sử dụng phương pháp Wrapper (*: lấy giá trị trung bình) Accuracy 0.902 Precision* 0.891 Recall* 0.902 F-Measure* 0.895 TP Rate 0.963 TN Rate 0.436 b Sử dụng thuật toán J48: Bảng 3.19 Kết phân lớp với J48 cho tập liệu Bank Marketing Data Set Accuracy AUC F-Measure TP Rate TN Rate J48ALL 0.887 0.747 0.879 0.955 0.369 J48IG 0.898 0.856 0.886 0.973 0.334 71 J48RLF 0.887 0.745 0.860 0.981 0.165 J48CFS 0.898 0.869 0.893 0.955 0.459 J48WPP 0.897 0.788 0.881 0.975 0.296 Dựa kết bảng trên, kết ḷn việc giảm tḥc tính khơng phải lúc làm tăng hiệu suất phân lớp so với tập liệu ban đầu Mơ hình phân lớp J48 có hiệu suất cao với tập tḥc tính bợ liệu lựa chọn phương pháp CFS Với phương pháp này, đợ xác đạt giá trị cao sử dụng phương pháp lựa chọn tḥc tính CFS 89.8%, AUC tớt 86.9% F-Measure 89.3% Quá trình phân lớp thực các phương thức chọn thuộc tính IG, CFS, Relief-F, wrapper sử dụng Hình 3.8 cho thấy hiệu suất tập liệu khác sử dụng thử nghiệm Hiệu suất 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 Accuracy AUC F-Measure TP Rate TN Rate Classification/Feature Subset Hình 3.8 Hiệu suất phân loại J48 bộ tính tập liệu Bank Marketing đợ xác Accuracy, AUC, F-Meas, TPR TNR Bảng 3.20 Ma trận nhầm lẫn cho thuật toán J48 tập liệu Bank Marketing sử dụng phương pháp CFS No Yes ← Classified As 3877 (TP) 123 (FN) No 338 (FP) 183 (TN) Yes 72 Bảng 3.21 Các biện pháp hiệu suất cho thuật toán J48 tập liệu Bank Marketing sử dụng phương pháp CFS Accuracy 0.898 Precision* 0.883 Recall* 0.896 F-Measure* 0.883 TP Rate 0.955 TN Rate 0.459 c Sử dụng tḥt tốn K-NN: Đới với tḥt toán K-NN, ta thực phép thử nghiệm cách sử dụng giá trị k=1,k=5 k=10 cho tập liệu Kết hiển thị bảng sau Bảng 3.22 Kết hiệu suất phân lớp cho thuật toán phân lớp K-NN tập liệu Bank Marketing Data Set Accuracy AUC F-Measure TP Rate TN Rate 1KNNALL 0.861 0.600 0.851 0.939 0.257 1KNNIG 0.861 0.654 0.860 0.925 0.370 1KNNRLF 0.846 0.591 0.840 0.923 0.251 1KNNCFS 0.861 0.668 0.861 0.922 0.395 1KNN_J48WPP 0.896 0.689 0.865 0.993 0.155 5KNNALL 0.887 0.686 0.853 0.988 0.115 5KNNIG 0.891 0.788 0.877 0.967 0.311 5KNNRLF 0.881 0.693 0.850 0.98 0.123 5KNNCFS 0.889 0.810 0.879 0.958 0.359 5KNN_J48WPP 0.894 0.685 0.861 0.992 0.142 10KNNALL 0.887 0.699 0.840 0.998 0.038 10KNNIG 0.893 0.827 0.869 0.981 0.213 10KNNRLF 0.883 0.707 0.837 0.994 0.033 73 10KNNCFS 0.897 0.845 0.882 0.974 0.309 10KNNWPP 0.893 0.688 0.860 0.992 0.132 Kết chạy bộ liệu với phân lớp K-NN tập liệu thể bảng cho thấy một số tập liệu sau thực lựa chọn tḥc tính có hiệu suất nhỏ so với tập liệu gớc ban đầu Sử dụng mơ hình phân lớp KNN, đợ xác xác thực chéo 10-fold 89.7%, FMeasure 88.2% AUC 84.5% cao thử nghiệm thu chạy trình phân loại với bợ liệu với tập tḥc tính lựa chọn CFS k = 10 Độ đặc hiệu cao 39.5% đạt sử dụng tḥc tính chọn Hiệu suất phương pháp CFS với k = 1.0 0.9 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0.0 Accuracy AUC F-Measure TP Rate TN Rate Classification/Feature Subset Hình 3.9 Hiệu suất phân lớp K-NN bợ tính tập liệu Bank Marketing đợ xác Accuracy, AUC, F-Measure, TPR TNR Bảng 3.23 Ma trận nhầm lẫn cho thuật toán K-NN với k=10 tập liệu Bank Maketing sử dụng phương pháp lựa chọn tḥc tính CFS No Yes ← Classified As 3895 (TP) 105 (FN) No 360 (FP) 161 (TN) Yes Bảng 3.24 Hiệu suất cho thuật toán K-NN với k=10 tập liệu Bank Maketing sử dụng phương pháp lựa chọn tḥc tính CFS Accuracy 0.897 74 Precision* 0.880 Recall* 0.897 F-Measure* 0.882 TP Rate 0.974 TN Rate 0.309 3.5.3 Đánh giá kết thử nghiệm Sau thực thử nghiệm cách sử dụng nhiều tập liệu tất trình phân loại Bằng cách sử dụng mợt hạt giớng, đánh giá hiệu suất phân loại sở chung Tỷ lệ kết tốt cho số bộ phân loại hiển thị hàng tập liệu Bảng 3.25 Đợ xác với tham sớ tới ưu lần chạy tập liệu Bank Marketing Data Set Naïve Bayes J48 K-NN ALL 0.835 0.887 0.887 IG 0.867 0.898 0.893 RLF 0.889 0.887 0.883 CFS 0.898 0.898 0.897 WPP 0.902 0.897 0.893 Phân tích đợ xác tớt cho mơ hình phân lớp, tập liệu gớc mơ hình Nạve Bayes có đợ xác thấp mơ hình cịn lại Nhưng với tập liệu mơ hình Nạve Bayes với tập tḥc tính lựa chọn phương pháp Wrapper lại đạt giá trị tốt Qua bảng tổng hợp hiệu suất, ta kết luận mơ hình phân lớp Nạve Bayes tạo đợ xác xác thực chéo 10-fold cao phương pháp phân lớp 90.2% tập liệu lựa chọn phương pháp Wrapper, K-NN có đợ xác xác thực chéo 10-fold 89.8% tập liệu lựa chọn phương thức CFS mơ hình định J48 với đợ xác xác thực chéo 10fold 89.7% Như vậy, sử dụng tḥt tốn phân lớp Nạve Bayes bợ tính đạt hiệu cao việc giảm sớ lượng tḥc tính tạo kết tớt so với sớ tḥc tính ban đầu 75 Bảng 3.26 Kết AUC với tham số tối ưu lần chạy tập liệu Bank Marketing Data Set Naïve Bayes Cây định J48 K-NN ALL 0.831 0.747 0.699 IG 0.830 0.856 0.827 RLF 0.822 0.745 0.707 CFS 0.795 0.869 0.845 WPP 0.841 0.788 0.688 Bảng cho thấy rằng, trình phân lớp J48 tạo điểm AUC cao 86.9% bộ liệu tạo phương thức CFS, lại đạt giá trị tồi bợ liệu với tập tḥc tính lựa chọn Relief-F Wrapper Tiếp theo K-N đạt giá trị 84.5% cuối Naïve Bayes đạt giá trị 84.1% So với Naïve Bayes J48 K-NN đạt giá trị AUC chung thấp tḥt tốn phân lớp Sớ đo cuối sử dụng để kiểm tra so sánh hiệu suất phân lớp điểm số F-Measure Bảng 3.27 Kết F-Means với tham số tối ưu lần chạy tập liệu Bank Marketing Data Set Naïve Bayes Cây định J48 K-NN ALL 0.850 0.879 0.840 IG 0.871 0.886 0.869 RLF 0.874 0.860 0.837 CFS 0.886 0.893 0.882 WPP 0.895 0.881 0.860 Phân tích bảng so sánh, phân lớp J48 KNN có điểm sớ F-Measure tập tḥc tính lựa chọn phương pháp Relief-F nhỏ so với tập tḥc tính gớc ban đầu, cịn lại đạt điểm số cao Và thấy rằng, điểm số F-means đạt giá trị cao 89.5% với phương pháp phân lớp Nạve Bayes bợ liệu với tập tḥc tính chọn lựa phương thức Wrapper Tiếp theo J48 với điểm số 89.3% bộ liệu với tập 76 tḥc tính lựa chọn phương thức CFS So sánh phân tích kết cho thấy hiệu suất xác ba bợ phân lớp cải thiện sau áp dụng giảm tính cho tập liệu Bank Marketing đạt kết tớt nhât với mơ hình phân lớp Nạve Bayes tập tḥc tính đươc chọ lựa bỏi phương pháp wrapper Tuy nhiên, với bộ liệu mới, đạt hiệu cao thực phân lớp với thuật toán lại cho kết thấp thực phân lớp với thuật toán khác Tỷ lệ phần trăm độ nhạy độ đặc hiệu tất kết cao Tóm lại, chương tập trung vào trình bày so sánh các phương pháp lựa chọn tính khác đợ xác tiên đoán áp dụng cho ba thuật toán phân loại khác áp dụng chúng hai bộ liệu riêng biệt Ngoài ra, biện pháp hiệu suất khác sử dụng để đánh giá thuật toán phân loại trình bày 77 KẾT LUẬN Những kết mà luận văn đạt được: 1) So sánh đới chiếu các phương pháp lựa chọn tính khác so với tập liệu chiều cao đề cập tập liệu tham chiếu Cả hai phương pháp filter wrapper áp dụng cho bộ liệu kết chúng so sánh phân tích Đợ xác phân loại đạt theo phương pháp so sánh với phương pháp lựa chọn tính tớt tìm thấy 2) Lặp lại quy trình cách sử dụng các phương pháp phân lớp khác bao gồm Nạve Bayes, tḥt tốn J48, Hàng xóm K-gần (K-NN) 3) So sánh hiệu suất thuật toán phân lớp cách sử dụng tḥc tính tớt chọn từ thuật toán Tất các phương pháp kiểm tra xác nhận 4) Xác định thuật toán phân loại kết hợp lựa chọn tính tạo kết tớt Tóm lại, luận văn tập trung vào việc so sánh phương pháp lựa chọn tính khác tḥt tốn phân loại Nạve Bayes, J48 K-NN tập liệu liệu Lao động Ngân hàng Các nhiệm vụ thực theo ba giai đoạn quy trình CRISP-DM: Chuẩn bị liệu, Mơ hình hóa, Đánh giá Hướng nghiên cứu tiếp theo: 1) Nghiên cứu tập trung vào phương pháp lựa chọn tính phương pháp phân loại Có thể nghiên cứu thêm mợt số thuật toán khác để xác định phương án tối ưu để đạt hiệu cao 2) Nghiên cứu cài đặt tḥt tốn ngơn ngữ lập trình cụ thể, tính tốn thực nghiệm các sở liệu lớn thu thập từ thực tiễn Internet 78 TÀI LIỆU THAM KHẢO Tiếng Việt Nguyễn Văn Huân, Cải tiến thuật toán k-means ứng dụng phân cụm liệu tự động, Tạp chí Khoa học Cơng nghệ, 61(12/2): 102 – 106 Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, “Giáo trình khai phá liệu”, NXB Đại học Q́c gia Hà Nội , 2013 Tiếng Anh M Dash , H Liu, Department of Information Systems & Computer Science, National University of Singapore, “Feature Selection for Classification”, 1997 Jasmina NOVAKOVIĆ, Perica STRBAC, Dusan BULATOVIĆ, “Toward Optimal Feature Selection Using ranking method and classification Algorithms”, April 2009 S Dinakaran, Dr P Ranjit Jeba Thangaiah, “Role of Attribute Selection in Classification Algorithms”, International Journal of Scientific & Engineering Research, Volume 4, Issue 6, June-2013 Zdravko Markov Central Connecticut State University, Ingrid Russell, University of Hartford, “An Introduction to the WEKA Data Mining System” Dr Neeraj Bhargava, Girja Sharma, “Decision Tree Analysis on J48 Algorithm for Data Mining”, International Journal of Advanced Research in Computer Science and Software Engineering, Volume 3, Issue 6, June 2013 Tajunisha and Saravanan ,“An efficient method to improve the clustering performance for high dimensional data by Principal Component Analysis and modified K-means”, International Journal of Database Management Systems, Vol.3, No.1, February 2011 Jason D M Rennie, Lawrence Shih, Jaime Teeva, David R Karger, “Tackling the Poor Assumptions of Naive Bayes Text Classifiers”, Artificial Intelligence Laboratory; Massachusetts Institute of Technology; Cambridge, MA 02139 79 10 Kai Yu, Liang Ji, Xuegong Zhang (2002), “Kernel Nearest-Neighbor Algorithm”, Neural Processing Letters, 15 (2), pp.147-156 11 Viktoriya Krakovna, Jiong Du, Jun S Liu (2015), “ Selection Bayesian Forest Classifier : Simultaneous Variable Selection and Classification” arXiv:1506.02371v1 [start.ML] Jun 2015 12 R Kohavi, G.H John, “Wrappers for Feature Subset Selection”, Artificial Intelligence Vol 97 (1997) 13 Huazhen Wang, Cheng Wang∗ , Bing Lv, Xiaoming Pan (2015), “Improved Variable Importance Measure of Random Forest via Combining of Proximity Measure and Support Vector Machine for Stable Feature Selection” Journal ... cho toán phân lớp 28 1.6 Kết luận chương 29 CHƯƠNG 2: KỸ THUẬT CHỌN THUỘC TÍNH CHO CÁC THUẬT TOÁN PHÂN LỚP .30 2.1 Các tiếp cận chọn tḥc tính cho tốn phân lớp. .. tḥc vào phân lớp Có nhiều toán phân lớp liệu phân lớp nhị phân (binary), phân lớp đa lớp (multiclass), phân lớp đa trị Bài toán phân lớp nhị phân toán gán nhãn liệu cho đối tượng vào hai lớp khác... QUAN VỀ BÀI TOÁN PHÂN LỚP Phần giới thiệu tổng qua khai phá liệu, phân lớp liệu, thuật toán phân lớp liệu thách thức tốn phân lớp Chương II: LỰA CHỌN THUỘC TÍNH CHO CÁC THUẬT TOÁN PHÂN LỚP Phần

Ngày đăng: 01/08/2021, 11:41

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Nguyễn Văn Huân, Cải tiến thuật toán k-means và ứng dụng phân cụm dữ liệu tự động, Tạp chí Khoa học và Công nghệ, 61(12/2): 102 – 106 Sách, tạp chí
Tiêu đề: Cải tiến thuật toán k-means và ứng dụng phân cụm dữ liệu tự động
2. Nguyễn Hà Nam, Nguyễn Trí Thành, Hà Quang Thụy, “Giáo trình khai phá dữ liệu”, NXB Đại học Quốc gia Hà Nội , 2013.Tiếng Anh Sách, tạp chí
Tiêu đề: “Giáo trình khai phá dữ liệu”
Nhà XB: NXB Đại học Quốc gia Hà Nội
3. M. Dash , H. Liu, Department of Information Systems & Computer Science, National University of Singapore, “Feature Selection for Classification”, 1997 4. Jasmina NOVAKOVIĆ, Perica STRBAC, Dusan BULATOVIĆ , “TowardOptimal Feature Selection Using ranking method and classification Algorithms” , April 2009 Sách, tạp chí
Tiêu đề: Feature Selection for Classification”", 1997 "4. "Jasmina NOVAKOVIĆ, Perica STRBAC, Dusan BULATOVIĆ, "“Toward "Optimal Feature Selection Using ranking method and classification Algorithms”
5. S. Dinakaran, Dr. P. Ranjit Jeba Thangaiah, “Role of Attribute Selection in Classification Algorithms”, International Journal of Scientific & Engineering Research, Volume 4, Issue 6, June-2013 Sách, tạp chí
Tiêu đề: S. Dinakaran, Dr. P. Ranjit Jeba Thangaiah, "“Role of Attribute Selection in Classification Algorithms”
6. Zdravko Markov Central Connecticut State University, Ingrid Russell, University of Hartford, “An Introduction to the WEKA Data Mining System” Sách, tạp chí
Tiêu đề: Zdravko Markov Central Connecticut State University, Ingrid Russell, University of Hartford, "“An Introduction to the WEKA Data Mining System
7. Dr. Neeraj Bhargava, Girja Sharma, “Decision Tree Analysis on J48 Algorithm for Data Mining”, International Journal of Advanced Research in Computer Science and Software Engineering, Volume 3, Issue 6, June 2013 Sách, tạp chí
Tiêu đề: Dr. Neeraj Bhargava, Girja Sharma, “"Decision Tree Analysis on J48 Algorithm for Data Mining”
8. Tajunisha and Saravanan ,“An efficient method to improve the clustering performance for high dimensional data by Principal Component Analysis and modified K-means”, International Journal of Database Management Systems, Vol.3, No.1, February 2011 Sách, tạp chí
Tiêu đề: Tajunisha and Saravanan" ,“An efficient method to improve the clustering performance for high dimensional data by Principal Component Analysis and modified K-means”
9. Jason D. M. Rennie, Lawrence Shih, Jaime Teeva, David R. Karger, “Tackling the Poor Assumptions of Naive Bayes Text Classifiers”, Artificial Intelligence Laboratory; Massachusetts Institute of Technology; Cambridge, MA 02139 Sách, tạp chí
Tiêu đề: Jason D. M. Rennie, Lawrence Shih, Jaime Teeva, David R. Karger, "“Tackling the Poor Assumptions of Naive Bayes Text Classifiers”
10. Kai Yu, Liang Ji, Xuegong Zhang (2002), “Kernel Nearest-Neighbor Algorithm”, Neural Processing Letters, 15 (2), pp.147-156 Sách, tạp chí
Tiêu đề: Kai Yu, Liang Ji, Xuegong Zhang (2002), “"Kernel Nearest-Neighbor Algorithm
Tác giả: Kai Yu, Liang Ji, Xuegong Zhang
Năm: 2002
11. Viktoriya Krakovna, Jiong Du, Jun S. Liu (2015), “ Selection Bayesian Forest Classifier : Simultaneous Variable Selection and Classification”arXiv:1506.02371v1 [start.ML] 8 Jun 2015 Sách, tạp chí
Tiêu đề: Viktoriya Krakovna, Jiong Du, Jun S. Liu (2015), “ "Selection Bayesian Forest Classifier : Simultaneous Variable Selection and Classification
Tác giả: Viktoriya Krakovna, Jiong Du, Jun S. Liu
Năm: 2015
12. R. Kohavi, G.H. John, “Wrappers for Feature Subset Selection”, Artificial Intelligence Vol 97 (1997) Sách, tạp chí
Tiêu đề: R. Kohavi, G.H. John, “"Wrappers for Feature Subset Selection”
13. Huazhen Wang, Cheng Wang∗ , Bing Lv, Xiaoming Pan (2015), “Improved Variable Importance Measure of Random Forest via Combining of Proximity Measure and Support Vector Machine for Stable Feature Selection” Journal Sách, tạp chí
Tiêu đề: Huazhen Wang, Cheng Wang∗ , Bing Lv, Xiaoming Pan (2015), “"Improved Variable Importance Measure of Random Forest via Combining of Proximity Measure and Support Vector Machine for Stable Feature Selection
Tác giả: Huazhen Wang, Cheng Wang∗ , Bing Lv, Xiaoming Pan
Năm: 2015

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w