Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 51 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
51
Dung lượng
2,04 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI ĐỖ NGỌC QUỲNH NGHIÊN CỨU PHƢƠNG PHÁP DEC-SVM PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI, NĂM 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI ĐỖ NGỌC QUỲNH NGHIÊN CỨU PHƢƠNG PHÁP DEC-SVM PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: TS Đặng Xuân Thọ HÀ NỘI, NĂM 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận án kết nghiên cứu cá nhân Các số liệu tài liệu trích dẫn luận án trung thực Kết nghiên cứu không trùng với cơng trình cơng bố trước Tơi chịu trách nhiệm với lời cam đoan Hà Nội, ngày tháng năm 2017 Tác giả luận văn Đỗ Ngọc Quỳnh LỜI CẢM ƠN Để hoàn thành luận văn này, em xin bày tỏ lịng kính trọng biết ơn sâu sắc đến TS Đặng Xuân Thọ, tận tình hướng dẫn, động viên giúp đỡ em suốt thời gian thực đề tài Em xin chân thành cảm ơn thầy cô giáo khoa Công nghệ thông tin, Trường Đại học Sư phạm Hà Nội tạo điều kiện thuận lợi cho em học tập nghiên cứu thời gian qua Cuối cùng, em xin gửi lòng biết ơn đến người thân gia đình bạn bè dành cho em khích lệ, động viên giúp đỡ em suốt trình học tập Mặc dù có nhiều cố gắng để thực luận văn, q trình thực khơng thể tránh khỏi thiếu sót hạn chế Rất mong nhận thơng cảm ý kiến đóng góp thầy cô giáo bạn Em xin chân thành cảm ơn! Hà Nội, ngày… tháng … năm 2017 Tác giả luận văn Đỗ Ngọc Quỳnh MỤC LỤC MỤC LỤC DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC TỪ VIẾT TẮT PHẦN – MỞ ĐẦU .5 PHẦN – NỘI DUNG Chương 1: GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU .9 1.1 Tổng quan khai phá liệu 1.1.1 Khai phá liệu gì? 1.1.2 Ứng dụng khai phá liệu 11 1.2 Phân lớp liệu 12 1.2.1 Phân lớp liệu gì? 12 1.2.2 Một số kỹ thuật phân lớp liệu chuẩn .13 1.3 Phân cụm liệu .18 1.3.1 Phân cụm liệu gì? 18 1.3.2 Một số kỹ thuật phân cụm liệu chuẩn 19 Chương 2: THUẬT TOÁN DEC-SVM CHO BÀI TOÁN PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG .24 2.1 Vấn đề cân liệu .24 2.2 Hướng giải cho toán phân lớp liệu cân 25 2.3 Thuật toán DEC-SVM cho toán phân lớp liệu cân 30 2.3.1 Điều chỉnh liệu thuật toán DE (Differential Evolution oversampling) 30 2.3.2 Kỹ thuật làm liệu sử dụng phân cụm 31 2.3.3 Thuật toán 33 Chương 3: CÀI ĐẶT VÀ THỬ NGHIỆM 36 3.1 Các tiêu chí đánh giá 36 3.1.1 Ma trận nhầm lẫn 36 3.1.2 F-Measure 37 3.1.3 G-mean .37 3.1.4 Đường cong ROC độ đo AUC .37 3.2 Dữ liệu thiết lập thực nghiệm .38 3.2.1 Dữ liệu 38 3.2.2 Thiết lập thực nghiệm .38 3.3 Kết thực nghiệm đánh giá 39 Hình - Biểu đồ so sánh hiệu phân lớp thuật toán DE-SVM DECSVM 41 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 42 TÀI LIỆU THAM KHẢO 43 DANH MỤC CÁC HÌNH VẼ Hình 1.1 – Các bước trình KDD .10 Hình 1.2 – Vị trí khai phá liệu tiến trình định 10 Hình 1.3 – Quá trình xây dựng mơ hình phân lớp 12 Hình 1.4 – Quá trình phân lớp liệu 13 Hình 1.5 – Cây định cho tiến trình lựa chọn phương tiện vận chuyển 15 Hình 1.6 – Phân lớp liệu với K-NN .16 Hình 1.7 – Phân lớp liệu SVM 17 Hình 1.8 – Phân cụm liệu .18 Hình 1.9 – Quá trình phân cụm liệu .19 Hình 1.10 – Hai phương pháp phân cụm phân cấp 21 Hình 1.11 – Khả tới trực mật độ (directly density-reachable) 22 Hình 1.12 – Khả tới theo mật độ (density-reachable) .22 Hình 1.13 – Kết nối dựa mật độ 22 Hình 2.1 – Biểu đồ tỷ lệ lớp thiểu số lớp đa số số liệu 25 Hình 2.2 – Phương pháp sinh ngẫu nhiên phần tử lớp thiểu số .26 Hình 2.3 – Sinh thêm phần tử nhân tạo thuật toán SMOTE 27 Hình 2.4 – Loại bỏ phần tử lớp đa số 29 Hình 2.5 – Minh họa phân cụm tập liệu cân 32 Hình - Quá trình thực 10-Fold Cross Validation .39 Hình - Biểu đồ so sánh hiệu phân lớp thuật toán DE-SVM DECSVM 41 DANH MỤC CÁC BẢNG BIỂU Bảng 3.1 – Ma trận nhầm lẫn 36 Bảng - Một số liệu sử dụng cho thực nghiệm 38 Bảng 3 - Phân lớp liệu sử dụng thuật toán DE-SVM 40 Bảng 4– Phân lớp liệu sử dụng thuật toán DEC-SVM 40 Bảng 5– Bảng so sánh hiệu phân lớp .40 DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Diễn giải CSDL Cơ sở liệu KDD Knowledge Discovery in Databases SVM Support Vector Machine K – NN K – Nearest Neighbor SMOTE DBSCAN DEC – SVM DE - SVM Synthentic Minority Over-sampling Technique Density-Based Spatial Clustering of Applications with Noise Differential Evolution Clustering hybrid resampling SVM algorithm Differential Evolution over-sampling SVM algorithm PHẦN – MỞ ĐẦU Lý chọn đề tài Hiện nay, công nghệ thông tin lĩnh vực có tầm quan trọng sức ảnh hưởng lớn tới nhiều mặt đời sống Trong năm gần đây, công nghệ thông tin gặt hái nhiều thành cơng mang tính đột phá hỗ trợ hữu hiệu cho lĩnh vực khác Cùng với phát triển xã hội, vấn đề khai thác xử lý thông tin ngày trọng đóng vai trị định thành cơng số lĩnh vực Trong lượng thông tin toàn cầu ngày gia tăng ngày phong phú, kỹ thuật Khai phá liệu góp phần hữu hiệu giúp người khai thác cách có hiệu khối liệu mà họ nắm giữ Một kỹ thuật quan trọng Khai phá liệu phân lớp liệu, phân lớp liệu liệu cân toán cần trọng Phân lớp liệu kỹ thuật dựa vào mơ hình phân lớp với nhãn lớp cho mơ hình đó, dự đốn nhãn lớp đối tượng liệu Mơ hình phân lớp xây dựng dựa tập liệu huấn luyện, với đối tượng liệu mới, ta đặt vào lớp cụ thể cách so sánh thuộc tính với định nghĩa xây dựng cho lớp tập liệu huấn luyện Tuy nhiên, liệu thu thực tế ngày xuất nhiều tập liệu cân bằng, nghĩa tập liệu tồn lớp có nhiều phần tử lớp khác Lớp có nhiều phần tử ta gọi lớp đa số, lớp có phần tử ta gọi lớp thiểu số Sự chênh lệch số lượng lớp đa số lớp thiểu số làm cho việc phân lớp mẫu thuộc lớp thiểu số bị giảm hiệu Tỷ lệ cân tập liệu cao việc phát mẫu lớp thiểu số khó khăn Ví dụ điển hình cho cân liệu kể đến toán chẩn đoán bệnh y học, nghĩa xác định người có bệnh hay khơng [17] Hay tốn phát gian lận, cụ thể gian lận thẻ tín dụng hay gian lận cước di động [17]… Thông thường toán này, lớp cần quan tâm lại lớp thiểu số (lớp người mắc bệnh, lớp người có khả gian lận thẻ tín dụng, …) Việc xác định nhãn cho lớp thiểu số điều cần thiết, nhãn lớp nhỏ chẩn đoán sai hậu đem đến khơng nhỏ Hiện nay, có nhiều giải pháp hữu hiệu cho toán phân lớp tập liệu cân Để giải tốn này, có hai cách tiếp cận chủ yếu: tiếp cận dựa mức độ liệu tiếp cận dựa mức độ thuật toán Tiếp cận dựa mức liệu nghĩa điều chỉnh phân bố liệu lớp cho hạn chế khơng cịn bị cân để đưa vào áp dụng cho thuật tốn phân lớp chuẩn [17] Có nhiều cách điều chỉnh liệu như: sinh thêm phần tử cho lớp thiểu số, loại bỏ phần tử lớp đa số, kết hợp hai phương pháp [17] Tiếp cận dựa mức độ thuật toán nghĩa điều chỉnh thuật toán phân lớp chuẩn cho áp dụng với liệu cân đạt hiệu cao Trong hai cách tiếp cận nêu trên, quan tâm tới giải pháp sinh thêm phần tử cho lớp thiểu số Một thuật toán điều chỉnh liệu dựa giải pháp phải kể đến thuật toán SMOTE (2002) [14].Thuật toán SMOTE điều chỉnh liệu cách với phần tử thuộc lớp thiểu số thực sinh thêm phần tử nhân tạo phần với láng giềng Một số thuật tốn khác cải tiến dựa thuật toán SMOTE đạt hiệu với liệu cân như: thuật toán Borderline-SMOTE (2005) [9], thuật toán Safe-Level-SMOTE (2009) [3] Tuy nhiên, với phong phú ngày gia tăng thông tin đặc thù tập liệu hầu hết khơng giống nhau, khơng có giải pháp hữu hiệu cho tập liệu Trong luận văn này, tơi nghiên cứu thuật tốn điều chỉnh liệu cho toán phân lớp liệu cân – thuật toán DEC (a novel Differential Evolution Clustering hybrid resampling) cơng bố vào năm 2010 nhóm tác giả Leichen Chen, Zhihua Cai, Lu Chen Qiong Gu [1] Thuật toán kết hợp phương pháp sinh thêm phần tử cho lớp thiểu số sử dụng kỹ thuật phân cụm K-means để loại bỏ bớt phần tử dư thừa, nhiễu liệu Ban đầu, với mẫu thuộc lớp thiểu số, thuật toán tạo mẫu đột biến từ hai số láng giềng gần nhất, sau sử dụng thuật toán di truyền để sinh 2.3.3 Thuật toán Sau sử dụng thuật toán DEC để điều chỉnh liệu, ta sử dụng thuật toán SVM để phân lớp cho cho tập liệu huấn luyện tạo nên mơ hình phân lớp Giả mã thuật toán DEC-SVM sau [1]: DEC-SVM(N, m, K, s, T) Input: Số mẫu lớp thiểu số N, số thuộc tính m, số cụm K, ngưỡng tương đồng s, số lượng DE T% Output: Mơ hình huấn luyện Void DEC-SVM() { /******** Sinh thêm mẫu DE ********/ st = 0; G = int(N*T%); //số mẫu lớp thiểu số tạo For (t = 0; t