Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
2,1 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI ĐỖ NGỌC QUỲNH NGHIÊN CỨU PHƢƠNG PHÁP DEC-SVM PHÂNLỚPDỮLIỆUMẤTCÂNBẰNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI, NĂM 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI ĐỖ NGỌC QUỲNH NGHIÊN CỨU PHƢƠNG PHÁP DEC-SVM PHÂNLỚPDỮLIỆUMẤTCÂNBẰNG Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: TS Đặng Xuân Thọ HÀ NỘI, NĂM 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận án kết nghiên cứu cá nhân Các số liệu tài liệu trích dẫn luận án trung thực Kết nghiên cứu không trùng với công trình công bố trước Tôi chịu trách nhiệm với lời cam đoan Hà Nội, ngày tháng năm 2017 Tác giả luận văn Đỗ Ngọc Quỳnh LỜI CẢM ƠN Để hoàn thành luận văn này, em xin bày tỏ lòng kính trọng biết ơn sâu sắc đến TS Đặng Xuân Thọ, tận tình hướng dẫn, động viên giúp đỡ em suốt thời gian thực đề tài Em xin chân thành cảm ơn thầy cô giáo khoa Công nghệ thông tin, Trường Đại học Sư phạm Hà Nội tạo điều kiện thuận lợi cho em học tập nghiên cứu thời gian qua Cuối cùng, em xin gửi lòng biết ơn đến người thân gia đình bạn bè dành cho em khích lệ, động viên giúp đỡ em suốt trình học tập Mặc dù có nhiều cố gắng để thực luận văn, trình thực tránh khỏi thiếu sót hạn chế Rất mong nhận thông cảm ý kiến đóng góp thầy cô giáo bạn Em xin chân thành cảm ơn! Hà Nội, ngày… tháng … năm 2017 Tác giả luận văn Đỗ Ngọc Quỳnh MỤC LỤC MỤC LỤC DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC TỪ VIẾT TẮT PHẦN – MỞ ĐẦU .5 PHẦN – NỘI DUNG Chương 1: GIỚI THIỆU VỀ KHAI PHÁ DỮLIỆU .9 1.1 Tổng quan khai phá liệu 1.1.1 Khai phá liệu gì? 1.1.2 Ứng dụng khai phá liệu 11 1.2 Phânlớpliệu 12 1.2.1 Phânlớpliệu gì? 12 1.2.2 Một số kỹ thuật phânlớpliệu chuẩn .13 1.3 Phân cụm liệu .18 1.3.1 Phân cụm liệu gì? 18 1.3.2 Một số kỹ thuật phân cụm liệu chuẩn 19 Chương 2: THUẬT TOÁN DEC-SVM CHO BÀI TOÁN PHÂNLỚPDỮLIỆUMẤTCÂNBẰNG .24 2.1 Vấn đề cânliệu .24 2.2 Hướng giảicho toán phânlớpliệucân 25 2.3 Thuật toán DEC-SVM cho toán phânlớpliệucân 30 2.3.1 Điều chỉnh liệu thuật toán DE (Differential Evolution oversampling) 30 2.3.2 Kỹ thuật làm liệu sử dụng phân cụm 31 2.3.3 Thuật toán 33 Chương 3: CÀI ĐẶT VÀ THỬ NGHIỆM 36 3.1 Các tiêu chí đánh giá 36 3.1.1 Ma trận nhầm lẫn 36 3.1.2 F-Measure 37 3.1.3 G-mean .37 3.1.4 Đường cong ROC độ đo AUC .37 3.2 Dữliệu thiết lập thực nghiệm .38 3.2.1 Dữliệu 38 3.2.2 Thiết lập thực nghiệm .38 3.3 Kết thực nghiệm đánh giá 39 Hình - Biểu đồ so sánh hiệu phânlớp thuật toán DE-SVM DECSVM 41 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 42 TÀI LIỆU THAM KHẢO 43 DANH MỤC CÁC HÌNH VẼ Hình 1.1 – Các bước trình KDD .10 Hình 1.2 – Vị trí khai phá liệu tiến trình định 10 Hình 1.3 – Quá trình xây dựng mô hình phânlớp 12 Hình 1.4 – Quá trình phânlớpliệu 13 Hình 1.5 – Cây định cho tiến trình lựa chọn phương tiện vận chuyển 15 Hình 1.6 – Phânlớpliệu với K-NN .16 Hình 1.7 – Phânlớpliệu SVM 17 Hình 1.8 – Phân cụm liệu .18 Hình 1.9 – Quá trình phân cụm liệu .19 Hình 1.10 – Hai phương phápphân cụm phân cấp 21 Hình 1.11 – Khả tới trực mật độ (directly density-reachable) 22 Hình 1.12 – Khả tới theo mật độ (density-reachable) .22 Hình 1.13 – Kết nối dựa mật độ 22 Hình 2.1 – Biểu đồ tỷ lệ lớp thiểu số lớp đa số số liệu 25 Hình 2.2 – Phương pháp sinh ngẫu nhiên phần tử lớp thiểu số .26 Hình 2.3 – Sinh thêm phần tử nhân tạo thuật toán SMOTE 27 Hình 2.4 – Loại bỏ phần tử lớp đa số 29 Hình 2.5 – Minh họa phân cụm tập liệucân 32 Hình - Quá trình thực 10-Fold Cross Validation .39 Hình - Biểu đồ so sánh hiệu phânlớp thuật toán DE-SVM DECSVM 41 DANH MỤC CÁC BẢNG BIỂU Bảng 3.1 – Ma trận nhầm lẫn 36 Bảng - Một số liệu sử dụng cho thực nghiệm 38 Bảng 3 - Phânlớpliệu sử dụng thuật toán DE-SVM 40 Bảng 4– Phânlớpliệu sử dụng thuật toán DEC-SVM 40 Bảng 5– Bảng so sánh hiệu phânlớp .40 DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Diễn giải CSDL Cơ sở liệu KDD Knowledge Discovery in Databases SVM Support Vector Machine K – NN K – Nearest Neighbor SMOTE DBSCAN DEC – SVM DE - SVM Synthentic Minority Over-sampling Technique Density-Based Spatial Clustering of Applications with Noise Differential Evolution Clustering hybrid resampling SVM algorithm Differential Evolution over-sampling SVM algorithm PHẦN – MỞ ĐẦU Lý chọn đề tài Hiện nay, công nghệ thông tin lĩnh vực có tầm quan trọng sức ảnh hưởng lớn tới nhiều mặt đời sống Trong năm gần đây, công nghệ thông tin gặt hái nhiều thành công mang tính đột phá hỗ trợ hữu hiệu cho lĩnh vực khác Cùng với phát triển xã hội, vấn đề khai thác xử lý thông tin ngày trọng đóng vai trò định thành công số lĩnh vực Trong lượng thông tin toàn cầu ngày gia tăng ngày phong phú, kỹ thuật Khai phá liệu góp phần hữu hiệu giúp người khai thác cách có hiệu khối liệu mà họ nắm giữ Một kỹ thuật quan trọng Khai phá liệuphânlớp liệu, phânlớpliệuliệucân toán cần trọng Phânlớpliệu kỹ thuật dựa vào mô hình phânlớp với nhãn lớpcho mô hình đó, dự đoán nhãn lớp đối tượng liệu Mô hình phânlớp xây dựng dựa tập liệu huấn luyện, với đối tượng liệu mới, ta đặt vào lớp cụ thể cách so sánh thuộc tính với định nghĩa xây dựng cholớp tập liệu huấn luyện Tuy nhiên, liệu thu thực tế ngày xuất nhiều tập liệucân bằng, nghĩa tập liệu tồn lớp có nhiều phần tử lớp khác Lớp có nhiều phần tử ta gọi lớp đa số, lớp có phần tử ta gọi lớp thiểu số Sự chênh lệch số lượng lớp đa số lớp thiểu số làm cho việc phânlớp mẫu thuộc lớp thiểu số bị giảm hiệu Tỷ lệ cân tập liệu cao việc phát mẫu lớp thiểu số khó khăn Ví dụ điển hình chocânliệu kể đến toán chẩn đoán bệnh y học, nghĩa xác định người có bệnh hay không [17] Hay toán phát gian lận, cụ thể gian lận thẻ tín dụng hay gian lận cước di động [17]… Thông thường toán này, lớpcần quan tâm lại lớp thiểu số (lớp người mắc bệnh, lớp người có khả gian lận thẻ tín dụng, …) Việc xác định nhãn cholớp thiểu số điều cần thiết, nhãn lớp nhỏ chẩn đoán sai hậu đem đến không nhỏ Hiện nay, có nhiều giảipháp hữu hiệu cho toán phânlớp tập liệucân Để giải toán này, có hai cách tiếp cận chủ yếu: tiếp cận dựa mức độ liệu tiếp cận dựa mức độ thuật toán Tiếp cận dựa mức liệu nghĩa điều chỉnh phân bố liệulớpcho hạn chế không bị cân để đưa vào áp dụng cho thuật toán phânlớp chuẩn [17] Có nhiều cách điều chỉnh liệu như: sinh thêm phần tử cholớp thiểu số, loại bỏ phần tử lớp đa số, kết hợp hai phương pháp [17] Tiếp cận dựa mức độ thuật toán nghĩa điều chỉnh thuật toán phânlớp chuẩn cho áp dụng với liệucân đạt hiệu cao Trong hai cách tiếp cận nêu trên, quan tâm tới giảipháp sinh thêm phần tử cholớp thiểu số Một thuật toán điều chỉnh liệu dựa giảipháp phải kể đến thuật toán SMOTE (2002) [14].Thuật toán SMOTE điều chỉnh liệu cách với phần tử thuộc lớp thiểu số thực sinh thêm phần tử nhân tạo phần với láng giềng Một số thuật toán khác cải tiến dựa thuật toán SMOTE đạt hiệu với liệucân như: thuật toán Borderline-SMOTE (2005) [9], thuật toán Safe-Level-SMOTE (2009) [3] Tuy nhiên, với phong phú ngày gia tăng thông tin đặc thù tập liệu hầu hết không giống nhau, giảipháp hữu hiệu cho tập liệu Trong luận văn này, nghiên cứu thuật toán điều chỉnh liệucho toán phânlớpliệucân – thuật toán DEC (a novel Differential Evolution Clustering hybrid resampling) công bố vào năm 2010 nhóm tác giả Leichen Chen, Zhihua Cai, Lu Chen Qiong Gu [1] Thuật toán kết hợp phương pháp sinh thêm phần tử cholớp thiểu số sử dụng kỹ thuật phân cụm K-means để loại bỏ bớt phần tử dư thừa, nhiễu liệu Ban đầu, với mẫu thuộc lớp thiểu số, thuật toán tạo mẫu đột biến từ hai số láng giềng gần nhất, sau sử dụng thuật toán di truyền để sinh C E A B F D Positiv e Negative Hình 2.5 – Minh họa phân cụm tập liệucân Nếu tất mẫu cụm có nhãn lớp (tức là positive negative), ta tiến hành loại bỏ mẫu dư thừa nhiễu Ví vụ với cụm F có chứa tất mẫu negative, ta thực theo bước sau: ‒ Xác định ngưỡng tương đồng (0,1] ‒ Tính ̅ theo công thức (3) ∑ ̅ ‒ Tìm mẫu trung tâm ̅ ‒ Tính độ tương đồng ngưỡng tương đồng (3) gần ̅ mẫu ̅ theo (4) Nếu lớn bị loại khỏi ∑ √ ∑ (4) ∑ Ngưỡng tương đồng nhỏ nhiều mẫu bị loại bỏ Trong đó: , số lượng mẫu cụm thứ , độ tương đồng 32 thuộc tính thứ k mẫu 2.3.3 Thuật toán Sau sử dụng thuật toán DEC để điều chỉnh liệu, ta sử dụng thuật toán SVM để phânlớpchocho tập liệu huấn luyện tạo nên mô hình phânlớp Giả mã thuật toán DEC-SVM sau [1]: DEC-SVM(N, m, K, s, T) Input: Số mẫu lớp thiểu số N, số thuộc tính m, số cụm K, ngưỡng tương đồng s, số lượng DE T% Output: Mô hình huấn luyện Void DEC-SVM() { /******** Sinh thêm mẫu DE ********/ st = 0; G = int(N*T%); //số mẫu lớp thiểu số tạo For (t = 0; t [22] Nguyễn Văn Chức Thuật toán K-Láng giềng gần (K-Nearest Neighbors) [23] Đỗ Thanh Nghị Phương pháp học Bayes Bayesian classification [24] Đỗ Phúc Bài giảng khai phá liệu < http://123doc.org/document/1590244giao-trinh-khai-pha-du-lieu.htm?page=4 > [25] Hà Quang Thụy Bài giảng nhập môn Khai phá liệu [26] Nguyễn Văn Tuấn Diễn giải nghiên cứu tiên lượng: ROC (Receiver Operating Characteristic) [27] Đường cong ROC [28] Sự cần thiết quy trình nghiên cứu quy trình khám phá tri thức – Khai phá liệu 46 ... DEC-SVM CHO BÀI TOÁN PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG .24 2.1 Vấn đề cân liệu .24 2.2 Hướng giải cho toán phân lớp liệu cân 25 2.3 Thuật toán DEC-SVM cho toán phân lớp liệu cân 30... toán phân lớp liệu cân số phương pháp giải toán - Trình bày thuật toán DEC điều chỉnh liệu cho toán phân lớp liệu cân Khách thể đối tƣợng nghiên cứu - Một số phương pháp điều chỉnh liệu cân - Một. .. Khai phá liệu góp phần hữu hiệu giúp người khai thác cách có hiệu khối liệu mà họ nắm giữ Một kỹ thuật quan trọng Khai phá liệu phân lớp liệu, phân lớp liệu liệu cân toán cần trọng Phân lớp liệu