Async smote một giải pháp cho phân lớp dữ liệu mất cân bằng

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	50
Dung lượng	2,1 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI  ĐỖ NGỌC QUỲNH NGHIÊN CỨU PHƢƠNG PHÁP DEC-SVM PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN HÀ NỘI, NĂM 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƢỜNG ĐẠI HỌC SƢ PHẠM HÀ NỘI  ĐỖ NGỌC QUỲNH NGHIÊN CỨU PHƢƠNG PHÁP DEC-SVM PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG Chuyên ngành: Hệ thống thông tin Mã số: 60480104 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Ngƣời hƣớng dẫn khoa học: TS Đặng Xuân Thọ HÀ NỘI, NĂM 2017 LỜI CAM ĐOAN Tôi xin cam đoan luận án kết nghiên cứu cá nhân Các số liệu tài liệu trích dẫn luận án trung thực Kết nghiên cứu không trùng với công trình công bố trước Tôi chịu trách nhiệm với lời cam đoan Hà Nội, ngày tháng năm 2017 Tác giả luận văn Đỗ Ngọc Quỳnh LỜI CẢM ƠN Để hoàn thành luận văn này, em xin bày tỏ lòng kính trọng biết ơn sâu sắc đến TS Đặng Xuân Thọ, tận tình hướng dẫn, động viên giúp đỡ em suốt thời gian thực đề tài Em xin chân thành cảm ơn thầy cô giáo khoa Công nghệ thông tin, Trường Đại học Sư phạm Hà Nội tạo điều kiện thuận lợi cho em học tập nghiên cứu thời gian qua Cuối cùng, em xin gửi lòng biết ơn đến người thân gia đình bạn bè dành cho em khích lệ, động viên giúp đỡ em suốt trình học tập Mặc dù có nhiều cố gắng để thực luận văn, trình thực tránh khỏi thiếu sót hạn chế Rất mong nhận thông cảm ý kiến đóng góp thầy cô giáo bạn Em xin chân thành cảm ơn! Hà Nội, ngày… tháng … năm 2017 Tác giả luận văn Đỗ Ngọc Quỳnh MỤC LỤC MỤC LỤC DANH MỤC CÁC HÌNH VẼ DANH MỤC CÁC BẢNG BIỂU DANH MỤC CÁC TỪ VIẾT TẮT PHẦN – MỞ ĐẦU .5 PHẦN – NỘI DUNG Chương 1: GIỚI THIỆU VỀ KHAI PHÁ DỮ LIỆU .9 1.1 Tổng quan khai phá liệu 1.1.1 Khai phá liệu gì? 1.1.2 Ứng dụng khai phá liệu 11 1.2 Phân lớp liệu 12 1.2.1 Phân lớp liệu gì? 12 1.2.2 Một số kỹ thuật phân lớp liệu chuẩn .13 1.3 Phân cụm liệu .18 1.3.1 Phân cụm liệu gì? 18 1.3.2 Một số kỹ thuật phân cụm liệu chuẩn 19 Chương 2: THUẬT TOÁN DEC-SVM CHO BÀI TOÁN PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG .24 2.1 Vấn đề cân liệu .24 2.2 Hướng giải cho toán phân lớp liệu cân 25 2.3 Thuật toán DEC-SVM cho toán phân lớp liệu cân 30 2.3.1 Điều chỉnh liệu thuật toán DE (Differential Evolution oversampling) 30 2.3.2 Kỹ thuật làm liệu sử dụng phân cụm 31 2.3.3 Thuật toán 33 Chương 3: CÀI ĐẶT VÀ THỬ NGHIỆM 36 3.1 Các tiêu chí đánh giá 36 3.1.1 Ma trận nhầm lẫn 36 3.1.2 F-Measure 37 3.1.3 G-mean .37 3.1.4 Đường cong ROC độ đo AUC .37 3.2 Dữ liệu thiết lập thực nghiệm .38 3.2.1 Dữ liệu 38 3.2.2 Thiết lập thực nghiệm .38 3.3 Kết thực nghiệm đánh giá 39 Hình - Biểu đồ so sánh hiệu phân lớp thuật toán DE-SVM DECSVM 41 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 42 TÀI LIỆU THAM KHẢO 43 DANH MỤC CÁC HÌNH VẼ Hình 1.1 – Các bước trình KDD .10 Hình 1.2 – Vị trí khai phá liệu tiến trình định 10 Hình 1.3 – Quá trình xây dựng mô hình phân lớp 12 Hình 1.4 – Quá trình phân lớp liệu 13 Hình 1.5 – Cây định cho tiến trình lựa chọn phương tiện vận chuyển 15 Hình 1.6 – Phân lớp liệu với K-NN .16 Hình 1.7 – Phân lớp liệu SVM 17 Hình 1.8 – Phân cụm liệu .18 Hình 1.9 – Quá trình phân cụm liệu .19 Hình 1.10 – Hai phương pháp phân cụm phân cấp 21 Hình 1.11 – Khả tới trực mật độ (directly density-reachable) 22 Hình 1.12 – Khả tới theo mật độ (density-reachable) .22 Hình 1.13 – Kết nối dựa mật độ 22 Hình 2.1 – Biểu đồ tỷ lệ lớp thiểu số lớp đa số số liệu 25 Hình 2.2 – Phương pháp sinh ngẫu nhiên phần tử lớp thiểu số .26 Hình 2.3 – Sinh thêm phần tử nhân tạo thuật toán SMOTE 27 Hình 2.4 – Loại bỏ phần tử lớp đa số 29 Hình 2.5 – Minh họa phân cụm tập liệu cân 32 Hình - Quá trình thực 10-Fold Cross Validation .39 Hình - Biểu đồ so sánh hiệu phân lớp thuật toán DE-SVM DECSVM 41 DANH MỤC CÁC BẢNG BIỂU Bảng 3.1 – Ma trận nhầm lẫn 36 Bảng - Một số liệu sử dụng cho thực nghiệm 38 Bảng 3 - Phân lớp liệu sử dụng thuật toán DE-SVM 40 Bảng 4– Phân lớp liệu sử dụng thuật toán DEC-SVM 40 Bảng 5– Bảng so sánh hiệu phân lớp .40 DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Diễn giải CSDL Cơ sở liệu KDD Knowledge Discovery in Databases SVM Support Vector Machine K – NN K – Nearest Neighbor SMOTE DBSCAN DEC – SVM DE - SVM Synthentic Minority Over-sampling Technique Density-Based Spatial Clustering of Applications with Noise Differential Evolution Clustering hybrid resampling SVM algorithm Differential Evolution over-sampling SVM algorithm PHẦN – MỞ ĐẦU Lý chọn đề tài Hiện nay, công nghệ thông tin lĩnh vực có tầm quan trọng sức ảnh hưởng lớn tới nhiều mặt đời sống Trong năm gần đây, công nghệ thông tin gặt hái nhiều thành công mang tính đột phá hỗ trợ hữu hiệu cho lĩnh vực khác Cùng với phát triển xã hội, vấn đề khai thác xử lý thông tin ngày trọng đóng vai trò định thành công số lĩnh vực Trong lượng thông tin toàn cầu ngày gia tăng ngày phong phú, kỹ thuật Khai phá liệu góp phần hữu hiệu giúp người khai thác cách có hiệu khối liệu mà họ nắm giữ Một kỹ thuật quan trọng Khai phá liệu phân lớp liệu, phân lớp liệu liệu cân toán cần trọng Phân lớp liệu kỹ thuật dựa vào mô hình phân lớp với nhãn lớp cho mô hình đó, dự đoán nhãn lớp đối tượng liệu Mô hình phân lớp xây dựng dựa tập liệu huấn luyện, với đối tượng liệu mới, ta đặt vào lớp cụ thể cách so sánh thuộc tính với định nghĩa xây dựng cho lớp tập liệu huấn luyện Tuy nhiên, liệu thu thực tế ngày xuất nhiều tập liệu cân bằng, nghĩa tập liệu tồn lớp có nhiều phần tử lớp khác Lớp có nhiều phần tử ta gọi lớp đa số, lớp có phần tử ta gọi lớp thiểu số Sự chênh lệch số lượng lớp đa số lớp thiểu số làm cho việc phân lớp mẫu thuộc lớp thiểu số bị giảm hiệu Tỷ lệ cân tập liệu cao việc phát mẫu lớp thiểu số khó khăn Ví dụ điển hình cho cân liệu kể đến toán chẩn đoán bệnh y học, nghĩa xác định người có bệnh hay không [17] Hay toán phát gian lận, cụ thể gian lận thẻ tín dụng hay gian lận cước di động [17]… Thông thường toán này, lớp cần quan tâm lại lớp thiểu số (lớp người mắc bệnh, lớp người có khả gian lận thẻ tín dụng, …) Việc xác định nhãn cho lớp thiểu số điều cần thiết, nhãn lớp nhỏ chẩn đoán sai hậu đem đến không nhỏ Hiện nay, có nhiều giải pháp hữu hiệu cho toán phân lớp tập liệu cân Để giải toán này, có hai cách tiếp cận chủ yếu: tiếp cận dựa mức độ liệu tiếp cận dựa mức độ thuật toán Tiếp cận dựa mức liệu nghĩa điều chỉnh phân bố liệu lớp cho hạn chế không bị cân để đưa vào áp dụng cho thuật toán phân lớp chuẩn [17] Có nhiều cách điều chỉnh liệu như: sinh thêm phần tử cho lớp thiểu số, loại bỏ phần tử lớp đa số, kết hợp hai phương pháp [17] Tiếp cận dựa mức độ thuật toán nghĩa điều chỉnh thuật toán phân lớp chuẩn cho áp dụng với liệu cân đạt hiệu cao Trong hai cách tiếp cận nêu trên, quan tâm tới giải pháp sinh thêm phần tử cho lớp thiểu số Một thuật toán điều chỉnh liệu dựa giải pháp phải kể đến thuật toán SMOTE (2002) [14].Thuật toán SMOTE điều chỉnh liệu cách với phần tử thuộc lớp thiểu số thực sinh thêm phần tử nhân tạo phần với láng giềng Một số thuật toán khác cải tiến dựa thuật toán SMOTE đạt hiệu với liệu cân như: thuật toán Borderline-SMOTE (2005) [9], thuật toán Safe-Level-SMOTE (2009) [3] Tuy nhiên, với phong phú ngày gia tăng thông tin đặc thù tập liệu hầu hết không giống nhau, giải pháp hữu hiệu cho tập liệu Trong luận văn này, nghiên cứu thuật toán điều chỉnh liệu cho toán phân lớp liệu cân – thuật toán DEC (a novel Differential Evolution Clustering hybrid resampling) công bố vào năm 2010 nhóm tác giả Leichen Chen, Zhihua Cai, Lu Chen Qiong Gu [1] Thuật toán kết hợp phương pháp sinh thêm phần tử cho lớp thiểu số sử dụng kỹ thuật phân cụm K-means để loại bỏ bớt phần tử dư thừa, nhiễu liệu Ban đầu, với mẫu thuộc lớp thiểu số, thuật toán tạo mẫu đột biến từ hai số láng giềng gần nhất, sau sử dụng thuật toán di truyền để sinh C E A B F D Positiv e Negative Hình 2.5 – Minh họa phân cụm tập liệu cân Nếu tất mẫu cụm có nhãn lớp (tức là positive negative), ta tiến hành loại bỏ mẫu dư thừa nhiễu Ví vụ với cụm F có chứa tất mẫu negative, ta thực theo bước sau: ‒ Xác định ngưỡng tương đồng (0,1] ‒ Tính ̅ theo công thức (3) ∑ ̅ ‒ Tìm mẫu trung tâm ̅ ‒ Tính độ tương đồng ngưỡng tương đồng (3) gần ̅ mẫu ̅ theo (4) Nếu lớn bị loại khỏi ∑ √ ∑ (4) ∑ Ngưỡng tương đồng nhỏ nhiều mẫu bị loại bỏ Trong đó: , số lượng mẫu cụm thứ , độ tương đồng 32 thuộc tính thứ k mẫu 2.3.3 Thuật toán Sau sử dụng thuật toán DEC để điều chỉnh liệu, ta sử dụng thuật toán SVM để phân lớp cho cho tập liệu huấn luyện tạo nên mô hình phân lớp Giả mã thuật toán DEC-SVM sau [1]: DEC-SVM(N, m, K, s, T) Input: Số mẫu lớp thiểu số N, số thuộc tính m, số cụm K, ngưỡng tương đồng s, số lượng DE T% Output: Mô hình huấn luyện Void DEC-SVM() { /******** Sinh thêm mẫu DE ********/ st = 0; G = int(N*T%); //số mẫu lớp thiểu số tạo For (t = 0; t [22] Nguyễn Văn Chức Thuật toán K-Láng giềng gần (K-Nearest Neighbors) [23] Đỗ Thanh Nghị Phương pháp học Bayes Bayesian classification [24] Đỗ Phúc Bài giảng khai phá liệu < http://123doc.org/document/1590244giao-trinh-khai-pha-du-lieu.htm?page=4 > [25] Hà Quang Thụy Bài giảng nhập môn Khai phá liệu [26] Nguyễn Văn Tuấn Diễn giải nghiên cứu tiên lượng: ROC (Receiver Operating Characteristic) [27] Đường cong ROC [28] Sự cần thiết quy trình nghiên cứu quy trình khám phá tri thức – Khai phá liệu 46 ... DEC-SVM CHO BÀI TOÁN PHÂN LỚP DỮ LIỆU MẤT CÂN BẰNG .24 2.1 Vấn đề cân liệu .24 2.2 Hướng giải cho toán phân lớp liệu cân 25 2.3 Thuật toán DEC-SVM cho toán phân lớp liệu cân 30... toán phân lớp liệu cân số phương pháp giải toán - Trình bày thuật toán DEC điều chỉnh liệu cho toán phân lớp liệu cân Khách thể đối tƣợng nghiên cứu - Một số phương pháp điều chỉnh liệu cân - Một. .. Khai phá liệu góp phần hữu hiệu giúp người khai thác cách có hiệu khối liệu mà họ nắm giữ Một kỹ thuật quan trọng Khai phá liệu phân lớp liệu, phân lớp liệu liệu cân toán cần trọng Phân lớp liệu

Ngày đăng: 14/06/2017, 11:00

Nguồn tham khảo

Tài liệu tham khảo

Loại

Chi tiết

[1] Leichen Chen, Zhihua Cai, Lu Chen (2010), “A Novel Different Evolution- Clustering Hybrid Resampling Algorithm on Imbalanced Datasets”, pp. 81- 85

Sách, tạp chí

Tiêu đề:	A Novel Different Evolution-Clustering Hybrid Resampling Algorithm on Imbalanced Datasets
Tác giả:	Leichen Chen, Zhihua Cai, Lu Chen
Năm:	2010

[3] Chumphol Bunkhumpornpat, Krung Sinapiromsaran, Chidchanok Lursinsap, “Safe-Level-SMOTE: Safe-Level-Synthetic Minority Over Sampling Technique for Handling the Class Imbalanced Problem,” in Advances in Knowledge Discovery and Data Mining: Springer-Verlag Berlin Heidelberg, 2009, vol. 5476, pp. 475-482

Sách, tạp chí

Tiêu đề:	Safe-Level-SMOTE: Safe-Level-Synthetic Minority Over Sampling Technique for Handling the Class Imbalanced Problem

[5] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth, "From Data Mining to Knowledge Discovery in Databases," AI Magazine, vol.17, pp. 37-54, 1996

Sách, tạp chí

Tiêu đề:	From Data Mining to Knowledge Discovery in Databases

[6] Mikel Galar, Alberto Fernandez , Edurne Barrenechea, Humberto Bustince (2011), “A Review on Ensembles for the Class Imbalance Problem: Bagging – Boosting, and Hybrid-Based Approaches”, IEEE Transactions on Systems, Man, and Cybernetics, Part C: Applications and Reviews

Sách, tạp chí

Tiêu đề:	A Review on Ensembles for the Class Imbalance Problem: Bagging – Boosting, and Hybrid-Based Approaches”
Tác giả:	Mikel Galar, Alberto Fernandez , Edurne Barrenechea, Humberto Bustince
Năm:	2011

[7] Jiawei Han, Micheline Kamber, and Jian Pei, Data Mining: Concepts and Techniques, Third Edition, Ed.: Morgan Kaufmann, 2012

Sách, tạp chí

Tiêu đề:	Data Mining: Concepts and Techniques

[8] Haibo He and Edwardo A. Garcia, "Learning from Imbalanced Data (2009)," IEEE Transactions on Knowledge and Data Engineering, vol. 21, no. 9, pp. 1263 - 1284

Sách, tạp chí

Tiêu đề:	Learning from Imbalanced Data (2009)
Tác giả:	Haibo He and Edwardo A. Garcia, "Learning from Imbalanced Data
Năm:	2009

[12] Sotiris Kotsiantis, Dimitris Kanellopoulos, Panayiotis Pintelas (2006), “Handling imbalanced datasets: A review”, GESTS International Transactions on Computer Science and Engineering, vol.30

Sách, tạp chí

Tiêu đề:	Handling imbalanced datasets: A review”, "GESTS International Transactions on Computer Science and Engineering
Tác giả:	Sotiris Kotsiantis, Dimitris Kanellopoulos, Panayiotis Pintelas
Năm:	2006

[13] David Meyer (2015), “Support Vector Machines: The Interface to libsvm in package e1071”, pp. 1-8

Sách, tạp chí

Tiêu đề:	Support Vector Machines: The Interface to libsvm in package e1071
Tác giả:	David Meyer
Năm:	2015

[15] Enislay Ramentol, Yailé Caballero, Rafael Bello, and Francisco Herrera (2011),"SMOTE-RSB :a hybrid preprocessing approach based on oversampling and undersampling for high imbalanced data-sets using SMOTE and rough sets theory," Knowledge and Information Systems, vol. 33, no. 2, pp. 245-265

Sách, tạp chí

Tiêu đề:	SMOTE-RSB :a hybrid preprocessing approach based on oversampling and undersampling for high imbalanced data-sets using SMOTE and rough sets theory
Tác giả:	Enislay Ramentol, Yailé Caballero, Rafael Bello, and Francisco Herrera
Năm:	2011

[16] Vu Anh Tran, José C. Clemente, Duc Thuan Nguyen, Jiuyong Li, Xuan Tho Dang, Thi Tu Kien Le, Thi Lan Anh Nguyen, Thammakorn Saethang, Mamoru Kubo, Yoichi Yamada, Kenji Satou (2012), “IMPACT: A Novel Clustering Algorithm based on Attraction”, vol. 7, pp. 653-665

Sách, tạp chí

Tiêu đề:	IMPACT: A Novel Clustering Algorithm based on Attraction
Tác giả:	Vu Anh Tran, José C. Clemente, Duc Thuan Nguyen, Jiuyong Li, Xuan Tho Dang, Thi Tu Kien Le, Thi Lan Anh Nguyen, Thammakorn Saethang, Mamoru Kubo, Yoichi Yamada, Kenji Satou
Năm:	2012

[17] Sun Yanmin, Wong Andrew K. C., and Kamel Mohamed S.(2009), "Classification of imbalanced data: A review," International Journal of Pattern Recognition and Artificial Intelligence, vol. 23, pp. 687–719

Sách, tạp chí

Tiêu đề:	Classification of imbalanced data: A review
Tác giả:	Sun Yanmin, Wong Andrew K. C., and Kamel Mohamed S
Năm:	2009

[18] Nguyễn Thị Thùy Linh (2005), Nghiên cứu các thuật toán phân lớp dữ liệu dựa trên cây quyết định, Khóa luận tốt nghiệp đại học chính quy, Trường Đại học Công nghệ - ĐHQGHN, Hà Nội

Sách, tạp chí

Tiêu đề:	Nghiên cứu các thuật toán phân lớp dữ liệu dựa trên cây quyết định
Tác giả:	Nguyễn Thị Thùy Linh
Năm:	2005

[19] Nghiêm Thị Toàn (2016), MASK – Phương pháp mới nâng cao hiệu quả phát hiện gian lận tài chính, Luận văn thạc sĩ công nghệ thông tin, Trường Đại học Sư phạm Hà Nội

Sách, tạp chí

Tiêu đề:	MASK – Phương pháp mới nâng cao hiệu quả phát hiện gian lận tài chính
Tác giả:	Nghiêm Thị Toàn
Năm:	2016

[20] Nguyễn Văn Tuấn (2007), Phân tích số liệu và tạo biểu đồ bằng R.: Nhà xuất bản Khoa học Kỹ thuật.TÀI LIỆU INTERNET

Sách, tạp chí

Tiêu đề:	Phân tích số liệu và tạo biểu đồ bằng R
Tác giả:	Nguyễn Văn Tuấn
Nhà XB:	Nhà xuất bản Khoa học Kỹ thuật. TÀI LIỆU INTERNET
Năm:	2007

[21] Data Mining: Applications, Trends & Tools. < http://bis.net.vn/forums/t/815.aspx&gt

Link

[24] Đỗ Phúc. Bài giảng khai phá dữ liệu. < http://123doc.org/document/1590244-giao-trinh-khai-pha-du-lieu.htm?page=4 &gt

Link

[2] Corinna Cortes & Vladimir Vapnik (1995), Support-Vector Networks, vol. 20, pp. 273-297

Khác

[10] Georgre H.John and Pat Langley, “Estimating continuous distributions in Bayesian classifiers, “in UAI’95 Proceesdings of the Eleventh conference on Uncertainty in artificial intelligence, 1995, pp. 338-345

Khác

[11] T. Menzies, Y. Hu, Data Mining For Very Busy People. IEEE Computer, tháng 10 năm 2003, pp. 18-25

Khác

[22] Nguyễn Văn Chức. Thuật toán K-Láng giềng gần nhất (K-Nearest Neighbors). <http://bis.net.vn/forums/t/370.aspx&gt

Khác

Xem thêm