Phân loại và dự đoán hạn mức thẻ tín dụng dựa trên kỹ thuật phân lớp đa nhãn Phân loại và dự đoán hạn mức thẻ tín dụng dựa trên kỹ thuật phân lớp đa nhãn Phân loại và dự đoán hạn mức thẻ tín dụng dựa trên kỹ thuật phân lớp đa nhãn luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM - CAO ANH KHOA PHÂN LOẠI VÀ DỰ ĐỐN HẠN MỨC THẺ TÍN DỤNG DỰA TRÊN KỸ THUẬT PHÂN LỚP ĐA NHÃN LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 TP Hồ Chí Minh, tháng 11 năm 2017 BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC CÔNG NGHỆ TP.HCM - CAO ANH KHOA PHÂN LOẠI VÀ DỰ ĐỐN HẠN MỨC THẺ TÍN DỤNG DỰA TRÊN KỸ THUẬT PHÂN LỚP ĐA NHÃN LUẬN VĂN THẠC SĨ Chuyên ngành: Công nghệ thông tin Mã số ngành: 60480201 CÁN BỘ HƯỚNG DẪN KHOA HỌC: TS NGUYỄN THỊ THÚY LOAN TP Hồ Chí Minh, tháng 11 năm 2017 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ TP.HCM Cán hướng dẫn khoa học: TS Nguyễn Thị Thúy Loan Luận văn Thạc sĩ bảo vệ Trường Đại học Công nghệ TP.HCM ngày 19 tháng 11 năm 2017 Thành phần Hội đồng đánh giá Luận văn Thạc sĩ gồm: TT Họ tên Chức danh Hội đồng PGS.TS Vũ Đức Lung Chủ tịch PGS.TS Võ Đình Bảy Phản biện TS Vũ Thanh Hiền Phản biện TS Cao Tùng Anh Ủy viên TS Văn Thiên Hoàng Ủy viên, Thư ký Xác nhận Chủ tịch Hội đồng đánh giá Luận văn sau Luận văn sửa chữa (nếu có) Chủ tịch Hội đồng đánh giá LV TRƯỜNG ĐH CƠNG NGHỆ TP HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM PHÒNG QLKH – ĐTSĐH Độc lập – Tự – Hạnh phúc TP HCM, ngày … tháng năm 2017 NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: Cao Anh Khoa Giới tính: Nam Ngày, tháng, năm sinh: 10/05/1984 Nơi sinh: Đắk Lắk Chuyên ngành: Công nghệ thông tin MSHV: 1541860036 I Tên đề tài Phân loại dự đốn hạn mức thẻ tín dụng dựa kỹ thuật phân lớp đa nhãn II Nhiệm vụ nội dung Nhiệm vụ: tìm hiểu giải pháp phân lớp đa nhãn như: giải thuật Naïve Bayes, AdaBoost, kNN tiến hành áp dụng chạy thực nghiệm CSDL thực tế, chứa thông tin liên quan đến danh sách khách hàng đăng ký sử dụng thẻ tín dụng 03 tháng đầu năm 2015 Trung tâm thẻ ngân hàng Vietcombank Dựa thuộc tính thơng tin tình trạng đăng ký sử dụng thẻ tín dụng giúp phân loại loại thẻ tín dụng dựa số thuộc tính khác dự đốn hạn mức trước thẻ phát hành Nội dung: nghiên cứu, tìm hiểu phương pháp phân loại đa nhãn, phân tích, chuẩn hóa, làm CSDL Sau tiến hành chạy thực nghiệm phương pháp phân loại đa nhãn khác để có kết Từ so sánh, đánh giá, rút kết luận chọn thuật tốn tối ưu để cài đặt, tính tốn CSDL mẫu III Ngày giao nhiệm vụ: 15/03/2017 IV Ngày hoàn thành nhiệm vụ: V Cán hướng dẫn: TS Nguyễn Thị Thúy Loan CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) KHOA QUẢN LÝ CHUYÊN NGÀNH (Họ tên chữ ký) LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu Luận văn trung thực chưa cơng bố cơng trình khác Trong q trình thực Luận văn, tơi thực nghiêm túc quy tắc đạo đức nghiên cứu, kết trình bày Luận văn sản phẩm nghiên cứu, đánh giá riêng cá nhân tất tài liệu tham khảo sử dụng Luận văn trích dẫn tường minh, theo quy định Tôi xin cam đoan hồn tồn chịu trách nhiệm tính trung thực số liệu nội dung khác Luận văn Học viên thực Luận văn Cao Anh Khoa LỜI CẢM ƠN Trước hết xin gửi lời cảm ơn đến tất Quý thầy cô trường Đại học Cơng Nghệ TP Hồ Chí Minh giảng dạy, bảo, cung cấp kiến thức hướng dẫn tận tình cho tơi suốt thời gian học tập trường Đặc biệt cô TS Nguyễn Thị Thúy Loan, người hướng dẫn, bảo tận tình cho tơi suốt q trình thực Luận văn thầy trưởng Khoa Công nghệ thông tin: PGS TS Võ Đình Bảy truyền cảm hứng cho tơi để giúp định hướng chọn đề tài Kế đến xin gửi lời cảm ơn đến số anh chị Trung tâm Thẻ Vietcombank Hội Sở, người tận tình bảo, truyền đạt kiến thức bổ ích nghiệp vụ, quy trình phát hành thẻ ngân hàng Ngồi ra, tơi xin gửi lời cảm ơn đến tập thể anh, chị tập thể lớp Cao học Công nghệ thông tin, đợt 2, năm 2015 giúp đỡ suốt trình học tập, nghiên cứu Cùng trải qua biết kỷ niệm vui, đẹp trình học tập Sau xin gửi lời cảm ơn gia đình, ba mẹ giúp tạo điều kiện, giúp có thêm thời gian để tâm, hồn thành luận văn Một lần tơi xin gửi lời cảm ơn chân thành đến tất người TP Hồ Chí Minh, ngày 21 tháng 08 năm 2017 Học viên thực Luận văn Cao Anh Khoa TÓM TẮT Đề tài tập trung vào việc nghiên cứu kỹ thuật phân lớp đa nhãn, thuật toán dùng để phân lớp đa nhãn phổ biến như: Naïve Bayes, AdaBoost k láng giềng gần (kNN) Ngồi ra, tìm hiểu trình bày thêm quy trình, nghiệp vụ ngân hàng để phân loại thẻ tín dụng Ngồi ra, tơi tìm hiểu tham số dùng làm sở để đánh giá số liệu q trình thực nghiệm Sau áp dụng thuật toán vào sở liệu ngân hàng để chạy thực nghiệm phần mềm weka Dựa kết thực nghiệm, tiến hành phân tích, so sánh độ xác thuật tốn Từ chọn thuật tốn có độ xác cao để áp dụng vào tốn Cuối dựa vào thuật tốn có trên, tiến hành tính tốn để có kết phân loại thẻ tín dụng từ thơng tin khách hàng Đồng thời tìm hiểu thêm hướng để cải thiện độ xác cao áp dụng vào để tài ABSTRACT This thesis is focused on study the multi-label classification methods, the recent algorithms are used to multi-label classification such as: Naive Bayes, AdaBoost, and kNearest Neighbors Furthermore, I also investigate and present additional the processes, the professional knowledge of the bank in order to classify the credit cards In addition, I study the parameters used to evaluate all the metrics during the experiment progress After that, to apply the algorithms into the database of bank to experiments by the Weka software Base on this result, I compare the accuracy between the other algorithms and base on this to choose the algorithm with the best accuracy to apply into my problem Finally, base on the algorithms above I compute and get the result of credit card classification from the new customers’ information I also try to study more to find out the way which I can improve the accuracy after applying it into my thesis 10 MỤC LỤC Chương GIỚI THIỆU 18 1 Đặt vấn đề 18 Tổng quan thẻ quy trình phát hành thẻ tín dụng ngân hàng 20 Khái niệm 20 2 Đặc điểm cấu tạo thẻ 21 Phân loại thẻ 21 Quy trình phát hành toán thẻ ngân hàng 25 Lý chọn đề tài 30 Mục đích 30 Đối tượng 31 Phương pháp nghiên cứu 31 Phạm vi nghiên cứu 31 Ý nghĩa thực tiễn 32 Chương TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU 33 Tổng quan 33 2 Ngoài nước 35 Trong nước 38 Chương CƠ SỞ LÝ THUYẾT VỀ PHÂN LOẠI ĐA NHÃN 39 Khái niệm phân loại 39 Khái niệm phân loại đa nhãn 39 3 Khái niệm dự đoán 39 Quá trình phân loại 40 Bước học 40 Bước phân loại 41 Một số khung học phổ biến 42 Các phương pháp phân loại đa nhãn 44 94 L1 AB BANK L2 AB DESIGN CO L3 ABB CO.LTD … … … L8733 YUWA VIETNAM CO.,LTD L8734 ZIM VIETNAM LLC Thuộc tính CUST_JOB_TITLE Đây thông tin công việc chức vụ khách hàng quan, doanh nghiệp, gồm 1,475 công việc khác Bảng 5.10 Thông tin thuộc tính CUST_JOB_TITLE Số Nhãn Mơ tả L1 NHAN VIEN 9,233 L2 KIEM SOAT VIEN 17 L3 PHO GIAM DOC 17 … … … L1474 L1475 PHO TRUONG PHONG KE HOACH DIEU KE TOAN BAC lượng 1 Thuộc tính CUST_CRLIMIT Đây thơng tin hạn mức tín dụng cấp cho khách hàng Trong thấp 10,000,000 cao 996,000,000 VNĐ 95 Bảng 5.11 Thơng tin thuộc tính CUST_CRLIMIT Nhãn Mơ tả Giá trị L1 Minimum 10,000,000 L2 Maximum 996,000,000 L3 Mean 159,243,275.2 Thuộc tính CUST_ANN_SALAR Đây thơng tin mức thu nhập khách hàng, mức thu nhập thấp 5,000,000 cao 3,000,000,000 Bảng 5.12 Thơng tin thuộc tính CUST_ANN_SALAR Nhãn Mô tả Giá trị L1 Minimum 5,000,000 L2 Maximum 3,000,000,000 L3 Mean 43,640,653 Thuộc tính CARD_PRODUCT Đây thơng tin loại thẻ tín dụng áp dụng ngân hàng, bao gồm 19 loại thẻ, loại có đặc tính, sách ưu đãi áp dụng khác Bảng 5.13 Thông tin thuộc tính CARD_PRODUCT Số Nhãn Mơ tả L1 AMEX GREEN 9,987 L2 AMEX COBRAND CLASSIC 2,118 L3 MASTERCARD EMV GOLD 383 lượng 96 … … … L18 AMEX CASHBACK PLUS L19 AMEX IBM GOLD Kết theo thuật toán Sau áp dụng thuật tốn để chạy thực nghiệm CSDL ta có kết sau: Thuật tốn Nạve Bayes Trên weka ta dùng scheme: weka.classifiers.bayes.NaiveBayes để chạy thực nghiệm này, ta kết chi tiết sau: Bảng 5.14 Bảng kết phân loại phương pháp Naïve Bayes Total Correctly Incorrectly number Classified 22,218 59.04% Classified 40.96% 0.83 0.37 0.65 0.83 0.73 0.47 RO C Are a 0.83 0.31 0.02 0.58 0.31 0.41 0.39 0.89 0.51 0.18 0.00 0.71 0.18 0.29 0.35 0.93 0.43 0.04 0.00 0.67 0.04 0.07 0.15 0.89 0.19 0.10 0.00 0.54 0.10 0.17 0.23 0.97 0.35 0.58 0.07 0.37 0.58 0.45 0.41 0.92 0.46 TP Rat e FP Rat e Precisio n FRecal Measur l e MC C PR C Are a 0.80 Class AMEX GREEN AMEX COBRAND CLASSIC MASTERCARD EMV GOLD JCBCARD EMV GOLD AMEX GOLD VISACARD EMV GOLD 97 0.21 0.01 0.51 0.21 0.30 0.31 0.90 0.40 0.54 0.12 0.55 0.54 0.54 0.42 0.86 0.64 0.18 0.01 0.64 0.18 0.28 0.32 0.91 0.47 0.01 0.00 0.25 0.01 0.03 0.06 0.91 0.11 0.80 0.00 0.29 0.80 0.43 0.48 1.00 0.72 0.15 0.00 0.58 0.15 0.24 0.29 0.99 0.44 0.48 0.01 0.53 0.48 0.51 0.50 0.99 0.54 0.06 0.00 0.91 0.06 0.12 0.24 0.96 0.37 0.00 0.00 0.00 0.00 0.00 0.00 0.85 0.04 0.00 0.00 0.00 0.00 0.00 0.00 0.89 0.03 0.08 0.00 0.33 0.08 0.13 0.16 1.00 0.35 0.00 0.00 0.00 0.00 0.00 0.00 0.88 0.00 1.00 0.00 0.40 1.00 0.57 0.63 1.00 0.70 JCBCARD EMV STANDARD VISACARD EMV STANDARD MASTERCARD EMV STANDARD VISACARD EMV GOLDDIAMOND AMEX CORPORATE GREEN VISACARD EMV PLATINUM AMEX COBRAND PLATINUM AMEX COBRAND GOLD UNIONPAY CLASSIC UNIONPAY GOLD AMEX INTEL PRODUCTS VIETNAM AMEX CASHBACK PLUS AMEX IBM GOLD Biểu đồ biểu diễn số liệu phương pháp Naïve Bayes 98 Biểu đồ số liệu phương pháp Naive Bayes 1.20 1.00 0.80 0.60 0.40 0.20 0.00 -0.20 10 12 14 16 TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area 18 20 Biểu đồ 5.1 Biểu diễn số liệu phương pháp Naïve Bayes Trên thuật toán AdaBoost Trên weka ta dùng scheme: weka.classifiers.meta.AdaBoostM1 -P 100 -S -I 10 -W weka.classifiers.trees.DecisionStump để chạy thực nghiệm này, ta kết chi tiết sau: Bảng 5.15 Bảng kết phân loại phương pháp AdaBoost Total Correctly Incorrectly number Classified 22,218 TP Rat e 1.00 FP Rat e 1.00 0.00 0.00 44.95% Classified 55.05% MC C ROC PRC Area Area 1.00 FMeasur e 0.62 0.00 0.58 0.50 0.00 0.00 0.00 0.00 0.51 0.10 0.00 0.00 0.00 0.00 0.87 0.06 Precisio n Recal l 0.45 0.00 0.00 Class AMEX GREEN AMEX COBRAND CLASSIC MASTERCAR D EMV GOLD 99 0.00 0.00 0.00 0.00 0.00 0.00 0.86 0.03 0.00 0.00 0.00 0.00 0.00 0.00 0.87 0.04 0.00 0.00 0.00 0.00 0.00 0.00 0.89 0.25 0.00 0.00 0.00 0.00 0.00 0.00 0.57 0.05 0.00 0.00 0.00 0.00 0.00 0.00 0.62 0.27 0.00 0.00 0.00 0.00 0.00 0.00 0.59 0.06 0.00 0.00 0.00 0.00 0.00 0.00 0.55 0.01 0.00 0.00 0.00 0.00 0.00 0.00 0.87 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.87 0.03 0.00 0.00 0.00 0.00 0.00 0.00 0.87 0.06 0.00 0.00 0.00 0.00 0.00 0.00 0.86 0.03 0.00 0.00 0.00 0.00 0.00 0.00 0.53 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.87 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.83 0.00 0.00 0.00 0.00 0.00 0.00 0.00 0.65 0.00 JCBCARD EMV GOLD AMEX GOLD VISACARD EMV GOLD JCBCARD EMV STANDARD VISACARD EMV STANDARD MASTERCAR D EMV STANDARD VISACARD EMV GOLDDIAMOND AMEX CORPORATE GREEN VISACARD EMV PLATINUM AMEX COBRAND PLATINUM AMEX COBRAND GOLD UNIONPAY CLASSIC UNIONPAY GOLD AMEX INTEL PRODUCTS VIETNAM AMEX CASHBACK PLUS 100 0.00 0.00 0.00 0.00 0.00 0.00 0.87 AMEX IBM GOLD 0.00 Biểu đồ biểu diễn số liệu phương pháp AdaBoost Biểu đồ số liệu phương pháp AdaBoost 1.20 1.00 0.80 0.60 0.40 0.20 0.00 -0.20 10 12 14 16 TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area 18 20 Biểu đồ 5.2 Biểu diễn số liệu phương pháp AdaBoost Trên thuật toán kNN Trên weka ta dùng scheme: weka.classifiers.lazy.IBk -K -W -A "weka.core.neighboursearch.LinearNNSearch -A \"weka.core.EuclideanDistance -R first-last\"" để chạy thực nghiệm này, ta kết chi tiết sau: Bảng 5.16 Bảng kết phân loại phương pháp kNN Total Correctly Incorrectly number Classified 22,218 Classified 83.24% 16.76% TP Rate FP Rate Precisio n Recal l 1.00 0.22 0.79 1.00 FMeasur e 0.88 MC C 0.79 RO PRC C Class Area Area 0.98 0.95 AMEX GREEN 101 0.86 0.03 0.78 0.86 0.82 0.80 0.99 0.91 0.83 0.00 0.79 0.83 0.81 0.81 1.00 0.93 0.65 0.00 0.76 0.65 0.70 0.70 1.00 0.82 0.92 0.00 0.79 0.92 0.85 0.85 1.00 0.93 0.73 0.00 0.94 0.73 0.82 0.82 1.00 0.93 0.76 0.01 0.78 0.76 0.77 0.76 1.00 0.87 0.60 0.00 0.98 0.60 0.74 0.72 0.98 0.88 0.62 0.00 1.00 0.62 0.77 0.78 1.00 0.90 0.62 0.00 1.00 0.62 0.77 0.79 1.00 0.90 1.00 0.00 1.00 1.00 1.00 1.00 1.00 1.00 0.97 0.00 0.72 0.97 0.83 0.83 1.00 0.88 0.70 0.00 1.00 0.70 0.82 0.83 1.00 0.93 0.69 0.00 1.00 0.69 0.82 0.83 1.00 0.93 0.06 0.00 1.00 0.06 0.11 0.24 1.00 0.51 0.11 0.00 1.00 0.11 0.19 0.32 1.00 0.49 AMEX COBRAND CLASSIC MASTERCAR D EMV GOLD JCBCARD EMV GOLD AMEX GOLD VISACARD EMV GOLD JCBCARD EMV STANDARD VISACARD EMV STANDARD MASTERCAR D EMV STANDARD VISACARD EMV GOLDDIAMOND AMEX CORPORATE GREEN VISACARD EMV PLATINUM AMEX COBRAND PLATINUM AMEX COBRAND GOLD UNIONPAY CLASSIC UNIONPAY GOLD 102 1.00 0.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 0.00 1.00 1.00 1.00 1.00 1.00 1.00 1.00 0.00 1.00 1.00 1.00 1.00 1.00 1.00 AMEX INTEL PRODUCTS VIETNAM AMEX CASHBACK PLUS AMEX IBM GOLD Biểu đồ biểu diễn số liệu phương pháp kNN Biểu đồ số liệu phương pháp kNN 1.20 1.00 0.80 0.60 0.40 0.20 0.00 -0.20 10 12 14 16 TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area 18 20 Biểu đồ 5.3 Biểu diễn số liệu phương pháp kNN 5 So sánh đánh giá kết Sau tiến hành chạy thực nghiệm tập huấn luyện thuật toán khác nhau, ta bảng kết so sánh biểu đồ thống kê bên dưới: 5 Trọng số trung bình tất số liệu Sau chạy thực nghiệm xong, ta rút bảng so sánh trọng số trung bình tất số liệu, thống kê bảng 5.17: 103 Bảng 5.17 Bảng so sánh trọng số trung bình thuật toán Weighted TP FP FROC PRC Precision Recall MCC Avg Rate Rate Measure Area Area AdaBoost Naïve Bayes kNN 0.45 0.45 0.20 0.45 0.28 0.00 0.62 0.32 0.59 0.20 0.59 0.59 0.56 0.42 0.87 0.65 0.83 0.10 0.86 0.83 0.82 0.78 0.98 0.92 5 Biểu đồ so sánh trọng số trung bình thuật tốn Sau chạy thực nghiệm xong, ta tổng hợp bảng so sánh trọng số trung bình thuật tốn, biểu diễn biểu đồ bên dưới: Biểu đồ so sánh trọng số trung bình thuật tốn 1.20 1.00 0.80 0.60 0.40 0.20 0.00 AdaBoost TP Rate FP Rate Precision Naïve Bayes Recall F-Measure kNN MCC ROC Area PRC Area Biểu đồ 5.4 Biểu đồ so sánh trọng số trung bình thuật tốn 5 Biểu đồ so sánh độ xác thuật tốn Cịn biểu đồ tổng hợp độ xác thuật tốn, biểu diễn biểu đồ bên dưới: 104 Biểu đồ so sánh độ xác thuật tốn 100.00% 80.00% 60.00% 40.00% 20.00% 0.00% AdaBoost Naïve Bayes Correctly kNN Incorrectly Biểu đồ 5.5 Biểu đồ so sánh độ xác thuật toán 5 Nhận xét Trong thuật toán dùng để thực nghiệm sở liệu này, có thuật tốn k láng giềng gần cho độ xác cao nhất, với độ xác 80% Do đó, ta dùng thuật tốn để triển khai, tính tốn cho CSDL Chương KẾT LUẬN Kết luận Qua trình tìm hiểu, nghiên cứu, tham khảo từ nhiều nguồn tài liệu khác nhau, luận văn tổng quát lại phương pháp dùng để phân loại đa nhãn, liệt kê phương pháp thường dùng để người dùng tự áp dụng vào trường hợp cụ thể cho riêng Cụ thể sau tìm hiểu, nghiên cứu, phân tích thuộc tính CSDL huấn luyện mẫu ngân hàng qua trình nghiên cứu, tìm hiểu Luận văn áp dụng ba thuật tốn sau, gồm: AdaBoost, Nạve Bayes kNN vào CSDL huấn luyện để chạy thực nghiệm phần mềm Weka Từ xác định độ xác thuật tốn khác 105 Sau có độ xác thuật tốn, chọn thuật tốn phù hợp mà có độ xác cao để áp dụng vào toán mà luận văn cần phải giải Kết thuật toán k láng giềng gần cho kết với độ xác cao loại bỏ bớt thuộc tính khơng cần thiết Luận văn giúp giải toán phân loại loại thẻ dự đốn hạn mức tín dụng dựa số thuộc tính khách hàng nghề nghiệp, mức thu nhập, giới tính,… trước ngân hàng thức phát hành thẻ cho khách hàng Nhằm mục đích đánh giá tiềm khách hàng, nhằm giảm thiểu rủi ro cho ngân hàng phát hành thẻ với hạng mức loại thẻ không phù hợp tình hình nợ xấu ngân hàng Việt Nam có chiều hướng gia tăng khó kiểm sốt năm trở lại Hướng phát triển Do toán đặc thù nên thực nghiệm phù hợp với thuật toán k láng giềng gần Tuy nhiên áp dụng thuật tốn này, kết cịn phụ thuộc vào giá trị k người sử dụng chọn Nếu chọn giá trị k q nhỏ nhạy cảm với nhiễu, ngược lại chọn giá trị k q lớn vùng lân cận chứa đối tượng lớp khác Do đó, cần nghiên cứu thêm cách thức phương pháp dùng để chọn giá trị k cho phù hợp với loại CSDL huấn luyện này, nhằm mục đích mang lại hiệu cao sau áp dụng Ngồi ra, tìm hiểu, nghiên cứu sâu thêm thuật toán phân loại đa nhãn khác, nhằm mục đích áp dụng vào loại CSDL cho kết xác cao thời gian xử lý nhanh 106 TÀI LIỆU THAM KHẢO Tiếng Anh [1] G Corani, M Scanagatta, Air pollution prediction via multi-label classification, Elsevier, 2016, pp 259-264 [2] H.Su, J Rousu, Multilabel classification through random graph ensembles, Springer, 2014, pp 1-26 [3] B.Sun, S Chen, J Wang, H Chen, A robust multi-class AdaBoost algorithm for mislabeled noisy data, Elsevier, 2016, pp 7-102 [4] M Ramírez-Corona, L Enrique Sucar, E F Morales, Hierarchical multilabel classification based on path, Elsevier, 2015, pp 1-15 [5] K.Trohidis, G.Tsoumakas, G.Kalliris, I.Vlahavas, Multi-label classification of music by emotion, Springer, 2011, pp 1-9 [6] L Guo, B Jin, R Yu, C Yao, C Sun, D Huang, Multi-label Classification Methods for Green Computing and Application for Mobile Medical, Recommendations, IEEE, 2016, pp 1-8 [7] S Diplaris, G Tsoumakas, P.A Mitkas, I.Vlahavas, Protein Classification with Multiple Algorithms, Springer, 2005, pp 448-456 [8] N Spolaˆor, E A Cherman, M C Monard, H D Lee, A Comparison of Multi-label Feature Selection Methods using the Problem Transformation Approach, Elsevier, 2013, pp 135-151 [9] R Venkatesan, M Joo Er, Multi-label Classification Method Based on Extreme Learning Machines, IEEE, 2014, pp 619-624 [10] T Yuan, J Wang, Reduced-rank multi-label classification, Springer, 2015, pp 111 [11] H Liu, X Wu, S Zhang, Neighbor Selection for Multilabel Classification, Elsevier, 2015, pp 1- 25 [12] A.Li, Y.Yu, Z.Liu, Sensitivity Analysis of b in MCLP Model for Credit Cardholders Classification, Elsevier, 2013, pp 1023-1031 107 [13]Q Lin, Y Xiao, N Ye, R Wang, A method of cleaning RFID data streams based on Naive Bayes classifier, Int, J Ad Hoc and Ubiquitous Computing, Vol.21, No.4, 2016, pp 237- 244 [14] G Haixiang, L Yijing, L Yanan, L Xiao, L Jinling, BPSO-Adaboost-KNN ensemble learning algorithm for multi-class imbalanced data classification, Elsevier, 2015, pp 1-18 [15] V Jafarizadeh, A Keshavarzi, T Derikvand, Efficient cluster head selection using Naıve Bayes classifier for wireless sensor networks, Springer, 2016, pp 1-7 [16] Q Nie, L Jin, S Fei, Probability estimation for multi-class classification using AdaBoost, Elsevier, 2014, pp 3931-3940 [17] R Kumar Solanki, K Verma, R Kumar, Spam Filtering Using Hybrid LocalGlobal Naive Bayes Classifier, IEEE, 2015, pp 829 – 833 [18] Danilo C G de Lucena, Ricardo B C Prudencio, Semi-Supervised Multi-label kNearest Neighbors Classification Algorithms, IEEE, 2015, pp 49-54 [19] Burton DeWilde, http://bdewilde.github.io/blog/blogger/2012/10/26/classificationof-hand-written-digits-3/, truy cập 26/10/2016 [20] https://www.tutorialspoint.com/data_mining/dm_classification_prediction.htm, truy cập 06/05/2017 [21] M L Zhang, Zhi H Zhou, A k-Nearest Neighbor Based Algorithm for Multi-label Classification, IEEE, 2005, pp 718 – 721 [22] G Tsoumakas, I Katakis, Multi-label Classification An Overview, International Journal of Data Warehousing and Mining, 2006, pp 1-17 [23] T Li, M Ogihara, Detecting Emotion in Music, Johns Hopkins University, 2003, pp 1-2 [24] M R Boutell, J Luo, X.Shen, C.M.Brown, Learning multi-label scene classication, Elsevier, 2004, pp 1757-1771 [25] J Han, M Kamber, J Pei, Data Mining - Concepts and Techniques (3rd Ed), Elsevier, 2012, pp 327- 391 [26] A Clare, R D King, Knowledge Discovery in Multi-label Phenotype Data, Springer, 2001, pp 42-53 108 [27] G Tsoumakas, I Katakis, I Vlahavas, Random k-Labelsets for Multilabel Classification, IEEE, 2011, pp 1079 – 1089 [28] M Zhang, Z Zhou, A Review on Multi-Label Learning Algorithms, IEEE, 2013, pp – 43 [29] A Carvalho, A Freitas, A Tutorial on Multi-label Classification Techniques, ResearchGate, 2009, pp – 19 Tiếng Việt [30] Phạm Xuân Dũng, Phân loại đa nhãn đa lớp dựa vào luật kết hợp, luận văn thạc sĩ CNTT trường Đại học Công nghệ TP.HCM, 2014 [31] Nguyễn Thị Thảo, Các phương pháp phân lớp đa nhãn văn tiếng việt, luận văn tốt nghiệp trường Đại học Công nghệ Hà Nội, 2013 [32] Ánh Hồng, http://tuoitre.vn/tin/kinh-te/20130719/nhieu-chu-the-tin-dung-xuno/559864.html, truy cập 05/09/2016 ... đăng ký sử dụng thẻ tín dụng giúp phân loại loại thẻ tín dụng dựa số thuộc tính khác dự đoán hạn mức trước thẻ phát hành Nội dung: nghiên cứu, tìm hiểu phương pháp phân loại đa nhãn, phân tích,... 1541860036 I Tên đề tài Phân loại dự đoán hạn mức thẻ tín dụng dựa kỹ thuật phân lớp đa nhãn II Nhiệm vụ nội dung Nhiệm vụ: tìm hiểu giải pháp phân lớp đa nhãn như: giải thuật Naïve Bayes, AdaBoost,... phân loại thẻ tín dụng Ngồi 31 ra, dựa vào kết để dự đốn hạn mức tín dụng cấp cho khách hàng sau họ đăng ký Đối tượng Đề tài dựa đối tượng loại thẻ sử dụng phổ biến như: thẻ ghi nợ, thẻ tín dụng,