Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 42 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
42
Dung lượng
1,28 MB
Nội dung
lOMoARcPSD|17343589 ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN KẾT THÚC HỌC PHẦN MÔN: KHOA HỌC DỮ LIỆU ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU BANK PERSONAL LOAN BẰNG ORANGE Giảng viên hướng dẫn: Mã lớp học phần : Thầy Trương Việt Phương 22C1INF50905935 Nhóm sinh viên thực hiện: Hà Bùi Yến Nhi 31211021382 Phạm Ngọc Kiều Anh 31211022495 Lưu Thị Vy Khanh 31211022501 Nguyễn Hoàng Yến Nhi 31211021393 Phan Lê Kim Phương 31211024051 Tp HCM, tháng 12 năm 2022 lOMoARcPSD|17343589 PHÂN CHIA CÔNG VIỆC STT Họ tên Hà Bùi Yến Nhi Công việc Tìm liệu, thảo luận đề tài, mơ Đánh giá 100% tả biến, xử lý liệu Orange, Phạm Ngọc Kiều Anh nhận xét Tìm liệu, thảo luận đề tài, mô 100% tả biến, xử lý liệu Orange, Lưu Thị Vy Khanh nhận xét Tìm liệu, thảo luận đề tài, mô 100% tả biến, xử lý liệu Orange, Nguyễn Hồng Yến Nhi nhận xét Tìm liệu, thảo luận đề tài, mô 100% tả biến, xử lý liệu Orange, Phan Lê Kim Phương nhận xét Tìm liệu, thảo luận đề tài, mô tả biến, xử lý liệu Orange, nhận xét 100% lOMoARcPSD|17343589 MỤC LỤC LỜI MỞ ĐẦU LỜI CẢM ƠN DANH MỤC HÌNH ẢNH .3 CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI .4 1.1 Giới thiệu Khoa học liệu 1.2 Giới thiệu đề tài 1.2.1 Lý chọn đề tài .4 1.2.2 Mục tiêu nghiên cứu 1.2.3 Phương pháp thực CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG - ORANGE VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 2.1 Tổng quan phần mềm Orange 2.2 Tổng quan phương pháp sử dụng .8 2.2.1 Tiền xử lý liệu 2.2.2 Phân cụm 10 2.2.3 Phân lớp 12 CHƯƠNG 3: MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT 16 CHƯƠNG 4: KẾT QUẢ THỰC HIỆN .17 4.1 Phân tích tiền xử lý liệu .17 4.1.1 Phân tích liệu .17 4.1.2 Tiền xử lý liệu 18 4.2 Khai thác liệu 19 4.2.1 Các phương pháp phân cụm liệu .19 4.2.2 Thực phân cụm liệu 19 Hierarchical Clustering 4.3 Tue Dec 20 22, 14:16:37 23 Khai thác liệu (Phân lớp dự báo) .26 lOMoARcPSD|17343589 4.3.1 Bài toán 1: 26 CHƯƠNG 5: KẾT LUẬN 32 5.1 Kết luận 32 5.2 Định hướng phát triển 34 5.2.1 Phân loại khách hàng theo đặc điểm .34 5.2.2 Giải pháp phát triển thiết lập tin tưởng với khách hàng 34 5.2.3 Tư vấn dựa vào đặc điểm mong muốn 35 TÀI LIỆU THAM KHẢO 36 lOMoARcPSD|17343589 LỜI MỞ ĐẦU Trong thời đại ngày nay, cơng nghệ đóng vai trò quan trọng việc chuyển đổi phát triển doanh nghiệp ngày mạnh mẽ Việc ứng dụng cơng nghệ thơng tin giúp doanh nghiệp thích ứng với thay đổi giới, tạo cho doanh nghiệp lợi cạnh tranh nhiều hội phát triển Với việc ứng dụng công nghệ thông tin, doanh nghiệp đẩy mạnh hoạt động kinh doanh ngày khoa học liệu trở nên quen thuộc Việt Nam Để phù hợp với chuyên ngành mình, chúng em tìm phân tích liệu thơng qua công cụ Orange để nhận xét, đánh giá đưa chiến lược phát triển cho ngân hàng Mỹ Với mục tiêu phát triển chiến lược tiếp theo, chúng em đánh giá xem khách hàng có sẵn lịng vay cá nhân hay khơng? Bài tiểu luận giúp chúng em làm rõ vấn đề lOMoARcPSD|17343589 LỜI CẢM ƠN Với lòng biết ơn sâu sắc tình cảm chân thành cho phép chúng em gửi lời cảm ơn chân thành tới: Thầy Trương Việt Phương – Giảng viên hướng dẫn môn Khoa học liệu Thầy giúp chúng em tích lũy thêm nhiều kiến thức, làm sở để hoàn thành dự án Cảm ơn thầy ln tận tình hướng dẫn, bảo chúng em cách thức để thực dự án, để chúng em hoàn thành tốt dự án Đặc biệt, nhờ giảng dạy nhiệt tình tâm huyết thầy, chúng em học tập tiếp cận với phần mềm thú vị Word, Excel, Orange,… Chúng em tin rằng, hành trang vơ bổ ích cho chúng em sau Một lần nữa, chúng em xin gửi lời chân thành đến Thầy Có lẽ với điều kiện thời gian kinh nghiệm lần đầu làm dự án cịn hạn chế, q trình hồn thành, chắn khơng tránh khỏi thiếu sót Chúng em mong nhận lời nhận xét ý kiến đóng góp đến từ Thầy để chúng em hoàn thiện kinh nghiệm chúng em lần làm đề tài nghiên cứu sau Chúng em xin cảm ơn thầy kính chúc thầy sức khỏe, hạnh phúc thành công đường nghiệp lOMoARcPSD|17343589 DANH MỤC HÌNH ẢNH Hình 1: Sự chênh lệch chấp nhận hay khơng Hình 2: Thơng tin liệu Hình 3: Số lượng nhóm tuổi Hình 4: Mơ hình phân cụm Hình 5: Xử lý data trước phân cụm Hình 6: Kết phân loại K-Means Hình 7: Silhouette Plot thể phân cụm theo phương pháp K-Means Hình 8: Scatter Plot thể phân cụm theo phương pháp K-Means Hình 9: Chọn Top N=2 Hình 10: Hierarchical Clustering (Report) Hình 11: Silhouette Plot (Hierarchical Clustering) Hình 12: Mơ hình khai thác liệu Hình 13 Kết xử lí “Role” cho thuộc tính Hình 14: Kết Test & Score Hình 15: Confusion Matrix SVM Hình 16: Confusion Matrix Random Forest Hình 17: Confusion Matrix Logistic Regression Hình 18: Kết dự báo Hình 19: Mơ hình khai thác liệu Hình 20 Kết xử lí “Role” cho thuộc tính Hình 21: Kết Test & Score Hình 22: Confusion Matrix Random Forest Hình 23: Confusion Matrix SVM Hình 24: Confusion Matrix Logistic Regression Hình 25: Kết dự báo lOMoARcPSD|17343589 CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu Khoa học liệu Khoa học liệu (DS) khoa học việc quản trị phân tích liệu, khai thác thơng tin chuyên sâu có ý nghĩa lĩnh vực chuyên ngành Từ ý nghĩa có giá trị đến định dẫn đến hành động sau Khoa học liệu ngành kết hợp nhiều nguyên tắc phương pháp nhiều ngành khác, lại từ khía cạnh sau: - Tốn học (tốn thống kê) - Khoa học máy tính - Kiến thức chuyên ngành khác Sự kết hợp tạo thuận lợi cho việc phân tích khối lượng lớn liệu Từ kĩ thuật tiên tiến đại, liệu thô biến đổi thành liệu mang ý nghĩa, data scientist (nhà phân tích liệu) nhìn nhận, phân tích đưa đáp án để giúp doanh nghiệp giảm chi phí, tăng hiệu sản xuất, nhìn nhận đâu hội đâu thử thách cần vượt qua, từ gia tăng lợi cạnh tranh thị trường doanh nghiệp Các lĩnh vực khoa học liệu khai thác liệu (Data Mining), thống kê (Statistic), học máy (Machine learning), phân tích (Analyze) lập trình (Programming) 1.2 Giới thiệu đề tài 1.2.1 Lý chọn đề tài Hằng ngày, giới tạo hàng nghìn liệu khác nhau, bắt buộc chuyên gia phải tìm hiểu, phân tích chúng tìm ý nghĩa ẩn sâu liệu để trả lời câu hỏi mà doanh nghiệp đặt Để thực hành phần mềm Orange tập phân tích dự báo số liệu, nhóm em chọn data “Personal Loan Modeling ” , liệu thuộc ngân hàng Mỹ - Thera Bank, họ muốn tìm hiểu khách hàng có nhu cầu vay cá nhân để điều chỉnh chiến dịch tiếp thị đến nhóm đối tượng phù hợp Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 Nhóm em chọn liệu để thực hành đưa phương án tối ưu cho ngân hàng 1.2.2 Mục tiêu nghiên cứu - Khám phá liệu - Làm liệu - Phân cụm, phân lớp liệu - So sánh dựa nhãn “Personal Loan ” (Vay cá nhân) cho nhu cầu vay - Dự đốn liệu khách hàng có nhu cầu vay vốn hay không - Đưa hướng phát triển để thu hút thêm nhiều khách hàng đồng ý vay vốn vốn 1.2.3 Phương pháp thực “Nhóm sử dụng phần mềm Orange để tiến hành thực xử lý liệu, phân cụm, phân lớp liệu, tiến hành dự báo cho nhóm liệu ngẫu nhiên chưa phân lớp Để thực phân cụm liệu chọn, nhóm sử dụng hai phương pháp Hierarchical K-means: - Đối với phương pháp Hierarchical clustering, nhóm tiến hành tính khoảng cách phần tử Distance quan sát liệu phân cụm với số cụm từ đến quan sát Silhouette Plot - Đối với phương pháp K-means, nhóm quan sát số Silhouette trung bình phân liệu từ đến cụm, chọn số cụm có số Silhouette tốt, phù hợp với số lượng biến có sẵn liệu quan sát Silhouette Plot Sau thực phân cụm liệu theo hai phương pháp nêu, nhóm tiến hành chọn phương pháp tốt để phân cụm cho liệu chọn Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 Đối với việc phân lớp liệu, nhóm chọn biến “Personal Loan” (Vay cá nhân) cho việc chấp nhận vay biến mục tiêu, tiến hành phân lớp phương pháp Cây định (Random Forest), SVM (Support Vector Machine) Hồi quy Logistic (Logistic Regression) Sử dụng Test and Score, quan sát số AUC phương pháp cuối quan sát ma trận nhầm lẫn.” Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 Hình Scatter Plot (k-Means) Kết phân cụm với Hierarchical Clustering: Sau nhiều lần thực nhóm lựa chọn phân thành cụm (Tích vào Top N = 2) để đạt hiệu tốt (có phân tách rõ ràng) Hình Chọn Top N = - Kết phân cụm: Hierarchical Clustering Tue Dec 20 22, 14:16:37 Linkage: Average Annotation: None Selection: top clusters 24 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 Hình 10 Hierarchical Clustering (Report) 25 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 Hình 11 Silhouette Plot (Hierarchical Clustering) 26 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 Kết luận: Cả hai phương pháp k-Means lẫn Hierachical Clustering phân cụm tốt nhiên nhóm đánh giá K-Means tốt so sánh độ hiệu việc phân cụm qua số điểm Sihouette 4.3 Khai thác liệu (Phân lớp dự báo) 4.3.1 Bài toán 1: Dự báo phân loại đối tượng chấp nhận khoản vay cá nhân Ngân hàng 4.3.1.1 Quy trình thực Hình 12 Mơ hình khai thác liệu - B1: Chọn liệu từ file Bank_Personal_Loan_Modelling.xlsx, sheet Data chọn cột Personal Loan làm Target (Biến mục tiêu) 27 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 Hình 13 Kết xử lí “Role” cho thuộc tính - B2: Dùng Data Sampler chia liệu thành phần (90 - 10), phần lớn Train Data dùng để huấn luyện phần nhỏ Forecast Data dùng để dự báo - B3: Dùng phương pháp: SVM, Random Forest Logistic Regression để tiến hành phân loại Personal Loan đánh giá hiểu phương pháp - B4: Chọn phương pháp đánh giá tốt nhất, từ dùng để dự báo cho liệu Forecast Data 4.3.1.2 Đánh giá kết - Kết đánh giá phương pháp Test & Score: Hình 13 Kết Test & Score Dựa theo bảng Test and Score, ta thấy số AUC phương pháp lần lượt: SVM 0.79, Random Forest 0.98 Hồi quy Logistic 0.54 Trong đó, phương pháp Random Forest có giá trị số AUC lớn phương pháp lại gần với Điều cho thấy phương pháp Random Forest xem phương pháp đánh giá phân lớp tốt cho liệu - Đánh giá mơ hình dựa kết Confusion Matrix: 28 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 Hình 15 Confusion Matrix SVM Hình 16 Confusion Matrix Random Forest Hình 14 Confusion Matrix Logistic Regression Xem kết bảng sau đánh giá: Sai lầm loại loại Confusion Matrix Random Forest thấp phương pháp Các số Test & Score Random Forest có số cao tất Kết luận: Chọn Random Forest làm phương pháp dùng để dự báo Xét ma trận nhầm lẫn phương pháp Hồi quy logistic, ma trận thể rõ: 29 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 - 4018 No-Yes: 4018 khách hàng dự đốn khơng chấp nhận khoản vay cá nhân cung cấp trước giống kết thực tế - 54 No-Yes: 54 khách hàng dự đốn cấp nhận khoản vay cung cấp trước thực tế không chấp nhận - 173 Yes-No: 173 khách hàng dự đốn khơng chấp nhận khoản vay cá nhân cung cấp trước thực tế chấp nhận - 255 Yes-Yes: 255 khách hàng dự đoán chấp nhận khoản vay cá nhân cung cấp trước giống kết thực tế Nhìn chung, ta thấy đa số khách hàng không chấp nhận khoản vay cá nhân cung cấp trước - Kết dự báo: Hình 18 Kết dự báo 4.3.2 Bài toán 2: Dự báo nhóm tuổi chấp nhận khoản vay cá nhân 4.3.2.1 Quy trình thực hiện: 30 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 Hình 19 Mô hình khai thác liệu - B1: Chọn liệu từ file Bank_Personal_Loan_Modelling.xlsx, sheet PL chọn cột Age-range làm Target (Biến mục tiêu) Hình 20 Kết xử lí “Role” cho thuộc tính - B2: Dùng Data Sampler chia liệu thành phần (90 - 10), phần lớn Train Data dùng để huấn luyện phần nhỏ Forecast Data dùng để dự báo - B3: Dùng phương pháp: SVM, Random Forest Logistic Regression để tiến hành phân loại Personal Loan đánh giá hiểu phương pháp 31 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 - B4: Chọn phương pháp đánh giá tốt nhất, từ dùng để dự báo cho liệu Forecast Data 4.3.2.2 - Đánh giá & Kết quả: Kết đánh giá phương pháp Test & Score: Hình 21 Kết Test & Score - Đánh giá mơ hình dựa kết Confusion Matrix: Hình 15 Confusion Matrix Random Forest Hình 23 Confusion Matrix SVM 32 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 Hình 24 Confusion Matrix Logistic Regression Xem kết bảng sau đánh giá: Sai lầm loại loại Confusion Matrix Random Forest thấp phương pháp Các số Test & Score Random Forest có số cao tất Kết luận: Chọn Random Forest làm phương pháp dùng để dự báo - Kết dự báo: Hình 25 Kết dự báo 33 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 CHƯƠNG 5: KẾT LUẬN 5.1 Kết luận Bộ liệu thực ngân hàng Thera Bank với mong muốn tìm chiến lược tiếp thị tốt nhằm tăng tỷ lệ thành công việc chuyển từ khách hàng trách nhiệm sang khách hàng chấp nhận vay cá nhân Bộ liệu có tổng cộng 5.000 biến khách hàng biến thông tin tuổi tác, trình độ học vấn, thu nhập, Từ liệu ngân hàng Thera Bank với mong muốn tìm cách tiếp thị có mục tiêu tốt nhằm tăng tỷ lệ thành công việc chuyển đổi khách hàng trách nhiệm sang khách hàng cho vay cá nhân vào chiến dịch quảng cáo Bộ liệu có tất 5.000 biến khách hàng biến thơng tin tuổi tác, trình độ học vấn, thu nhập, v.v…nhóm chúng tơi tiến hành tiền xử lý liệu để chọn biến mục tiêu Personal Loan (khoản vay cá nhân) loại bỏ hai biến ID, ZIP Code hai biến không ảnh hưởng đến định vay vốn khách hàng Thông qua kết phân lớp liệu từ phương pháp Random Forest, SVM, hồi quy Logistic; nhóm chọn Random Forest phương pháp đánh giá phân lớp tốt cho liệu Ở phần phân cụm liệu, kết cho thấy phương pháp K-means có tỳ lệ xác cao so với phương pháp Hierarchical Clustering Vì phương pháp K-means tốt Theo kết phân tích nhóm chúng tơi, có đặc điểm quan trọng để phía ngân hàng xác định đối tượng cho vay cá nhân sau: Đối tượng có biến thu nhập từ mức khoảng 150 trở lên Đối tượng có biến gia đình có gia đình Đối tượng có học vấn từ cao học trở lên 34 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 Các đặc điểm sau đặc điểm tùy chọn mà ngân hàng tham khảo thêm đối tượng khách hàng Đối tượng có sử dụng hình thức tốn online có sử dụng tảng ngân hàng kĩ thuật số Điều tâm lý tốn khơng tiền mặt mang lại cảm giác dễ dàng, nhanh chóng nên đối tượng khách hàng có xu hướng sử dụng tiền thoải mái thoáng hơn, dễ chấp nhận vay cá nhân Đối tượng có biến CCAvg từ trở lên Sở dĩ biến có độ tương quan cao với biến thu nhập, đồng nghĩa với việc đối tượng khách hàng có thu nhập cao sử dụng thẻ để tốn nhiều Đối tượng có biến kinh nghiệm từ khoảng 16 năm trở lên Biến kinh nghiệm có độ tương quan với biến tuổi tác thường tuổi cao có nhiều kinh nghiệm chuyên môn 5.2 Định hướng phát triển 5.2.1 Phân loại khách hàng theo đặc điểm Ngân hàng phân ba loại khách hàng cho hạng mức cho vay cá nhân khác nhau: Hạng nhất, Hạng hai, Hạng ba Để chia thành loại, ngân hàng nên lấy đặc điểm quan trọng để có hướng mục tiêu rõ ràng VD: - Hạng nhất: Thu nhập từ 150 trở lên – có gia đình – trình độ học vấn từ cao học - Hạng 2: Thu nhập từ 50-150 – có gia đình – trình độ học vấn từ cao học - Hạng 3: Thu nhập từ 50 trở xuống – có gia đình – trình độ học vấn thấp Ngồi ra, ngân hàng tham khảo thêm đặc điểm tùy chọn để xác định đối tượng mà ngân hàng muốn cho vay hay không 35 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 5.2.2 Giải pháp phát triển thiết lập tin tưởng với khách hàng - Ngân hàng cần tiếp tục nâng cao hình ảnh danh tiếng Ngân hàng, như: không ngừng nỗ lực quản lý hoạt động kinh doanh để hiệu hoạt động kinh doanh nâng cao nữa; cần coi trọng hoạt động marketing thơng qua nhiều hình thức tun truyền, quảng cáo phương tiện truyền thông đại chúng - Ngân hàng cần trọng thực cam kết uy tín giao dịch với khách hàng - Ngân hàng cần phát triển nhân viên có khả tư vấn cho khách hàng có nhu cầu vay cá nhân, trực tiếp trực tuyến Thiết lập tin tưởng, xây dựng dịch vụ tốt, cung cấp lời khuyên có lợi cho khách hàng Đổi lại tin tưởng hợp tác lâu dài họ - Ngân hàng cam kết bảo mật, thực giao dịch nhanh chóng, hiệu quả, hạn chế sai sót, xảy sai sót Ngân hàng phải đảm bảo quyền lợi Khách hàng - Ngân hàng cần cải thiện giảm bớt thủ tục vay vốn đảm bảo quy định hành Ngân hàng nhân viên cần cung cấp minh bạch, công khai quy trình, thủ tục vay vốn đến Khách hàng Nhân viên hỗ trợ Khách hàng tối đa để thời gian giải hồ sơ nhanh chóng 5.2.3 - Tư vấn dựa vào đặc điểm mong muốn Xây dựng mục tiêu tiếp thị tương ứng với hạng mức giúp Ngân hàng thu hút phần lớn Khách hàng tiềm phân khúc thị trường dễ Hoặc Ngân hàng tập trung phát triển Khách hàng hạng Nhất, loại khách hàng có mức chi tiêu cao thường xuyên, từ đó, giúp Ngân hàng có loại khách hàng tiềm lâu dài cao, gắn bó lâu bền với Ngân hàng giữ mối quan hệ Ngân hàng cho vay người vay 36 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 - Phân tích nhu cầu đa dạng Khách hàng Việc cung cấp nhiều sản phẩm dịch vụ thỏa mãn nhu cầu Khách hàng với chi phí thấp tăng cường mối quan hệ Khách hàng Ngân hàng, qua làm suy giảm khả cạnh tranh đối thủ - Xây dựng ưu đãi đặc biệt tặng quà, bốc thăm trúng thưởng dựa số tiền hạng mức vay, ưu đãi lãi suất vay… cho Hạng mức giúp thu hút Khách hàng đến với dịch vụ cho vay cá nhân Ngân hàng 37 Downloaded by v? ngoc (vuchinhhp10@gmail.com) lOMoARcPSD|17343589 TÀI LIỆU THAM KHẢO https://www.kaggle.com/datasets/teertha/personal-loan-modeling https://insight.isb.edu.vn/6-ky-thuat-quan-trong-trong-khai-pha-du-lieu/ 3.https://text.123docz.net/document/9879719-pha-n-ti-ch-bo-du-lie-u-bank-marketingqua-ca-c-thua-t-toa-n-tre-n-orange.htm?cv=1 38 Downloaded by v? ngoc (vuchinhhp10@gmail.com)