Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 45 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
45
Dung lượng
0,94 MB
Nội dung
BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH BÀI TIỂU LUẬN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU NGHIÊN CỨU CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG ĐỂ DỰ BÁO KHẢ NĂNG ĐĂNG KÝ MỘT KHOẢN TIỀN GỬI CÓ KỲ HẠN CỦA KHÁCH HÀNG Tên học phần : Khoa Học Dữ Liệu Giảng viên hướng dẫn: : TS Thái Kim Phụng Mã lớp học phần: : 22C1INF50905971 – Sáng thứ Nhóm sinh viên thực – MSSV : Nguyễn Bảo Hà - 31211026611 Ng Hồ Quỳnh Hoa - 31211024872 Châu Yến Linh - 31211022112 Thái Ái Thuận - 31211023244 Thành phố Hồ Chí Minh, ngày 30 tháng 10 năm 2022 DANH SÁCH THÀNH VIÊN STT Thành viên Mức độ tham gia, đóng góp Nguyễn Bảo Hà 100% Nguyễn Hồ Quỳnh Hoa 100% Châu Yến Linh 100% Thái Ái Thuận 100% LỜI CẢM ƠN Lời đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến thầy Thái Kim Phụng Trong suốt q trình học tập tìm hiểu mơn “Khoa học liệu”, chúng em nhận nhiều quan tâm giúp đỡ, hướng dẫn tận tình từ thầy Để hồn thành dự án này, khơng có cơng sức cố gắng thành viên nhóm mà cịn nhờ giúp đỡ thầy Do kiến thức nhiều hạn chế nên dự án chúng em khơng tránh khỏi thiếu sót Bản thân chúng em mong nhận nhận góp ý đến từ thầy để luận hồn thiện Chúng em tin hành trang vơ bổ ích đường sau Một lần nhóm xin gửi lời cảm ơn chân thành đến thầy, xin chúc thầy nhiều sức khỏe, hạnh phúc thành công đường nghiệp Chúng em xin chân thành cảm ơn! DANH MỤC CHỮ VIẾT TẮT Chữ viết tắt Ý nghĩa KHDL Khoa học liệu CSDL Cơ sở liệu SVM Support Vector Machine ROC Receive Operating Characteristic AUC Area Under the Curve MCU Multipoint Control Unit DANH MỤC BẢNG BIỂU- HÌNH VẼ VÀ BIỂU ĐỒ Hình : Làm liệu 10 Hình : Lựa chọn liệu 11 Hình : Quy trình khai phá liệu 12 Hình : Bước q trình trình phân lớp: Xây dựng mơ hình phân lớp 14 Hình : Bước 2.1 q trình trình phân lớp: Đánh giá mơ hình 15 Hình : Bước 2.2 trình trình phân lớp: Phân lớp liệu 15 Hình : Minh họa thuật toán phân lớp Hồi quy Logistic (Logistic Regression) 16 Hình : Minh họa thuật tốn phân lớp định (Decision tree) 17 Hình : Minh họa thuật toán phân lớp Support Vector Machine (SVM) .18 Hình 10 : Minh họa thuật tốn phân lớp Mạng Nơ ron nhân tạo (Neural Network) 19 Hình 11 : Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix) .22 Hình 12 : Minh họa phương pháp ROC 24 Hình 13 : Minh họa phương pháp AUC 25 Hình 14 : Mơ tả thuộc tính biến 30 Hình 15 : Mơ tả thuộc tính biến 31 Hình 16 : Mơ tả thuộc tính biến 31 Hình 17 : Tổng quan quy trình huấn luyện dự báo sơ đồ .32 Hình 18 : Kết mơ hình đánh giá phân lớp Hồi quy logistic 32 Hình 19 : Ma trận nhầm lẫn với Hồi quy logistic 33 Hình 20 : Các thuộc tính liệu dự báo .34 Hình 21 : Các thuộc tính liệu dự báo .34 Hình 22 : Các thuộc tính liệu dự báo .34 Hình 23 : Kết dự báo Hồi quy logistic .35 Hình 24 : Chỉ số Logistic Regression 35 CHƯƠNG 1: GIỚI THIỆU 1.1 Lý chọn đề tài Với phát triển nhanh chóng internet thiết bị thông minh smartphone, tablet hay PC, laptop cơng cụ giải trí người tiêu dùng sử dụng phổ biến để lại thông tin quan trọng mà doanh nghiệp cần khai thác Hơn hết, kết nối công cụ thông minh với dựa tảng internet cho phép người tiêu dùng tổ chức tương tác trực tiếp từ trao đổi truyền tải liệu cho Từ vấn đề này, thấy khối lượng liệu nhu cầu thu thập, xử lý phân tích liệu doanh nghiệp gia tăng, lẽ tiếp cận tảng công nghệ đời sống người dân cao Một minh chứng cô vùng cụ thể vào năm 2019, tập đồn cơng nghệ Cisco dự đốn khối lượng liệu đạt đến 500 Zettabytes năm 2020 Đối với doanh nghiệp cạnh tranh ngành, việc cạnh tranh nguồn cung ứng, đối tác, giá khách hàng nguồn liệu yếu tố vơ quan trọng Nếu biết cách tận dụng tốt doanh nghiệp tạo nên lợi khác biệt với đối thủ lại Như vậy, nhờ trình sâu vào liệu để phân tích tìm kiếm giá trị tiềm ẩn bên mà data mining cho công cụ lợi hại khơng thể thiếu từ mang lại nhiều lợi to lớn cho công ty nên nhu cầu đế phát huy sử dụng công nghệ khai phá liệu thời điểm cao Khai phá liệu trình dài hạn chuyển biến liệu thu thập thành thơng tin có giá trị tương quan mật thiết với nguồn liệu lớn doanh nghiệp Từ doanh nghiệp chủ động việc tìm kiếm khách hàng tiềm năng, đưa chiến sách marketing phù hợp với xu hướng thị trường kế hoạch phát triển kinh doanh phù hợp với cấu doanh nghiệp Một ý nghĩa quan trọng khai phá liệu hỗ trợ khả thấu hiểu với khách hàng Khai phá liệu dựa yếu tố như: độ tuổi, sở thích, thói quen, tâm lý tiêu dùng, khu vực đại lý, thu nhập, để có định nhu cầu phân khúc khách hàng cách xác Từ kết đạt doanh nghiệp có kế hoạch triển khai sản phẩm dịch vụ để tương tác phù hợp với khách hàng Lĩnh vực marketing, khai phá liệu cho phép doanh nghiệp hiểu điều ẩn đằng sau liệu giao dịch mua bán, sử dụng dịch vụ khách hàng Từ đó, doanh nghiệp lên kế hoạch khởi động chiến dịch marketing Đặc biệt ngân hàng sử dụng khai phá liệu để hiểu rõ rủi ro thị trường Nó thường áp dụng cho xếp hạng tín dụng cho hệ thống chống gian lận thơng minh để phân tích giao dịch, giao dịch thẻ, mơ hình mua hàng liệu tài khách hàng Khai phá liệu cho phép ngân hàng tìm hiểu thêm thơng tin, sở thích thói quen trực tuyến khách hàng Từ tối ưu hóa lợi nhuận cho chiến dịch marketing họ, nghiên cứu hiệu suất kênh bán hàng quản lý nghĩa vụ tn thủ quy định Vì nhờ cơng cụ khoa học mà ngân hàng tiếp thị dịch vụ dự đốn mức an tồn, sinh lời, rủi ro khách hàng đồng thời giúp cho doanh nghiệp tìm lợi ích chung tốt Cụ thể hơn, ngân hàng có nhiều kế hoạch tiếp cận để bán tiền gửi có kỳ hạn cho khách hàng họ tiếp thị qua email, quảng cáo, tiếp thị qua điện thoại tiếp thị kỹ thuật số Các chiến dịch tiếp thị qua điện thoại cách hiệu để tiếp cận với người Tuy nhiên, họ yêu cầu đầu tư lớn trung tâm gọi lớn thuê để thực thực chiến dịch Do đó, điều quan trọng phải xác định trước khách hàng có nhiều khả chuyển đổi để họ nhắm mục tiêu cụ thể thông qua gọi Để làm điều đó, phát triển mơ hình tốn học giải thuật hiệu chìa khóa định dự đốn xem liệu khách hàng có đăng ký khoản tiền gửi có kỳ hạn hay khơng Qua đó, chúng em định chọn đề tài “Nghiên cứu dự báo khả đăng ký khoản tiền gửi có kỳ hạn khách hàng.” làm đề tài nghiên cứu. 1.2 Mục tiêu nghiên cứu Bài nghiên cứu chủ yếu tập trung vào mục tiêu sau: - Bài nghiên cứu tiến hành phân tích lý thuyết khai phá liệu nhằm tập trung làm rõ vấn đề nghiên cứu - Xác định mơ hình mang lại đánh giá có độ xác cao việc nghiên cứu dự đoán khả đăng ký khoản tiền gửi có kỳ hạn khách hàng - Dựa mơ hình huấn luyện q trình nghiên cứu, đưa kết luận khả đăng ký khoản tiền gửi có kỳ hạn khách hàng từ đưa giải pháp tối ưu - Tạo tiền đề phát triển nghiên cứu sau 1.3 Đối tượng phạm vi nghiên cứu * Đối tượng nghiên cứu: - Mơ hình Khoa học liệu (KHDL) phân tích thuật tốn để góp phần dự đốn khả đăng ký khoản tiền gửi có kỳ hạn khách hàng - Lấy liệu 4521 khách hàng tổ chức ngân hàng Bồ Đào Nha - Dữ liệu huấn luyện: 3000 khách hàng dùng để training - Dữ liệu dự báo: 1521 khách hàng lại liệu 4521 khách hàng * Phạm vi nghiên cứu: Được thực dựa 5421 khách hàng tổ chức ngân hàng Bồ Đào Nha gồm 13 số đo lường: age, job, marital, education, default, balance, housing, loan, duration, campaign, pdays, previous, poutcome 1.4 Phương pháp nghiên cứu giúp việc”, “quản trị viên”, “quản lý”, “doanh nhân”, “tự kinh doanh”, “nghỉ hưu”, “kỹ thuật viên”, “dịch vụ” 3.1.1.2.3 Marital Marital (Tình trạng nhân) phân loại “đã kết hôn”, “đã ly hôn” hay “độc thân” Thuộc tính ảnh hưởng định khách hàng có đăng ký hay khơng 3.1.1.2.4 Education Education (Giáo dục) chia thành “không xác định”, “trung học”, “tiểu học”, “đại học” Giáo dục thuộc tính giúp đánh giá trình độ khách hàng Qua dự đốn khả đăng ký khoản tiền gửi có kỳ hạn 3.1.1.2.5 Default Default (Vỡ nợ) thể khách hàng có tín dụng tình trạng vỡ nợ khơng Nếu khách hàng tình trạng vỡ nợ (“yes”) khách hàng khơng đăng ký gửi tiền có kỳ hạn ngược lại khách hàng khơng tình trạng vỡ nợ (“no”) khả cao đăng ký 3.1.1.2.6 Balance Balance (Số dư trung bình năm) tính Euro Đây số quan trọng cho ta biết tình hình tài khách hàng Khi số lớn tiềm khách hàng cao 3.1.1.2.7 Housing Loan Housing (Khoản vay mua nhà) Loan (Khoản vay cá nhân) hai khoản vay ảnh hưởng đến định đăng ký khách hàng Housing Loan nhận giá trị “yes” “no” Khi khách hàng có khoản vay (“yes”) khơng đăng ký gửi tiền có kỳ hạn điều dễ hiểu 3.1.1.2.8 Duration Duration ( Thời gian liên lạc cuối cùng) thể quan tâm khách hàng khoản tiền gửi có kỳ hạn Khi thuộc tính có giá trị lớn mức độ quan tâm khách hàng cao khả khách hàng đăng ký đảm bảo 3.1.1.2.9 Campaign Campaign (số lần liên hệ chiến dịch này) ảnh hưởng không nhiều đến biến phụ thuộc 3.1.1.2.10 Pdays Số ngày trôi qua sau khách hàng liên hệ lần cuối từ chiến dịch trước lâu khả đăng ký thấp Điều khách hàng có tiềm Ngân hàng chủ động liên lạc để thuyết phục khách hàng đăng ký 3.1.1.2.11 Previous Previous (Số liền liên hệ chiến dịch trước) ảnh hưởng không nhiều đến định khách hàng 3.1.1.2.12 Poutcome Poutcome số cho biết kết chiến dịch tiếp thị trước Đây số quan trọng để dự đoán biến phụ thuộc Nếu kết chiến dịch tiếp thị trước “success” khả khách hàng đăng ký cao ngược lại kết “failure” khả khách hàng đăng ký thấp 3.1.2 Mơ hình đề xuất Dựa sở lý thuyết KHDL, cụ thể thuật toán phân lớp Hồi quy Logistic (Logistic Regression) lý thuyết biến sử dụng mơ hình, tơi tiến hành xây dựng mơ hình nghiên cứu gồm yếu tố sau đây: Biến phụ thuộc (y) mức độ đánh giá khả đăng ký gửi tiền có kỳ hạn 4521 khách hàng gán nhãn “ yes” hay “ no” Biến độc lập: gồm 13 biến: age, job, marital, education, default, balance, housing, loan, duration, campaign, pdays, previous, poutcome 3.2 Mô tả liệu huấn luyện dự báo Nhằm ứng dụng khai phá liệu việc định tiếp cận khách hàng có tiềm đăng ký gửi tiền có kỳ hạn Bộ liệu gồm 13 số đo lường: age, job, marital, education, default, balance, housing, loan, duration, campaign, pdays, previous, poutcome biến độc lập y biến phụ thuộc 5421 khách hàng có tổ chức ngân hàng Bồ Đào Nha Để thuận tiện cho phần mềm học dự báo, liệu chia thành phần sau: Dữ liệu huấn luyện: 3000 khách hàng dùng để Training thể qua x biến độc lập nêu dựa vào đó, biến phụ thuộc y chia làm hai loại: đăng ký gửi không đăng ký gửi Dữ liệu dự báo: 1521 khách hàng lại liệu 4521 khách hàng thể qua 13 biến độc lập liệu huấn luyện, riêng biến phụ thuộc y không chia loại sẵn mà thông qua phần mềm Orange, sau Training liệu huấn luyện, sau lựa chọn phương pháp phân loại phù hợp để tiến hành phân loại cho liệu dự báo 3.3 Kết huấn luyện Ở bước trình huấn luyện, tiến hành đưa liệu thu thập tổng hợp vào phần mềm Orange, khai báo thuộc tính cho biến Hình 14: Mơ tả thuộc tính biến Hình 15: Mơ tả thuộc tính biến Hình 16: Mơ tả thuộc tính biến Trong đó, biến độc lập gồm: age, job, marital, education, default, balance, housing, loan, duration, campaign, pdays, previous, poutcome khai báo thuộc tính feature; biến phụ thuộc Đăng ký gửi tiền có kỳ hạn (y) gán nhãn thành loại: “Yes” “No” khai báo thuộc tính target; biến Contact, day, month không tham gia trình phân loại nên Skip bỏ qua Sau đó, tơi lựa chọn thuật tốn cho q trình huấn luyện mơ hình bao gồm: Decision Tree, SVM, Neural Network Logistic Regression, có kết dùng số đánh giá so sánh với để tìm mơ hình phù hợp với nghiên cứu Hình 17: Tổng quan quy trình huấn luyện dự báo sơ đồ Ở đây, nghiên cứu sử dụng phương pháp Cross validation: K-fold với k = để đánh giá mơ hình nhờ đặc tính vượt trội so với phương pháp Hold-out như: mơ hình huấn luyện dự báo nhiều phần liệu khác nhau, khơng trùng liệu huấn luyện giúp mơ hình tăng độ xác Hình 18: Kết mơ hình đánh giá phân lớp Hồi quy logistic Kết cho thấy dù phương pháp sử dụng để đánh giá (CA, F1, Precision Recall) Logistic Regression chiếm lợi hẳn so với thuật tốn kia, số F1- thường sử dụng phổ biến để đánh giá mơ hình có giá trị đạt 0.875 Và giá trị AUC phương pháp cao (bằng 0.859) Đặc biệt, độ phù hợp của thuật toán Logistic Regression nghiên cứu chứng minh thông qua phương pháp đánh giá ma trận nhầm lẫn: Hình 19: Ma trận nhầm lẫn với Hồi quy logistic Có 2652 khách hàng thuộc lớp “Khơng đăng ký gửi tiền có kỳ hạn”, lượng mẫu phân lớp lên đến 90.9% có 38.6% mẫu bị phân nhầm lớp Bên cạnh đó, phân lớp “Đăng ký gửi tiền có kỳ hạn” có 348 khách hàng, có tới 61.4% khách hàng thuộc phân lớp 9.1% khách hàng bị nhầm phân lớp Tơi kết luận rằng, mơ hình Logistic Regression thích hợp cho liệu nghiên cứu Sau phân tích chi tiết liệu huấn luyện Tiếp theo, nghiên cứu phân tích dự báo để dự đốn xem mơ hình Logistic Regression dự báo liệu dự báo thông qua liệu huấn luyện Kết liệu dự báo trình bày mục 3.4 Kết liệu dự báo Sau định lựa chọn thuật tốn Logistic Regression, tơi tiến hành đưa liệu dự bao gồm 1521 khách hàng lại vào phần mềm Orange, sau dùng phân tích học từ liệu huấn luyện để dự báo Trước tiên tiến hành khai báo thuộc tính cho biến liệu Hình 20: Các thuộc tính liệu dự báo Hình 21: Các thuộc tính liệu dự báo Hình 22: Các thuộc tính liệu dự báo Ở đây, biến độc lập biến khơng tham gia vào q trình dự báo khai báo tương tự liệu huấn luyện, riêng biến phụ thuộc “Đăng ký gửi tiền có kỳ hạn” (y) khai báo thuộc tính feature chưa gán nhãn sẵn mà dùng thuật toán Logistic Regression để gán nhãn cho chúng kết thu sau: Hình 23: Kết dự báo Hồi quy logistic Kết cho thấy, 1521 khách hàng dự báo: Có 82 khách hàng phân loại “ Đăng ký gửi tiền có kỳ hạn” Và 1439 khách hàng cịn lại dự đốn “Khơng đăng ký gửi tiền có kỳ hạn” Vậy dựa vào đâu mà thuật tốn Logistic Regression phân loại vậy? Hình 24: Chỉ số Logistic Regression Dựa vào Hình 24 minh họa kết dự báo 20 khách hàng đầu tiên, ta rút kết luận rằng: Những cơng ty có số Logistic Regression thuộc phân lớp “Yes” từ 0.5 trở lên phân loại “Đăng ký gửi tiền có kỳ hạn” Ngược lại, số Logistic Regression thuộc phân lớp “No” từ 0.5 trở lên khách hàng phân loại “Khơng đăng ký gửi tiền có kỳ hạn” Tương tự, thuật toán Logistic Regression phân loại dựa số khách hàng lại (kết đính kèm phần phụ lục) CHƯƠNG 4: KẾT LUẬN VÀ HẠN CHẾ GIẢI PHÁP 4.1 Kết luận Khám phá tri thức Cơ sở liệu (Knowledge Discovery in Databases) xu hướng quan trọng Công nghệ thông tin giới Nó có khả ứng dụng vào nhiều lớp toán thực tế khác Bước quan trọng trình Khai phá liệu, giúp người sử dụng thu tri thức hữu ích từ CSDL nguồn liệu khổng lồ khác Sử dụng công nghệ áp dụng lĩnh vực tiếp thị dịch vụ quan tâm nên ứng dụng vào nghiên cứu hợp lý Khai phá liệu sử dụng để khám phá sở liệu ngày lớn, cải thiện phân khúc thị trường Bằng cách phân tích mối quan hệ tham số tuổi khách hàng, giới tính, thị hiếu, … đốn hành vi họ để đạo chiến dịch khách hàng Bài nghiên cứu đề xuất xây dựng mơ hình dự đốn dựa thuật tốn Cây định, SVM, Neural Network Logistic Regression So sánh số liệu cho thấy Logistic Regression thuật toán tốt cho nghiên cứu Với việc triển khai ứng dụng kết vào việc dự báo khách hàng có đăng ký gửi khoản tiền có kỳ hạn hay không giúp Ngân hàng đưa định tiếp cận khách hàng cách đắn Cụ thể, khách hàng dự báo “Yes” ưu tiên liên lạc để tư vấn trước tiên ngược lại, dự báo “No” Ngân hàng cần cân nhắc, thận trọng định tiếp cận hay khơng Thơng qua Ngân hàng rút kinh nghiệm để việc dự báo ngày xác, tiết kiệm thời gian, nhân lực chi phí 4.2 Hạn chế giải pháp 4.2.1 Hạn chế Mặc dù nỗ lực để hồn thành nghiên cứu, nhiên, trình làm bài, nhóm khơng thể tránh khỏi số hạn chế yếu tố chủ quan, khách quan: Thứ nhất, phương pháp lấy mẫu ngẫu nhiên áp dụng để đảm bảo tính dễ tiếp cận thuận tiện Vì thế, khơng tránh khỏi ảnh hưởng đến độ xác mơ hình, đồng thời tính đại diện với khả suy rộng cho tổng thể mẫu chưa tuyệt đối số F1 sử dụng thuật toán Logistic Regression khoảng 87.5% Thứ hai, biến liệu nghiên cứu thu thập thuộc năm 2010 nên độ xác thay đổi áp dụng cho biến động kinh tế năm gần Thứ ba, nghiên cứu sử dụng 13 biến tác động chủ yếu nên nhiều yếu tố khác ảnh hưởng đến định đăng ký khoản tiền có kỳ hạn khách hàng bị bỏ sót Thứ tư, liệu nghiên cứu khách hàng tổ chức ngân hàng Bồ Đào Nha nên áp dụng vào ngân hàng Việt Nam khơng tránh khỏi sai sót dự đoán 4.2.2 Giải pháp Trên sở hạn chế khiến nghiên cứu chưa thật hoàn thiện, nhóm xin đề xuất số hướng phát triển đề tài tương lai sau: Thứ nhất, nhóm mong đề tài khắc phục hạn chế mẫu ngẫu nhiên cách đầu tư thu thập liệu khách hàng cách có chọn lọc Đồng thời triển khai dự đoán, kiểm chứng thực tế đánh giá kết cách thường xuyên để tăng độ xác Thứ hai, biến độc lập để đánh giá khách hàng khác Ngân hàng, tùy thuộc vào việc Ngân hàng dùng tiêu chí để đánh giá Nên cần mở rộng nghiên cứu cho nhiều năm để thu mơ hình phù hợp Thứ ba, hi vọng đề tài nghiên cứu thời gian tới phát nhiều mơ hình phù hợp nhằm đến kết luận xác yếu tố thật có ảnh hưởng lớn đến định đăng ký khoản tiền có kỳ hạn khách hàng ... Kết cho thấy, 1521 khách hàng dự báo: Có 82 khách hàng phân loại “ Đăng ký gửi tiền có kỳ hạn? ?? Và 1439 khách hàng cịn lại dự đốn “Khơng đăng ký gửi tiền có kỳ hạn? ?? Vậy dựa vào đâu mà thuật tốn... cho nghiên cứu Với việc triển khai ứng dụng kết vào việc dự báo khách hàng có đăng ký gửi khoản tiền có kỳ hạn hay không giúp Ngân hàng đưa định tiếp cận khách hàng cách đắn Cụ thể, khách hàng dự. .. trình nghiên cứu, đưa kết luận khả đăng ký khoản tiền gửi có kỳ hạn khách hàng từ đưa giải pháp tối ưu - Tạo tiền đề phát triển nghiên cứu sau 1.3 Đối tượng phạm vi nghiên cứu * Đối tượng nghiên cứu: