HỒ CHÍ MINH TRƯỜNG CÔNG NGHỆ VÀ THIẾT KẾ KHOA CÔNG NGHỆ THÔNG TIN KINH DOANHBỘ MÔN CÔNG NGHỆ THÔNG TIN BÁO CÁO ĐỒ ÁN HỌC PHẦN KHDL Đề tài: Ứng dụng KHDL vào phân tích và dự đoán khách
GIỚI THI ỆU ĐỀ TÀI
Lý do ch ọn đề tài
• Nhu cầu thu hút và giữ chân khách hàng ngày càng tăng cao trong môi trường cạnh tranh gay gắt của ngành ngân hàng Việt Nam
• Khách hàng tiềm năng đóng vai trò quan trọng trong việc mở rộng thị phần và doanh thu cho ngân hàng
• KHDL cung cấp các công cụ và kỹ thuật tiên tiến phân tích và dự đoán hành vi khách hàng để có thể tối ưu hóa chiến lược dịch vụ hiệu quả.
Mụ c tiêu c ủa đề tài
• Xây dựng mô hình phân tích dữ liệu khách hàng để xác định các yếu tố ảnh hưởng đến tiềm năng trở thành khách hàng của ngân hàng
• Phát triển mô hình dự đoán khách hàng tiềm năng dựa trên các kỹ thuật học máy
• Đánh giá hiệu quả của các mô hình phân tích và dự đoán khách hàng tiềm năng
• Đề xuất các giải pháp ứng dụng KHDL vào thu hút và giữ chân khách hàng tiềm năng cho ngân hàng.
Phạm vi và đối tượ ng nghiên c u ứ
• Nghiên cứu tập trung vào ứng dụng KHDL vào phân tích và dự đoán khách hàng tiềm năng trong lĩnh vực ngân hàng tại Việt Nam
• Các phương pháp nghiên cứu KHDL bao gồm thu thập dữ liệu, tiền xử lý dữ liệu, phân tích dữ liệu, xây dựng mô hình dự đoán, đánh giá mô hình, đề xuất giải pháp Đối tượng nghiên cứu:
• Dữ liệu giao dịch, thông tin khách hàng, thu thập từ các ngân hàng
• Khách hàng tiềm năng của các ngân hàng tại Việt Nam: Là những cá nhân hoặc doanh nghiệp có khả năng trở thành khách hàng của ngân hàng trong tương lai.
Các phương pháp nghiên cứu
• Thu thập dữ liệu khách hàng từ các nguồn nội bộ của ngân hàng, ví dụ như hệ thống core banking, hệ thống quản lý quan hệ khách hàng
• Thu thập dữ liệu khách hàng tiềm năng từ các nguồn bên ngoài, ví dụ như mạng xã hội, trang web, khảo sát
Tiền xử lý dữ liệu:
• Làm sạch dữ liệu, xử lý thiếu dữ liệu và xử lý ngoại lệ
• Chuyển đổi dữ liệu định tính thành dữ liệu định lượng
• Chia dữ liệu thành tập dữ liệu huấn luyện, tập dữ liệu xác minh và tập dữ liệu kiểm tra
• Phân tích mô tả dữ liệu để hiểu rõ đặc điểm hành vi sử dụng dịch vụ của khách hàng và khách hàng tiềm năng
• Phân tích khám phá dữ liệu để tìm ra các mối liên hệ và mẫu hình trong dữ liệu
Xây dựng mô hình dự đoán: Mô hình dự đoán khách hàng tiềm năng sẽ được xây dựng sử dụng các thuật toán học máy:
• Xây dựng các mô hình học máy để phân tích dữ liệu khách hàng và dự đoán khách hàng tiềm năng
• Các thuật toán học máy có thể được sử dụng bao gồm phân loại, hồi quy và cụm Đánh giá mô hình: Đánh giá hiệu quả của các mô hình học máy bằng các chỉ số thống kê, ví dụ như độ chính xác, độ nhạy, độ đặc trưng, độ thu hồi,… Đề xuất giải pháp:
• Đề xuất các giải pháp ứng dụng KHDL vào phân tích và dự đoán khách hàng tiềm năng cho các ngân hàng tại Việt Nam
• Chọn mô hình học máy có hiệu quả tốt nhất để dự đoán.
TỔ NG QUAN VỀ CHƯƠNG TRÌNH SỬ D ỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG
T ng quan v KHDL ổ ề
KHDL (Data Science) được định nghĩa là tất cả những gì về thu thập, tổ chức, lưu trữ, xử lý và khai thác dữ liệu để tìm ra insight giá trị Sau đó, trực quan hóa các insight cho các bên liên quan, để chuyển hóa insight thành hành động Đây là lĩnh vực đa ngành sử dụng các phương pháp và quy trình khoa học để rút ra insight từ dữ liệu.(1)
Với sự xuất hiện của công nghệ mới các dữ liệu đã tăng lên theo cấp số nhân Điều này đã đem đến một cơ hội mới để phân tích cũng như chuyển hóa các insight ý nghĩa từ data
Theo đó, yêu cầu bức thiết đặt ra cần có một chuyên gia “Data Scientist”, người mà có khả năng dùng các công cụ thống kê và Machine Learning Một Data Scientist không chỉ dừng lại ở việc phân tích dữ liệu, mà còn biết sử dụng thuật toán Machine Learning để dự đoán tương lai của một sự kiện.
Do đó, có thể hiểu Data Science là một lĩnh vực liên quan đến xử lý dữ liệu, phân tích và trích xuất thông tin chi tiết từ dữ liệu bằng các phương pháp thống kê và thuật toán máy tính khác nhau Đây là một lĩnh vực đa ngành kết hợp Toán học, Thống kê và Khoa học máy tính
Một số ví dụ tiêu biểu của KHDL:
• Đội ngũ KHDL của các hãng công nghệ như: Google, Amazon, Facebook, Microsoft, Youtube…
• Ấn tượng nhất chính là ứng dụng hỗ trợ tranh cử tổng thống của ông Obama Các nhà KHDL đã tập trung để phát triển ứng dụng hỗ trợ chiến dịch tái tranh cử tổng thống Mỹ năm 2012 của ông Barack Obama góp phần giúp ông đắc cử tổng thống nhiệm kỳ thứ 2 liên tiếp
KHDL đóng vai trò quan trọng trong nhiều lĩnh vực của cuộc sống, đặc biệt là trong chiến lược kinh doanh Nó cung cấp thông tin về khách hàng để tạo ra chiến dịch tiếp thị hiệu quả và tăng doanh số sản phẩm(1) Ngoài ra, KHDL hỗ trợ quản trị rủi ro tài chính, ngăn chặn sự cố trong sản xuất và công nghiệp, và bảo vệ an ninh mạng trong lĩnh vực công nghệ thông tin
Tuy nhiên, KHDLkhông chỉ có ảnh hưởng trong lĩnh vực kinh doanh Nó cũng có tiềm năng lớn trong y học, giúp chẩn đoán bệnh và đưa ra phác đồ điều trị dựa trên phân tích dữ liệu người bệnh trước đó Nó cũng có ứng dụng trong quản lý xã hội, ví dụ như quản lý giao thông, dân cư, giáo dục, y tế, việc làm, và nhiều lĩnh vực khác KHDL có thể mang lại lợi ích kinh tế và xã hội thông qua việc khai thác thông tin hiệu quả
Trong chăm sóc sức khỏe, KHDL có thể giúp chẩn đoán tình trạng y tế, phân tích hình ảnh, lập kế hoạch điều trị và nghiên cứu y tế(2) Trong lĩnh vực giáo dục, nó được sử dụng để theo dõi kết quả học tập và định hướng phù hợp cho học sinh và sinh viên(3) Các đội thể thao sử dụng KHDL để phân tích hiệu suất của người chơi và lập kế hoạch chiến lược
Tóm lại, KHDL đã và đang đóng vai trò quan trọng trong nhiều khía cạnh của cuộc sống, từ kinh doanh đến y tế, giáo dục và nhiều lĩnh vực khác Việc sử dụng hiệu quả dữ liệu có thể mang lại nhiều lợi ích kinh tế và xã hội và đóng góp vào sự phát triển của các tổ chức và cộng đồng.
Công cụ Excel thống kê và phân tích
2.2.1 Các phương pháp phân tích
Phương pháp: trung bình trượt (Moving Average)
Bước 1: Chuẩn bị bảng số liệu cần dự báo
Bước 2: Chọn lệnh Data ⇒ Data Analysis ⇒ Moving
Average, xuất hiện hộp thoại Moving Average
Bước 3: Khai báo các thông số Input và Output Options
∎∎ Input Range : tham chiếu đến vùng dữ liệu thực tế
∎∎ Labels in First Row: Khai báo hàng đầu tiên của input range có chứa tiêu đề cột hay không
∎∎ Interval: số lượng các kỳ trước đó muốn tính (w)
∎∎ Output Range: tham chiếu đến vùng xuất kết quả Những ô không đủ số lượng các giá trị trước đó để tính toán sẽ nhận giá trị #N/A
∎∎ Chart Output: tùy chọn dùng tạo biểu đồ nhúng cùng với vùng xuất kết quả
∎ Standard Errors: tùy chọn dùng tạo thêm 1 cột chứa các sai số chuẩn
Phương pháp: San bằng mũ (Exponential Smoothing)
Bước 1: Chuẩn bị bảng số liệu cần dự báo
Bước 2: Chọn lệnh Data à Data Analysisà Exponential Smoothing, xuất hiện hộp thoại Exponential Smoothing
Bước 3: Khai báo các thông số Input và Output Options
Input Range : tham chiếu đến vùng dữ liệu thực tế
Damping factor: giá trị dùng làm hệ số san bằng Đó là giá trị điều chỉnh sự bất ổn của dữ liệu, giá trị mặc định là Damping factor (1-a) = 0.7
Labels: tùy chọn cho biết hàng/cột đầu tiên của input range có chứa tiêu đề hay không
Kết quả như trong hình sau là dự báo lượng thịt bò bán (kg) được tại siêu thị
ABC vào ngày 17/03 với hệ số điều chỉnh a = 0.3 (Damping factor = 0.7) Như vậy lượng thịt bò dự báo cho ngày 17/03 là 29.88kg
Phương pháp: Hồi quy (Regression)
Bước 1: Chuẩn bị bảng số dữ liệu cần dự báo
Bước 2: Chọn lệnh Data →Data Analysis →
Regression, xu t hi n h p tho i Regression.ấ ệ ộ ạ
Bước 3: Khai báo các thông số Input và
∎∎Input Y Range: Vùng địa chỉ chứa biến phụ thuộc Y
∎∎ Input X Range: Vùng địa chỉ chứa các biến độc lập X (Có thể chọn nhiều biến X trong trường hợp hồi quy đa biến)
∎∎Labels: Tích vào mục này để khẳng định ô (các ô) đầu tiên không chứa dữ liệu hồi quy
∎∎Constant is Zero: Tích vào mục này để khẳng định hệ số tự do của hàm hồi quy tuyến tính a = 0
Phương pháp phân tích tối ưu bằng công cụ Solver
Solver là một trong những công cụ phân tích nâng cao được thêm vào và có tính ứng dụng cao trong Excel Chỉ cần thay đổi biến và các điều kiện, người dùng có thể giải quyết các vấn đề kinh doanh bằng Excel Solver Nhờ kết quả từ Solver, quá trình tìm kiếm và lựa chọn giải pháp chính xác và hiệu quả hơn.(4)
Ví dụ: Một nhà quản lý dự án nông nghiệp muốn lựa chọn phương án trồng trọt bao nhiêu tấn lúa mì và lúa gạo để tối đa hóa lợi nhuận của dự án dựa trên các số liệu sau:
Bước 1: Thiết lập bảng tính
Set Objective: Nhập ô chứa hàm mục tiêu, trong trường hợp này là $E$5
To: Chọn Max vì bài toán này là tối đa hóa lợi nhuận
By Changing Variable Cells: Nhập ô chứa các biến quyết định, trong trường hợp này là $C$4 :$D$4 Đưa các ràng buộc vào Subject to the Contraints bằng cách nhấn nút Add
Bước 3: Nhấn nút Solve để giải mô hình
Khai báo các lựa chọn trong hộp thoại Solver Results
Keep Solver Solution: Giữ kết quả và in ra bảng tính
Restore Original Values: Huỷ kết quả vừa tìm được và trả các biến về tình trạng ban đầu
Save Scenario: Lưu kết quả vừa tìm được thành một tình huống để có thể xem lại sau này
Có thể xuất hiện thêm các dạng báo cáo trong kết quả: Answer, Sensitivity Limits và
Bước 4: Nhấn nút OK để xem kết quả.
Ph n m m Orange ầ ề
Khai phá dữ liệu (Data Mining) và học máy (Machine Learning) là những lĩnh vực khá khó để khám phá và nghiên cứu Do đó, có nhiều phần mềm đã ra đời với mục tiêu là giúp cho người dùng có thể dễ dàng nghiên cứu các bài toán trong những lĩnh vực này
Phần mềm Orange biết đến bởi việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở và học máy thông minh, đơn giản, được lập trình bằng ngôn ngữ Python với giao diện trực quan và tương tác dễ dàng Phần mềm này có nhiều chức năng, phân tích được những dữ liệu từ đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt, thú vị và còn giúp việc khai thác dữ liệu và học máy trở nên dễ dàng hơn cho cả người dùng mới và chuyên gia Các công cụ (widgets) cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, trực quan hóa các phần tử của dữ liệu, …
Data: dùng để nạp dữ liệu, biến đổi dữ liệu…
Visualize: dùng để trực quan hóa
Model: dùng để phân lớp dữ liệu (Tree, Logictis, SVM…)
Evaluate: dùng để đánh giá các mô hình (Test and Score, Predictions…)
Unsupervised: dùng để gom nhóm dữ liệu (Distance, k-Means )
2.3.2 Một s ố phương pháp phân lớp: a Hồi quy Logistic (Logistic Regression)
- Định nghĩa: là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector) b Cây quyết định (Decision Tree)
- Định nghĩa: trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định
- Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước c SVM (Support Vector Machine)
- Định nghĩa: SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu
- Các biến thể của SVM:
Hard Margin SVM Hai lớp cần phân lớp là có thể phân chia tuyến tính
Soft Margin SVM Hai lớp cần phân lớp là “gần” phân chia tuyến tính
(almost linearly seperable) Multi-class SVM Phân lớp đa lớp (biên giữa các lớp là tuyến tính) Kernel SVM Dữ liệu là phi tuyến
Bảng 2.3.2: Các biến thể của SVM
2.3.3 Phương pháp đánh giá mô hình phân lớp:
• Định nghĩa: là các phương pháp nhằm kiểm tra tính hiệu quả của mô hình phân lớp trên dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mô hình đó hay không
• Một mô hình lý tưởng là một mô hình không quá đơn giản, không quá phức tạp và không quá nhạy cảm với nhiễu (tránh underfitting và overfitting
Underfitting (chưa khớp) Định nghĩa: là chưa khớp nếu nó chưa được phù hợp với tập dữ liệu huấn luyện và cả các mẫu mới khi dự đoán
• Có thể là do mô hình chưa đủ độ phức tạp cần thiết để bao quát được tập dữ liệu
• Tồn tại nhiều điểm dữ liệu mà mô hình không phân loại được đúng dẫn đến độ chính xác mô hình thấp
Overfitting (quá khớp) Định nghĩa: là hiện tượng mô hình tìm được quá khớp với dữ liệu huấn luyện Điều này dẫn đến việc dự đoán cả nhiễu nên mô hình không còn tốt khi phân lớp trên dữ liệu mới Nguyên nhân: Lượng dữ liệu huấn luyện quá nhỏ trong khi độ phức tạp của mô hình quá cao nên mặc dù độ chính xác cao nhưng không thể mô tả được xu hướng tổng quát của dữ liệu mới
Good fitting (phù hợp) Định nghĩa: là trường hợp mô hình cho ra kết quả hợp lý với cả tập dữ liệu huấn luyện và các giá trị mới Thực tế, đây là mô hình cho kết quả hợp lý một cách chấp nhận được trên dữ liệu mẫu lẫn dữ liệu mới
Các phương pháp đánh giá mô hình phân lớp gồm có:
Ma trận nhầm lẫn (Confusion Matrix): là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc vào một lớp cụ thể và được dự đoán là rơi vào lớp nào Tính chính xác (Accuracy): là tỷ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu
ROC và AUC: là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phân loại nhị phân Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate tại các ngưỡng khác nhau
Phương pháp phân chia dữ liệu Hold-out :
• Phương pháp Hold out phân chia tập dữ liệu ban đầu thành 2 tập độc lập - theo 1 tỷ lệ nhất định Ví dụ: tập huấn luyện (training set) chiếm 70%, tập thử nghiệm (testing set) chiếm 30%
• Phương pháp này thích hợp cho các tập dữ liệu nhỏ Tuy nhiên, các mẫu có thể không đại diện cho toàn bộ dữ liệu (thiếu lớp trong tập thử nghiệm)
• Phương pháp này phân chia dữ liệu thành k tập con có cùng kích thước (gọi là các fold)
• Một trong các fold được sử dụng làm tập dữ liệu đánh giá và phần còn lại được sử dụng làm tập huấn luyện
• Quá trình lặp lại cho đến khi tất cả các fold đều đã được dùng làm tập dữ liệu đánh giá.
LỰA CHỌN PHƯƠNG PHÁP ĐỂ PHÂN TÍCH B D Ộ Ữ LIỆU
Mục tiêu và phương pháp thực hiện nghiên c u b d ứ ộ ữ liệu
• Xác định mô hình mang lại đánh giá có độ chính xác cao nhất trong việc nghiên cứu khả năng khách hàng đăng ký tiền gửi có kỳ hạn
• Dựa trên mô hình đã xác định để kết luận được những đặc điểm để dự doán khách hàng trong tương lai có đăng ký tiền gửi có kỳ hạn hay không
• Câu hỏi được đặt ra là: Liệu khách hàng có đăng ký tiền gửi có kỳ hạn hay không với những thông tin được cung cấp của khách hàng
• Sử dụng công cụ khai phá dữ liệu Orange để xử lý, biểu diễn dữ liệu cũng như so sánh các mô hình
• Thực hiện quá trình phân lớp dữ liệu: o Chọn biến “term_deposit” (tiền gửi có kỳ hạn) là biến mục tiêu o Tiến hành phân lớp trên 3 phương pháp là Cây quyết định (Decision Tree), SVM (Support Vector Machine) và Hồi quy Logistic (Logictisc Regression) o Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp o Quan sát trên Confusion Maxtrix (Ma trận nhầm lẫn).
Ti n x lý d ề ử ữ liệu
- Bộ dữ liệu “Bank customer data in Vietnam” là bộ dữ liệu đa biến với
41188 mẫu, 21 thuộc tính, không có dữ liệu bị thiếu và mục tiêu của bài phân tích là cột “term_deposit”, cho biết khách hàng có đồng ý (1) hay không đồng ý (0) tiền gửi có kỳ hạn vào ngân hàng Việt Nam
- Đặc điểm các thuộc tính của bộ dữ liệu :
STT Tên biến Loại biến Ý nghĩa Giá trị
1 age Định lượng Tuổi Từ 18 – 95 tuổi.
2 Job Định tính Nghề nghiệp
Quản trị viên (admin), người lao động phổ thông (blue collar), doanh nhâ– (entrepreneur), người giúp việc (housemaid), nhà quản lý (management), người về hưu (retired), lao động tự do (self – employed), dịch vụ (services), học sinh (student), kỹ thuật viên (technician), thất nghiệp (unemployed), không rõ (umknow)
3 Marital Định tính Tình trạng hôn nhân
Ly hôn (divorce), đã kết hôn (married), độc thân (single), khác (unknown)
4 Education Định tính Trình độ học vấn
Tiểu học (basic.4y), 6 năm tiểu học (basic.6y), Trung học cơ sở (basic.9y), Trung học phổ thông (high school), không có đi học (illiterate), khóa học chuyên nghiệp
(profressional course), Đại học (university degree), khác (unknown)
5 Default Định tính Tình trạng tính dụng
6 Housing Định tính Khoản vay mua nhà
7 Loan Định tính Khoản vay cá nhân
8 Contact Định tính Hình thức liên lạc Điện thoại di động (cellular), điện thoại cố định (telephone)
9 Day Định tính Ngày cuối cùng liên lạc trong tháng
10 Month Định tính Tháng cuối cùng liên lạc trong năm
Tháng 1 (jan), tháng (feb), tháng 3 (mar), thán
4 (apr), tháng 5 (may tháng 6 (jun), tháng 7 (jul) tháng 8 (aug), tháng (sep), tháng 10 (oct), thán
11 Duration Định lượng Thời lượng liên lac
12 Campaign Định lượng Số lần liên lạc được với khách hàng
13 Pdays Định lượng Số ngày sau khi khách hàng được liên hệ lần cuối
-1 là khách hàng chưa được liên hệ trước đó
14 Previous Định lượng Số lần liên hệ đã thực thiện với khách hàng trước đó
15 Poutcome Định tính Kế quả của chiền dịch tiếp thị trước đó
16 Emp.var.rate Định lượng Tỷ lệ thay đổi việc làm
17 Cons.price.idxĐịnh lượng Chỉ số giá tiêu dùng
18 Cons.conf.idx Định lượng Chỉ số niềm tin người tiêu dùng
19 Euribor3m Định lượng Lãi suất
20 Nr.employed Định lượng Số lượng nhân viên
21 Term_deposit Định tính Khách hàng đăng ký tiền gửi có kỳ hạn
Bảng 3.2.1: Thuộc tính bộ dữ liệu
• Để thuận lợi hơn cho quá trình phân lớp dữ liệu, nhóm đã lọc ngẫu nhiên dữ liệu với số lượng mẫu khảo sát là 5000 mẫu bằng công cụ Data Sampler
Hình 3.2.2a: S dử ụng Data Sampler để lọc d ữliệ
• Tiếp theo, thực hiện loại bỏ các biến kinh tế không liên quan, gần như không đổi và ít ảnh hưởng đến quyết định của khách hàng bằng công cụ Select Columms Trong đó các biến bị loại bỏ bao gồm: nr.employed, euribor3m, cons.conf.idx, cons.price.idx, emp.var.rate, pdays
Kết quả: Sau khi thu thập và làm sạch dữ liệu, nhóm chọn số lượng mẫu khảo sát là 5000 mẫu tương ứng với 14 thuộc tính liên quan
Hình 3.2.2b: S dử ụng Select Columms để loại bỏ cột
Ki ểm đị nh mô hình
Chuỗi thao tác thực hiện các phương pháp phân lớp dữ liệu trên Orange:
Hình 3.3.1a: S dử ụng công c ụ để phân lơp trên Orange
Nhóm thực hiện kiểm định cả ba mô hình phân lớp bằng công cụ Test and Score để chọn ra phương pháp tốt nhất và cho kết quả như sau:
Hình 3.3.1b: K t qu Test and Score ế ả
Theo bảng đánh giá kết quả phân lớp bằng phương pháp: SVM, Tree và Logistic Regression của dữ liệu thì:
• Cả ba phương pháp đều có AUC và Recall khá cao nhưng Logistic Regression là cao nhất
• Phương pháp Logistic Regression tối ưu về cả AUC (gần 1 nhất), độ chính xác (Precision), độ nhạy (Recall), F1 – score và CA
Do đó, chọn phương pháp Logistic Regression để tiến hành phân lớp sẽ cho hiệu quả và tính chính xác cao nhất(5)
• Bảng kết quả ma trận nhầm lẫn của phương pháp Tree:
Hình 3.3.1c: K t qu ế ả phương pháp Tree
• Bảng kết quả ma trận nhầm lẫn của phương pháp SVM:
• Bảng kết quả ma trận nhầm lẫn của phương pháp Logistic Regression:
Hình 3.3.1d: K t qu ế ả phương pháp SVM
Hình 3.3.1e: K t qu ế ả phương pháp Logistic Regression
3.3.2 Đánh giá mô hình phân lớp trên Orange
Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression thể hiện rõ như sau:
• 93.9% 0 - 0: 93.9% khách hàng được dự đoán không đăng ký tiền gửi có kỳ hạn và thực tế là không đăng ký
• 42.9% 1 – 0: 42.9% khách hàng được dự đoán có đăng ký tiền gửi có kỳ hạn và thực tế là không đăng ký
• 6.1% 0 -1: 6.1% khách hàng được dự đoán không đăng ký tiền gửi có kỳ hạn và thực tế là có đăng ký
• 57.1% 1- 1: 57.1% khách hàng được dự đoán có đăng ký tiền gửi có kỳ hạn và thực tế là có đăng ký
Qua đó, tỷ lệ không đăng ký với phần trăm dự đoán chính xác cao (>90%), cao hơn 36.8% so với tỷ lệ đăng ký
Kết luận: Thông qua kiểm định nhóm đã lựa chọn được phương pháp phân lớp hiệu quả nhất là Logistic Regression.
Phân tích và đánh giá kết quả thực hi n ệ
Qua đánh giá và lựa chọn mô hình, nhóm lựa chọn phương pháp phân lớp Logistic Regression và tiến hành dự báo Các bước thực hiện như sau:
• Thêm dữ liệu vào mô hình và bỏ qua thuộc tính “term_deposit”
Hình 3.4a: Input d u và Skip thu c tính ữliệ ộ
• Chọn ngẫu nhiên 1500 mẫu từ bộ dữ liệu bằng công cụ Data Sampler, sau đây gọi là Forecast Data đưa vào dự báo và được bộ dữ liệu như sau:
Hình 3.4b: Ch n ngọ ẫu nhiên d ữliệu đưa vào dự báo
Hình 3.4c: B ng d u sau khi ch n ng u nhiênả ữliệ ọ ẫ
• Chu i thao tác th c hi n d báo trên Forecast Data: ỗ ự ệ ự
• Kết quả thực hiện dự báo như sau:
Hình 3.4d: Thao tác thực hi n d báo ệ ự
Từ kết quả trên ta có thể thấy mô hình Logistic Regression có thể giúp Ngân hàng dự đoán được những thuộc tính như thế nào là của một khách hàng sẽ đồng ý đăng ký tiền gửi có kỳ hạn và thuộc tính được phân tích như sau:
• Default (tình trạng tín dụng): Những người không có tình trạng tín dụng sẽ có xu hướng không đồng ý
• Những người đã kết hôn có xu hướng không đồng ý nhiều hơn là đồng ý
• Những người có khoản vay mua nhà thì sẽ có xu hướng không đồng ý hơn là đồng ý
• Những người dưới 40 tuổi sẽ có xu hướng đồng ý nhiều nhất, còn trên 40 thì đa số không đồng ý
• Liên lạc vào tháng 2, 4 ,5, 6 ,7 khách hàng sẽ có xu hướng đồng ý cao, cao nhất là tháng 5 Nếu liên lạc vào tháng 1, 3, 8, 9, 10, 11, 12 thì sẽ nhận lại không đồng ý từ khách hàng
• Với thời lượng liên lạc càng lâu thì khả năng khách hàng đồng ý càng cao
• Khách hàng có xu hướng đồng ý cao khi hình thức liên lạc là điện thoại di động
• Người lao động phổ thông và nhà quản lý sẽ có xu hướng đồng ý gửi tiền có kỳ hạn Song song đó người lao động phổ thông cũng có xu hướng từ chối gửi kỳ hạn cao hơn những nhóm ngành khác
Kết luận: Mô hình này sẽ là cơ sở để Ngân Hàng có thể dự đoán được đối tượng khách hàng tiềm năng bằng cách dự báo dữ liệu bằng Orange Từ đó sẽ có được những chính sách cũng như chiến dịch tiếp thị phù hợp để gia tăng số lượng khách hàng sử dụng dịch vụ
K T LUẾ ẬN VÀ HƯỚNG PHÁT TRI N Ể
Kế t lu ận
Nhìn chung, đề tài đã cơ bản hoàn thành các mục tiêu nghiên cứu đề ra thông qua 2 phương diện:
• Về lý thuyết, bài nghiên cứu đã trình bày được các cơ sở lý thuyết tổng quan về khai phá dữ liệu, tập trung chủ yếu vào phương pháp phân lớp dữ liệu sử dụng thuật toán Logistic Regression
• Về thực nghiệm, áp dụng nền tảng lý thuyết nghiên cứu được vào bài toán ứng dụng Dự đoán tỷ lệ đăng ký tiền gửi có kỳ hạn của khách hàng tại ngân hàng Việt Nam thông qua biến phụ thuộc là “term_deposit” và biến độc lập gồm 7 biến tác động chủ yếu bao gồm: Độ tuổi, nghề nghiệp, tình trạng tính dụng, tình trạng hôn nhân, thời lượng liên hệ, thời điểm liên lạc, hình thức liên lạc
• Bài nghiên cứu đã đề xuất xây dựng mô hình dự đoán dựa trên thuật toán cây quyết định, SVM, Logistic Regression từ đó so sánh với nhau về chọn ra mô hình tối ưu nhất là Logistic Regression
2 Hạn chế của đề tài và hướng nghiên cứu tiếp theo
• Thứ nhất, do hạn chế về mặt thời gian và không gian thực hiện, phương pháp lấy mẫu ngẫu nhiên đã được áp dụng để đảm bảo tính dễ tiếp cận và thuận tiện
• Thứ hai, bộ dữ liệu sử dụng trong bài là thuộc năm 2021 nên độ chính xác có thể thay đổi khi áp dụng cho những năm sau
• Thứ ba, bài nghiên cứu chủ yếu sử dụng 7 biến số tác động chính đã nêu trên nên có thể còn nhiều yếu tố khác ảnh hưởng đến quyết định của khách hàng đã bị bỏ sót
Trên cơ sở những hạn chế khiến bài nghiên cứu chưa thật sự hoàn thiện, nhóm xin đề xuất một số hướng phát triển đề tài trong tương lai như sau:
• Thứ nhất, hạn chế lớn nhất của bài nghiên cứu này là sự đồng nhất trong việc chọn mẫu chưa cao nên tính đại diện còn hạn chế Nhóm hy vọng sẽ khắc phục được hạn chế này bằng cách tập trung vào thống nhất một đối tượng là một ngành nghề cụ thể và đồng thời triển khai dự đoán, kiểm chứng thực tế và đánh giá kết quả một cách thường xuyên để tăng độ chính xác
• Thứ hai, nhóm mong các đề tài nghiên cứu trong thời gian tới sẽ phát hiện ra nhiều mô hình phù hợp hơn nhằm đi đến kết luận chính xác về các yếu tố thật sự có ảnh hưởng lớn đến quyết định đăng ký tiền gửi có kỳ hạn của khách hàng.