Bằng cách phân tích dữ liệu về nhân khẩu học, lịch sử giao dịch, hành vi sửdụng sản phẩm/dịch vụ và các yếu tố khác của khách hàng, chúng ta có thể xác địnhnhững mẫu hình và xu hướng tiề
Trang 1ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH
UNIVERSITY OF ECONOMICS HO CHI MINH CITY
🙠🙠🙠 TIỂU LUẬN KẾT THÚC HỌC PHẦN
MÔN HỌC: KHOA HỌC DỮ LIỆU
ĐỀ TÀI: ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO VIỆC PHÂN TÍCH VÀ DỰ BÁO TỶ LỆ
RỜI BỎ DỊCH VỤ NGÂN HÀNG CỦA KHÁCH HÀNG
Giảng viên huớng dẫn : TS Nguyễn Mạnh Tuấn
Mã lớp học phần : 24C1INF50905936
TP Hồ Chí Minh, ngày 23 tháng 09 năm 2024
Trang 2
THÔNG TIN NHÓM TÁC GIẢ
1 Nguyễn Quốc Khánh + Viết mục tiêu nghiên cứu
+ Phân tích chuyên sâuphương pháp LR + các nghiêncứu liên quan + đề xuất + Dự báo kết quả ( mức độchuẩn xác của dữ liệu ) + Định dạng format , hoànthiện bài đồ án
2 Thiều Quang Vinh + Viết đối tượng nghiên cứu
+ Mô tả, kiến thức chuyênngành phân cụm
+ Phân cụm phương phápHierarchical Clustering
+ Phân tích kết quả phâncụm, kết luận bài toán phân
cụm
3 Võ Hồng Chương + Viết các bài toán liên quan
đến chuyên ngành+ Chạy các mô hình+ Mô tả nguồn dữ liệu và cấutrúc của dữ liệu
+ Tiền xử lý dữ liệu+ Xây dựng dashboard và mô
tả dashboard+ Sử dụng các biểu đồ đểphát hiện các đặc thù của dữ
Trang 3liệu theo
biến phụ thuộc
4 Đoàn Nhật Huy + Viết lý do chọn đề tài
nghiên cứu+ Mô tả, kiến thức chuyênngành phân cụm
+ Phân tích mô hình phâncụm phương pháp K-Means+ Viết kết luận cho đề tài,đưa ra đề xuất cho vấn đềcủa đề tài
5 Trần Đình Quang + Viết các phương pháp
nghiên cứu + Bài toán phân lớp phầnTest and Score
+ Phân tích chuyên sâu Tree + Các nghiên cứu liên quan + Phân tích kết quả, kết luậnphương pháp phân lớp
MỤC LỤC
Trang 4DANH MỤC HÌNH ẢNH
Hình 1 1 Quy trình khai thác dữ liệu CRISP-DMH 9
Hình 2 1 Thông tin tổng quát bộ dữ liệu liệu 14
Hình 2 2 Thống kê dữ liệu (1) 15
Hình 2 3 Thống kê dữ liệu (2) 15
Hình 2 4 Mô hình tiền xử lý 15
Hình 2 5 Việt hóa bộ dữ liệu bằng Edit Domain 17
Hình 2 6 Lấy 5.000 biến quan sát bằng công cụ Data Sampler 17
Hình 3 1 Biểu đồ thể hiện điểm tích lũy của khách hàng 20
Hình 3 2 Biểu đồ thể hiện thời gian đã sử dụng ngân hàng 20
Hình 3 3 Biểu đồ thể hiện nơi ở, vị trí của khách hàng 21
Hình 3 4 Biểu đồ thể hiện giới tính của khách hàng 21
Hình 3 5 Biểu đồ thể hiện tình trạng sở hữu thẻ tín dụng 22
Hình 3 6 Biểu đồ thể hiện tình trạng hoạt động thường xuyên của khách hàng 22
Hình 3 7 Biểu đồ thể hiện tuổi của khách hàng 23
Hình 3 8 Biểu đồ thể hiện thu nhập ước tính của khách hàng 23
Hình 3 9 Biểu đồ thể hiện điểm tín dụng của khách hàng 24
Hình 3 10 Biểu đồ thể hiện độ hài lòng của khách hàng 24
Hình 3 11 : Biểu đồ thể hiện số dư tài khoản của khách hàng 25
Hình 3 12 Biểu đồ thể hiện số lượng sản phẩm đã mua của khách hàng 25
Hình 3 13 Biểu đồ thể hiện loại thẻ của khách hàng 26
Hình 3 14 Dashboard tổng hợp các thuộc tính 26
Hình 4 1 Mô hình phân tách dữ liệu 30
Hình 4 2 Mô hình phân lớp dữ liệu trên orange 31
Hình 4 3 Kết quả phân tích dựa trên Test 32
Trang 5Hình 4 4 Kết quả phân tích dựa trên mô hình Logistic Regression (LR 34
Hình 4 5 Kết quả phân tích dựa trên mô hình SVM 34
Hình 4 6 Kết quả phân tích dựa trên mô hình 35
Hình 4 7 Dự báo mức độ chuẩn xác của phương pháp Logistic Regression 36
Hình 4 8 Kết quả phân tích theo phương pháp cây quyết định 38
Hình 4 9 Kết quả phân tích chuyên sâu theo phương pháp LR 40
Hình 5 1 Mô hình phương pháp K-means 46
Hình 5 2 Select Rows 47
Hình 5 3 Select Columns 47
Hình 5 4 Kết quả K-means 48
Hình 5 5 Kết quả K-means dưới biểu đồ Silhouette 48
Hình 5 6 Mô hình phương pháp phân cụm 49
Hình 5 7 Chọn dữ liệu 50
Hình 5 8 Select Rows 50
Hình 5 9 Select Columns 51
Hình 5 10 Phương pháp tính khoảng cách 51
Hình 5 11 Kết quả phân cụm và biểu đồ Silhouette của phương pháp Linkage Single 52
Hình 5 12 Kết quả phân cụm và biểu đồ Silhouette của phương pháp Linkage Average 53 Hình 5 13 Kết quả phân cụm và biểu đồ Silhouette của phương pháp Linkage Weighted54 Hình 5 14 Kết quả phân cụm và biểu đồ Silhouette của phương pháp Linkage Complete 56
Hình 5 15 Kết quả phân cụm và biểu đồ Silhouette của phương pháp Linkage Ward 57
Hình 5 16 Thông tin đặc điểm cụm 1 58
Hình 5 17 Thông tin đặc điểm cụm 2 60
Trang 6CÁC BÀI TOÁN LIÊN QUAN ĐẾN CHUYÊN NGÀNH
Hiện nay, việc dự báo khả năng khách hàng rời bỏ ngân hàng thường dựa trên các phươngpháp truyền thống như phân tích số liệu thống kê cơ bản hoặc dựa trên kinh nghiệm củachuyên viên tư vấn Tuy nhiên, việc áp dụng khoa học dữ liệu và các mô hình học máy cóthể cung cấp phương tiện hiệu quả hơn để dự đoán và phân tích xu hướng rời bỏ củakhách hàng Bằng cách phân tích dữ liệu về nhân khẩu học, lịch sử giao dịch, hành vi sửdụng sản phẩm/dịch vụ và các yếu tố khác của khách hàng, chúng ta có thể xác địnhnhững mẫu hình và xu hướng tiềm ẩn từ dữ liệu đó Các phần mềm và mô hình học máy
có thể được sử dụng để phát triển các công cụ dự báo, giúp dự đoán khả năng khách hàng
rời bỏ dựa trên dữ liệu hiện có Là sinh viên ngành Tài chính, nhóm nhận thấy đề tài "ỨNG DỤNG KHOA HỌC DỮ LIỆU VÀO DỰ BÁO KHẢ NĂNG KHÁCH HÀNG RỜI BỎ CỦA NGÂN HÀNG" là một cơ hội tuyệt vời để áp dụng kiến thức chuyên ngành vào thực tế, giải quyết
một bài toán mang tính thời sự trong ngành ngân hàng Để nghiên cứu đề tài này, nhóm
sẽ phân tích bộ dữ liệu từ Kaggle, quan sát các yếu tố ảnh hưởng của từng nhóm kháchhàng để dự đoán khả năng rời bỏ của họ, vận dụng kiến thức Tài chính và các công cụ nhưOrange, Excel và lược đồ dashboard để giải quyết 3 bài toán sau:
Bài toán 1 (Liên quan gần): Phát hiện các đặc điểm liên quan đến khả năng khách hàng rời
bỏ ngân hàng Bằng cách xây dựng Dashboard trực quan, chúng ta sẽ mô tả điểm đặc thùcủa dữ liệu và sử dụng biểu đồ để phân tích các yếu tố liên quan đến hành vi, đặc điểmcủa khách hàng Từ đó, đưa ra kết luận về những yếu tố ảnh hưởng mạnh mẽ nhất đếnkhả năngkhách hàng rời bỏ
Bài toán 2 (Liên quan gần): Dự đoán khả năng khách hàng rời bỏ ngân hàng bằng mô hình
phân lớp Mục tiêu của bài toán là dự đoán chính xác khả năng khách hàng rời bỏ Nhóm
sẽ ứng dụng mô hình phân lớp như Logistic Regression, Decision Tree, SVM để phân loạikhách hàng, đánh giá hiệu quả mô hình, và trực quan hóa kết quả phân tích Phân tích matrận nhầm lẫn (Confusion Matrix) để xác định sai lầm nào là sai lầm nghiêm trọng hơn, gâyảnh hưởng tiêu cực đến ngân hàng Kết quả phân tích chuyên sâu của mô hình DecisionTree và Logistic Regression cho thấy độ chính xác tương đối cao, giúp dự đoán khả năng
Trang 7rời bỏ một cách rõ ràng và dễ dàng hơn Đây được xem là bài toán quan trọng nhất của đềán.
Bài toán 3 (Liên quan gần): Phân loại nhóm khách hàng có khả năng rời bỏ bằng phương
pháp phân cụm K-Means và Hierarchical Clustering Sử dụng chức năng Select Rows vàSelect Columns trong Orange để chọn lọc và loại bỏ các biến không cần thiết, chúng ta sẽtập trung vào những thuộc tính quan trọng ảnh hưởng đến khả năng rời bỏ Sau đó, ápdụng phương pháp K-Means và Hierarchical Clustering để phân cụm khách hàng thành cácnhóm đã rời bỏ khác nhau rồi dùng Silhouette Plot và Data Table để đánh giá phươngpháp Cuối cùng, sử dụng biểu đồ Feature Statistics để trực quan hóa kết quả phân cụm vàphân tích đặc điểm của từng nhóm khách hàng
Do đó, nhóm đánh giá rằng các bài toán trong dự án này có Liên quan gần đến ngành Tàichính
CHƯƠNG I: TỔNG QUAN 1.Tổng quan về khoa học dữ liệu
Trong vài năm trở lại đây, sự bùng nổ của chuyển đổi số đã làm cho vai trò của dữ liệu trởnên vô cùng quan trọng, biến Khoa học dữ liệu thành một trong những lĩnh vực phát triểnnhanh nhất Theo Oracle, Khoa học dữ liệu không chỉ đơn thuần là làm việc với số liệu, mà
là sự kết hợp của các lĩnh vực như thống kê, trí tuệ nhân tạo, và phân tích dữ liệu, nhằmbiến những con số khô khan thành những giá trị có ý nghĩa Những người làm việc trongngành này, thường được gọi là nhà khoa học dữ liệu, không chỉ biết cách làm việc với dữliệu, mà còn phải hiểu rõ nhu cầu của doanh nghiệp, từ đó đưa ra những thông tin giá trịgiúp giải quyết các vấn đề thực tiễn
Mục đích cốt lõi của Khoa học dữ liệu là biến dữ liệu thô thành những hiểu biết sâu sắc và
có giá trị Để làm được điều này, các nhà khoa học dữ liệu phải am hiểu nhiều lĩnh vực,đặc biệt là các công nghệ như học máy (Machine Learning) Họ sử dụng sức mạnh của trítuệ nhân tạo kết hợp với khả năng phân tích của con người để tìm ra những giải phápnhanh chóng và chính xác hơn, giúp tiết kiệm thời gian và chi phí cho doanh nghiệp
Trong quá trình làm việc với dữ liệu, có những phương pháp chuẩn hóa giúp quy trình trởnên hiệu quả hơn, như CRISP-DM – một quy trình chuẩn được sử dụng rộng rãi trong khaiphá dữ liệu Phương pháp này giúp phân tích dữ liệu một cách hệ thống và khoa học, từ
Trang 8việc hiểu nhu cầu kinh doanh cho đến triển khai các mô hình phân tích và dự đoán Khôngchỉ dừng lại ở việc khám phá dữ liệu, Khoa học dữ liệu còn đóng vai trò quan trọng trongviệc ra quyết định chiến lược của các tổ chức, giúp họ nắm bắt cơ hội và đối mặt với tháchthức trong thời đại số.
Hình 1 1 Quy trình khai thác dữ liệu CRISP-DMH
2.Tổng quan đề tài
2.1 Lý do chọn đề tài
Sự phát triển không ngừng của công nghệ cùng với thay đổi trong hành vi tiêu dùng đangtạo ra nhiều thách thức cho các ngân hàng trong việc duy trì và mở rộng cơ sở khách
Trang 9hàng Cạnh tranh ngày càng khốc liệt đòi hỏi các ngân hàng phải không ngừng cải thiệndịch vụ, đồng thời dự đoán và phòng ngừa tình trạng khách hàng rời bỏ Tỷ lệ khách hàngrời đi không chỉ làm giảm doanh thu mà còn gây ảnh hưởng tiêu cực đến uy tín và vị thếtrên thị trường.
Khoa học dữ liệu hiện nay cung cấp những công cụ mạnh mẽ để phân tích hành vi và dựbáo khả năng rời bỏ dịch vụ của khách hàng Áp dụng các mô hình phân tích này, ngânhàng có thể cải thiện hiệu quả việc giữ chân khách hàng, nâng cao trải nghiệm và tối ưuhóa chiến lược cạnh tranh
Nghiên cứu tỷ lệ khách hàng rời bỏ ngân hàng bằng các phương pháp khoa học dữ liệumang lại nhiều lợi ích quan trọng, giúp ngân hàng phát triển bền vững và nâng cao nănglực cạnh tranh Thứ nhất, việc sử dụng các mô hình phân tích dữ liệu cho phép dự đoánchính xác những khách hàng có khả năng rời bỏ Theo một số nghiên cứu, ngân hàng cóthể giảm tỷ lệ rời bỏ đến 25% khi áp dụng các chiến lược giữ chân phù hợp như cải thiệndịch vụ và đưa ra các chương trình ưu đãi Điều này không chỉ giúp giảm tỷ lệ rời bỏ màcòn tăng cường sự hài lòng và trung thành của khách hàng
Thứ hai, phân tích dữ liệu giúp ngân hàng hiểu sâu hơn về hành vi và nhu cầu của kháchhàng Bằng cách phân tích các giao dịch, phản hồi và tương tác, ngân hàng có thể xác địnhđược các xu hướng và mô hình hành vi, từ đó cải thiện chất lượng sản phẩm và dịch vụ.Việc này không chỉ giúp tối ưu hóa trải nghiệm khách hàng mà còn hỗ trợ trong việc pháttriển các sản phẩm mới phù hợp hơn với nhu cầu thị trường Theo một nghiên cứu mớinhất, Gartner Inc dự báo đến năm 2025 80% các doanh nghiệp sẽ cạnh tranh chủ yếu dựatrên trải nghiệm khách hàng mà họ cung cấp
Thứ ba, giữ chân khách hàng hiện tại thường ít tốn kém hơn so với việc thu hút kháchhàng mới Theo một báo cáo, chi phí để thu hút một khách hàng mới cao gấp 5 lần so vớiviệc giữ chân khách hàng hiện tại Khoa học dữ liệu giúp ngân hàng tối ưu hóa chi phí tiếpthị và nâng cao hiệu quả của các chiến dịch quảng bá Điều này đặc biệt quan trọng trongbối cảnh cạnh tranh ngày càng gia tăng, khi mà việc giữ chân khách hàng hiện tại có thểtạo ra lợi thế chiến lược lớn cho ngân hàng Theo như một nghiên cứu của McKinsey andCompany, ông nghiệp hóa dữ liệu một cách hiệu quả có thể tăng lợi nhuận lên đến 120%.Điều này cho thấy tiềm năng to lớn của việc tận dụng dữ liệu để tối ưu hóa các hoạt độngkinh doanh
Trang 10Do đó, nhóm chúng em quyết định chọn đề tài “Ứng dụng khoa học dữ liệu vào việc phântích và dự báo tỷ lệ rời bỏ dịch vụ ngân hàng của khách hàng” nhằm nghiên cứu các giảipháp thực tiễn, sử dụng các công cụ khoa học dữ liệu để dự báo tỷ lệ rời bỏ dịch vụ ngânhàng của khách hàng qua đó hỗ trợ ngân hàng trong việc giảm thiểu tỷ lệ rời bỏ và nângcao hiệu quả kinh doanh.
2.2 Mục tiêu nghiên cứu
Nghiên cứu này nhằm ứng dụng khoa học dữ liệu để phân tích và dự báo tỷ lệ rời bỏ dịch
vụ ngân hàng của khách hàng, từ đó cung cấp cơ sở khoa học giúp cải thiện chiến lượcquản trị khách hàng và tăng cường lợi thế cạnh tranh của ngân hàng Các mục tiêu chínhbao gồm: phân tích sâu các yếu tố ảnh hưởng đến quyết định rời bỏ của khách hàng, nhưhành vi giao dịch và tương tác với các sản phẩm ngân hàng; phát triển mô hình dự báochính xác sử dụng học máy và phân tích hồi quy để nhận diện khách hàng có nguy cơ rời
bỏ cao; đề xuất các giải pháp cụ thể để giảm tỷ lệ rời bỏ, bao gồm việc cải tiến chính sáchchăm sóc khách hàng và tối ưu hóa sản phẩm; và cá nhân hóa dịch vụ nhằm nâng cao trảinghiệm và sự trung thành của khách hàng Cuối cùng, nghiên cứu cũng nhằm tăng cườngnăng lực cạnh tranh của ngân hàng bằng cách cải thiện hiệu quả quản lý và tối ưu hóanguồn lực, qua đó hỗ trợ ngân hàng phát triển bền vững trong môi trường cạnh tranhngày càng khốc liệt
2.3 Phương pháp thực hiện
Tiền xử lý dữ liệu:
+ Khái niệm: Là quá trình xử lý dữ liệu thô hoặc gốc nhằm đạt được đạt được dữ liệu cóchất lượng cao hơn từ đó kết quả của các bài toán sẽ được cải thiện Dữ liệu thô có thể ởdưới nhiều định dạng và từ nhiều nguồn khác nhau như văn bản, số liệu, hình ảnh thôngqua các khảo sát, bài báo hay các hệ thống giao dịch Chất lượng dữ liệu đo lường mứcchính xác, tính hiện hành, tính vẹn toàn và tính nhất quán
Các bước tiền xử lý dữ liệu:
+ Làm sạch dữ liệu (Data Cleaning): Loại bỏ các giá trị thiếu sót hoặc không chính xác từ
dữ liệu đã qua kiểm tra để bảo toàn tính chính xác và đồng nhất
+ Tích hợp dữ liệu (Data Intergration): Kết hợp từ nhiều nguồn dữ liệu khác nhau để tạonên một tập hợp dữ liệu đầy đủ và đồng nhất
Trang 11+ Chuyển đổi dữ liệu (Data Transformation): Chuyển đổi định dạng, đơn vị, cấu trúc của
dữ liệu sao cho phù hợp với yêu cầu của bài toán
+ Rút gọn dữ liệu (Data Reduction): Loại bỏ các dữ liệu thừa, không cần thiết để giảm khốilượng dữ liệu, bảo đảm kích thước của dữ liệu không quá lớn và giữ lại những điểm quantrọng
Mô tả dữ liệu bằng lược đồ hay các công cụ thống kê:
Khái niệm: Mô tả dữ liệu bằng lược đồ là việc sử dụng các biểu đồ trực quan để thể hiệncác đặc điểm và mối quan hệ trong tập hợp dữ liệu Các lược đồ này giúp người phân tích
dễ dàng nhận biết các xu hướng, ngoại lệ và mô hình trong dữ liệu
Phương pháp phân cụm:
Khái niệm: Là quá trình gom các dữ liệu vào cùng một nhóm dựa theo một đặc điểmtương đồng của loại dữ liệu đó Mục đích là tìm ra các nhóm có ý nghĩa trong dữ liệu màkhông cần nhãn trước Phân cụm giúp tìm ra các nhóm tự nhiên trong dữ liệu từ đó đưa
ra các nhìn sâu sắc về cấu trúc và mẫu dữ liệu
Phương pháp phân lớp:
Khái niệm: Là quá trình phân phối các loại dữ liệu vào một hay nhiều lớp (loại) nhờ một
mô hình phân lớp Mô hình phân lớp được hình thành từ tập dữ liệu đã gắn nhãn trước
đó Mục tiêu là học một mô hình phân lớp từ dữ liệu đã gắn nhãn để dự đoán và xếp loạicác dữ liệu mới
2.4 Đối tượng nghiên cứu
+ Bộ dữ liệu cung cấp thông tin về các nhóm khách hàng từ nhiều lĩnh vực khác nhau, baogồm cá nhân và doanh nghiệp Các yếu tố được thu thập bao gồm điểm tín dụng, quốctịch, giới tính, tuổi tác, thời gian sử dụng dịch vụ (tenure), số dư tài khoản, số lượng sảnphẩm mà khách hàng đang sử dụng, cũng như các yếu tố khác như việc khách hàng có thẻtín dụng, mức độ hoạt động của họ với ngân hàng, và mức lương ước tính Ngoài ra, dữliệu cũng phản ánh mức độ hài lòng của khách hàng với dịch vụ và loại thẻ họ sử dụng.+ Thông tin về các nhóm khách hàng đến từ nhiều lĩnh vực khác nhau như cá nhân, doanhnghiệp, cùng với các yếu tố liên quan đến tần suất giao dịch, mức độ sử dụng dịch vụ,mức độ hài lòng và các thông tin tài chính liên quan Đặc biệt, dữ liệu sẽ bao gồm nhiềuyếu tố ảnh hưởng như tuổi, giới tính, thu nhập, và tần suất sử dụng các dịch vụ ngân hàng
Trang 122.5 Phạm vi nghiên cứu
+ Phạm vi không gian: Nghiên cứu được thực hiện dựa trên bộ dữ liệu thu thập từ cáckhách hàng của một ngân hàng quốc tế hoạt động tại ba quốc gia chính: Pháp, Đức và TâyBan Nha Dữ liệu bao gồm thông tin của hàng ngàn khách hàng đến từ các thành phố vàkhu vực khác nhau thuộc ba quốc gia này
+ Phạm vi thời gian: Toàn bộ dữ liệu được thu thập trong khoảng thời gian một năm, từđầu năm 2023 đến cuối năm 2023 Điều này cho phép nghiên cứu có cái nhìn tổng quan
và chính xác về hành vi khách hàng trong suốt cả năm, bao gồm cả những biến động theomùa và các xu hướng thay đổi trong việc sử dụng dịch vụ ngân hàng
TIỂU KẾT CHƯƠNG 1
Chương 1 đã trình bày tổng quan về khoa học dữ liệu và vai trò quan trọng của nó trongviệc dự báo và ra quyết định Chúng em đã nêu rõ lý do chọn đề tài liên quan đến việc dựbáo tỷ lệ rời bỏ dịch vụ ngân hàng, một vấn đề cấp thiết trong bối cảnh cạnh tranh ngàycàng gay gắt Đối tượng và phạm vi nghiên cứu cũng được xác định, với dữ liệu từ kháchhàng của các ngân hàng tại Pháp, Đức và Tây Ban Nha trong năm 2023 Những yếu tố này
sẽ là cơ sở để chúng em phân tích và dự báo trong các chương sau
CHƯƠNG II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ
1 Mô tả dữ liệu
1.1 Mô tả nguồn dữ liệu
Bài tiểu luận này sử dụng dữ liệu từ một Ngân hàng đa quốc gia tại Châu Âu, nhằm phântích và làm sáng tỏ nguyên nhân dẫn đến việc khách hàng rời bỏ dịch vụ Dữ liệu này cungcấp thông tin chi tiết về đặc điểm nhân khẩu học, hành vi giao dịch và sử dụng sản phẩmcủa khách hàng, tạo nền tảng cho việc khám phá các yếu tố tiềm ẩn dẫn đến sự rời bỏ của
họ Bank Customer Churn (kaggle.com)
1.2 Mô tả cấu trúc dữ liệu
Các thông tin được cung cấp trong bộ dữ liệu:
liệu
Khoảng dữ liệu
Trang 13RowNumber Số thứ tự Số nguyên [1; 10000]
CustomerId Mã số khách hàng Số nguyên [15565701; 15815690]
CreditScore Điểm tín dụng của khách hàng Số nguyên [350; 850]
Geography Vị trí, nơi ở của khách hàng Chuỗi France, Germany,
SpainGender Giới tính của khách hàng Chuỗi Male, Female
Tenure Thời gian trở thành khách hàng
cực hay không?
Số nguyên 0: Không hoạt động
tích cực1: Có hoạt động tíchcực
EstimatedSalary Thu nhập ước tính hàng năm
Số nguyên 1: Rất không hài lòng
2: Không hài lòng
Trang 143: Bình thường4: Khá hài lòng5: Rất hài lòngCard Type Loại thẻ mà khách hàng đang
nắm giữ
Chuỗi Silver, Gold, Platinum,
DiamondPoint Earned Điểm mà khách hàng kiếm
Trang 15Hình 2 1 Thông tin tổng quát bộ dữ liệu liệu
Hình 2 2 Thống kê dữ liệu (1)
Hình 2 3 Thống kê dữ liệu (2)
2 Tiền xử lý dữ liệu
Trang 162.3 Chỉnh dạng dữ liệu:
Nhằm đơn giản hóa và áp dụng các kiến thức đã học, nhóm đã sử dụng Edit Domain đểchuyển từ Tiếng Anh sang Tiếng Việt
Trang 17Hình 2 5 Việt hóa bộ dữ liệu bằng Edit Domain
2.4 Rút gọn dữ liệu:
Bộ dữ liệu ban đầu chứa 10.000 biến quan sát, một khối lượng khá lớn có thể dẫn đếnviệc xử lý và phân tích trở nên chậm chạp, tốn kém tài nguyên, và khó khăn trong việctrực quan hóa kết quả Để giải quyết vấn đề này, nhóm đã sử dụng công cụ DataSampler trong Orange
Data Sampler cho phép chọn ngẫu nhiên một tập hợp con dữ liệu từ tập dữ liệu ban đầu,vẫn đảm bảo tính đại diện cho toàn bộ dữ liệu Nhóm đã chọn ngẫu nhiên 5.000 biếnquan sát từ tổng số 10.000 biến, giảm đáng kể kích thước dữ liệu mà không làm mất đicác đặc trưng quan trọng Dữ liệu sau khi được rút gọn đã được lưu lại bằng công cụ SaveData trong Orange, sẵn sàng cho các bước phân tích tiếp theo
Trang 18Hình 2 6 Lấy 5.000 biến quan sát bằng công cụ Data Sampler
3 Bài toán 1
3.1 Mô tả bài toán
Sử dụng công cụ PivotTable trong phần mềm Excel tiến hành thống kê dữ liệu đa chiều và
vẽ biểu đồ thể hiện mối quan hệ, mức độ ảnh hưởng của các thuộc tính độc lập đến biếnmục tiêu (Churn Status) Cuối cùng, tổng hợp các biểu đồ để tạo thành một dashboardtổng hợp dữ liệu thống kê, giúp người đánh giá có cái nhìn tổng quát và sự liên kết giữacác biểu đồ Kết hợp một số biểu đồ từ công cụ distribution từ phần mềm Orange
Thông qua đó, nhóm đánh giá nhận xét trực quan để phát hiện ra những đặc trưng củanhững khách hàng đã rời bỏ dịch vụ ngân hàng
3.2 Phân tích dữ liệu
Trang 19Hình 3 1 Biểu đồ thể hiện điểm tích lũy của khách hàng Điểm tích lũy: Tỷ lệ rời bỏ trong khoảng điểm tích lũy từ 450 đến 500 là 15,59% Trong khi
đó, ở khoảng điểm từ 800 đến 850 chiếm 27,30% Có thể thấy “Điểm tích lũy” tác độngđến quyết định rời bỏ dịch vụ ngân hàng của khách hàng
Hình 3 2 Biểu đồ thể hiện thời gian đã sử dụng ngân hàng Thời gian gắn bó: Ở tất cả giá trị thời gian, khách hàng rời bỏ dịch vụ ngân hàng chỉ chiếm
tỷ lệ giao động từ 17% đến 22% Chênh lệch giữa tỷ lệ rời bỏ ở 2 khoảng bé hơn 10% Qua
đó, cho thấy “Thời gian gắn bó” không tác động đến quyết định rời bỏ dịch vụ ngân hàngcủa khách hàng
Trang 20Hình 3 3 Biểu đồ thể hiện nơi ở, vị trí của khách hàng Quốc gia: Tỷ lệ rời bỏ dịch vụ ngân hàng của 3 nước Pháp, Đức, Tây Ban Nha lần lượt là16,44%, 32,20% và 16,30% Ta có thể thấy chênh tỷ lệ rời bỏ lớn nhất và nhỏ nhất lớn hơn10% Do đó, biến “Quốc gia” có ảnh hưởng lên khả năng rời bỏ của khách hàng.
Hình 3 4 Biểu đồ thể hiện giới tính của khách hàng Giới tính: Giới tính Nữ có tỷ lệ rời bỏ là 25,17%, còn Nam thì tỷ lệ chiếm 16,27% Do đó,Biến “Giới tính” có thể được coi là có tác động thấp đến tỷ lệ rời bỏ
Trang 21Hình 3 5 Biểu đồ thể hiện tình trạng sở hữu thẻ tín dụng
Có thẻ tín dụng: Đa số khách hàng đều có thẻ tín dụng, trong đó tỷ lệ rời bỏ chiếm20,35% Còn đối với khách hàng không có thẻ tín dụng thì tỷ lệ đó chiếm 20,45% Có thểthấy “Có thẻ tín dụng” không có ảnh hưởng lên khả năng rời bỏ của khách hàng
Hình 3 6 Biểu đồ thể hiện tình trạng hoạt động thường xuyên của khách hàngKhách hàng tín dụng: Có thể thấy các khách hàng không hoạt động thường xuyên có tỷ lệrời bỏ chiếm đến 27,50%, còn các khách hàng hoạt động thường xuyên thì tỷ lệ rời bỏ chỉchiếm 13,69% Do đó, “Khách hàng tín dụng” có tác động lên khả năng rời bỏ dịch vụ ngânhàng của khách hàng
Trang 22Hình 3 7 Biểu đồ thể hiện tuổi của khách hàng Tuổi: Hầu như các khách hàng từ 70 tuổi trở lên không rời bỏ dịch vụ ngân hàng Trong khi
đó, các nhóm khách hàng từ 45 tuổi đến 65 tuổi có tỷ lệ rời bỏ cao từ 41%-57%, còn cácnhóm khách hàng từ 18 tuổi đến 40 tuổi thì tỷ lệ rời bỏ chỉ từ 6%-13% Có thể thấy biến
“Tuổi” có tác động đáng kể đến khả năng rời bỏ của khách hàng
Hình 3 8 Biểu đồ thể hiện thu nhập ước tính của khách hàng Thu nhập ước tính: Tỷ lệ rời bỏ trong khoảng thu nhập nhỏ hơn 5000 là 15,38% Trong khi
đó, ở khoảng thu nhập từ 17500 đến 18000 chiếm 27,66% Có thể thấy “Thu nhập ướctính” tác động đến quyết định rời bỏ dịch vụ ngân hàng của khách hàng
Trang 23Hình 3 9 Biểu đồ thể hiện điểm tín dụng của khách hàng Điểm tín dụng: Chênh lệch tỷ lệ rời bỏ dịch vụ ngân hàng giữa giá trị lớn nhất và nhỏ nhấtlớn hơn 10% Do đó, “Điểm tín dụng” tác động đến quyết định rời bỏ dịch vụ ngân hàngcủa khách hàng.
Hình 3 10 Biểu đồ thể hiện độ hài lòng của khách hàng
Độ hài lòng: Có thể thấy tỉ lệ rời bỏ dịch vụ ngân hàng ở tất cả mức độ hài lòng đều loanhquang 20% Vì thế, thuộc tính này không có ảnh hưởng đến biến mục tiêu “Trạng thái rờibỏ”
Trang 24Hình 3 11 : Biểu đồ thể hiện số dư tài khoản của khách hàng
Số dư tài khoản: Chênh lệch tỷ lệ rời bỏ dịch vụ ngân hàng giữa giá trị lớn nhất và nhỏnhất lớn hơn 10% Do đó, “Số dư tài khoản” tác động đến quyết định rời bỏ dịch vụ ngânhàng của khách hàng
Hình 3 12 Biểu đồ thể hiện số lượng sản phẩm đã mua của khách hàng
Số lượng sản phẩm: Tỷ lệ rời bỏ ở mức 2 sản phẩm chiếm 7,03%; trong khi đó, tất cảkhách hàng mua 4 sản phẩm đều rời bỏ dịch vụ ngân hàng Vậy “Số lượng sản phẩm” tácđộng đến quyết định rời bỏ dịch vụ ngân hàng của khách hàng
Trang 25Hình 3 13 Biểu đồ thể hiện loại thẻ của khách hàng Loại thẻ: Có thể thấy các khách hàng ở tất cả loại thẻ có tỷ lệ rời bỏ đều chiếm từ 19%-21% Do đó, “Loại thẻ” không có tác động lên khả năng rời bỏ dịch vụ ngân hàng củakhách hàng.
3.3 Xây dựng và mô tả Dashboard
Hình 3 14 Dashboard tổng hợp các thuộc tính Qua kết quả thu thập từ Dashboard, ta có được những thông tin sau:
Tỷ lệ rời bỏ ngân hàng chiếm 20% tổng số khách hàng (1019 khách hàng)
Trang 26Phân tích theo nhân khẩu học:
Giới tính: 57% người rời bỏ dịch vụ ngân hàng là nữ, và 43% là nam Điều này cho thấy sựchiếm ưu thế của nữ, thế nhưng đây không phải một tỷ lệ quá chênh lệch
Tuổi: Có thể thấy ở độ tuổi từ 40-51 có xu hướng rời bỏ nhiều hơn
Vị trí: Đức và Pháp chiếm tỷ lệ khách hàng rời bỏ đều 40% Ngoài ra, Tây Ban Nha chiếmthấp nhất là 20%
Thời gian gắn bó: Thời gian gắn bó 1 năm thì chiếm tỷ lệ rời bỏ là 10.5%, còn thời gian gắn
bó 10 năm là 4.7% Điều này cho thấy khách hàng gắn bó càng lâu thì khó rời bỏ dịch vụngân hàng hơn
Độ hài lòng: Tỷ lệ rời bỏ ở các mức độ hài lòng đều như nhau
Số dư tài khoản: Khách hàng không rời bỏ dịch vụ ngân hàng có tổng số dư cao nhất là
292786317 (chiếm 75.8%), còn khách hàng rời bỏ dịch vụ ngân hàng có tổng số dư là
93587241 (chiếm 24.2%)
Loại thẻ: Loại thẻ Kim cương chiếm tỷ lệ rời bỏ cao nhất (chiếm 27.5%), rồi đến thẻ Bạchkim là 25.5%, tiếp theo là thẻ Bạc (chiếm 23.8%), cuối cùng thấp nhất là thẻ Vàng chiếm23.2%
Thu nhập ước tính: Khoảng thu nhập 150000-200000 chiếm tỷ lệ rời bỏ cao nhất (chiếm26.9%), rồi đến khoảng thu nhập 100000-150000 là 25.1%, cuối cùng là khoảng thu nhập50000-100000 và 0-50000 cùng chiếm lần lượt là 23.9% và 24.1%
3.4 Kết luận
Sau khi sử dụng phân tích từ việc thống kê dữ liệu lớn bằng Dashboard, nhóm tác giả nhậnthấy rằng thấy việc khách hàng rời bỏ dịch vụ ngân hàng phụ thuộc vào nhiều yếu tố nhưĐiểm tích lũy, Quốc gia, Giới tính, Tuổi, Thu nhập ước tính, Điểm tín dụng, Số lượng sản
Trang 27phẩm,… Dưới cái nhìn tổng quan, tỷ lệ rời bỏ dịch vụ ngân hàng chiếm đến tận 20%, chothấy ngân hàng còn nhiều yếu tố cần cải thiện để giữ chân khách hàng.
Ngoài ra, dựa trên các phân tích dữ liệu, nhóm còn kết luận rằng các yếu tố Điểm tích lũy,Quốc gia, Giới tính, Khách hàng tích cực, Tuổi, Thu nhập ước tính, Điểm tín dụng, Số lượngsản phẩm, và Số dư tài khoản đều đóng vai trò quan trọng trong việc dự đoán khả năngkhách hàng rời bỏ ngân hàng Tuy nhiên, các yếu tố như Thời gian gắn bó, Loại thẻ, Độ hàilòng và Có thẻ tín dụng lại không thể hiện sự tác động đáng kể đến quyết định của kháchhàng Kết quả này cho thấy các yếu tố liên quan đến hành vi sử dụng dịch vụ (như điểmtích lũy, tình trạng hoạt động, số lượng sản phẩm sử dụng) và đặc điểm tài chính củakhách hàng (như thu nhập, điểm tín dụng, số dư tài khoản) đóng vai trò quan trọng trongviệc dự đoán khả năng rời bỏ Ngân hàng nên tập trung phân tích và theo dõi sát saonhững yếu tố này để xây dựng chiến lược giữ chân khách hàng hiệu quả, hướng tới một
hệ sinh thái dịch vụ thuận tiện, hấp dẫn và đáp ứng đầy đủ nhu cầu của khách hàng
4 Bài toán phân lớp
4.1 Mô tả bài toán
Bài toán được đặt ra với mục đích dự đoán khả năng rời bỏ ngân hàng Với mục tiêu xâydựng một mô hình để phân loại khách hàng vào 2 tệp: Khách hàng có khả năng rời bỏ vàkhách hàng không rời bỏ Bằng cách sử dụng các dữ liệu, thông tin của từng khách hàngnhư (Biến biến động) tuổi tác, số dịch vụ sử dụng, điểm tín dụng, số dư, điểm thỏa mãn, vịtrí địa lý hay khả năng rời bỏ dịch vụ ngân hàng (Biến phụ thuộc) và loạt các loại dữ liệukhác đã được thu thập, mô hình sẽ dự đoán liệu khách hàng có rời bỏ ngân hàng haykhông
Sử dụng 3 phương pháp để tiến hành phân lớp dữ liệu là: SVM, Neural Network vàLogistic regression
4.2 Các kiến thức chuyên ngành có liên quan đến bài toán
The impact of customer relationship characteristics on profitable lifetime duration W.J Reinart & V Kumar (2001)
Nghiên cứu cho thấy rằng sự trung thành của khách hàng không phải lúc nào cũng đi kèmvới lợi nhuận Có những khách hàng có tần suất giao dịch cao nhưng giá trị thấp và ngượclại Điều cho thấy rằng việc phân tích CLV dựa trên lợi nhuận thực sự của khách hàng, chứ
Trang 28không chỉ dựa vào tần suất giao dịch hay sự trung thành giả định, sẽ giúp doanh nghiệp tối
ưu hóa chiến lược quản lý khách hàng Sử dụng các phương pháp phân tích thống kê và
mô hình hóa để nghiên cứu lifetime value (LTV) của khách hàng và xác định những yếu tốnào ảnh hưởng đến lợi nhuận theo thời gian của mối quan hệ khách hàng
Phương pháp chính được sử dụng trong bài nghiên cứu là mô hình Hazard Rate Models(còn gọi là survival analysis), để đánh giá thời gian khách hàng sẽ tiếp tục có giá trị vớidoanh nghiệp Ngoài ra, phân tích hồi quy cũng được sử dụng để nghiên cứu các yếu tốtác động đến độ dài vòng đời khách hàng
Nghiên cứu của Reinartz và Kumar đã tạo nền tảng cho việc ứng dụng khoa học dữ liệu đểxác định CLV, thông qua việc phân tích dữ liệu lịch sử giao dịch, hành vi khách hàng, và cácyếu tố nhân khẩu học Ngân hàng và các tổ chức tài chính có thể sử dụng CLV để tối ưuhóa chiến lược marketing, đồng thời giảm thiểu chi phí giữ chân khách hàng không có lợinhuận cao
Prediction of bank credit worthiness through credit risk analysis: an explainable machine learning study ( 2023)
Một nghiên cứu được thực hiện bởi nhóm giảng viên trường đại học Aston , Anh đã chỉ rarằng tầm quan trọng của việc phân biệt giữa khách hàng chất lượng thấp và chất lượngcao để dự đoán rủi ro tín dụng chính xác, góp phần vào khả năng tồn tại dài hạn và lợinhuận của các ngân hàng, đồng thời ổn định hệ thống và phân bổ vốn hiệu quả
Nghiên cứu đã áp dụng 3 mô hình Support Vector Machines (SVM), Decision Trees (TREE),
và Logistic Regression (LR), để phân tích và dự đoán khả năng vỡ nợ của khách hàng trong
hệ thống tài chính chuỗi cung ứng Các thuật toán này được áp dụng để so sánh hiệu suất
và xác định mô hình phù hợp nhất cho việc dự đoán rủi ro tín dụng
Kết quả cho thấy, mặc dù mỗi mô hình có ưu điểm riêng, Logistic Regression (LR) đượcbiết đến với tính đơn giản và khả năng giải thích tốt, nhưng gặp khó khăn khi xử lý các dữliệu không tuyến tính Decision Trees (TREE) lại mạnh mẽ trong việc xử lý các đặc điểmphức tạp nhưng có thể dễ bị khớp Support Vector Machines (SVM) có khả năng phân biệttốt giữa các loại tín dụng, đặc biệt khi dữ liệu không thể phân tách tuyến tính, nhưng đòihỏi thời gian tính toán lớn hơn
Trang 29Nghiên cứu đã giúp cải thiện khả năng phân tích rủi ro tín dụng, đồng thời cung cấp các
mô hình có thể được sử dụng để tối ưu hóa chiến lược quản lý rủi ro tín dụng một cáchhiệu quả hơn
Predicting customers churning in banking industry: A machine learning approach (2022)
Nghiên cứu thực hiện bởi Amgad Muneer và các đồng nghiệp xây dựng một hệ thống dựđoán tỷ lệ rời bỏ của khách hàng bằng các mô hình như Random Forest, AdaBoost và SVM
để dự đoán khách hàng nào có khả năng rời bỏ
Thách thức chính được đề cập trong nghiên cứu là vấn đề mất cân bằng lớp dữ liệu, trong
đó số lượng khách hàng không rời bỏ nhiều hơn đáng kể so với khách hàng rời bỏ Các tácgiả đã áp dụng kỹ thuật Synthetic Minority Oversampling Technique (SMOTE), qua đó cảithiện đáng kể độ chính xác của dự đoán
A Logistic Regression Model for Credit Risk of Companies in the Service Sector ( 2022)
Một nghiên cứu được thực hiện bởi Lobna Abid, thuộc Đại học Sfax, Tunisia, đã chỉ ra rằngviệc dự đoán rủi ro tín dụng của các công ty trong lĩnh vực dịch vụ là một vấn đề quantrọng trong các nghiên cứu thực nghiệm Nghiên cứu này sử dụng mô hình LogisticRegression (LR) để đánh giá các yếu tố quyết định đến rủi ro không thanh toán của cáccông ty
Nghiên cứu đã áp dụng mô hình Logistic Regression để phân tích dữ liệu từ 1461 công tytrong lĩnh vực dịch vụ tại Tunisia, bao gồm sáu biến số tài chính và hai biến số kinh tế vĩ
mô Các yếu tố được xem xét bao gồm tỷ lệ nợ, khả năng thanh toán, tỷ suất lợi nhuận, vàmức độ lạm phát Kết quả cho thấy rằng các yếu tố như tỷ lệ nợ, khả năng thanh toán vàlãi suất có ảnh hưởng lớn đến rủi ro tín dụng của các công ty
Kết quả cũng chỉ ra rằng tỷ lệ lạm phát cao và tốc độ tăng trưởng GDP thấp có thể làmtăng rủi ro tín dụng của doanh nghiệp Nghiên cứu này đã giúp làm rõ các yếu tố chínhảnh hưởng đến rủi ro tín dụng, đồng thời cung cấp một mô hình có thể sử dụng để cảithiện quản lý rủi ro trong lĩnh vực tài chính
Financial Distress Prediction Based on Decision Tree Models (2007)
Một nghiên cứu được thực hiện bởi Qin Zheng từ Trường Quản lý Thông tin và Kỹ thuật,Đại học Tài chính và Kinh tế Thượng Hải, và Jiang Yanhui từ Trường Kế toán, Đại học HồNam, đã chỉ ra tầm quan trọng của việc dự đoán chính xác tình trạng tài chính khó khăn
Trang 30của các doanh nghiệp Nghiên cứu này sử dụng mô hình Decision Tree (Cây quyết định) đểphân tích và dự đoán khả năng phá sản của các doanh nghiệp được niêm yết tại thịtrường chứng khoán Trung Quốc.
Nghiên cứu đã áp dụng thuật toán CHAID Decision Tree, một trong những phương phápkhai phá dữ liệu hiệu quả nhất, để dự đoán tình trạng tài chính khó khăn của các doanhnghiệp Các mô hình được xây dựng dựa trên dữ liệu từ các doanh nghiệp Trung Quốctrong giai đoạn 2003-2005, với các biến số tài chính phản ánh khả năng thanh toán, khảnăng sinh lời, và dòng tiền hoạt động
Kết quả cho thấy rằng các biến số như Tỷ lệ Lợi nhuận trên Tổng Tài sản (ROA), Tăngtrưởng Lợi nhuận, và Dòng Tiền Hoạt động trên Nợ Ngắn hạn là những yếu tố quan trọngtrong việc dự đoán tình trạng tài chính khó khăn của các doanh nghiệp Mô hình CHAIDDecision Tree cung cấp những quy tắc dễ hiểu, có thể áp dụng để đưa ra quyết định kinhdoanh và quản lý rủi ro hiệu quả hơn trong lĩnh vực tài chính
Credit risk analysis using support vector machines algorithm ( 2021)
Nghiên cứu này tập trung vào phân tích rủi ro tín dụng bằng cách sử dụng thuật toánSupport Vector Machines (SVM) Mục tiêu của nghiên cứu là phân loại khách hàng tiềmnăng thành nhóm tín dụng tốt hoặc xấu để giảm thiểu rủi ro tín dụng cho ngân hàng Dữliệu sử dụng được thu thập từ năm 2015 đến năm 2018 tại Bank XX, với 610 mẫu dữ liệubao gồm các biến độc lập như giới tính, mức lương, nghề nghiệp, lịch sử vay nợ và tìnhtrạng bảo đảm, cùng với biến phụ thuộc là tình trạng tín dụng
Nghiên cứu đã thử nghiệm bốn loại hạt nhân (kernel) của SVM: linear, polynomial, RBF(Radial Basis Function), và sigmoid Kết quả cho thấy mô hình SVM với hạt nhânpolynomial có hiệu suất tốt nhất với độ chính xác cao nhất là 0.9508 và giá trị AUC là0.9419 Đây là mô hình phù hợp để giúp các ngân hàng đưa ra quyết định về việc chấpnhận hoặc từ chối đơn xin vay tín dụng, đồng thời giúp giảm thiểu tổn thất do tín dụngxấu
4.3.Chạy mô hình và kết quả
Trang 31Hình 4 1 Mô hình phân tách dữ liệu
Sử dụng Data Sampler để chia phần dữ liệu thành trong file Churn_rutgon.xlsx” thành 2 file khác nhau gồm 70% dữ liệu và 30% dữ liệu còn lại Sau đólưu file và đổi tên thành "data.xlxs" với file 70% dữ liệu và "forecast.xlsx" với file 30% dữliệu còn lại
“Bank-Customer-Hình 4 2 Mô hình phân lớp dữ liệu trên orange
4.3.1 Theo Test and Score
Trang 32Hình 4 3 Kết quả phân tích dựa trên Test
Dựa vào kết quả của Test & Score trên ta có nhận xét như sau:
Chỉ số AUC, phần diện tích dưới đường cong ROC, là một chỉ số quan trọng đánh giá hiệusuất của mô hình phân loại Giá trị này có thể bé hơn hoặc bằng 1, càng gần bằng 1 thì môhình càng phân biệt chính xác các mẫu Ta có thể thấy phương pháp Tree có chỉ số thấpnhất là 0.640, phương pháo SVM có chỉ số là 0.664 và phương pháp có chỉ số cao nhấtphải nói đên là Logistic Regression với 0.670
Chỉ số CA, thước đo hiệu suất, là chỉ số dùng để đánh giá độ chính xác của các mô hình.Qua quan sát nhóm có độ chính xác cao nhất là Tree với chỉ số 0.817 và theo sau lần lượt
là Logistic Regression và SVM với các chỉ số 0.793 và 0.706
Chỉ số F1, chỉ số phản ánh hiệu suất của mô hình phân loại một cách cân đối, là giá trịtrung bình điều hòa của chỉ số quan trọng Precision và Recall Phương pháp Tree có giá trịcao nhất là 0.814, sau đó là 0.727 của Logistic Regression và 0.719 của SVM
Chỉ số Precision, giúp đo lường độ chính xác mà các dự đoán dương tính được đưa ra bởi
mô hình, chỉ số Prec càng cao thì mô hình ít đưa ra sai các dự đoán dương tính Ta có thể