HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ BÁO CÁO MÔN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: ỨNG DỤNG THUẬT TOÁN PHÂN LỚP ĐỂ DỰ ĐOÁN KHẢ NĂNG KHÁCH HÀNG RỜI BỎ NGÂN HÀNG.. Trong phạm vi ng
Trang 1HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ
BÁO CÁO MÔN KHAI PHÁ DỮ LIỆU
ĐỀ TÀI: ỨNG DỤNG THUẬT TOÁN PHÂN LỚP ĐỂ DỰ ĐOÁN
KHẢ NĂNG KHÁCH HÀNG RỜI BỎ NGÂN HÀNG
Giảng viên hướng dẫn: Thầy Nguyễn Dương Hùng
Nhóm sinh viên thực hiện:
1 Phạm Minh Quang- 22A4040166
2 Đặng Nguyễn Minh Anh - 22A4040165
3 Trần Việt Hải - 22A4040115
Hà Nội – 10/2022
Trang 2BẢNG PHÂN CÔNG NHIỆM VỤ
1 22A4040166 Phạm Minh Quang Chương 4,5 + Code 33%
2 22A4040165 Đặng Nguyễn Minh Anh Chương 1,2 + Word, Slide 34%
3 22A4040115 Trần Việt Hải Chương 3 + Tính toán 33%
Trang 3LỜI CAM ĐOAN
Chúng em xin cam đoan rằng những kết quả thu được trong bài báo cáo này là sản phẩm của quá trình nghiên cứu và tìm hiểu riêng của nhóm chúng em Xuyên suốt toàn bộ nội dung báo cáo, những yếu tố được trình bày hoặc là của chúng em hoặc là được tổng hợp từ nhiều nguồn tài liệu khác nhau Tất cả những tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp
Chúng em xin chịu hoàn toàn trách nhiệm và chịu mọi hình thức kỉ luật theo quy định cho lời cam đoan của mình
SINH VIÊN THỰC HIỆN
Phạm Minh Quang
Đặng Nguyễn Minh Anh
Trần Việt Hải
Trang 4LỜI CẢM ƠN
Chúng em xin trân thành cảm ơn thầy Nguyễn Dương Hùng khoa Hệ thống thông tin quản lý – Học viện Ngân hàng đã nhiệt tình hướng dẫn chúng em hoàn thành bài báo cáo môn Khai phá dữ liệu Trong quá trình làm bài, do chúng em còn thiếu kinh nghiệm thực tế nên vẫn còn tồn tại nhiều thiếu sót, hạn chế Chúng em rất mong nhận được sự đóng góp ý kiến của thầy để đề tài của chúng em có thể hoàn thiện hơn
Chúng em xin chân thành cảm ơn thầy!
Trang 51
DANH MỤC HÌNH ẢNH 3
DANH MỤC CÔNG THỨC 3
DANH MỤC BẢNG 3
CHƯƠNG 1 TỔNG QUAN VỀ ĐỀ TÀI 4
1.1 Đặt vấn đề 4
1.2.Cơ sở hình thành đề tài 4
1.3.Mục tiêu đề tài 4
1.4.Đối tượng và phương pháp nghiên cứu 5
1.5.Ý nghĩa của đề tài 5
1.6 Bố cục đề tài 5
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 6
2.1.Tổng quan kỹ thuật khai phá dữ liệu 6
2.1.1.Khái niệm khai phá dữ liệu 6
2.1.2.Các giai đoạn của quá trình khai phá dữ liệu 6
2.2.Bài toán phân lớp trong Khai phá dữ liệu 7
2.2.1.Khái niệm phân lớp 7
2.2.2.Quá trình phân lớp dữ liệu 7
2.2.3.Cơ sở lý thuyết về ngân hàng 7
CHƯƠNG 3 XÂY DỰNG MÔ HÌNH DỰ BÁO 9
3.1.Cơ sở dữ liệu 9
3.2.Lựa chọn thuật toán 9
3.2.1.Lý do lựa chọn thuật toán K - Nearest Neighbour (KNN) và Decision tree 9
3.2.2.Tổng quan về thuật toán KNN 10
3.2.3.Tổng quan về thuật toán Decision Tree 12
CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 15
4.1.Thực nghiệm 15
4.1.1.Chuẩn bị dữ liệu 15
4.1.2.Dự đoán khả năng khách hàng rời bỏ bằng thuật toán Cây quyết định 16
4.1.3.Dự đoán khả năng khách hàng rời bỏ bằng thuật toán KNN (K-Nearest Neighbors) 18
Trang 62
4.2.Thực nghiệm thuật toán bằng tay 21
4.3.Đánh giá 23
CHƯƠNG 5 TỔNG KẾT 24
5.1.Kết luận 24
5.2.Hạn chế của đề tài 24
5.3.Hướng phát triển của đề tài 24
TÀI LIỆU THAM KHẢO 25
1.Tài liệu tham khảo về thuật toán 25
2.Tài liệu tham khảo về lý thuyết 25
Trang 7DANH MỤC BẢNG
Trang 8đã từng nói rằng “Chúng ta đang ngập chìm trong biển thông tin nhưng lại đang khát tri thức” Con người sẽ thấy bối rối, không biết xử lý như thế nào đối với kho thông tin khổng
lồ như vậy hoặc mọi người vẫn sẽ lưu trữ những dữ liệu vì nghĩ rằng nó ẩn chứa những giá trị nhất định nào đó Tuy nhiên theo một vài thống kê thì chỉ có một lượng nhỏ khoảng 5 - 10% dữ liệu là luôn được phân tích, với số dữ liệu còn lại thì họ lại không biết làm gì hoặc
dữ liệu đó có thể làm gì Nhưng họ vẫn tiếp tục thu thập và lưu trữ với hi vọng rằng những
dữ liệu này sẽ đem lại thông tin quý giá một cách nhanh chóng để đưa ra những quyết định kịp thời vào một lúc nào đó Do đó, các phương thức quản trị và khai thác CSDL truyền thống ngày càng không đáp ứng được thực tế với tình trạng đó Từ đó, một khuynh hướng
dữ liệu mới phát triển để thay thế cái cũ, đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu
Kỹ năng phát hiện tri thức và khai phá dữ liệu đang được nghiên cứu tại Việt Nam,
kỹ thuật này còn tương đối mới mẻ tuy nhiên cũng đã được đưa vào ứng dụng trong nhiều lĩnh vực khác nhau như y tế, chứng khoán, thời tiết, Sự thành công của mô hình này thông qua các nghiên cứu, thử nghiệm chứng minh đem lại nguồn tri thức bổ ích và giúp con người nhiều hơn trong quá trình phát triển kinh tế
Trong phạm vi nghiên cứu đề tài: “Ứng dụng thuật toán phân lớp để dự đoán khả năng khách hàng rời bỏ ngân hàng” của nhóm chúng em, chúng em sẽ tìm hiểu và trình bày
về một kỹ thuật trong khai phá dữ liệu và cũng như tổng quan về khai phá dữ liệu, từ đó để thực hiện những chiến dịch cải thiện chất lượng của ngân hàng cho phù hợp hơn với nhu cầu của khách hàng
1.2 Cơ sở hình thành đề tài
Các ngân hàng là nơi có lượng khách hàng khổng lồ và đa dạng nhất Hằng ngày có hàng trăm nghìn, hàng triệu người lập tài khoản ngân hàng mới nhưng đồng thời cũng có rất nhiều khách hàng đã rời đi Chính vì mong muốn số lượng khách hàng rời đi ít nhất nên
đề tài nghiên cứu sẽ hỗ trợ ngân hàng có thể nhận biết trước được rằng khách hàng nào có nguy cơ rời đi, từ đó có thể đưa ra các chiến lược cần thiết để có thể giảm thiểu tối đa số lượng khách hàng rời đi Điều này có thể giúp cho ngân hàng giữ lại được lượng lớn khách
hàng, từ đó giảm thiểu chi phí, giảm thiểu mất mát không đáng có
1.3 Mục tiêu đề tài
Đề tài xây dựng mô hình dự đoán khả năng khách hàng sẽ rời bỏ ngân hàng, bên cạnh đó nhóm em còn phân tích dữ liệu và sử dụng thuật toán để tìm ra yếu tố ảnh hưởng
Trang 95
lớn nhất trong việc khách hàng quyết định có rời bỏ ngân hàng không, từ đó ngân hàng tiếp thu ý kiến và đưa ra những thay đổi để phát triển hơn trong tương lai
1.4 Đối tượng và phương pháp nghiên cứu
● Đối tượng nghiên cứu của đề tài: 10,000 khách hàng trong khu vực Pháp, Tây Ban Nha và Đức
● Phương pháp nghiên cứu: Sử dụng thuật toán K-nearest neighbor (KNN) và thuật
toán Decision trees để đưa ra dự đoán
1.5 Ý nghĩa của đề tài
Dựa vào tập cơ sở dữ liệu của ngân hàng, sử dụng thuật toán KNN và thuật toán Decision trees nhằm đưa ra dự báo xem khả năng nhóm khách hàng sẽ rời bỏ ngân hàng là
có hay không
1.6 Bố cục đề tài
Đề tài gồm 6 phần:
● Chương 1: Tổng quan về đề tài
● Chương 2: Cơ sở lý thuyết
● Chương 3: Xây dựng mô hình dự đoán
● Chương 4: Thực nghiệm và đánh giá
● Chương 5: Tổng kết
Trang 106
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT
2.1 Tổng quan kỹ thuật khai phá dữ liệu
2.1.1 Khái niệm khai phá dữ liệu
Khai phá dữ liệu là quá trình tính toán để tìm ra các mẫu và thông tin trong các bộ
dữ liệu lớn Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thông tin từ một
bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp Khai phá dữ liệu là một trong các bước quan trọng nhất trong toàn bộ quá trình khám phá tri thức (KDD), triển khai các thuật toán chuyên dụng để chiết xuất ra các mẫu cũng như các mô hình có ích từ
dữ liệu Trong bối cảnh cạnh tranh khốc liệt hiện nay, các tổ chức/doanh nghiệp luôn tự ý thức được rằng cần phải đạt được một lợi thế cạnh tranh tốt nhất có thể, trong đó việc tìm
ra và sử dụng các tri thức thông tin hữu ích ẩn chứa trong dữ liệu có thể trở thành một công
cụ cạnh tranh cấp chiến lược Có nhiều tham số quan trọng khác nhau trong Data Mining, chẳng hạn như quy tắc kết hợp, phân loại, phân cụm và dự báo
Một số tính năng chính của Data Mining:
● Dự đoán các mẫu dựa trên xu hướng trong dữ liệu
● Tính toán dự đoán kết quả
● Tạo thông tin phản hồi để phân tích
● Tập trung vào CSDL lớn hơn
● Phân cụm dữ liệu trực quan
2.1.2 Các giai đoạn của quá trình khai phá dữ liệu
Khai phá dữ liệu không hẳn là một hệ thống hoàn toàn tự động mà con người cần phải tương tác thường xuyên với Database thông qua các thuật toán chuyên biệt Quy trình khai phá dữ liệu là một chuỗi lặp gồm các giai đoạn bắt đầu từ dữ liệu thô (raw data) và kết thúc với tri thức (knowledge of interest):
1 Làm sạch dữ liệu: Trước tiên cần phải làm sạch tất cả dữ liệu quy trình để
dữ liệu đó phù hợp với tiêu chuẩn ngành Dữ liệu bẩn hay không đầy đủ dẫn đến hiểu biết kém và hệ thống bị lỗi gây tốn thời gian và tiền bạc
2 Tích hợp dữ liệu: Đây là một trong những kĩ thuật khai thác hàng đầu để hợp lý hóa toàn bộ quá trình trích xuất, chuyển đổi và tải Nhiều chuyên gia thực hiện dọn dẹp dữ liệu bổ sung trong các CSDL khác nhau trong giai đoạn này
3 Chọn lựa dữ liệu: Trong bước này, dữ liệu được trích xuất từ cơ sở dữ liệu
4 Biến đổi dữ liệu: Chuyển đổi dữ liệu sang dạng có thể chấp nhận được để phù hợp với các mục tiêu khai thác Hợp nhất dữ liệu chuẩn bị để tối ưu hóa quy trình Data mining và giúp dễ dàng phân biệt các mấu trong tập dữ liệu cuối cùng
5 Khai phá dữ liệu: Sử dụng các ứng dụng Data mining để trích xuất các xu hướng hữu ích và tối ưu hóa việc khám phá kiến thức để tạo ra thông tin kinh doanh
6 Đánh giá mẫu: Giai đoạn này sẽ đưa những hiểu biết sâu sắc vào thế giới thực, bên cạnh đó còn xác định bất kì mẫu hữu ích nào có thể tạo ra kiến thức kinh doanh
Trang 117
7 Biểu diễn tri thức: Cuối cùng sẽ sử dụng kết hợp trực quan hóa dữ liệu, báo cáo và các công cụ khai thác để chia sẻ thông tin với những người khác
2.2 Bài toán phân lớp trong Khai phá dữ liệu
2.2.1 Khái niệm phân lớp
Phân lớp là quá trình xác định của từng phần tử từ dữ liệu đầu vào được gán một
“nhãn” nào đó Dạng phân tích dữ liệu nhằm rút trích các mô hình mô tả các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu
Việc phân loại dữ liệu giúp tổ chức xác định mức độ bảo vệ một loại dữ liệu nào đó tùy thuộc vào tính quan trọng, độ nhạy cảm hay mức độ bí mật của dữ liệu Nói cụ thể hơn, việc phân loại dữ liệu giúp xác định cần bao nhiêu tiền, bao nhiêu tài nguyên phải cung cấp
để bảo vệ một loại dữ liệu nào đó Phân loại dữ liệu làm căn cứ cho việc lưu trữ, xử lý, vận chuyển dữ liệu, hay ngay cả việc tiêu hủy dữ liệu
2.2.2 Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm hai bước:
● Bước học (giai đoạn huấn luyện): xây dựng bộ phân loại (classifier) bằng việc phân tích/ học tập huấn luyện
● Bước phân loại (classification): phân loại dữ liệu/ đối tượng mới nếu độ chính xác của bộ phân loại được đánh giá là có thể chấp nhận được (acceptable)
2.2.3 Cơ sở lý thuyết về ngân hàng
Tổng quan về ngân hàng
Trong giai đoạn bùng nổ của Internet cùng với sự phát triển của công nghệ thông tin hiện nay, hoạt động chuyển đổi số trong ngân hàng không chỉ dừng lại ở công việc gia tăng hiệu quả xử lý quy trình mà còn tập trung vào việc nâng cao chất lượng trải nghiệm của khách Do đó, vấn đề khai phá dữ liệu trong ngân hàng để đưa ra các ứng dụng phù hợp với nhu cầu của từng cá nhân đóng vai trò quan trọng và luôn yếu tố được đặt lên hàng đầu để thúc đẩy công cuộc chuyển đổi số thành công
Kỹ thuật khai phá dữ liệu đang được nghiên cứu chuyên sâu và ứng dụng rộng rãi trong việc hỗ trợ ra quyết định của bộ phận lãnh đạo ngân hàng Nó có thể giúp ngân hàng quản trị rủi ro, phân loại khách hàng, phân khúc thị trường trong việc chăm sóc khách hàng
từ đó tạo ra hiệu quả kinh doanh đáng kinh ngạc Tuy nhiên, kết quả khi dự đoán ra của quá trình khai phá dữ liệu trong ngân hàng lại phụ thuộc vào chất lượng của dữ liệu từ quá khứ
và tương lai mà công ty thu thập được Ngoài ra, việc lựa chọn phương pháp cũng như những công nghệ và giai đoạn tiền xử lý các dữ liệu cũng là một nguyên nhân góp phần tạo nên sự thành công của quá trình khai phá dữ liệu trong ngân hàng
Khai phá dữ liệu được ứng dụng trong rất nhiều lĩnh vực và mang đến rất nhiều cơ hội phát triển trong lĩnh vực ngân hàng Tuy nhiên, mục đích cuối cùng của việc khai phá
Trang 128
dữ liệu trong ngân hàng là khám phá các tri thức từ các dữ liệu thu thập được để hỗ trợ ra quyết định cho nên đây cũng là một phương pháp được cho là hỗ trợ cho các nhà quản trị rất nhiều khi gặp tình trạng khối lượng thông tin quá nhiều nhưng không biết chọn lọc và
sử dụng dữ liệu nào Một số nhà lãnh đạo ngân hàng thường tận dụng việc khai phá dữ liệu
để phát triển nên mô hình dự báo khả năng thay đổi dịch vụ Hiểu đơn giản là các dịch vụ
có thể cùng nằm trong một ngân hàng hoặc giữa các ngân hàng có sự khác nhau Sau khi khách hàng sử dụng và có thời gian trải nghiệm thì sẽ có xu hướng đánh giá và để lại những nhận xét từ đó họ nhận ra được ngân hàng nào có những dịch vụ phù hợp với bản thân
Trang 139
CHƯƠNG 3: XÂY DỰNG MÔ HÌNH DỰ BÁO
3.1 Cơ sở dữ liệu
Dữ liệu của bài toán bao gồm 10000 bản ghi và 12 thuộc tính
Thông tin về các thuộc tính
● Các biến được chia như sau
○ Customer_ID là biến không thêm bất kỳ thông tin nào Không có mối liên hệ nào giữa Customer_ID của khách hàng và việc ngừng sử dụng dịch vụ, nó cũng không đưa ra bất kỳ kết luận chung nào cho các khách hàng có khả năng rời bỏ ngân hàng trong tương lai Vì vậy có thể bỏ qua thông tin này cho dự đoán mô hình
● Danh mục biến nhị phân gồm có:
○ Credit_card: Khách hàng đã sở hữu thẻ tín dụng hay chưa?
○ Active_member: Khách hàng này còn hoạt động không?
○ Churn: Khách hàng đã ngưng sử dụng dịch vụ hay rời bỏ ngân hàng chưa? Đây là biến mục tiêu
● Các biến khoảng thời gian như sau:
○ Age: Độ tuổi của khách hàng
○ Estimated_salary: ước lượng thu nhập của khách hàng (tính theo năm)
○ Tenure: Thời hạn khoản vay của khách hàng với ngân hàng
● Các biến số phân loại thông thường là:
○ Balance: Số tiền hiện có trong tài khoản ngân hàng
○ Products_number: Số dịch vụ sử dụng của ngân hàng
○ Credit_score: Điểm tín dụng, mô tả khả năng trả nợ của người dùng
● Biến danh nghĩa là:
○ Country: Quốc gia mà khách hàng đang sinh sống và làm việc
○ Gender: Giới tính khách hàng
3.2 Lựa chọn thuật toán
3.2.1 Lý do lựa chọn thuật toán K - Nearest Neighbour (KNN) và Decision tree
Cây quyết định là sơ đồ trong phân tích tài chính thể hiện mối tương tác của những
tỷ số tài chính, và một tỷ số ảnh hưởng đến tỷ số khác như thế nào, cho phép nhà phân tích tài chính hoặc người kiểm tra ngân hàng, xem xét mối quan hệ nguyên nhân và kết quả trong những tỷ số khác nhau
KNN là một mô hình đơn giản và trực quan nhưng vẫn có hiệu quả cao vì nó không tham số; mô hình không đưa ra giả định nào về việc phân phối dữ liệu Hơn nữa, nó có thể được sử dụng trực tiếp để phân loại đa lớp
Thuật toán K - Nearest Neighbour và Decision tree được sử dụng phổ biến trong việc phân lớp dữ liệu, phù hợp với những yêu cầu bài toán đã đặt ra
Trang 14Thuật toán KNN cho rằng những dữ liệu tương tự nhau sẽ tồn tại gần nhau trong một không gian, từ đó công việc của chúng ta là sẽ tìm k điểm gần với dữ liệu cần kiểm tra nhất b) Cách thức hoạt động
- Đầu tiên dữ liệu cần xác định thuộc loại đó
- Xác định khoảng cách giữa 2 điểm:
Đối với ví dụ có thuộc tính kiểu số thực, ví dụ như tọa độ chẳng hạn, thì chúng ta có thể dựa vào các công thức tính khoảng cách hình học như hàm Minkowski, Manhattan, Euclid để xác định khoảng cách
Công thức 1 Hàm Mikowski
Công thức 2 Hàm Manhattan
Công thức 3 Hàm Euclid