đề tài ứng dụng thuật toán phân lớp để dự đoán khả năng khách hàng rời bỏ ngân hàng

HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ BÁO CÁO MÔN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: ỨNG DỤNG THUẬT TOÁN PHÂN LỚP ĐỂ DỰ ĐOÁN KHẢ NĂNG KHÁCH HÀNG RỜI BỎ NGÂN HÀNG.. Trong phạm vi ng

Trang 1

HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ

BÁO CÁO MÔN KHAI PHÁ DỮ LIỆU

ĐỀ TÀI: ỨNG DỤNG THUẬT TOÁN PHÂN LỚP ĐỂ DỰ ĐOÁN

KHẢ NĂNG KHÁCH HÀNG RỜI BỎ NGÂN HÀNG

Giảng viên hướng dẫn: Thầy Nguyễn Dương Hùng

Nhóm sinh viên thực hiện:

1 Phạm Minh Quang- 22A4040166

2 Đặng Nguyễn Minh Anh - 22A4040165

3 Trần Việt Hải - 22A4040115

Hà Nội – 10/2022

Trang 2

BẢNG PHÂN CÔNG NHIỆM VỤ

1 22A4040166 Phạm Minh Quang Chương 4,5 + Code 33%

2 22A4040165 Đặng Nguyễn Minh Anh Chương 1,2 + Word, Slide 34%

3 22A4040115 Trần Việt Hải Chương 3 + Tính toán 33%

Trang 3

LỜI CAM ĐOAN

Chúng em xin cam đoan rằng những kết quả thu được trong bài báo cáo này là sản phẩm của quá trình nghiên cứu và tìm hiểu riêng của nhóm chúng em Xuyên suốt toàn bộ nội dung báo cáo, những yếu tố được trình bày hoặc là của chúng em hoặc là được tổng hợp từ nhiều nguồn tài liệu khác nhau Tất cả những tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp

Chúng em xin chịu hoàn toàn trách nhiệm và chịu mọi hình thức kỉ luật theo quy định cho lời cam đoan của mình

SINH VIÊN THỰC HIỆN

Phạm Minh Quang

Đặng Nguyễn Minh Anh

Trần Việt Hải

Trang 4

LỜI CẢM ƠN

Chúng em xin trân thành cảm ơn thầy Nguyễn Dương Hùng khoa Hệ thống thông tin quản lý – Học viện Ngân hàng đã nhiệt tình hướng dẫn chúng em hoàn thành bài báo cáo môn Khai phá dữ liệu Trong quá trình làm bài, do chúng em còn thiếu kinh nghiệm thực tế nên vẫn còn tồn tại nhiều thiếu sót, hạn chế Chúng em rất mong nhận được sự đóng góp ý kiến của thầy để đề tài của chúng em có thể hoàn thiện hơn

Chúng em xin chân thành cảm ơn thầy!

Trang 5

1

DANH MỤC HÌNH ẢNH 3

DANH MỤC CÔNG THỨC 3

DANH MỤC BẢNG 3

CHƯƠNG 1 TỔNG QUAN VỀ ĐỀ TÀI 4

1.1 Đặt vấn đề 4

1.2.Cơ sở hình thành đề tài 4

1.3.Mục tiêu đề tài 4

1.4.Đối tượng và phương pháp nghiên cứu 5

1.5.Ý nghĩa của đề tài 5

1.6 Bố cục đề tài 5

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 6

2.1.Tổng quan kỹ thuật khai phá dữ liệu 6

2.1.1.Khái niệm khai phá dữ liệu 6

2.1.2.Các giai đoạn của quá trình khai phá dữ liệu 6

2.2.Bài toán phân lớp trong Khai phá dữ liệu 7

2.2.1.Khái niệm phân lớp 7

2.2.2.Quá trình phân lớp dữ liệu 7

2.2.3.Cơ sở lý thuyết về ngân hàng 7

CHƯƠNG 3 XÂY DỰNG MÔ HÌNH DỰ BÁO 9

3.1.Cơ sở dữ liệu 9

3.2.Lựa chọn thuật toán 9

3.2.1.Lý do lựa chọn thuật toán K - Nearest Neighbour (KNN) và Decision tree 9

3.2.2.Tổng quan về thuật toán KNN 10

3.2.3.Tổng quan về thuật toán Decision Tree 12

CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 15

4.1.Thực nghiệm 15

4.1.1.Chuẩn bị dữ liệu 15

4.1.2.Dự đoán khả năng khách hàng rời bỏ bằng thuật toán Cây quyết định 16

4.1.3.Dự đoán khả năng khách hàng rời bỏ bằng thuật toán KNN (K-Nearest Neighbors) 18

Trang 6

2

4.2.Thực nghiệm thuật toán bằng tay 21

4.3.Đánh giá 23

CHƯƠNG 5 TỔNG KẾT 24

5.1.Kết luận 24

5.2.Hạn chế của đề tài 24

5.3.Hướng phát triển của đề tài 24

TÀI LIỆU THAM KHẢO 25

1.Tài liệu tham khảo về thuật toán 25

2.Tài liệu tham khảo về lý thuyết 25

Trang 7

DANH MỤC BẢNG

Trang 8

đã từng nói rằng “Chúng ta đang ngập chìm trong biển thông tin nhưng lại đang khát tri thức” Con người sẽ thấy bối rối, không biết xử lý như thế nào đối với kho thông tin khổng

lồ như vậy hoặc mọi người vẫn sẽ lưu trữ những dữ liệu vì nghĩ rằng nó ẩn chứa những giá trị nhất định nào đó Tuy nhiên theo một vài thống kê thì chỉ có một lượng nhỏ khoảng 5 - 10% dữ liệu là luôn được phân tích, với số dữ liệu còn lại thì họ lại không biết làm gì hoặc

dữ liệu đó có thể làm gì Nhưng họ vẫn tiếp tục thu thập và lưu trữ với hi vọng rằng những

dữ liệu này sẽ đem lại thông tin quý giá một cách nhanh chóng để đưa ra những quyết định kịp thời vào một lúc nào đó Do đó, các phương thức quản trị và khai thác CSDL truyền thống ngày càng không đáp ứng được thực tế với tình trạng đó Từ đó, một khuynh hướng

dữ liệu mới phát triển để thay thế cái cũ, đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu

Kỹ năng phát hiện tri thức và khai phá dữ liệu đang được nghiên cứu tại Việt Nam,

kỹ thuật này còn tương đối mới mẻ tuy nhiên cũng đã được đưa vào ứng dụng trong nhiều lĩnh vực khác nhau như y tế, chứng khoán, thời tiết, Sự thành công của mô hình này thông qua các nghiên cứu, thử nghiệm chứng minh đem lại nguồn tri thức bổ ích và giúp con người nhiều hơn trong quá trình phát triển kinh tế

Trong phạm vi nghiên cứu đề tài: “Ứng dụng thuật toán phân lớp để dự đoán khả năng khách hàng rời bỏ ngân hàng” của nhóm chúng em, chúng em sẽ tìm hiểu và trình bày

về một kỹ thuật trong khai phá dữ liệu và cũng như tổng quan về khai phá dữ liệu, từ đó để thực hiện những chiến dịch cải thiện chất lượng của ngân hàng cho phù hợp hơn với nhu cầu của khách hàng

1.2 Cơ sở hình thành đề tài

Các ngân hàng là nơi có lượng khách hàng khổng lồ và đa dạng nhất Hằng ngày có hàng trăm nghìn, hàng triệu người lập tài khoản ngân hàng mới nhưng đồng thời cũng có rất nhiều khách hàng đã rời đi Chính vì mong muốn số lượng khách hàng rời đi ít nhất nên

đề tài nghiên cứu sẽ hỗ trợ ngân hàng có thể nhận biết trước được rằng khách hàng nào có nguy cơ rời đi, từ đó có thể đưa ra các chiến lược cần thiết để có thể giảm thiểu tối đa số lượng khách hàng rời đi Điều này có thể giúp cho ngân hàng giữ lại được lượng lớn khách

hàng, từ đó giảm thiểu chi phí, giảm thiểu mất mát không đáng có

1.3 Mục tiêu đề tài

Đề tài xây dựng mô hình dự đoán khả năng khách hàng sẽ rời bỏ ngân hàng, bên cạnh đó nhóm em còn phân tích dữ liệu và sử dụng thuật toán để tìm ra yếu tố ảnh hưởng

Trang 9

5

lớn nhất trong việc khách hàng quyết định có rời bỏ ngân hàng không, từ đó ngân hàng tiếp thu ý kiến và đưa ra những thay đổi để phát triển hơn trong tương lai

1.4 Đối tượng và phương pháp nghiên cứu

● Đối tượng nghiên cứu của đề tài: 10,000 khách hàng trong khu vực Pháp, Tây Ban Nha và Đức

● Phương pháp nghiên cứu: Sử dụng thuật toán K-nearest neighbor (KNN) và thuật

toán Decision trees để đưa ra dự đoán

1.5 Ý nghĩa của đề tài

Dựa vào tập cơ sở dữ liệu của ngân hàng, sử dụng thuật toán KNN và thuật toán Decision trees nhằm đưa ra dự báo xem khả năng nhóm khách hàng sẽ rời bỏ ngân hàng là

có hay không

1.6 Bố cục đề tài

Đề tài gồm 6 phần:

● Chương 1: Tổng quan về đề tài

● Chương 2: Cơ sở lý thuyết

● Chương 3: Xây dựng mô hình dự đoán

● Chương 4: Thực nghiệm và đánh giá

● Chương 5: Tổng kết

Trang 10

6

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.1 Tổng quan kỹ thuật khai phá dữ liệu

2.1.1 Khái niệm khai phá dữ liệu

Khai phá dữ liệu là quá trình tính toán để tìm ra các mẫu và thông tin trong các bộ

dữ liệu lớn Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thông tin từ một

bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp Khai phá dữ liệu là một trong các bước quan trọng nhất trong toàn bộ quá trình khám phá tri thức (KDD), triển khai các thuật toán chuyên dụng để chiết xuất ra các mẫu cũng như các mô hình có ích từ

dữ liệu Trong bối cảnh cạnh tranh khốc liệt hiện nay, các tổ chức/doanh nghiệp luôn tự ý thức được rằng cần phải đạt được một lợi thế cạnh tranh tốt nhất có thể, trong đó việc tìm

ra và sử dụng các tri thức thông tin hữu ích ẩn chứa trong dữ liệu có thể trở thành một công

cụ cạnh tranh cấp chiến lược Có nhiều tham số quan trọng khác nhau trong Data Mining, chẳng hạn như quy tắc kết hợp, phân loại, phân cụm và dự báo

Một số tính năng chính của Data Mining:

● Dự đoán các mẫu dựa trên xu hướng trong dữ liệu

● Tính toán dự đoán kết quả

● Tạo thông tin phản hồi để phân tích

● Tập trung vào CSDL lớn hơn

● Phân cụm dữ liệu trực quan

2.1.2 Các giai đoạn của quá trình khai phá dữ liệu

Khai phá dữ liệu không hẳn là một hệ thống hoàn toàn tự động mà con người cần phải tương tác thường xuyên với Database thông qua các thuật toán chuyên biệt Quy trình khai phá dữ liệu là một chuỗi lặp gồm các giai đoạn bắt đầu từ dữ liệu thô (raw data) và kết thúc với tri thức (knowledge of interest):

1 Làm sạch dữ liệu: Trước tiên cần phải làm sạch tất cả dữ liệu quy trình để

dữ liệu đó phù hợp với tiêu chuẩn ngành Dữ liệu bẩn hay không đầy đủ dẫn đến hiểu biết kém và hệ thống bị lỗi gây tốn thời gian và tiền bạc

2 Tích hợp dữ liệu: Đây là một trong những kĩ thuật khai thác hàng đầu để hợp lý hóa toàn bộ quá trình trích xuất, chuyển đổi và tải Nhiều chuyên gia thực hiện dọn dẹp dữ liệu bổ sung trong các CSDL khác nhau trong giai đoạn này

3 Chọn lựa dữ liệu: Trong bước này, dữ liệu được trích xuất từ cơ sở dữ liệu

4 Biến đổi dữ liệu: Chuyển đổi dữ liệu sang dạng có thể chấp nhận được để phù hợp với các mục tiêu khai thác Hợp nhất dữ liệu chuẩn bị để tối ưu hóa quy trình Data mining và giúp dễ dàng phân biệt các mấu trong tập dữ liệu cuối cùng

5 Khai phá dữ liệu: Sử dụng các ứng dụng Data mining để trích xuất các xu hướng hữu ích và tối ưu hóa việc khám phá kiến thức để tạo ra thông tin kinh doanh

6 Đánh giá mẫu: Giai đoạn này sẽ đưa những hiểu biết sâu sắc vào thế giới thực, bên cạnh đó còn xác định bất kì mẫu hữu ích nào có thể tạo ra kiến thức kinh doanh

Trang 11

7

7 Biểu diễn tri thức: Cuối cùng sẽ sử dụng kết hợp trực quan hóa dữ liệu, báo cáo và các công cụ khai thác để chia sẻ thông tin với những người khác

2.2 Bài toán phân lớp trong Khai phá dữ liệu

2.2.1 Khái niệm phân lớp

Phân lớp là quá trình xác định của từng phần tử từ dữ liệu đầu vào được gán một

“nhãn” nào đó Dạng phân tích dữ liệu nhằm rút trích các mô hình mô tả các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu

Việc phân loại dữ liệu giúp tổ chức xác định mức độ bảo vệ một loại dữ liệu nào đó tùy thuộc vào tính quan trọng, độ nhạy cảm hay mức độ bí mật của dữ liệu Nói cụ thể hơn, việc phân loại dữ liệu giúp xác định cần bao nhiêu tiền, bao nhiêu tài nguyên phải cung cấp

để bảo vệ một loại dữ liệu nào đó Phân loại dữ liệu làm căn cứ cho việc lưu trữ, xử lý, vận chuyển dữ liệu, hay ngay cả việc tiêu hủy dữ liệu

2.2.2 Quá trình phân lớp dữ liệu

Quá trình phân lớp dữ liệu gồm hai bước:

● Bước học (giai đoạn huấn luyện): xây dựng bộ phân loại (classifier) bằng việc phân tích/ học tập huấn luyện

● Bước phân loại (classification): phân loại dữ liệu/ đối tượng mới nếu độ chính xác của bộ phân loại được đánh giá là có thể chấp nhận được (acceptable)

2.2.3 Cơ sở lý thuyết về ngân hàng

Tổng quan về ngân hàng

Trong giai đoạn bùng nổ của Internet cùng với sự phát triển của công nghệ thông tin hiện nay, hoạt động chuyển đổi số trong ngân hàng không chỉ dừng lại ở công việc gia tăng hiệu quả xử lý quy trình mà còn tập trung vào việc nâng cao chất lượng trải nghiệm của khách Do đó, vấn đề khai phá dữ liệu trong ngân hàng để đưa ra các ứng dụng phù hợp với nhu cầu của từng cá nhân đóng vai trò quan trọng và luôn yếu tố được đặt lên hàng đầu để thúc đẩy công cuộc chuyển đổi số thành công

Kỹ thuật khai phá dữ liệu đang được nghiên cứu chuyên sâu và ứng dụng rộng rãi trong việc hỗ trợ ra quyết định của bộ phận lãnh đạo ngân hàng Nó có thể giúp ngân hàng quản trị rủi ro, phân loại khách hàng, phân khúc thị trường trong việc chăm sóc khách hàng

từ đó tạo ra hiệu quả kinh doanh đáng kinh ngạc Tuy nhiên, kết quả khi dự đoán ra của quá trình khai phá dữ liệu trong ngân hàng lại phụ thuộc vào chất lượng của dữ liệu từ quá khứ

và tương lai mà công ty thu thập được Ngoài ra, việc lựa chọn phương pháp cũng như những công nghệ và giai đoạn tiền xử lý các dữ liệu cũng là một nguyên nhân góp phần tạo nên sự thành công của quá trình khai phá dữ liệu trong ngân hàng

Khai phá dữ liệu được ứng dụng trong rất nhiều lĩnh vực và mang đến rất nhiều cơ hội phát triển trong lĩnh vực ngân hàng Tuy nhiên, mục đích cuối cùng của việc khai phá

Trang 12

8

dữ liệu trong ngân hàng là khám phá các tri thức từ các dữ liệu thu thập được để hỗ trợ ra quyết định cho nên đây cũng là một phương pháp được cho là hỗ trợ cho các nhà quản trị rất nhiều khi gặp tình trạng khối lượng thông tin quá nhiều nhưng không biết chọn lọc và

sử dụng dữ liệu nào Một số nhà lãnh đạo ngân hàng thường tận dụng việc khai phá dữ liệu

để phát triển nên mô hình dự báo khả năng thay đổi dịch vụ Hiểu đơn giản là các dịch vụ

có thể cùng nằm trong một ngân hàng hoặc giữa các ngân hàng có sự khác nhau Sau khi khách hàng sử dụng và có thời gian trải nghiệm thì sẽ có xu hướng đánh giá và để lại những nhận xét từ đó họ nhận ra được ngân hàng nào có những dịch vụ phù hợp với bản thân

Trang 13

9

CHƯƠNG 3: XÂY DỰNG MÔ HÌNH DỰ BÁO

3.1 Cơ sở dữ liệu

Dữ liệu của bài toán bao gồm 10000 bản ghi và 12 thuộc tính

Thông tin về các thuộc tính

● Các biến được chia như sau

○ Customer_ID là biến không thêm bất kỳ thông tin nào Không có mối liên hệ nào giữa Customer_ID của khách hàng và việc ngừng sử dụng dịch vụ, nó cũng không đưa ra bất kỳ kết luận chung nào cho các khách hàng có khả năng rời bỏ ngân hàng trong tương lai Vì vậy có thể bỏ qua thông tin này cho dự đoán mô hình

● Danh mục biến nhị phân gồm có:

○ Credit_card: Khách hàng đã sở hữu thẻ tín dụng hay chưa?

○ Active_member: Khách hàng này còn hoạt động không?

○ Churn: Khách hàng đã ngưng sử dụng dịch vụ hay rời bỏ ngân hàng chưa? Đây là biến mục tiêu

● Các biến khoảng thời gian như sau:

○ Age: Độ tuổi của khách hàng

○ Estimated_salary: ước lượng thu nhập của khách hàng (tính theo năm)

○ Tenure: Thời hạn khoản vay của khách hàng với ngân hàng

● Các biến số phân loại thông thường là:

○ Balance: Số tiền hiện có trong tài khoản ngân hàng

○ Products_number: Số dịch vụ sử dụng của ngân hàng

○ Credit_score: Điểm tín dụng, mô tả khả năng trả nợ của người dùng

● Biến danh nghĩa là:

○ Country: Quốc gia mà khách hàng đang sinh sống và làm việc

○ Gender: Giới tính khách hàng

3.2 Lựa chọn thuật toán

3.2.1 Lý do lựa chọn thuật toán K - Nearest Neighbour (KNN) và Decision tree

Cây quyết định là sơ đồ trong phân tích tài chính thể hiện mối tương tác của những

tỷ số tài chính, và một tỷ số ảnh hưởng đến tỷ số khác như thế nào, cho phép nhà phân tích tài chính hoặc người kiểm tra ngân hàng, xem xét mối quan hệ nguyên nhân và kết quả trong những tỷ số khác nhau

KNN là một mô hình đơn giản và trực quan nhưng vẫn có hiệu quả cao vì nó không tham số; mô hình không đưa ra giả định nào về việc phân phối dữ liệu Hơn nữa, nó có thể được sử dụng trực tiếp để phân loại đa lớp

Thuật toán K - Nearest Neighbour và Decision tree được sử dụng phổ biến trong việc phân lớp dữ liệu, phù hợp với những yêu cầu bài toán đã đặt ra

Trang 14

Thuật toán KNN cho rằng những dữ liệu tương tự nhau sẽ tồn tại gần nhau trong một không gian, từ đó công việc của chúng ta là sẽ tìm k điểm gần với dữ liệu cần kiểm tra nhất b) Cách thức hoạt động

- Đầu tiên dữ liệu cần xác định thuộc loại đó

- Xác định khoảng cách giữa 2 điểm:

Đối với ví dụ có thuộc tính kiểu số thực, ví dụ như tọa độ chẳng hạn, thì chúng ta có thể dựa vào các công thức tính khoảng cách hình học như hàm Minkowski, Manhattan, Euclid để xác định khoảng cách

Công thức 1 Hàm Mikowski

Công thức 2 Hàm Manhattan

Công thức 3 Hàm Euclid

Tiêu đề	Ứng dụng thuật toán phân lớp để dự đoán khả năng khách hàng rời bỏ ngân hàng
Tác giả	Phạm Minh Quang, Đặng Nguyễn Minh Anh, Trần Việt Hải
Người hướng dẫn	Nguyễn Dương Hùng
Trường học	Học Viện Ngân Hàng
Chuyên ngành	Khai phá dữ liệu
Thể loại	Báo cáo môn
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	29
Dung lượng	2,53 MB