1. Trang chủ
  2. » Luận Văn - Báo Cáo

đề tài ứng dụng thuật toán phân lớp để dự đoán khả năng khách hàng rời bỏ ngân hàng

29 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

HỌC VIỆN NGÂN HÀNG KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ BÁO CÁO MÔN KHAI PHÁ DỮ LIỆU ĐỀ TÀI: ỨNG DỤNG THUẬT TOÁN PHÂN LỚP ĐỂ DỰ ĐOÁN KHẢ NĂNG KHÁCH HÀNG RỜI BỎ NGÂN HÀNG.. Trong phạm vi ng

Trang 1

HỌC VIỆN NGÂN HÀNG

KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ

BÁO CÁO MÔN KHAI PHÁ DỮ LIỆU

ĐỀ TÀI: ỨNG DỤNG THUẬT TOÁN PHÂN LỚP ĐỂ DỰ ĐOÁN

KHẢ NĂNG KHÁCH HÀNG RỜI BỎ NGÂN HÀNG

Giảng viên hướng dẫn: Thầy Nguyễn Dương Hùng

Nhóm sinh viên thực hiện:

1 Phạm Minh Quang- 22A4040166 2 Đặng Nguyễn Minh Anh - 22A4040165 3 Trần Việt Hải - 22A4040115

Hà Nội – 10/2022

Trang 2

BẢNG PHÂN CÔNG NHIỆM VỤ

1 22A4040166 Phạm Minh Quang Chương 4,5 + Code 33% 2 22A4040165 Đặng Nguyễn Minh Anh Chương 1,2 + Word, Slide 34% 3 22A4040115 Trần Việt Hải Chương 3 + Tính toán 33%

Trang 3

LỜI CAM ĐOAN

Chúng em xin cam đoan rằng những kết quả thu được trong bài báo cáo này là sản phẩm của quá trình nghiên cứu và tìm hiểu riêng của nhóm chúng em Xuyên suốt toàn bộ nội dung báo cáo, những yếu tố được trình bày hoặc là của chúng em hoặc là được tổng hợp từ nhiều nguồn tài liệu khác nhau Tất cả những tài liệu tham khảo đều có xuất xứ rõ ràng và được trích dẫn hợp pháp

Chúng em xin chịu hoàn toàn trách nhiệm và chịu mọi hình thức kỉ luật theo quy định cho lời cam đoan của mình

SINH VIÊN THỰC HIỆN

Phạm Minh Quang

Đặng Nguyễn Minh Anh Trần Việt Hải

Trang 4

LỜI CẢM ƠN

Chúng em xin trân thành cảm ơn thầy Nguyễn Dương Hùng khoa Hệ thống thông tin quản lý – Học viện Ngân hàng đã nhiệt tình hướng dẫn chúng em hoàn thành bài báo cáo môn Khai phá dữ liệu Trong quá trình làm bài, do chúng em còn thiếu kinh nghiệm thực tế nên vẫn còn tồn tại nhiều thiếu sót, hạn chế Chúng em rất mong nhận được sự đóng góp ý kiến của thầy để đề tài của chúng em có thể hoàn thiện hơn

Chúng em xin chân thành cảm ơn thầy!

Trang 5

1.4.Đối tượng và phương pháp nghiên cứu 5

1.5.Ý nghĩa của đề tài 5

1.6 Bố cục đề tài 5

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 6

2.1.Tổng quan kỹ thuật khai phá dữ liệu 6

2.1.1.Khái niệm khai phá dữ liệu 6

2.1.2.Các giai đoạn của quá trình khai phá dữ liệu 6

2.2.Bài toán phân lớp trong Khai phá dữ liệu 7

2.2.1.Khái niệm phân lớp 7

2.2.2.Quá trình phân lớp dữ liệu 7

2.2.3.Cơ sở lý thuyết về ngân hàng 7

CHƯƠNG 3 XÂY DỰNG MÔ HÌNH DỰ BÁO 9

3.1.Cơ sở dữ liệu 9

3.2.Lựa chọn thuật toán 9

3.2.1.Lý do lựa chọn thuật toán K - Nearest Neighbour (KNN) và Decision tree 9

3.2.2.Tổng quan về thuật toán KNN 10

3.2.3.Tổng quan về thuật toán Decision Tree 12

CHƯƠNG 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 15

4.1.Thực nghiệm 15

4.1.1.Chuẩn bị dữ liệu 15

4.1.2.Dự đoán khả năng khách hàng rời bỏ bằng thuật toán Cây quyết định 16

4.1.3.Dự đoán khả năng khách hàng rời bỏ bằng thuật toán KNN (K-Nearest Neighbors) 18

Trang 6

5.3.Hướng phát triển của đề tài 24

TÀI LIỆU THAM KHẢO 25

1.Tài liệu tham khảo về thuật toán 25

2.Tài liệu tham khảo về lý thuyết 25

Trang 7

DANH MỤC BẢNG

Trang 8

Kỹ năng phát hiện tri thức và khai phá dữ liệu đang được nghiên cứu tại Việt Nam, kỹ thuật này còn tương đối mới mẻ tuy nhiên cũng đã được đưa vào ứng dụng trong nhiều lĩnh vực khác nhau như y tế, chứng khoán, thời tiết, Sự thành công của mô hình này thông qua các nghiên cứu, thử nghiệm chứng minh đem lại nguồn tri thức bổ ích và giúp con người nhiều hơn trong quá trình phát triển kinh tế

Trong phạm vi nghiên cứu đề tài: “Ứng dụng thuật toán phân lớp để dự đoán khả năng khách hàng rời bỏ ngân hàng” của nhóm chúng em, chúng em sẽ tìm hiểu và trình bày về một kỹ thuật trong khai phá dữ liệu và cũng như tổng quan về khai phá dữ liệu, từ đó để thực hiện những chiến dịch cải thiện chất lượng của ngân hàng cho phù hợp hơn với nhu cầu của khách hàng

1.2 Cơ sở hình thành đề tài

Các ngân hàng là nơi có lượng khách hàng khổng lồ và đa dạng nhất Hằng ngày có hàng trăm nghìn, hàng triệu người lập tài khoản ngân hàng mới nhưng đồng thời cũng có rất nhiều khách hàng đã rời đi Chính vì mong muốn số lượng khách hàng rời đi ít nhất nên đề tài nghiên cứu sẽ hỗ trợ ngân hàng có thể nhận biết trước được rằng khách hàng nào có nguy cơ rời đi, từ đó có thể đưa ra các chiến lược cần thiết để có thể giảm thiểu tối đa số lượng khách hàng rời đi Điều này có thể giúp cho ngân hàng giữ lại được lượng lớn khách

hàng, từ đó giảm thiểu chi phí, giảm thiểu mất mát không đáng có 1.3 Mục tiêu đề tài

Đề tài xây dựng mô hình dự đoán khả năng khách hàng sẽ rời bỏ ngân hàng, bên cạnh đó nhóm em còn phân tích dữ liệu và sử dụng thuật toán để tìm ra yếu tố ảnh hưởng

Trang 9

5

lớn nhất trong việc khách hàng quyết định có rời bỏ ngân hàng không, từ đó ngân hàng tiếp thu ý kiến và đưa ra những thay đổi để phát triển hơn trong tương lai

1.4 Đối tượng và phương pháp nghiên cứu

● Đối tượng nghiên cứu của đề tài: 10,000 khách hàng trong khu vực Pháp, Tây Ban Nha và Đức

● Phương pháp nghiên cứu: Sử dụng thuật toán K-nearest neighbor (KNN) và thuật

toán Decision trees để đưa ra dự đoán 1.5 Ý nghĩa của đề tài

Dựa vào tập cơ sở dữ liệu của ngân hàng, sử dụng thuật toán KNN và thuật toán Decision trees nhằm đưa ra dự báo xem khả năng nhóm khách hàng sẽ rời bỏ ngân hàng là có hay không

Trang 10

6

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT

2.1 Tổng quan kỹ thuật khai phá dữ liệu 2.1.1 Khái niệm khai phá dữ liệu

Khai phá dữ liệu là quá trình tính toán để tìm ra các mẫu và thông tin trong các bộ dữ liệu lớn Mục tiêu tổng thể của quá trình khai thác dữ liệu là trích xuất thông tin từ một bộ dữ liệu và chuyển nó thành một cấu trúc dễ hiểu để sử dụng tiếp Khai phá dữ liệu là một trong các bước quan trọng nhất trong toàn bộ quá trình khám phá tri thức (KDD), triển khai các thuật toán chuyên dụng để chiết xuất ra các mẫu cũng như các mô hình có ích từ dữ liệu Trong bối cảnh cạnh tranh khốc liệt hiện nay, các tổ chức/doanh nghiệp luôn tự ý thức được rằng cần phải đạt được một lợi thế cạnh tranh tốt nhất có thể, trong đó việc tìm ra và sử dụng các tri thức thông tin hữu ích ẩn chứa trong dữ liệu có thể trở thành một công cụ cạnh tranh cấp chiến lược Có nhiều tham số quan trọng khác nhau trong Data Mining, chẳng hạn như quy tắc kết hợp, phân loại, phân cụm và dự báo

Một số tính năng chính của Data Mining:

● Dự đoán các mẫu dựa trên xu hướng trong dữ liệu ● Tính toán dự đoán kết quả.

● Tạo thông tin phản hồi để phân tích ● Tập trung vào CSDL lớn hơn ● Phân cụm dữ liệu trực quan

2.1.2 Các giai đoạn của quá trình khai phá dữ liệu

Khai phá dữ liệu không hẳn là một hệ thống hoàn toàn tự động mà con người cần phải tương tác thường xuyên với Database thông qua các thuật toán chuyên biệt Quy trình khai phá dữ liệu là một chuỗi lặp gồm các giai đoạn bắt đầu từ dữ liệu thô (raw data) và kết thúc với tri thức (knowledge of interest):

1 Làm sạch dữ liệu: Trước tiên cần phải làm sạch tất cả dữ liệu quy trình để dữ liệu đó phù hợp với tiêu chuẩn ngành Dữ liệu bẩn hay không đầy đủ dẫn đến hiểu biết kém và hệ thống bị lỗi gây tốn thời gian và tiền bạc

2 Tích hợp dữ liệu: Đây là một trong những kĩ thuật khai thác hàng đầu để hợp lý hóa toàn bộ quá trình trích xuất, chuyển đổi và tải Nhiều chuyên gia thực hiện dọn dẹp dữ liệu bổ sung trong các CSDL khác nhau trong giai đoạn này

3 Chọn lựa dữ liệu: Trong bước này, dữ liệu được trích xuất từ cơ sở dữ liệu.

4 Biến đổi dữ liệu: Chuyển đổi dữ liệu sang dạng có thể chấp nhận được để phù hợp với các mục tiêu khai thác Hợp nhất dữ liệu chuẩn bị để tối ưu hóa quy trình Data mining và giúp dễ dàng phân biệt các mấu trong tập dữ liệu cuối cùng

5 Khai phá dữ liệu: Sử dụng các ứng dụng Data mining để trích xuất các xu hướng hữu ích và tối ưu hóa việc khám phá kiến thức để tạo ra thông tin kinh doanh

6 Đánh giá mẫu: Giai đoạn này sẽ đưa những hiểu biết sâu sắc vào thế giới thực, bên cạnh đó còn xác định bất kì mẫu hữu ích nào có thể tạo ra kiến thức kinh doanh

Trang 11

Việc phân loại dữ liệu giúp tổ chức xác định mức độ bảo vệ một loại dữ liệu nào đó tùy thuộc vào tính quan trọng, độ nhạy cảm hay mức độ bí mật của dữ liệu Nói cụ thể hơn, việc phân loại dữ liệu giúp xác định cần bao nhiêu tiền, bao nhiêu tài nguyên phải cung cấp để bảo vệ một loại dữ liệu nào đó Phân loại dữ liệu làm căn cứ cho việc lưu trữ, xử lý, vận chuyển dữ liệu, hay ngay cả việc tiêu hủy dữ liệu

2.2.2 Quá trình phân lớp dữ liệu

Quá trình phân lớp dữ liệu gồm hai bước:

● Bước học (giai đoạn huấn luyện): xây dựng bộ phân loại (classifier) bằng việc phân tích/ học tập huấn luyện

● Bước phân loại (classification): phân loại dữ liệu/ đối tượng mới nếu độ chính xác của bộ phân loại được đánh giá là có thể chấp nhận được (acceptable)

2.2.3 Cơ sở lý thuyết về ngân hàng Tổng quan về ngân hàng

Trong giai đoạn bùng nổ của Internet cùng với sự phát triển của công nghệ thông tin hiện nay, hoạt động chuyển đổi số trong ngân hàng không chỉ dừng lại ở công việc gia tăng hiệu quả xử lý quy trình mà còn tập trung vào việc nâng cao chất lượng trải nghiệm của khách Do đó, vấn đề khai phá dữ liệu trong ngân hàng để đưa ra các ứng dụng phù hợp với nhu cầu của từng cá nhân đóng vai trò quan trọng và luôn yếu tố được đặt lên hàng đầu để thúc đẩy công cuộc chuyển đổi số thành công

Kỹ thuật khai phá dữ liệu đang được nghiên cứu chuyên sâu và ứng dụng rộng rãi trong việc hỗ trợ ra quyết định của bộ phận lãnh đạo ngân hàng Nó có thể giúp ngân hàng quản trị rủi ro, phân loại khách hàng, phân khúc thị trường trong việc chăm sóc khách hàng từ đó tạo ra hiệu quả kinh doanh đáng kinh ngạc Tuy nhiên, kết quả khi dự đoán ra của quá trình khai phá dữ liệu trong ngân hàng lại phụ thuộc vào chất lượng của dữ liệu từ quá khứ và tương lai mà công ty thu thập được Ngoài ra, việc lựa chọn phương pháp cũng như những công nghệ và giai đoạn tiền xử lý các dữ liệu cũng là một nguyên nhân góp phần tạo nên sự thành công của quá trình khai phá dữ liệu trong ngân hàng

Khai phá dữ liệu được ứng dụng trong rất nhiều lĩnh vực và mang đến rất nhiều cơ hội phát triển trong lĩnh vực ngân hàng Tuy nhiên, mục đích cuối cùng của việc khai phá

Trang 12

8

dữ liệu trong ngân hàng là khám phá các tri thức từ các dữ liệu thu thập được để hỗ trợ ra quyết định cho nên đây cũng là một phương pháp được cho là hỗ trợ cho các nhà quản trị rất nhiều khi gặp tình trạng khối lượng thông tin quá nhiều nhưng không biết chọn lọc và sử dụng dữ liệu nào Một số nhà lãnh đạo ngân hàng thường tận dụng việc khai phá dữ liệu để phát triển nên mô hình dự báo khả năng thay đổi dịch vụ Hiểu đơn giản là các dịch vụ có thể cùng nằm trong một ngân hàng hoặc giữa các ngân hàng có sự khác nhau Sau khi khách hàng sử dụng và có thời gian trải nghiệm thì sẽ có xu hướng đánh giá và để lại những nhận xét từ đó họ nhận ra được ngân hàng nào có những dịch vụ phù hợp với bản thân

Trang 13

● Các biến được chia như sau

○ Customer_ID là biến không thêm bất kỳ thông tin nào Không có mối liên hệ nào giữa Customer_ID của khách hàng và việc ngừng sử dụng dịch vụ, nó cũng không đưa ra bất kỳ kết luận chung nào cho các khách hàng có khả năng rời bỏ ngân hàng trong tương lai Vì vậy có thể bỏ qua thông tin này cho dự đoán mô hình

● Danh mục biến nhị phân gồm có:

○ Credit_card: Khách hàng đã sở hữu thẻ tín dụng hay chưa? ○ Active_member: Khách hàng này còn hoạt động không?

○ Churn: Khách hàng đã ngưng sử dụng dịch vụ hay rời bỏ ngân hàng chưa? Đây là biến mục tiêu

● Các biến khoảng thời gian như sau: ○ Age: Độ tuổi của khách hàng

○ Estimated_salary: ước lượng thu nhập của khách hàng (tính theo năm) ○ Tenure: Thời hạn khoản vay của khách hàng với ngân hàng

● Các biến số phân loại thông thường là:

○ Balance: Số tiền hiện có trong tài khoản ngân hàng ○ Products_number: Số dịch vụ sử dụng của ngân hàng

○ Credit_score: Điểm tín dụng, mô tả khả năng trả nợ của người dùng ● Biến danh nghĩa là:

○ Country: Quốc gia mà khách hàng đang sinh sống và làm việc ○ Gender: Giới tính khách hàng

3.2 Lựa chọn thuật toán

3.2.1 Lý do lựa chọn thuật toán K - Nearest Neighbour (KNN) và Decision tree

Cây quyết định là sơ đồ trong phân tích tài chính thể hiện mối tương tác của những tỷ số tài chính, và một tỷ số ảnh hưởng đến tỷ số khác như thế nào, cho phép nhà phân tích tài chính hoặc người kiểm tra ngân hàng, xem xét mối quan hệ nguyên nhân và kết quả trong những tỷ số khác nhau

KNN là một mô hình đơn giản và trực quan nhưng vẫn có hiệu quả cao vì nó không tham số; mô hình không đưa ra giả định nào về việc phân phối dữ liệu Hơn nữa, nó có thể được sử dụng trực tiếp để phân loại đa lớp

Thuật toán K - Nearest Neighbour và Decision tree được sử dụng phổ biến trong việc phân lớp dữ liệu, phù hợp với những yêu cầu bài toán đã đặt ra

Trang 14

Thuật toán KNN cho rằng những dữ liệu tương tự nhau sẽ tồn tại gần nhau trong một không gian, từ đó công việc của chúng ta là sẽ tìm k điểm gần với dữ liệu cần kiểm tra nhất

Công thức 1 Hàm Mikowski

Công thức 2 Hàm Manhattan

Công thức 3 Hàm Euclid

Trang 15

11 Chuẩn hóa dữ liệu

- Miền giá trị thuộc tính: Trong các bộ dữ liệu có nhiều thuộc tính, dễ dàng nhận thấy miền giá trị giữa các thuộc tính có thể chênh lệch nhau vô cùng lớn VD: thuộc tính tuổi và thuộc tính lương Nếu không chuẩn hóa dữ liệu thì sẽ dẫn đến việc có những thuộc tính sẽ không có giá trị khi tham gia vào tính khoảng cách giữa các bản ghi Từ đó chúng ta có công thức chuẩn hóa dữ liệu:

Công thức 4: Chuẩn hóa dữ liệu

- Thuộc tính rời rạc, định danh: chúng ta sẽ đặt lại giá giá trị cho chúng VD: Giới tính Nam và Nữ sẽ được đặt là 1 và 0

c) Ứng dụng

Thuật toán KNN có nhiều ứng dụng trong ngành đầu tư, bao gồm dự đoán phá sản, dự đoán giá cổ phiếu, phân bổ xếp hạng tín dụng trái phiếu doanh nghiệp, tạo ra chỉ số vốn và trái phiếu tùy chỉnh

d) Ưu và nhược điểm - Ưu điểm:

e) Cách thức thực hiện thuật toán

Bước 1: Xác định tham số K= số láng giềng gần nhất

Bước 2: Tính toán khoảng cách đối tượng cần phân lớp với tất cả đối tượng trong training data

Bước 3: Sắp xếp khoảng cách theo thứ tự tăng dần và xác định K láng giềng gần nhất với đối tượng cần phân lớp

Bước 4: Lấy tất cả các lớp của K láng giềng gần nhất

Bước 5: dựa vào phân lớp của K để xác định lớp cho đối tượng cần phân lớp

Trang 16

b) Cấu tạo

Một cách tổng quát, cây quyết định được cấu tạo bởi:

● Nút gốc (Root node): là nút không có liên kết đến nhưng lại có liên kết đi ● Các nút trong (Internal node): mỗi nút có một liên kết đến và nhiều liên kết đi

● Các nút lá (Leaf node): mỗi nút có một liên kết đến Nút lá giá trị là các nhãn của dữ liệu và không có liên kết gửi đi Mỗi nút là trong cây quyết định được liên kết với một nhãn lớp

Các nút không phải đầu/cuối, bao gồm nút gốc và nút bên trong, chứa các điều kiện kiểm tra thuộc tính thường được xác định bằng cách sử dụng một thuộc tính

c) Phân loại cây quyết định

Cây quyết định có thể được xây dựng bằng nhiều cách khác nhau, mỗi thuật toán sẽ phát triển cây dựa trên các phương pháp/công thức toán học khác nhau Nhưng có 3 thuật toán chính được dùng để xây dựng cây quyết định đó chính là ID3, C4.5 và CART

Thuật toán ID3:

● Dữ liệu đầu vào D, Di là các phân vùng của dữ liệu, Ci là lớp với nhãn tương ứng với các vùng dữ liệu Di (I = 1, … ,m)

● Sự đồng nhất của bộ dữ liệu được đo bởi độ đo Entropy: H ● Với pi là xác suất để đối tượng thứ i thuộc vào một lớp nào đó

● Entropy được dùng để đo sự đồng nhất của dữ liệu theo các thuộc tính nào đó, độ đo này được gọi là Info(D) và được tính bởi:

Ngày đăng: 21/06/2024, 18:21

Xem thêm:

w