đề tài dự án khách hàng lựa chọn dịch vụ vay vốn của ngân hàng dựa trên các công cụ khoa học dữ liệu của phần mềm orange

Quá trình phân lớp dữ liệu Quá trình phân lớp dữ liệu gồm 2 bước: Bước 1: Xây dựng mô hình hay còn gọi là giai đoạn “học” hoặc “huấn luyện” - Dữ liệu đầu vào: là dữ liệu mẫu đã được gán

Trang 2

MỤC LỤC

MỤC LỤC 1

DANH MỤC BẢNG BIỂU, HÌNH VẼ VÀ BIỂU ĐỒ 3

Bảng Phân Công Nhiệm vụ 4

CHƯƠNG I: TỔNG QUAN 4

1 Tổng Quan Về Bài Toán Phân Lớp Dữ Liệu 4

1.1 Định nghĩa:

4 1.2 Quá trình phân lớp dữ liệu

5 2 Giới thiệu về Python và Phần mềm Orange 7

2.1 Python

7 2.2 Phần mền Orange

7 3 Lý do lựa chọn đề tài 8

3.1 Mục tiêu nghiên cứu

8 3.2 Đối tượng nghiên cứu

9 3.3 Phương pháp nghiên cứu

9 CHƯƠNG II: CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU 10

1 Các mô hình phân lớp dữ liệu 10

1.1 Mô hình Logistic Regression 10

1.2 Mô hình KNN: 10

1.3 Mô hình Naive Bayes: 11

1

Trang 3

1.4 Một số mô hình thông dụng

khác 12

1.4.1.Mô hình Cây quyết định (Tree) 12

1.4.2.Mô hình SVM 13

2 Quy trình phân lớp dữ liệu: 15

2.1 Tiền xử lý dữ liệu: 15

2.2 Phân lớp dữ liệu 15

2.2.1.Quy trình thực hiện 15

2.3 Kết quả và đánh giá 18

2.4 Đánh giá tính hiệu quả 21

2.4.1.Dự báo 21

CHƯƠNG 3: CÁC KẾT QUẢ THỰC NGHIỆM 21

1 Bộ dữ liệu 21

1.1 Mô tả dữ liệu 21

1.2 Làm sạch dữ liệu: 23

1.3 Thống kê sơ bộ 23

2 Các kết quả thực nghiệm 24

CHƯƠNG 4: KẾT LUẬN VÀ Ý NGHĨA NGHIÊN CỨU 24

1 Kết luận 24

2 Ý nghĩa nghiên cứu 25

3 Đề xuất 25

CHƯƠNG 5: HẠN CHẾ VÀ GIẢI PHÁP 25

1 Hạn chế 25

2 Giải pháp 26

TÀI LIỆU THAM KHẢO 26 DANH MỤC BẢNG BIỂU, HÌNH VẼ VÀ BIỂU ĐỒ

Trang 4

Hình 1 Hình vẽ quá trình phân lớp dữ liệu

Hình 2 Bước 1 của quá trình phân lớp dữ liệu

Hình 3 Bước 2.1 của quá trình phân lớp dữ liệu

Hình 5 Mô hình Logistic Regression

Hình 11 Bước 1 của quy trình thực hiện

Hình 12 Kết quả bước 1 của quy trình thực hiện

Hình 15 Sơ đồ Orange tổng hợp

Hình 16 Kết quả Test and Score

Hình 17 Kết quả Logistic Regression

Hình 18 Kết quả của kNN

Hình 19 Kết quả của Navie Bayes

Hình 20 Tỷ lệ dự báo Naive Ba

Hình 21 Thông tin bộ dữ liệu ban đầu

Hình 22 Thông tin bộ dữ liệu ban đầu thông qua widget Data Table

Bảng Phân Công Nhiệm vụ

Họ và tên MSSV Công việc phụ trách Tỷ lệ đóng góp

Trang 5

[1]

Mục đích của phân lớp dữ liệu là để xây dựng một mô hình mà có thể dự đoán được tên lớp của những phần tử mới dựa vào những đặc điểm của nó 1.2 Quá trình phân lớp dữ liệu

Trang 6

Hình 1 Quá trình phân lớp dữ liệu

Quá trình phân lớp dữ liệu gồm 2 bước:

Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc

Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp)

Hình 2 Bước 1 của quá trình phân lớp dữ liệu

5

Trang 7

Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ

Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

- Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý Tuy nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn

- Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quảphân lớp của mô hình

Bước 2.2: Phân lớp dữ liệu mới:

- Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần

dự đoán lớp (nhãn)

- Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này vào những gì được huấn luyện ở bước 1

Trang 8

2 Giới thiệu về Python và Phần mềm Orange

[2]

2.2 Phần mền Orange

Orange là một bộ công cụ trực quan hóa dữ liệu, học máy và khai thác dữ

giải quyết những vấn đề khó nhằn về lĩnh vực khai phá dữ liệu (Data mining) và học máy (Marchine learning)

Vì độ phổ biến về việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở

và học máy thông minh, đơn giản, lập trình bằng Python với giao diện trực quan và

7

Trang 9

tương tác dễ dàng, phần mềm Orange giúp người dùng phân tích những dữ liệu từ đơn giản đến phức tạp Bên cạnh đó, đồ họa đẹp mắt, thú vị còn giúp việc khai thác

dữ liệu và học máy dễ dàng hơn cho cả chuyên gia và người dùng mới

Các chức năng cơ bản được cung cấp có thể kể đến như: đọc dữ liệu, hiển thị dữ liệu dạng bảng, so sánh các thuật toán máy học, trực quan hóa các phần tử

dữ liệu, lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán,

…

3 Lý do lựa chọn đề tài

Trong 10 năm trở lại đây, khoa học dữ liệu đã có những đóng góp tạo ra nhiều thành tựu to lớn cho các doanh nghiệp Thúc đẩy quá trình công nghiệp hóa hiện đại hóa đưa các doanh nghiệp ngày một phát triển, hoạt động hiệu quả hơn, năng suất hơn

Việc lựa chọn đề tài "Dự đoán khách hàng lựa chọn dịch vụ vay vốn của ngân hàng" mang lại nhiều lợi ích và ý nghĩa quan trọng trong lĩnh vực ngân hàng

và tài chính như tối ưu hóa dịch vụ, đánh giá được rủi ro tín dụng, nâng cao hiệu suất hoạt động, cạnh tranh trên thị trường từ đó đưa ra những quyết định kinh doanh đúng đắn

Dựa vào bộ dữ liệu của một ngân hàng được cung cấp, chúng em đã tiến hành xử lý thông tin thông qua phần mềm orange để nhìn nhận và tìm ra hướng phát triển cho đề tài đã chọn

3.1 Mục tiêu nghiên cứu

Mục tiêu của đề tài bao gồm các điểm sau:

- Xây dựng mô hình dự đoán chính xác: xây dựng một mô hình

dự đoán khách hàng lựa chọn dịch vụ vay vốn của ngân hàng với độ chính xác cao, giúp ngân hàng hiểu rõ hơn về hành vi của khách hàng

Trang 10

- Tối ưu hĩa quy trình quyết định: cải thiện quy trình quyết định

về việc cấp vay vốn, giúp ngân hàng tiết kiệm thời gian và tài nguyên trong việc xác định khách hàng phù hợp để cấp vay

- Nâng cao hiệu suất kinh doanh: tăng cường hiệu suất kinh doanh của ngân hàng thơng qua việc dự đốn chính xác nhu cầu và hành

vi của khách hàng, từ đĩ cung cấp các dịch vụ phù hợp và tối ưu hĩa doanh số

- Quản lý rủi ro tín dụng: giúp ngân hàng đánh giá rủi ro tín dụngmột cách chính xác hơn, từ đĩ quản lý rủi ro và giảm thiểu rủi ro trong việc cấp vay vốn

- Nâng cao trải nghiệm khách hàng: nâng cao trải nghiệm khách hàng thơng qua việc cung cấp các sản phẩm và dịch vụ phù hợp với nhu cầu và mong muốn của họ

3.2 Đối tượng nghiên cứu

Khách hàng lựa chọn dịch vụ vay vốn của ngân hàng Thera Bank Bộ dữ liệuđược thu thập và tạo ra bởi Kranti Walke được đăng tải trên trang web kaggle Tập

dữ liệu bao gồm thơng tin dữ liệu thơ chứa 5000 hàng dữ liệu (khách hàng) và 14 cột (đặc tính độc lập)

3.3 Phương pháp nghiên cứu

- Orange: khai phá dữ liệu, chạy thuật tốn, xây dựng mơ hình phân lớp Một số mơ hình phân lớp được sử dụng: Logistics, kNN và Nạve Bayes để xây dựng mơ hình dự đốn; và chia số liệu thành 2 phần: một tập dữ liệu Data Sample (70) để huấn luyện và một tập dữ liệu Remaining Data (30) để dự báo

- Phần mềm Excel để mơ tả, biểu diễn dữ liệu và so sánh kết quả số liệu từ Orange

9

Trang 11

CHƯƠNG II: CÁC MÔ HÌNH PHÂN LỚP DỮ LIỆU

1 Các mô hình phân lớp dữ liệu

1.1 Mô hình Logistic Regression

- Định nghĩa: Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một

tập các giá trị đầu vào (biểu diễn dưới dạng vector) Mô tả: Đối với bài toán phân lớp:

Tập nhãn ={y_1, y_2,…,y_n } với n là số lớpy

Một đối tượng dữ liệu ={x_1,x_2,…,x_d } với d là số thuộc tính của mỗi dòng dữx

liệu và được biểu diễn dưới dạng vector

đối tượng x sở hữu các thuộc tính cụ thể sẽ thuộc vào lớp y nào

Hình 5 Mô hình Logistic Regression

1.2 Mô hình KNN:

Trang 12

- Định nghĩa: KNN (K-Nearest Neighbors) là một trong những thuật toán

học có giám sát đơn giản nhất được sử dụng nhiều trong khai phá dữ liệu và học máy Ý tưởng của thuật toán này là nó không học một điều gì từ tập dữ liệu học (nên KNN được xếp vào loại lazy learning), mọi tính toán được thực hiện khi nó cần dự đoán nhãn của dữ liệu mới Lớp (nhãn) của một đối tượng dữ liệu mới có

thể dự đoán từ các lớp (nhãn) của k hàng xóm gần nó nhất [3]

Hình 6 Mô hình KNN

1.3 Mô hình Naive Bayes: [4]

- Định nghĩa: Một phân loại Naive Bayes dựa trên ý tưởng nó là một lớp

được dự đoán bằng các giá trị của đặc trưng cho các thành viên của lớp đó Các đốitượng là một nhóm (group) trong các lớp nếu chúng có cùng các đặc trưng chung

Có thể có nhiều lớp rời rạc hoặc lớp nhị phân Các luật Bayes dựa trên xác suất để

dự đoán chúng về các lớp có sẵn dựa trên các đặc trưng được trích rút Trong phân loại Bayes, việc học được coi như xây dựng một mô hình xác suất của các đặc trưng và sử dụng mô hình này để dự đoán phân loại cho một ví dụ mới

Một số kiểu mô hình Naive Bayes:

11

Trang 13

• Multinomial Naive Bayes: Mô hình này chủ yếu được sử dụng trong phân loại văn bản Đặc trưng đầu vào ở đây chính là tần suất xuất hiện của từ trong văn bản đó

• Bernoulli Naive Bayes: Mô hình này được sử dụng khi các đặc trưng đầu vào chỉ nhận giá trị nhị phân 0 hoặc 1 (phân bố Bernoulli)

• Gaussian Naive Bayes: Khi các đặc trưng nhận giá trị liên tục, ta giả sử các đặc trưng đó có phân phối Gaussian

1.4 Một số mô hình thông dụng khác

1.4.1 Mô hình Cây quyết định (Tree)

Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kếtquả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định Trong lĩnh vực khai thác dữliệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ

liệu cho trước

Hình 7 Mô hình Cây quyết định (Tree)

Trang 14

Ưu điểm:

• Dễ hiểu

• Không đòi hỏi việc chuẩn hóa dữ liệu

• Có thể xử lý trên nhiều kiểu dữ liệu khác nhau

• Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn Khuyết điểm:

• Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian

• Chi phí xây dựng mô hình cao

1.4.2 Mô hình SVM

SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng

(hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa

nhất có thể SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau

13

Trang 15

• Xử lý được trong không gian nhiều chiều Khuyết điểm:

• Trong trường hợp số chiều dữ liệu lớn hơn số dòng dữ liệu thì SVM cho kết quả không tốt

Trang 16

• Chưa thể hiện tính xác suất trong phân lớp

2 Quy trình phân lớp dữ liệu:

Bước 1: Nhập file Bank_Personal_Loan_Modelling vào Orange

để làm dữ liệu, chọn Personal Loan làm target, các thuộc tính cònlại vẫn giữ nguyên ở dạng feature

15

Trang 17

Hình 11 Bước 1 của quy trình thực hiện

Hình 12 Kết quả bước 1 của quy trình thực hiện

Bước 2: Sử dụng công cụ Data Sampler để chia bộ dữ liệu trên theo tỷ lệ 70:30 như đề bài yêu cầu Đối với bộ dữ liệu Data Sample (70), sử dụng các phương pháp phân lớp dữ liệu là Hồi quy Logistic (Logistic Regression), kNN, Naive Bayes, thông

qua widget Test and Score và Confusion Matrix để đánh giá hiệuquả của từng phương pháp

Trang 18

Bước 3: Đánh giá và lựa chọn mô hình tốt nhất để kết nối với bộ

dữ liệu Remaining Data (30) để dự báo thông qua widget

Prediction

* Tổng hợp các bước trên ta có sơ đồ Orange như sau:

17

Trang 19

Hình 15 Sơ đồ Orange tổng hợp

2.3 Kết quả và đánh giá

Đánh giá mô hình theo Test and Score

Hình 16 Kết quả Test and Score

Trang 20

Thực hiện phân tích sử dụng kỹ thuật K-Fold với số lượng fold là 5, đã đánh giá chính xác theo ba mô hình khác nhau: Logistic Regression, kNN, Navie Bayes Kết quả cho thấy, mô hình Navie Bayes đạt được tính chính xác cao nhất với giá trị AUC là 0.957, tiếp theo là Logistic Regression với 0.928 và cuối cùng là kNN với 0.620 Tuy nhiên, khi xem xét Độ chính xác (precision), mô hình Navie Bayes vẫn lớn hơn với giá trị là 0.940, tiếp theo là Logistic Regression với 0.925 và kNN với 0.838 Đốivới Độ truy hồi (recall), mô hình Navie Bayes vẫn là lựa chọn hàng đầu với giá trị là 0.942, tiếp theo là kNN với 0.896 và Logistic Regression với 0.855

Như vậy, qua 3 thông số trên, có thể đánh giá được Navie Bayes có tính chính xác,

độ chính xác và độ truy hồi lớn nhất

→ Vì vậy chọn phương pháp dự báo bằng mô hình Navie Bayes

Đánh giá mô hình theo Confusion Matrix

Hình 17 Kết quả Logistic Regression

19

Trang 21

Hình 18 Kết quả của kNN

Hình 19 Kết quả của Navie Bayes

Phân loại sai lầm (Error type)

Theo ma trận nhầm lẫn (Confusion Matrix), ta có:

Is faud = 1.0: Khách hàng chấp nhận khoản vay

Is faud = 0.0: Khách hàng từ chối khoản vay

Trang 22

• Sai lầm loại I: Dự báo khách hàng chấp nhận khoản vay nhưng thực tế là không Sai lầm này làm gián đoạn chuyến dịch chuyển đổi khách hàng nợ ảnh hưởng đến quá trình phát triển quy mô, xây dựng của ngân hàng

• Sai lầm loại II: Thực tế là chấp nhận khoản vay nhưng dự báo là từ chối khoản vay Điều này dẫn đến sự thất thoát trong hình thành nguồn vốn, sự mất uy tín của ngân hàng trong tương lai

Dựa vào kết quả 3 mô hình trên, ta có thể thấy được với Sai lầm loại II, Navie Bayes

có tỷ lệ phần trăm sai lầm là nhỏ nhất, không ảnh hưởng nhiều đến chiến dịch chuyển đổi,phát triển của ngân hàng

kNN = 72.0% > Logistic Regression = 60% > Navie Bayes = 27.5%

→ Vì vậy chọn phương pháp dự báo theo mô hình Navie Bayes.

2.4 Đánh giá tính hiệu quả

Thông tin thuộc tính:

21

Trang 23

2 Age Tuổi của khách hàng tính theo số năm hoàn

thành

tháng ($000)

1: Đại học;

2: Tốt nghiệp;

3: Nâng cao/Chuyên nghiệp

9 Mortgage Giá trị thế chấp căn nhà nếu có ($000)

10 Personal Loan Khách hàng này có chấp nhận khoản vay cá

nhân được cung cấp trong chiến dịch trước không?

11 Securities Account Khách hàng có tài khoản chứng khoán tại ngân

hàng không?

(CD) tại ngân hàng không?

tuyến không?

14 CreditCard Khách hàng có sử dụng thẻ tín dụng do

Trang 24

1.2 Làm sạch dữ liệu: Dữ liệu không có dữ liệu bị thiếu (no missing data) 1.3 Thống kê sơ bộ

Hình 21 Thông tin bộ dữ liệu ban đầu

Hình 22 Thông tin bộ dữ liệu ban đầu thông qua widget Data Table

23

Trang 25

Bộ dữ liệu Bank_Personal_Loan_Modelling đã được xác minh và qua xử

lý trước khi thu thập nên sẽ không có missing data và gồm có 5000 dòng và 14 thuộc tính

2 Các kết quả thực nghiệm

Sau khi dự báo ra kết quả ở mục 2.2.4.1 nêu trên, nhóm so sánh cột Personal Loanban đầu của dữ liệu dự báo và kết quả dự báo dữ liệu của Naive Bayes Kết quả so sánh cho thấy dự đoán của Naive Bayes có mức độ chính xác là 95.2% tương ứng với 1428 trường hợp được dự báo chính xác và 4.8% với 72 ý định được dự báo sai lầm Điều này cho chúng ta thấy rằng mức độ chính xác của mô hình dự báo là khá cao, ổn định và có thể tin tưởng vào mô hình này để dự báo khả năng khách hàng lựa chọn dịch vụ vay vốn của ngân hàng

Như vậy, có thể đánh giá rằng đây là một mô hình ‘good fitting’ (là trường hợp“

mô hình cho ra kết quả hợp lý với cả tập dữ liệu huấn luyện và các giá trị mới, tức mangtính tổng quát)

CHƯƠNG IV: KẾT LUẬN VÀ Ý NGHĨA NGHIÊN CỨU

Bằng cách tận dụng dữ liệu và công nghệ, ngân hàng có thể dự đoán được mối quan hệ giữa các yếu tố như lịch sử tín dụng, thu nhập và thông tin cá nhân với khả năng vay vốn của khách hàng Việc có một hệ thống dự báo chính xác không chỉ giúp tạo ra sự tin cậy và an tâm cho cả ngân hàng và khách hàng, mà còn tạo ra một môi trường kinh doanh ổn định và bền vững Nó cũng giúp nâng cao hiệu quả của quy trình giao dịch và

Tiêu đề	Khách hàng lựa chọn dịch vụ vay vốn của ngân hàng dựa trên các công cụ khoa học dữ liệu của phần mềm orange
Tác giả	Nguyễn Tường Vy, Nguyễn Anh Thư, Hoàng Thu Phương, Nguyễn Tiến Minh
Chuyên ngành	Khoa học dữ liệu
Thể loại	Đề tài dự án

Định dạng
Số trang	28
Dung lượng	3,48 MB