Việc phân tích và sử dụng dữ liệu dựa vào ba nguồn tri thức: toán học thống ké todn hoc - Mathematical Statisticsa, céng nghệ thông tin máy học - Machine Learninga và tri thức của lĩnh v
Trang 1DU BAO CAC DOI TUONG KHACH H NG
DU DIEU KIEN DUOC CHO VAY
Giảng viên bộ môn: ThS Trương Việt Phương
Mã lớp học phần: 22C1INF50905959 Danh sách sinh viên nhóm:
Mai Thi Thanh Huyn - 31211022987 Hoang Nguyén Minh Ngoc - 31211022887
Trang 2BANG PHAN CONG NHIEM VU
Mai Thi Thanh Huy n Nội dung, trình bay 100%
Hoàng Nguyễn Minh Ngọc Nội dung, trình bày 100%
Ngô Quốc Thắng Nội dung, trình bày 100%
Nguyễn Thị Thanh Xuân Nội dung, trình bày 100%
Nguyễn Hoàng Vỹ Nội dung, trình bày 100%
Trang 3
MỤC LỤC
GIOI THIEU TONG QUAN
3 Phương pháp nghiên cUu, công cụ thỌc hiệN 3
4.1 Phân tích dữ liệu 4 4.1.1 Mô tả bộ dữ liệu 4
4.3.2.3 Đánh giá, nhận xét 17
4.4 Dự báo khả năng được cho vay 20
Trang 5
GIOI THIEU TONG QUAN
Bộ môn Khoa học dữ liệu là môn học v việc khai phá, quản trị và phân tích
dữ liệu để dự đoán các xu hướng trong tương lai và đưa ra các quyết định, chiến lược hành động Việc phân tích và sử dụng dữ liệu dựa vào ba nguồn tri thức: toán học (thống ké todn hoc - Mathematical Statisticsa, céng nghệ thông tin (máy học - Machine Learninga và tri thức của lĩnh vực ứng dụng cụ thể Do đS, trong suốt quá
trinh hoc tTp tại TrưVng Đại học Kinh tế Thành Phố Hồ Chí Minh, chúng em không
chỉ được học tTp và trang bị thêm nhí u kiến thức lý thuyết v lĩnh vực khoa học đữ liệu mà là cả cách vTn dụng những bài học đS vào thực tiễn sao cho đúng đắn Những
đi u lẽ đS đu được nh§m chúng em tích luỹ, tổng hợp cũng như cố gắng áp dụng thTt hiệu quả vào dự án thay cho bài tiêu luTn đánh giá cuối ka mang tên “ĐÐự béo các đối tượng khách hàng đủ điều kiện được cho vay”
Qua dự án nảy, mục tiêu cơ bản của chúng em là cS thê khái quát rb hơn v những nhu ccu, lý do và các tác động sẽ ảnh hudng đến việc phân tích các đối tượng khách hàng đủ đi u kiện được cho vay Đồng thVi qua đS, chúng em - nhSm thực hiện dự án cS thể trau dồi thêm khả năng làm việc nhŠm, các kỹ năng m m ccn c5 và tích luỹ được nhĩ u kinh nghiệm hơn trong xử lý dữ liệu cho những công việc d tương lai
NhŠ5m chúng em xin gửi ÏVI cảm ơn chân thành đến trưVng Đại học Kinh tế TP.HCM vì đã đưa môn học Khoa học dữ liệu vào chương trình giảng dạy Và hơn hết, nhSm em xin gửi IVi cảm ơn đẹc biệt sâu sắc đến ThS Trương Việt Phương - giảng viên dạy môn Khoa học dữ liệu của nhŠm chúng em Trong quá trình giảng day, nhV cS sy chu dao, tÍn tình hướng dhn, chia sĩ của they v các kiến thức d bộ
môn Khoa học đữ liệu Ihn những kinh nghiệm trong việc khắc phục nhi u thiếu sSt
trong khi thực hiện dự án mà nhŠm em mới cS thể hoàn thiện nghiên cứu của mình Kiến thức cũng như kinh nghiệm ma nhSm em cS được vhn chưa đủ hoàn hảo vì vTy không tránh khỏi việc xảy ra sai sSt Mong they cS những øŠp ý chân thành đề nhSm
em cS§ thê cải thiện tốt hơn cho những len sau Cuối cùng, em xin chúc thcy và gia đình thTt nhi u sức khỏe, vui vi, hạnh phúc Luôn mong they giữ vững ngọn lửa nhiệt
Trang 7
DANH MỤC HÌNH ÁẢNH
Hình 1: A⁄ô hình quá trình tiền xử lý dữ liệu 5
Hình 2: Ä⁄6 hình bài toán phân cụm 8
Hình 3.1: Ä⁄6 z¿ phương pháp k-Àleans 9
Hình 3.2: A⁄ô hình chỉ số Silhouete Scores của từng cụm bằng phương pháp k-
Means 10
Hinh 3.3: Diém Silhouette cao nhat ctia teng cum theo phwong phdp k-Means \1
Hinh 4.1: 146 ta phwong phap Hierarchical Clustering theo 2 cum - 11
Hinh 4.2: M6 hinh chi s6 Silhouette Scores theo 2 cum bằng phương pháp
Hierarchical Clustering 12
Hinh 4.3: M46 hinh phwong phap Hierarchical Clustering theo 3 cum - 13
Hình 4.4: M6 hinh chi s6 Silhouette Scores theo 3 cum bằng phương pháp
Hình 5: M6 hinh bai todn phân lớp 15
Hinh 6: Két qua Test and Score 18
Hinh 7: M6 hinh ROC Analysis cua Cl, C2 qua ba phương pháp phan lop 18
Hinh 8.1: Két gua Ma tran nham Idan cia phuong phap Logistics Regression - 19
Hình 8.2: Kế quả Ma trận nhằm lần của phương phap Cay quyét dinh - 20
Hình 8.3: Kế: quả A⁄a trận nhằm lần của phương pháp SỨM - 20
Hình 9: 3⁄6 hình bài toán dự báo 21
Hình 10: Két gua dw bdo bang céng cu Predictions - 22
Trang 9
NỘI DUNG
1 Tom tOt dQ an
NhSm ching em xay dung mé6t dy an voi muc tiéu phan tich dir liéu để xác
định phân khúc khách hàng, đối tượng đủ đi u kiện vay vốn đề cS thê nhắm mục tiêu
cụ thê đến những khách hàng tỉ m năng này Đề thực hiện dy an, nhSm str dung phen
mm Orange và các kiên thức đã được học trên lớp
Nhằm tìm hiểu cơn kẽ để đưa ra những phân tích chính xác v thông tin trên, nh§m chúng em đã thu thTp đữ liệu cụ thể v các thông tin chỉ tiết của từng khách hàng được cung cấp bdi công ty tài chính Dream Housing Dựa vào các đữ liệu đS, nhS§m chúng em sử dụng phương pháp phân cụm dữ liệu, phân lớp dữ liệu và dự báo kết quả không chỉ xác định các yếu tố ảnh hưdng đến việc eS đủ đi u kiện cho vay
không mà còn xác định yếu tổ nào chủ yếu, yêu tố nào thứ yêu và khả năng được cho vay với các yếu tô quyết định đến việc cho vay Các yếu tô sau đã ảnh hưởng trực tiếp đến khả năng vay vốn bao gồm: Giới tính, Tình trạng hôn nhân, Giáo dục, Thu nh†Tp của khách hàng, Số tí n Khoản vay, ThVi han vay va Lich su Tin dung Tu dS xác định được phân khúc khách hàng đủ đi u kiện được vay vốn, nhắm mục tiêu cụ thê đến những khách hàng đŠ và tìm ra hướng phát triển cho các địch vụ cho vay phù voi loi nhuTn chung dé cS thé dat duoc hiéu qua tốt nhất
2 Giới thiệu dQ án
2.1 L4 do chọn đề tài
Cuộc sống ngày càng phát triển, nhu ccu vay tiêu dùng gia tăng mạnh mẽ gắn lin với nhu ccu v hàng tiêu dùng lâu bn như nhà, xe, NS giúp cải thiện chất
lượng cuộc sống của ngưYi dân, là công cụ đắc lực giúp giải quyết nhanh những vấn
đ liên quan đến tài chính của cá nhân và các doanh nghiệp Tuy nhiên, để nhu ccu ấy được đáp ứng đúng thVi điểm không phải lúc nào cũng dễ đàng thực hiện được bdi nS còn phụ thuộc vào một nhân tố rất quan trọng, đS là khả năng thanh toán của ngưVi vay
Trang 10
2.2 Mục tiêu nghiên cứu
Nghiên cứu sẽ giúp chúng ta cŠS được những thơng tin ccn thiết của đối tượng mà chúng ta tìm hiệu CS thể sử dụng các cơng cụ hỗ trợ đề phân tích rồi đưa ra kết luTn
cụ thể, xu hướng hòc giải pháp cho đoanh nghiệp Từ đS, doanh nghiệp cS thế dự đốn được khả năng cS nén cho nguVi dS vay hay khong
Dự báo khả năng cho vay thơng qua 3 bài tốn:
- Bài tốn 1: Phân cụm loại khách hàng chưa gán nhãn đề thấy rb được các đợc điểm của khách hàng thơng qua các cơng cy Hierarchical clustering, Partitioning clustering (K-Means)
- Bài tốn 2: Phân lớp khách hàng từ dữ liệu đã được gán nhãn thơng qua bài tốn phân cụm dé dự đốn khách hang cS du đi u kiện được vay bằng cơng cụ Logistic Regression, SVM, Tree va Neural Network
- Bài tốn 3: Dự báo kha nang duoc cho vay qua céng cu Prediction tir cac phương pháp phân lớp (phương pháp tốt nhất trong 3 phương pháp phân lớp)
2.3 Đối tượng, phạm vỉ nghiên cứu
Khảo sát được thực hiện trong phạm vị là 614 khách hàng nghu nhiên cŠ nhu ccu vay nợ mua nhà của cơng ty tài chính Dream Housing
3 Phương pháp nghiên cUu
Trang 11
- Sử dụng phen mm Orange đề phân tích, dự báo và đưa ra kết luTn cŠ nên cho khách hàng cŠ đủ ổi u kiện được cho vay hay không
- Giới thiệu một số công cụ ứng dụng vào mô hình phân tích:
« Preprocess: là một chương trình ti n xử lý dữ liệu đcu vào thành các đcu ra Các đcu ra này lại được sử dụng là đcu vào của một chương trình khác Các đcu ra được xem là dạng ti n xử lý dữ liệu đcu vào, thưVng được sử dụng bdi các chương trình tiếp theo như các trình biên dịch
« k-Means: là l phương pháp lượng tử hSa vector giúp phân biệt các biến cho trước vào những cụm khác nhau
« Hierarclicadl Clusfering: Là một sơ dé biéu diễn sự phan chia cac phen tử
đữ liệu thanh nhi u cap độ lỗng nhau
« Tesf and Score: là công cụ phan tích, thí nghiệm trên các phen tử dữ liệu và
từ đS biểu hiện ra kết quả
«9iIhoueffe: là độ đo được sử dụng trong phương pháp phân cụm phân cấp
« Logisfic Regression: Là một mô hình xác suất dự đoán giá trị đcu ra rVI rạc
từ một tTp các giá trị đcu vào (biểu dién dudi dang vector)
« Đecision Tree: là một công cụ hỗ trợ quyết định áp dụng mô hình quyết định dạng cây với những hệ quả cS thê xảy ra của chúng, bao gồm cả kết quả sự kiện vTn may , chi phi tai nguyén và tiện ích ĐS là một cách nhằm hiển thi một thu Tt toán chỉ chứa các câu lệnh đi u khiến cS đi u kiện
«.SƑM: là một thuTt toán mang tính giảm sát, SVM nhn đữ liệu đcu vào, xem các biến như những vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách tạo ra một siêu phẳng trong không gian nhí u chỉ u lam met phan cách các lớp đữ liệu
¢« ROC Analysis: La mot đồ thị sử dụng rộng rãi trong đánh giá các mô hình phân loại nhị phân ÐĐưVng cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau
¢ Confusion Matrix: Lama trTn chỉ ra c5 bao nhiêu điểm dữ liệu thực sự thuộc vào một lớp cụ thê, và được dự đoán là rơi vào lớp nào
Trang 12
4 Quy trình phân tích và kết quả
4.1 Phân tích dữ liệu
4.1.1 Mô tả bộ dữ liệu
Bộ dữ liệu thông tin khách hàng được cung cấp bdi công ty Dream Housing - một công ty tài chính giải quyết tất cả các khoản vay mua nhà thông qua đi n vào biêu mhu đăng ký trực tuyến
Bộ dữ liệu gồm 614 hàng (đối tượng), 7 cột (thuộc tính) Bộ dữ liệu này chưa
c5 nhãn (lớp) và đã được xác thực Trong dS, tồn tại một số dữ liệu cS thông tin bị thiếu/còn trỗng do khách hàng chưa cung cấp đcy đủ, dhn đến việc ccn xử lý dữ liệu
trước khi thực hiện phân tích
Thuộc tính Ý nghĩa Mo ta LoanôID Mã định danh của khách hàng _ | I chuỗi ký tự chữ và sô Gender Giới tính Male/Female
Married Tình trạng hôn nhân ues/No
Education Trình độ học van Graduate/Not Graduate ApplicantIncome Thu nhTp của khách hàng Số tự nhiên
Loan Amount Số tỉ n khoản vay Số tự nhiên
Trang 13
8)^®)“@ 76)
Data khách hàng Data Table
Hình I: Mô hình quá trình tiền xứ lý dữ liệu
7 feature(s) (2.3% missing values)
Data has no target variable
1 meta attribute(s) Columns (Double dick to edit) Name Type
Values Female, Male
No, Yes Graduate, Not Graduate
Browse documentation datasete
Data đã xử lí
Apply
& Reload Save Data
Trang 14
Fl Data Table - Orange
- toan_ID Gender Married Education pee 1 LP001002 Male No Graduate
No target variable 1 meta attribute 2 LP001003 Male Yes Graduate
3 LP001005 Male Yes Graduate
— 4 1P001006 Male Yes Not Graduate show variable tabels (iF present) 5 LPoo1008 Male No Graduate
BB Visualize numeric values 6 LP0O10W1 Male Yes Graduate
Color by instance classes 7 LP001013 Male Yes Not Graduate
8 LP001014 Male Yes Graduate Selection
Aarne > 9 LP00T018 Male Yes Graduate
10 LP001020 Male Yes Graduate 11L LP001024 Male Yes Graduate
12 LP001027 Male Yes Graduate
13 LP001028 Male Yes Graduate
14 LP001029 Male No Graduate
15 LP001030 Male Yes Graduate
16 LP001032 Male No Graduate
17 LP001034 Male No Not Graduate
Restore Original Order 18 LP001036 Female No Graduate
© Average/Most frequent
© Replace with random value
© Remove rows with missing values
Discretize Continuous Variables Continuize Discrete Variables impute Missing Values
Select Relevant Features
Applcntlncome LoanAmor
Select Random Features
Normalize Features Randomize
Remove Sparse Features
Principal Component Analysis [© CUR Matrix Decomposition >
Trang 15
E nan đà xử lí - Orange — n x
Info - Loan_ID Gender Married Education ApplicantIncome LoanAmot
eae + 1P001002 Male No Graduate 5849
No target varable, 2 LP001003 Male Yes Graduate 4583
1 meta attribute
3 LPD01005 Mala Yes Graduate 3000
— 4 LP001006 Male Yes Not Graduate 2583
Show variable labels (if present) 5 LP001008 Male No Graduate 6000
@ Veualize numeric values 6 LPŨOI0IT Male Yes Graduate 5417 Color by instance classes 7 LP001013 Male Yes Not Graduate 2333
8 — LPOO1014 Male Yes Graduate 3036
“=esen 9 LP001018 Male Yes Građuate 4006
ee ° (10 LP001020 Male Yes Graduate 12841
t1 LP001024 Male Yes Graduate 3200
12 LPD01027 Male Yes Graduate 2500
13 LPDOf028 Male Yes Graduate 3073
- Luu file “Data da xu ly” (bang excel) dé tién hành phân cụm
4.1.3 Thông kê mô tả dữ liệu
— Tinh trạng hôn nhân:
Row Labels ~ Count of Married } ,
No 214 CS 214 khách hàng chưa kết hôn (chiêm
0 ` , ` ~ 1h ^
Yes 400 ch eu oe khách hàng đã kêt hôn Grand Total 614 CHẾ 9)
— Trinh độ học vấn:
Graduate ago C5 480 khách hàng đã tốt nghiệp (chiêm
Not Graduate 134 78.18%) và 134 khách hàng chưa tốt nghiệp
Grand Total 614 (chiêm 2l.82 %)
—_ Thu nh†p của khách hàng:
Row Labels Count of Applicantincome
[0;20000) 602 Phcn lớn khách hàng c5 thu nhÏp dưới
[20000;40000) ° 200000k (chiém 98.05%) va thu nhTp con
[40000;60000) 1 lai chỉ hid A h nhé hié
[60000;80000) ại chỉ chiêm một phen ỏ (chiêm
Grand Total 614
- Số tỉ n khoản vay:
Trang 16
[600;800) 4 [800;+00) 0
Grand Total 614
— ThVi han vay theo thang:
RowLabels Count of Loan_Amount_Term
[0:24) 1
ta 26) : Phcn lớn khách hàng cŠ nhu ccu vay dai
[96:192) a7 hạn, nhất là trong khoảng i192;384)
[192;384) s42 (chiém 88.27%)
[384;+oo) 16 Grand Total 614
— Lịch sử tín dụng:
Row Labels ~ Count of Credit_History Phen lớn các khách hàng đu là len dcu hoge
0 99 Icn thir hai vay Trong dS, cS 99 khách hàng
1 515 chưa từng vay trudce dS (chiém 16.12%) va Grand Total 614 515 khach hàng đã từng vay | Icn (chiém
83.88%)
4.2 Phần cụm dữ liệu
Phân cụm đữ liệu là bài toán gom nhŠm các đối tượng dữ liệu vào thành từng cụm (cñustera sao cho các đôi tượng trong cùng một cụm cS su tuong đồng theo một tiêu chí nao dS
4.2.1 M6 ta bai toan 1
G bai toan 1, ching ta tién hành phân cụm loại khách hàng chưa gán nhãn để thấy rb được các đợc điểm của khách hàng thông qua các công cu Hierarchical clustering, Partitioning clustering (K-Means), Su dung File “Data đã xử lý” - dữ liệu chưa được gán nhãn (tên của từng đối tượng ta chưa được biết) và tiền hành đề phân cụm các nhSm khách hàng cS đạc điểm tương đồng vào các nhŠm tương ứng
4.2.2 Các bước tiễn hành
4.2.2.1 Xây dựng mô hình
« Mô hinh phân cụm:
Trang 17
a0 Data Selected Data — Data im
2 oe”
&
D k-Means Silhouette Plot Data Table (1)
rd Selected Data — Data EEE
Data Table (2) Save Data (2)
Hinh 2: 146 hinh bai toan phan cum
© Các bước để phân cụm dữ liệu:
- Bước L: Chọn đữ liệu File “Data đã xử lý” (gồm 614 biến) đề tiến hành phân cụm Chọn skip LoanôID bdi vì biến này không phải là thông tin ccn thiết để phân cụm
7 feature(s) (no missing vahses)
Data has no target variable
1 meta attributes)
Columns (Double click to edit) Name Type Role Values
1 Gender categorical feature Female, Male
2 Marriod categorical feature No, Yes
3 Education categorical feature Graduate, Not Graduate
4 Applicantincome GJ numeric feature
5 LoanAmount @ numeric femure
6 Loan Amount @ numeric feature
7 Credit_ History categorical feature 01
F 8 skip Reset
Browse documentation datasets