Đối tượng nghiên cứuMô hình khoa học dữ liệu và thuật toán phân lớp dữ liệu bảng bằng Neural Network để ứng dụng trong việc ra quyết định xem xét cho vay tín dụng.Dữ liệu được thu thập t
Cấu trúc bài nghiên cứu
Phần 2: Cơ sở lý luận
Phần 3: Phân tích và thảo luận
CƠ SỞ LÝ THUYẾT VỀ CÁC PHƯƠNG PHÁP TÍNH TOÁN
Một số phương pháp phân cụm
2.1.1 Giới thiệu phân cụm dữ liệu (Data Clustering)
Phân cụm dữ liệu (hay Phân cụm Học không nhãn; ) là quá trình phân chia một tập hoặc các điểm dữ liệu có đặc điểm tương đồng thành từng cụm/nhóm tương ứng Trong đó các điểm dữ liệu trong cùng một cụm/nhóm sẽ có tính chất tương đồng với nhau và những đối tượng ở những cụm khác nhau sẽ có đặc tính khác biệt nhau Độ tương tự giữa các cụm được xác định theo một tiêu chuẩn nào đó, tuỳ thuộc vào từng ứng dụng cụ thể và được xác định trước Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn mà ta phải dựa vào mối quan hệ giữa các đối tượng để tìm ra sự giống nhau đặc trưng cho mỗi cụm giữa các đối tượng theo một độ đo nào đó Đây là dữ liệu tự nhiên thường thấy trong thực tế.
Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá dữ liệu khác Phân cụm là một tác vụ chính của Data mining, và là một kỹ thuật phổ biến trong thống kê phân tích dữ liệu.
Hình 2.1: Mô tả quá trình phân cụm dữ liệu
- Nhiệm vụ chính là tìm ra mẫu và sự tương đồng trong dữ liệu, giúp hiểu và phân tích thông tin một cách rõ ràng hơn.
- Phân cụm thuộc nhóm phương pháp học không giám sát, hay học không nhãn (unsupervised learning) có nghĩa rằng dữ liệu để huấn luyện mô hình không được gán nhãn trước
- Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:
• Độ tương đồng bên trong cụm cao
• Độ tương tự giữa các cụm thấp (khác biệt cao)
2.1.1.3 Các ứng dụng của phân cụm dữ liệu
Phân cụm dữ liệu được ứng dụng rộng rãi ở nhiều lĩnh vực khác nhau trong đời sống do chúng có tính ứng dụng cao và giúp con người đưa ra những quyết định chính xác, tiêu biểu trong các lĩnh vực như: kinh doanh, y tế, công nghệ thông tin, giáo dục, sinh học,…Cụ thể:
- Phân định đối tượng khách hàng: phân cụm dựa trên các thông tin như hành vi mua hàng, độ tuổi, giới tính,… để tạo chiến lược tiếp thị, tối ưu hoá dịch vụ khách hàng và phát triển sản phẩm mới.
- Phân loại sản phẩm: nhóm các sản phẩm tương tự lại với nhau nhằm tăng hiệu quả quản lý kho hàng, xây dựng chiến lược giá cả và tạo ra các gói sản phẩm phù hợp với từng nhóm khách hàng
- Phân loại kênh tiếp thị: xác định các kênh tiếp thị mà khách hàng tiềm năng thuộc về. Bằng cách hiểu rõ về sự tương tác và ưu thích của khách hàng, ta có thể tối ưu hoá chiến lược quảng cáo và phân bổ nguồn lực.
- Dự báo bệnh tật: phân loại bệnh nhân thành các nhóm rủi ro khác nhau, giúp dự báo nguy cơ mắc bệnh hoặc các biến chứng tiềm năng, từ đó đưa ra các biện pháp phòng ngừa và can thiệp sớm hơn.
- Tối ưu hoá điều trị: đưa ra sự phân loại khách quan về hiệu quả của các phương pháp điều trị khác nhau Bằng cách phân tích và so sánh các nhóm bệnh nhân tương tự, ta có thể tìm ra các phương pháp điều trị tốt nhất cho từng nhóm bệnh nhân cụ thể.
Lĩnh vực công nghệ thông tin:
- Phát hiện gian lận: phát hiện các hành vi gian lận trong lĩnh vực bảo mật mạng, ví dụ như phát hiện tin tặc hoặc xác định các nhóm nguy hiểm dựa trên hành vi tấn công.
- Phân loại tin tức và phân tích ý kiến: tổ chức tin tức hoặc bài viết thành các nhóm dựa trên nội dung, chủ đề hoặc nguồn thông tin Nó cũng có thể được sử dụng để phân tích ý kiến
5 từ các nguồn dữ liệu khác nhau, như mạng xã hội hoặc diễn đàn, để hiểu quan điểm của người dùng về một vấn đề cụ thể.
- Phân nhóm học sinh: Phân cụm dữ liệu có thể được sử dụng để phân nhóm học sinh dựa trên tiến bộ học tập, động lực, kỹ năng hoặc các yếu tố khác Điều này giúp giáo viên cung cấp dạy học cá nhân hóa và hướng dẫn phù hợp cho từng nhóm.
- Dự đoán thành công học tập: Phân cụm dữ liệu có thể giúp dự đoán khả năng thành công học tập của học sinh dựa trên các yếu tố như chỉ số học tập, động lực, sự tương tác xã hội và thói quen học tập Điều này giúp giáo viên và nhà trường đưa ra các biện pháp hỗ trợ và tăng cường cho học sinh có nguy cơ thấp nhằm nâng cao tỷ lệ hoàn thành và thành công học tập.
- Phân loại gen: Phân cụm dữ liệu có thể được sử dụng để phân loại gen dựa trên sự giống nhau về cấu trúc hoặc chức năng Điều này giúp trong việc hiểu và phân tích các bộ gen, nhận biết đặc điểm di truyền và tìm kiếm liên kết giữa các gen và bệnh tật.
- Phân lớp loại sinh vật: phân lớp và phân loại các loài sinh vật dựa trên đặc điểm hình thái, di truyền hoặc mô hình sinh thái Điều này hỗ trợ trong việc nghiên cứu, bảo tồn và hiểu sâu về các loài sinh vật.
2.1.2 Các phương pháp phân cụm
Một số phương pháp phân cụm chính có thể kể đến như sau:
Loại Đặc điểm Các phương pháp điển hình Dựa trên phân cấp
Phân cấp các đối tượng dựa trên một số tiêu chí
Xây dựng các phân hoạch khác nhau và đánh giá chúng Sau đó, tìm cách tối thiểu hóa tổng bình phương độ lỗi.
Dựa trên các kết nối giữa các đối tượng và hàm mật độ
Dựa trên lưới (Grid- based approach) Dựa trên cấu trúc độ chi tiết nhiều cấp STING, Wave
Cluster,CLIQUE Dựa trên mô hình
Giả định mỗi cụm có một mô hình và tìm cách fit mô hình đó vào mỗi cụm EM, SOM, COBWEB
Dựa trên cấu trúc phân cụm, Clustering có 2 dạng tổng quát: Phân cụm phân cấp (Hierarchical Clustering) và Phân cụm phân hoạch (Partitioning approach)
2.1.2.1 Phân cụm phân cấp (Hierarchical Clustering)
Hình 2.2: Tổng quan quá trình phân cụm phân cấp
Một số phương pháp đánh giá mô hình phân lớp
2.3.1 Confusion Matrix (Ma trận nhầm lẫn)
Ma trận nhầm lẫn là một bố cục bảng có kích thước k x k (với k là số lượng lớp của dữ liệu) cụ thể cho phép trục quan hóa hiệu suất của một thuật toán Đây là một trong những kĩ thuật đo lường phổ biến nhất và được sử dụng rộng rãi cho nhiều mô hình phân lớp Mỗi hàng của ma trận đại diện cho các cá thể trong một lớp thực tế và mỗi cột sẽ đại diện cho các cá thể trong một lớp được dự đoán hoặc ngược lại.
Hình 2.23: Minh họa phương pháp ma trận nhầm lẫn ( Confusion Matrix) Để hình dung rõ hơn về ma trận nhầm lẫn sau đây chúng ta sẽ tìm hiểu về một ví dụ về dự án dự đoán khả năng chi trả khoản vay của khách hàng Bài toán dự báo khả năng chi trả này sẽ bao gồm 2 lớp: lớp có khả năng chi trả là Positive và Negative là lớp không có khả năng chi trả:
● TP (True Positive): số lượng dự đoán chính xác về khách hàng có thể chi trả khoản vay
● TN (True Negative): số lượng dự đoán chính xác về khách hàng không đủ khả năng chi trả khoản vay
● FP (False Positive – Type 1 Error): số lượng các dự đoán sai lệch Là khi mô hình dự đoán người đó có thể chi trả nhưng họ lại không đủ khả năng.
● FN (False Negative – Type 2 Error): số lượng các dự đoán sai lệch một cách gián tiếp Là khi mô hình dự đoán người đó không đủ khả năng chi trả nhưng họ lại có thể.
Accuracy là tỉ lệ số mẫu được phân lớp chính xác trong toàn bộ dữ liệu Tuy nhiên, Accuracy không thể chỉ ra được cụ thể mỗi loại được phân loại như thế nào, lớp được phân loại đúng nhiều nhất là lớp nào, dữ liệu của lớp nào thường bị phân loại nhầm vào lớp khác nhất Thế nhưng nó vẫn có thể giúp chúng ta đánh giá một mô hình có dự đoán chính xác hay không Độ chính xác càng cao thì mô hình dự đoán càng hiệu quả.
Accuracy có thể tính bằng công thức:
Acc = (TP+TN)/n error rate = 1- acc là độ lỗi của mô hình.
Từ hình ảnh minh họa ma trận nhầm lẫn ở trên:
● Precision ( độ chính xác): cho biết trong số m mẫu được phân vào lớp j thì có tỉ lệ bao nhiêu mẫu đúng ( tránh có sự nhầm lẫn với tính chính xác accuracy) Tức là cho biết tỉ lệ số điểm TP ( True Positive) trong tổng số những điểm được phân loại là positive ( TP + FP)
● Recall ( độ phủ) hay còn gọi là độ nhạy (Sensitivity) hay TPR ( True Positive Rate) là tỉ lệ giữa số điểm là TP ( True Positive) trong số những điểm thực sự là tích cực (TP + FN).
● F1-score là giá trị trung bình điều hòa của hai độ Presision và Recall.
F1 có giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision và Recall Nếu cả 2 giá trị Precision và Recall đều lớn thì F cũng sẽ có giá trị lớn.1
ROC là đồ thị thông dụng trong đánh giá các mô hình phân loại nhị phân Đường cong này được sinh ra từ việc biểu diễn tỷ lệ dự báo TPR ( True Positive Rate) dựa trên tỷ lệ dự báo FPR (False Positive Rate) tại các ngưỡng khác nhau Khi một mô hình có ROC càng tiệm cận với điểm (0;1) hay có TPR cao và FPR thấp thì mô hình càng hiệu quả.
Hình 2.24: Minh họa phương pháp ROC
AUC (Area Under the Curve)
AUC là phần diện tích nằm dưới đường cong ROC, có giá trị là một số dương nhỏ hơn hoặc bằng 1 Giá trị này càng nhỏ thì mô hình càng hiệu quả.
Hình 2.25: Minh họa phương pháp AUC
2.3.5 Hold-out và K-fold cross validation
“- Phương pháp Hold-out sẽ phân chia tập dữ liệu ban đầu thành 2 tập dữ liệu độc lập theo 1 tỷ lệ nhất định Ví dụ, tập huấn luyện chiếm 60% và tập thử nghiệm chiếm 40%
- Phương pháp Hold-out này khi dùng cho các tập dữ liệu lớn thường cho hiệu quả tốt hơn. Ngược lại, đối với các tập dữ liệu nhỏ hoặc vừa phải, kết quả của mô hình có độ chính xác thấp vì mẫu dữ liệu nhỏ sẽ không đại diện cho tổng thể Tuy nhiên chúng ta vẫn có thể cải thiện khuyết điểm này bằng cách dùng phương pháp lấy mẫu sao cho mỗi lớp được phân bố đều trong cả 2 tập dữ liệu huấn luyện và thử nghiệm Hoặc lấy mẫu ngẫu nhiên: thực hiện holdout k lần và độ chính xác acc(M) = trung bình cộng k giá trị chính xác.
Phương pháp K-fold cross validation:
- Phương pháp K-fold cross validation phân chia dữ liệu thành k tập con có cùng kích thước (gọi là các fold), trong đó sử dụng một trong các fold làm tập dữ liệu đánh giá và phần còn lại làm tập dữ liệu huấn luyện Quá trình này sẽ lặp lại cho đến khi tất cả các fold đều đã được dùng làm tập dữ liệu đánh giá
- So với Phương pháp Hold-out, phương pháp này thường được dùng nhiều hơn do mô hình sẽ được huấn luyện và dự báo trên nhiều phần dữ liệu khác nhau Từ đó tăng độ tin cậy cho các độ đo đánh giá của mô hình.
PHÂN TÍCH VÀ THẢO LUẬN
Phân cụm dữ liệu chưa có nhãn
Tập dữ liệu ban đầu của nhóm bao gồm thông tin dữ liệu thô chứa 614 hàng dữ liệu (khách hàng vay vốn) và 13 cột (đặc tính) được thu thập trên trang web Kaggle Tập dữ liệu được tổng hợp bởi công ty tài chính Dream Housing, dựa trên những thông tin chi tiết về khách hàng tự cung cấp khi điền vào mẫu đơn đăng ký trực tuyến của công ty Những chi tiết này là Loan_ID, Dependents, Gender, Married, Education, Self_Employed, Applicantincome, Coapplicantincome, LoanAmount, Loan_Amount_Term, Credit_History, Property_Area, Loan_Status
Tên cột Miêu tả đặc tính
Loan_ID Mã khách hàng (ID Khoản vay): Thuộc tính này xác định mã khách hàng được khảo sát.
Dependents Số người phụ thuộc: Thuộc tính này xác định số người phụ thuộc vào khách hàng được khảo sát.
Gender Giới tính: Thuộc tính này xác định giới tính của khách hàng là Male
Married Tình trạng hôn nhân: : Thuộc tính này xác định tình trạng khách hàng được khảo sát là Yes (đã kết hôn) hay No (chưa kết hôn).
Education Học vấn: Thuộc tính này xác định trình độ học vấn của khách hàng là
Graduate (đã tốt nghiệp) hay Not Graduate (chưa tốt nghiệp).
Self_Employed Tự làm chủ: Thuộc tính này xác định khách hàng tự chủ tài chính (Yes) hay là không (No).
Applicantincome Thu nhập của người nộp đơn: Thuộc tính này cho biết mức thu nhập của người nộp đơn là bao nhiêu.
Coapplicantincome Thu nhập của người giám hộ: Thuộc tính này cho biết mức thu nhập của người giám hộ là bao nhiêu.
LoanAmount Số tiền vay: Thuộc tính này cho biết số tiền mà khách hàng muốn vay. Loan_Amount_Term Thời hạn khoản vay: Thuộc tính này cho biết thời hạn của khoản vay là trong bao nhiêu ngày.
Credit_History Lịch sử tín dụng: Thuộc này này xác định khách hàng đã từng có lịch sử tín dụng hay chưa Được mã hóa là 0 (chưa từng) và 1 (đã từng). Property_Area Khu vực bất động sản: Thuộc tính này xác định khu vực đất đai của khách hàng là Rural (nông thôn), Urban (thành thị) hay Semiurban (bán đô thị).
Loan_Status Đánh giá khoản vay (trạng thái khoản vay): Biến phụ thuộc Kết luận xem khách hàng được khảo sát có đủ khả năng để vay tín dụng (Y) hay không (N).
29 Đầu tiên, nhóm thực hiện tải dữ liệu thô đã thu thập từ Kaggle
Hình 3.1: Khai báo thuộc tính cho các biến
Nguồn: Kết quả từ phân mềm Orange Khi thực hiện phân cụm bộ dữ liệu này nhóm đã quyết định dùng hai phương pháp: phương pháp Hierarchical clustering và phương pháp K-Means.
Phương pháp K-Means Đầu tiên, nhóm tiến hành phân cụm dữ liệu theo phương pháp K-Means Kết quả thu được như bảng sau :
Hình 3.2: Bảng kết quả phân cụm bằng K-means
Nguồn: Kết quả từ phân mềm Orange Đối với phương pháp K-Means, để đánh giá và chọn ra số cụm tốt nhất cho bộ dữ liệu này, ta dựa vào giá trị Silhouette Scores của từng cụm Nhóm tiến hành thử nghiệm trên 10 cụm bằng cách cho dữ liệu chạy random từ 2 đến 10, kết quả thu được lần lượt là 0.492, 0.384, 0.361,0.202, 0.203, 0.175, 0.175, 0.169, 0.171 Theo lý thuyết, giá trị Silhouette trung bình càng lớn,càng tiến về 1 thì phương pháp phân cụm sẽ càng đáng tin cậy Vì vậy, ta xét thấy ở phân cụm 2 cho kết quả tốt nhất là 0.492 và quan sát đồ thị Silhouette Plot cho kết quả như sau:
Hình 3.3: Chỉ số Silhouette Plot của K-Means
Nguồn: Kết quả từ phân mềm Orange Chỉ số Silhouette sẽ dao động trong khoảng [-1;1], tuy nhiên ta chỉ quan tâm đến những giá trị Silhouette từ 0.5 trở lên, bởi vì đây mới là kết quả sát với thực tế và đáng tin cậy để tiến hành nghiên cứu Hinh 3 là kết quả phân cụm bằng phương pháp K-Means được thể hiện bằng đồ thị Silhouette Ta thấy đồ thị phân thành 2 cụm, Cụm 1 bao gồm 36 mã khách hàng và Cụm 2 bao gồm 378 mã khách hàng Tuy nhiên ta thấy cả 36 dữ liệu ở cụm 1 đều nhỏ hơn 0.5 và chạy từ -0.8 đến 0.3, đây là khoảng không tin tưởng Ở cụm 2 ta thấy đa số dữ liệu lại lớn hơn 0.5 và phân bố trong khoảng (-0.1;0.9), chỉ có khoảng 19 dữ liệu không đạt Như vậy nhìn chung ta thấy kết quả ở cụm 1 chưa hiệu quả, mức chỉ số Silhouette ở cụm 2 lại khá cao Có thể nói cách phân cụm chưa thật sự đáng tin cậy, sát với thực tế và cần tham vấn thêm các chuyên gia có kinh nghiệm, chuyên môn để đánh giá lại.
Phương pháp Hierarchical Clustering: Để tìm ra cách phân cụm phù hợp nhất, tiếp theo ta sẽ tiến hành phân cụm dữ liệu bằng phương pháp Hierarchical Clustering:
Hình 3.4: Thiết lập khoảng cách cho phương pháp Hierarchical Clustering
Nguồn: Kết quả từ phần mềm Orange Đầu tiên, để tiến hành phương pháp Hierarchical Clustering, nhóm chọn khoảng cách ước lượng Euclidean (normalized) Sau khi thiết lập khoảng cách, nhóm tiến hành so sánh lần lượt 5 phương pháp: Single, Average, Weighted, Complete và Ward để chọn ra phương pháp phân cụm tốt nhất cho bộ dữ liệu a) Phương pháp Linkage Single
Hình 3.5: Kết quả phân cụm theo Linkage Single
Nguồn: Kết quả từ phần mềm Orange
Phương pháp đo lường Linkage Single cho ra hai cụm, tuy nhiên ở cụm 1 hầu như chiếm phần lớn các mã khách hàng trong khi cụm 2 chiếm một phần nhỏ không đáng kể Cụ thể, cụm 1 có 612 mã khách hàng, cụm 2 chỉ có 2 mã khách hàng Hình 3.6 cung cấp chỉ số Silhouette trong
2 cụm chạy trong khoảng (-0.1;0.9], phần lớn các mẫu trong C1 đều lớn hơn 0.5, chỉ có 8 mẫu không đạt ( Average/ Most frequent.
Sau khi khai báo các thuộc tính cho các dữ liệu đã chọn lọc, ta có những thuật toán phù hợp cho quá trình huấn luyện, bao gồm: SVM, Hồi quy Logistic, Cây quyết định, Neural Network.
Hình 3.18 Quy trình huấn luyện trên Orange
Nguồn: Kết quả từ phần mềm Orange
Bây giờ, ta sẽ phân tích tính triệt để, phù hợp của các phương pháp để từ đó lựa chọn mô hình phù hợp nhất cho bài nghiên cứu
- Dựa trên kết quả bảng Test and Score có sử dụng phương pháp Cross Validation (đánh giá mô hình phân lớp) với tính năng vượt trội hơn cùng với các chỉ số AUC, F1-Score, Recall,
Hình 3.19 Bảng Test and Score trong Orange
Ta thấy mô hình đem đến kết quả tốt nhất và phù hợp nhất với bộ dữ liệu là Logistic Regression Để đưa ra sự lựa chọn đó, ta đánh giá các thông số:
AUC: AUC của Logistic Regression là cao nhất (Logistic Regression: 0.760, SVM: 0.736, Tree: 0.673, Neural Network: 0.750) Trong đó, AUC là thông số thể hiện diện tích nằm dưới“ “ đường cong ROC Giá trị này là một số dương nhỏ hơn hoặc bằng 1 Giá trị này càng lớn thì mô hình càng tốt.”
AUC của Logistic Regression cao nhất chứng tỏ ROC của Logistic Regression cũng càng tiệm cận với điểm (0;1) Trong đó, ROC là một đồ thị được sử dụng khá phổ biến trong đánh giá“ các mô hình phân loại nhị phân Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo“ true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau. Một mô hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả.”
Hình 3.20 Minh họa đường ROC và AUC
Ta còn có thể đánh giá các phương pháp qua ma trận nhầm lẫn (Confusion Matrix).
Hình 3.21: Bảng Confusion Matrix trong Orange
Nguồn: Kết quả từ phần mềm Orange Quan sát ma trận nhầm lẫn của phương pháp Logistic Regression, ta thấy:
+ 80 N-N (No-No): mô hình dự đoán chính xác 80 trường hợp khách hàng không phù hợp hay không đủ điều kiện tín dụng để cho vay thế chấp mua nhà Nói cách khác là mô hình dự đoán đúng 80 khách hàng thực tế là không phù hợp để cho vay tín dụng.
+ 97 Y-N (Yes-No): mô hình dự đoán 97 trường hợp khách hàng không đủ điều kiện tín dụng để cho vay thế chấp mua nhà nhưng thực tế là đủ điều kiện tín dụng và có đủ khả năng để được vay.
+ 9 N-Y (No – Yes): mô hình dự đoán 9 trường hợp khách hàng đủ điều kiện tín dụng để được vay thế chấp mua nhà nhưng thực tế là không đủ điều kiện tín dụng để được vay.
+ 367 Y-Y (Yes-Yes): mô hình dự đoán chính xác 367 trường hợp khách hàng đủ điều kiện tín dụng để được vay thế chấp mua nhà Nói cách khác là mô hình dự đoán đúng 367 khách hàng thực tế là phù hợp để cho vay tín dụng.
Từ các đánh giá quá trình phân tích của phương pháp Logistic Regression đối với 2 lớp dữ liệu N (không đủ điều kiện cho vay), Y(đủ điều kiện cho vay), ta có các độ đo đánh giá mức độ đáng tin cậy của Logistic Regression như sau:
+ Precision: Độ chính xác – Trong số các dự đoán được đưa vào lớp N thì có bao nhiêu trường hợp là chính xác:
+ Recall/TPR (True Positive Rates) : Độ nhạy – Trong số các trường hợp N trong thực tế, thì mô hình dự đoán được bao nhiêu trường hợp chính xác:
Recall = = = 0.899 ( tương ứng với giá trị 89,9% trong ảnh minh họa)
Recall tiến đến 1 và có giá trị cao, cho thấy độ đáng tin cậy và hiệu năng cao của Logistic Regression khi tỉ lệ bỏ sót các điểm positive là thấp.
Precision có giá trị tương đối nhưng cho thấy sự chắc chắn của Logistic Regression Vì độ đo Precision cho thấy số trường hợp mà phương pháp này dự đoán là không phù hợp để
46 cho vay là khá cao trong khi thực tế không nhiều đến như vậy Nhưng vì lượng vốn là có hạn, cho nên Logistic Regression sẽ giúp định chế tài chính tránh rủi ro tín dụng nhưng vẫn đảm bảo việc phân bổ vốn hợp lý và đến với những người đi vay thực sự cần vốn Đa số khách hàng là đủ điều kiện và phù hợp để cho vay (79,1% chính xác trên tổng số trường hợp dự đoán là đủ điều kiện của mô hình) và điều này tương ứng với khi ta quan sát bảng dữ liệu và tự đánh giá thì số lượng khách hàng đủ điều kiện vay tín dụng nhiều hơn hẳn so với không đủ điều kiện là sự thật
Kết luận của kết quả nghiên cứu
Mục tiêu chính của đề tài là nghiên cứu dữ liệu khách hàng và áp dụng mô hình dự đoán khả năng đủ điều kiện vay để mua nhà Tổng kết, đề tài đã hoàn thành các mục tiêu nghiên cứu thông qua 2 phương diện:
- Về lý thuyết, nhóm đã trình bày chi tiết qua Chương 2 – Cơ sở lý thuyết về các phương pháp tính toán Bài nghiên cứu trình bày được một số phương pháp phân cụm dữ liệu, phân lớp dữ liệu, đánh giá mô hình phân lớp Ngoài ra nhóm còn trình bày được tính hữu dụng của mô hình trong lĩnh vực tài chính – ngân hàng.
- Về thực hành phân tích, nhóm thể hiện qua Chương 3 – Phân tích và thảo luận, áp dụng những lý thuyết đưa vào đề tài nghiên cứu dữ liệu khách hàng để dự báo khả năng đủ điều kiện vay đối với 614 khách hàng thực hiện khảo sát Nhóm xác định biến phụ thuộc là Loan_status (đánh giá khoản vay) xem khách hàng có đủ khả năng để vay (Y) hay không (N), và các biến độc lập là Married (tình trạng hôn nhân), Education (trình độ học vấn), Self_Employed (tự làm chủ), Applicantincome (thu nhập của người nộp đơn), Coapplicantincome (thu nhập của người giám hộ), LoanAmount (số tiền vay), Loan_Amount_Term (thời hạn khoản vay), Credit_History (lịch sử tín dụng), Property_Area (khu vực bất động sản).
Khi phân cụm bộ dữ liệu gồm 614 khách hàng, dựa trên chỉ số Silhouette, đối với bộ dữ liệu khách hàng trên thì phân cụm theo phương pháp Hierarchical Clustering (Single và Complete) đều cho kết quả tốt khi phân các mã khách hàng thành 2 cụm Đối với phân lớp dữ liệu, bài nghiên cứu thực hiện 4 thuật toán phù hợp cho quá trình huấn luyện đó là SVM (Support Vector Machine), hồi quy Logistic (Logistic Regression), cây quyết định (Decision Tree) và Neural Network Nhóm chia bộ dữ liệu thành 90% dữ liệu huấn luyện (553 mã khách hàng) và 10% dữ liệu dự báo (62 mã khách hàng) Sau khi phân tích bộ dữ liệu huấn luyện huấn luyện và gán thuộc tính cho biến độc lập và biến phụ thuộc, ta có thể đánh giá rằng phương pháp phân lớp bằng Logistic Regression là phương pháp phân lớp dữ liệu cho bài nghiên cứu một cách khá chính xác, cho phép phân tích các yếu tố ảnh hưởng đến việc ra kết luận có đủ điều kiện vay hay không và mức độ ảnh hưởng của từng yếu tố đầu vào
Với việc triển khai ứng dụng kết quả thu được trong việc dự đoán khả năng đủ điều kiện vay mua nhà trong tình hình kinh tế hiện nay, giúp các công ty có cái nhìn đúng đắn và những thông tin quan trọng về ưu và nhược điểm của từng khách hàng Từ đó công ty có thể tối ưu hóa quá trình vay mua nhà, vừa có thể tăng cường khả năng cạnh tranh, tập trung vào các đối tượng khách hàng có tiềm năng để vay vốn, vừa có thể kiểm soát và giảm thiểu rủi ro tín dụng đối với công ty Thông qua đó, các công ty cũng đánh giá được mức độ ảnh hưởng của các yếu tố đến kết quả dự đoán, từ đó đưa ra những chính sách thích hợp cho khách hàng.
4.2 Hạn chế của đề tài và hướng nghiên cứu tiếp theo
Trong bài nghiên cứu lần này, nhóm đã thực hiện một cách chi tiết và phân tích tỉ mỉ. Tuy nhiên vẫn tồn tại một số hạn chế do các nguyên nhân chủ quan và khách quan, gây một số ảnh hưởng nhất định đến độ chính xác của bài nghiên cứu: