1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Dự Án môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà

58 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự đoán khả năng đủ điều kiện vay để mua nhà
Tác giả Hà Thị Trâm Anh, Lâm Quỳnh Anh, Võ Sĩ Đức, Lê Trung Hiếu, Nguyễn Thị Thùy Hương
Người hướng dẫn Ths. Nguyễn Mạnh Tuấn
Trường học Trường Đại học Kinh tế Thành phố Hồ Chí Minh, Trường Công nghệ và Thiết kế
Chuyên ngành Khoa học dữ liệu
Thể loại Dự án kết thúc học phần
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 58
Dung lượng 3,16 MB

Cấu trúc

  • CHƯƠNG I: TỔNG QUAN (8)
    • 1.1 Lý do chọn đề tài (8)
    • 1.2 Mục tiêu nghiên cứu (9)
      • 1.2.1 Mục tiêu tổng quát (9)
      • 1.2.2 Mục tiêu cụ thể (9)
    • 1.3 Đối tượng nghiên cứu (10)
    • 1.4 Phương pháp nghiên cứu (10)
      • 1.4.1 Phương pháp nghiên cứu lý luận “ (10)
      • 1.4.2 Phương pháp nghiên cứu thực tiễn (10)
  • CHƯƠNG II: QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ (11)
    • 1. Mô tả và tiền xử lí dữ liệu (11)
      • 1.1 Mô tả nguồn dữ liệu và cấu trúc của dữ liệu (11)
      • 1.2 Tiền xử lý dữ liệu (12)
        • 1.2.2 Tích hợp dữ liệu (Data integration) (14)
        • 1.2.3 Chuyển đổi dữ liệu (Data transformation) (14)
        • 1.2.4 Rút gọn dữ liệu (14)
    • 2. Bài toán 1: Phát hiện điểm đặc thù của dữ liệu (19)
      • 2.1 Mô tả bài toán (19)
      • 2.2 Chạy mô hình và kết quả (19)
    • 3. Bài toán 2: Dự đoán khả năng điều kiện để cho khách hàng vay mua nhà (28)
      • 3.1 Mô tả bài toán (28)
        • 3.1.1 Mô tả phương pháp “ (28)
        • 3.1.2 Mô tả bộ dữ liệu (29)
        • 3.1.3 Mô tả quá trình (29)
      • 3.2 Quy trình xây dựng mô hình (29)
        • 3.2.1 Các bước xây dựng mô hình “ (29)
        • 3.2.2 Đánh giá mô hình phân lớp (30)
        • 3.2.3 Kết quả dự báo và nhận xét (32)
      • 3.3 Phân tích chuyên sâu các nhân tố hồi quy (Logistic Regression) (33)
      • 3.4 Phân tích chuyên sâu mô hình cây quyết định (Decision Tree) (36)
    • 4. Bài toán 3: Phân cụm/ nhóm khách hàng không đủ điều kiện vay mua nhà (36)
      • 4.1 Mô tả bài toán “ (36)
        • 4.1.1 Mô tả phương pháp phân cụm (Clustering) (36)
        • 4.1.2 Mô tả phương pháp K-Means (38)
      • 4.2 Chạy mô hình và kết quả (38)
        • 4.2.1 Xây dựng mô hình (38)
        • 4.2.2 Tiến hành phân cụm với thuật toán K-Means (41)
      • 4.3 Kết luận thông qua các kết quả đạt được (48)
  • CHƯƠNG III: KẾT LUẬN VÀ KHUYẾN NGHỊ (55)
    • 1. Kết luận kết quả quan trọng, đặc điểm nổi bật của từng bài toán (55)
  • CHƯƠNG IV: TÀI LIỆU THAM KHẢO (58)

Nội dung

Qua việc cho Orange học ba phương pháp bao gồm: Cây quyết định Tree Decision , SVM, Hồi quy Logistic Logistic Regression, nhóm đã tiến hành chọn phương pháp hồi quy Logistic để dự báo và

TỔNG QUAN

Lý do chọn đề tài

Tại thời điểm hiện nay, khi xã hội ngày càng phức tạp và thị trường bất động sản liên tục biến động, việc chọn đề tài "Dự Đoán Khả Năng Đủ Điều Kiện Vay Mua Nhà" không chỉ là sự hiểu biết sâu sắc về mặt khoa học mà còn phản ánh một sự quan tâm sâu rộng về tác động to lớn của quyết định mua nhà đối với cuộc sống cá nhân và gia đình Trong một thập kỷ qua, một tài liệu mới và đang phát triển đã tập trung vào tính hiệu quả của các chính sách an toàn vĩ mô, chẳng hạn như khả năng làm chậm sự tăng trưởng nhanh chóng của giá nhà đất (Claessens, 2015; Galati và Moessner, 2018) Điều này ám chỉ việc nghiên cứu và phân tích các biện pháp, chính sách mà các quốc gia hoặc tổ chức có thể thực hiện để kiểm soát tăng trưởng giá nhà và đảm bảo tính ổn định của thị trường bất động sản Khi giá nhà đất tăng nhanh chóng, đặc biệt là trong một thị trường bất động sản sôi động, có thể xuất hiện nhiều vấn đề Sự tăng giá có thể tạo ra áp lực tài chính đối với người mua nhà, làm gia tăng khả năng nợ và gây ra rủi ro tài chính Ngoài ra, nếu giá nhà tăng quá mạnh, có thể xảy ra hiện tượng bong bóng bất động sản, khi giá nhà cao hơn giá trị thực của chúng Đầu tiên, tầm quan trọng ngày càng tăng của tài sản bất động sản đối với khả năng dễ bị tổn thương về tài chính có nguồn gốc từ hai đặc điểm riêng biệt Thị trường nhà ở quá nóng chủ yếu là do mở rộng tín dụng (Agnello và cộng sự, 2017), đặc biệt là cho vay thế chấp ngân hàng (Jorda và cộng sự, 2015) Mở rộng tín dụng, hay còn được gọi là sự gia tăng cung cấp tiền và tín dụng trong nền kinh tế, thường đồng nghĩa với việc ngân hàng và tổ chức tín dụng mở rộng việc cho vay Khi thị trường bất động sản trở nên nóng bỏng, tức là nhu cầu mua nhà tăng mạnh, các ngân hàng có thể tăng cường việc cung cấp vay thế chấp để đáp ứng nhu cầu đó Điều này có thể tạo ra một chu kỳ tăng giá đột ngột trong giá nhà, khi người mua có thêm khả năng tài chính để mua nhà và thị trường trở nên cạnh tranh hơn Nếu mở rộng tín dụng diễn ra quá mạnh mẽ và không được kiểm soát, có thể xảy ra hiện tượng bong bóng bất động sản, khi giá nhà tăng cao hơn giá trị thực tế của chúng Khi bong bóng này nổ, có thể gây ra những tác động tiêu cực lớn đối với thị trường tài chính và kinh tế, bao gồm cả rủi ro về tài chính cá nhân và sự không ổn định trong hệ thống ngân hàng Do đó, sự kết hợp giữa mở rộng tín dụng và sự nóng lên của thị trường nhà ở là một yếu tố quan trọng cần được theo dõi và quản lý để đảm bảo tính ổn định và bền vững trong thị trường bất động sản và toàn bộ nền kinh tế

Bên cạnh đó, “Dự Đoán Khả Năng Đủ Điều Kiện Vay Mua Nhà” cũng mang những đặc điểm chính như tính cấp thiết (Thị trường bất động sản Việt Nam đang phát triển mạnh mẽ và nhu cầu mua nhà ngày càng tăng cao tuy nhiên không phải ai cũng đủ điều kiện để mua nhà) Tính mới mẻ (Các Công ty Tài chính chủ yếu sử dụng các phương pháp truyền thống để đánh giá khả năng vay mua nhà như kiểm tra hồ sơ, thu nhập và tài sản… chúng có thể không chính xác và tốn nhiều thời gian Ở đây sử dụng dữ liệu lớn và trí tuệ nhân tạo để có thể nâng cao độ chính xác và tính hiệu quả) Tăng cường tính minh bạch và công bằng (Giúp đưa ra quyết định khách quan dựa trên các yếu tố như thu nhập, lịch sử sử dụng tín dụng… Giảm thiểu sự thiên vị, đảm bảo đối xử công bằng đối với tất cả khách hàng) Tính khả thi (Đề xuất nghiên cứu sử dụng mô hình dự đoán cần thu thập lượng lớn dữ liệu về khách hàng và phát triển công nghệ giúp thu thập và xử lý dữ liệu trở nên dễ dàng hơn)

Thị trường bất động sản ngày nay trở thành một bức tranh đầy màu sắc, nhưng đồng thời cũng đầy những thách thức Giá nhà tăng cao và biến động không dựa vào các quy luật cụ thể, điều này tạo ra một hình ảnh phức tạp khi người dân đưa ra quyết định về việc mua nhà Việc đảm bảo khả năng vay mua nhà không chỉ là vấn đề sở hữu một căn nhà, mà còn là một thách thức lớn về mặt tài chính và kế hoạch tương lai Nghiên cứu về khả năng vay mua nhà không chỉ đưa ra cái nhìn sâu sắc về tình hình tài chính cá nhân mà còn cung cấp những thông tin quý báu cho các tổ chức tín dụng và ngân hàng Sự kết hợp giữa công nghệ và dữ liệu trong xây dựng các mô hình dự đoán có thể mang lại cái nhìn toàn diện về khả năng thanh toán và rủi ro tài chính của người vay Bên cạnh đó, không thể phủ nhận vai trò quan trọng của việc đặt mình vào góc nhìn xã hội Hiểu rõ về cách khả năng vay mua nhà ảnh hưởng đến cộng đồng có thể giúp xã hội đưa ra những chính sách và hỗ trợ phù hợp, tạo điều kiện cho mọi người có cơ hội sở hữu nhà và xây dựng cuộc sống ổn định

Tóm lại, áp dụng các phương pháp mới mẻ sử dụng dữ liệu lớn và trí tuệ nhân tạo trong đánh giá khả năng vay mua nhà có thể giúp nâng cao hiệu suất và công bằng trong hoạt động cho vay của các Công ty Tài chính Do đó, đề tài này không chỉ là một nhiệm vụ nghiên cứu khoa học, mà còn là cơ hội để đóng góp vào việc tối ưu hóa quyết định mua nhà của cả cộng đồng Nó không chỉ là một bảng số liệu và thống kê mà còn là hướng dẫn chân thực và chi tiết cho những người đang tìm hiểu về quy trình vay mua nhà, hỗ trợ họ xây dựng một cuộc sống tài chính ổn định và bền vững.

Mục tiêu nghiên cứu

Mục tiêu tổng quát của bài nghiên cứu này là xây dựng một mô hình khoa học dữ liệu để dự đoán khả năng đủ điều kiện vay để mua nhà cho khách hàng cá nhân, nhằm giúp các Công ty Tài chính và tổ chức tín dụng đánh giá khả năng đủ điều kiện vay mua nhà của khách hàng cá nhân một cách chính xác và hiệu quả hơn Cùng với đó là giảm thiểu rủi ro về tín dụng cho các Công ty Tài chính bằng cách xác định khách hàng nào có khả năng trả khoản vay cao hơn

Sử dụng phần mềm orange để xử lý dữ liệu và giải quyết các bài toán sau:

• Bài toán 1: Phát hiện điểm đặc thù của dữ liệu

Mô tả và xác định tính đặc thù của dữ liệu ảnh hưởng đến khả năng khách hàng đủ điều kiện vay để mua nhà

• Bài toán 2: Dự đoán khả năng đủ điều kiện vay để mua nhà (phân lớp dữ liệu)

Xây dựng mô hình khoa học dữ liệu tối ưu nhất nhằm dự đoán khả năng đủ điều kiện vay để mua nhà của khách hàng cá nhân với độ chính xác cao

• Bài toán 3: Phân Loại nhóm khách hàng không đủ điều kiện vay mua nhà (Phân cụm dữ liệu)

Phân nhóm khách hàng cá nhân không đủ điều kiện vay để mua nhà thành các nhóm đồng nhất dựa trên các thuộc tính ảnh hưởng Việc phân cụm này giúp các Công ty Tài chính hiểu rõ hơn về đặc điểm của các nhóm khách hàng, từ đó đưa ra các sản phẩm và dịch vụ phù hợp hơn, đồng thời giảm thiểu rủi ro tín dụng và xem xét nhóm nào dễ chuyển đổi hơn để cho vay.

Đối tượng nghiên cứu

Dữ liệu được thu thập từ Kaggle với thông tin của 614 khách hàng, bao gồm các thông tin: ID Khoản vay (Loan_ID), số người phụ thuộc (Dependents), giới tính (Gender), tình trạng hôn nhân (Married), học vấn (Education), tự làm chủ (Self_Employed), thu nhập của người nộp đơn (Applicantincome), thu nhập của người giám hộ (Coapplicantincome), số tiền vay (LoanAmount), thời hạn khoản vay (Loan_Amount_Term), lịch sử tín dụng (Credit_History), khu vực bất động sản (Property_Area), trạng thái khoản vay (Loan_Status).

Phương pháp nghiên cứu

1.4.1 Phương pháp nghiên cứu lý luận “

Thực hiện quá trình nghiên cứu bao gồm việc thu thập, lựa chọn, và phân tích dữ liệu và thông tin thông qua việc đọc sách, báo, tài liệu để khám phá các quan niệm và quan điểm cần thiết để xây dựng cơ sở lý luận cho nghiên cứu Đồng thời, dự đoán các thuộc tính của đối tượng nghiên cứu và xây dựng một lý luận sơ bộ Các phương pháp sử dụng bao gồm:

• Phương pháp phân tích – tổng hợp lý thuyết: Từ nguồn tài liệu, bao gồm cả nghiên cứu từ các tạp chí uy tín, tiến hành đọc và tổng hợp thông tin để rút ra các nội dung quan trọng nhằm hỗ trợ luận điểm của nghiên cứu

• Phương pháp mô hình hóa: Xây dựng mô hình nghiên cứu dựa trên lý thuyết, và áp dụng mô hình này để dự đoán, nhằm kiểm định độ chính xác của mô hình và xác định tính khả thi của nó trong việc giải quyết vấn đề nghiên cứu

1.4.2 Phương pháp nghiên cứu thực tiễn

Dựa trên cơ sở lý luận đó, áp dụng vào thực tế thông qua việc sử dụng phần mềm Orange

- một công cụ rất trực quan để nghiên cứu về các thuật toán machine learning và thực hành khoa học dữ liệu phổ biến hiện nay Tiến hành sử dụng Orange để phân tích dữ liệu và làm rõ vấn đề nghiên cứu

Tiếp theo, xây dựng các mô hình dự báo bằng cách sử dụng bộ dữ liệu huấn luyện có sẵn và so sánh kết quả của các mô hình này với nhau Mục tiêu là lựa chọn mô hình phù hợp nhất để giúp các nhà đầu tư đưa ra các quyết định chính xác hơn khi đầu tư hiệu quả.”

QUY TRÌNH THỰC HIỆN VÀ KẾT QUẢ

Mô tả và tiền xử lí dữ liệu

1.1 Mô tả nguồn dữ liệu và cấu trúc của dữ liệu

Tập dữ liệu ban đầu của nhóm bao gồm thông tin dữ liệu thô chứa 614 hàng dữ liệu (khách hàng vay vốn) và 13 cột (đặc tính) được thu thập trên trang web Kaggle (Bank_loan (kaggle.com)) Tập dữ liệu được tổng hợp bởi Công ty Tài chính Dream Housing, dựa trên những thông tin chi tiết về khách hàng tự cung cấp khi điền vào mẫu đơn đăng ký trực tuyến của công ty Những chi tiết này là Loan_ID, Dependents, Gender, Married, Education, Self_Employed, Applicantincome, Coapplicantincome, LoanAmount, Loan_Amount_Term, Credit_History, Property_Area, Loan_Status

STT Tên cột Miêu tả đặc tính Thuộc tính Vai trò

1 Loan_ID Mã khách hàng (ID Khoản vay): Thuộc tính này xác định mã khách hàng được khảo sát Categarical Skip

Số người phụ thuộc: Thuộc tính này xác định số người phụ thuộc vào khách hàng được khảo sát

Giới tính: Thuộc tính này xác định giới tính của khách hàng là Male (nam) hay Female

Tình trạng hôn nhân: Thuộc tính này xác định tình trạng khách hàng được khảo sát là Yes (đã kết hôn) hay No (chưa kết hôn)

Học vấn: Thuộc tính này xác định trình độ học vấn của khách hàng là Graduate (đã tốt nghiệp) hay Not Graduate (chưa tốt nghiệp)

Tự chủ tài chính: Thuộc tính này xác định khách hàng tự chủ tài chính (Yes) hay là không (No)

Thu nhập của người nộp đơn: Thuộc tính này cho biết mức thu nhập của người nộp đơn là bao nhiêu

Thu nhập của người giám hộ: Thuộc tính này cho biết mức thu nhập của người giám hộ là bao nhiêu

9 LoanAmount Số tiền vay: Thuộc tính này cho biết số tiền mà khách hàng muốn vay Numeric Feature

Thời hạn khoản vay: Thuộc tính này cho biết thời hạn của khoản vay là trong bao nhiêu ngày

Lịch sử tín dụng: Thuộc này này xác định khách hàng đã từng có lịch sử tín dụng hay chưa Được mã hóa là 0 (chưa từng) và 1

Khu vực bất động sản: Thuộc tính này xác định khu vực đất đai của khách hàng là Rural (nông thôn), Urban (thành thị) hay

13 Loan_Status Đánh giá khoản vay (trạng thái khoản vay):

Biến phụ thuộc Kết luận xem khách hàng được khảo sát có đủ khả năng để vay tín dụng (Y) hay không (N)

1.2 Tiền xử lý dữ liệu:

Tiền xử lý dữ liệu là quá trình xử lý dữ liệu thô/gốc (raw/original data) nhằm cải thiện chất lượng dữ liệu (quality of the data) và do đó cải thiện được chất lượng của kết quả khai phá Dữ liệu ban đầu được thu thập từ thực tế thường ở định dạng thô, không khả thi cho việc phân tích, do đó những dữ liệu này cần được xử lý, làm sạch và biến đổi trước khi Chính vì thế, tiền xử lý dữ liệu là một bước rất quan trọng trong việc giải quyết bất kỳ vấn đề nào trong Data Mining Quá trình tiền xử lý dữ liệu bao gồm: Làm sạch dữ liệu, Tích hợp và biến đổi dữ liệu và Rút gọn dữ liệu “

1.2.1 Làm sạch dữ liệu (Data cleansing/Cleansing):

Làm sạch dữ liệu là quá trình chuẩn bị dữ liệu để phân tích bằng cách loại bỏ thông tin không liên quan hoặc không chính xác, không đầy đủ hoặc sai lệch có thể làm sai lệch kết quả và gây ra các quyết định sai lầm hoặc không thực tế Làm sạch dữ liệu không chỉ đề cập đến việc loại bỏ các phần dữ liệu không cần thiết mà còn thường được liên kết với việc sửa thông tin không chính xác trong tập dữ liệu Quá trình làm sạch dữ liệu sẽ cố gắng tóm tắt hóa dữ liệu, xử lí dữ liệu bị thiếu và bị nhiễu

- Đối với tóm tắt hóa dữ liệu:

+ Xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu hướng chính (central tendency) và sự phân tán (dispersion) của dữ liệu Các độ đo về xu hướng chính gồm có: mean, median, mode, midrange… Các độ đo về sự phân tán gồm có: quartiles, interquartile range(IQR) và variance.”

+ Nhận diện dữ liệu nổi bật hay dữ liệu hiếm bằng cách xác định nhiễu (noise) hoặc phần tử biên (outliers), cung cấp cái nhìn tổng quan về dữ liệu

- Đối với dữ liệu bị thiếu (missing value): “

+ Bỏ qua những bộ thiếu giá trị: Phương pháp này thường được dùng khi nhãn lớp bị thiếu và sẽ không có hiệu quả đối với trường hợp dữ liệu bị thiếu là quá lớn

+ Xử lý bằng tay: có thể xử lý không tự động hoặc bán tự động Tuy nhiên, phương pháp này sẽ mất rất nhiều thời gian đối với một tập dữ liệu lớn có nhiều giá trị bị thiếu

+ Dùng những giá trị thay thế, tự động: Ví dụ như sử dụng hằng số toàn cục để thay thế tất cả những giá trị bị thiếu bằng cùng một hằng số hay dùng giá trị có nhiều khả năng nhất - được quyết định bằng phương pháp hồi quy, dựa vào những công cụ suy luận như phương pháp Bayesian hoặc Cây quyết định Ngoài ra còn nhiều giá trị khác được dùng như: Trị phổ biến nhất, trung bình toàn cục, trung bình cục bộ,

+ Ngăn chặn dữ liệu bị thiếu: Giảm thiểu vấn đề bị thiếu dữ liệu thông qua việc đảm bảo thiết kế thật tốt một CSDL và các thủ tục nhập liệu (ràng buộc dữ liệu)

- Đối với dữ liệu bị nhiễu:

Xử lý dữ liệu bị nhiễu bao gồm: Nhận diện được phần tử không tuân theo đặc tính/ hành vi chung của tập dữ liệu (outliers) và giảm thiểu nhiễu (noisy data) Trước hết, các kĩ thuật nhận diện phần tử biên gồm:

+ Dựa trên phân bố thống kê (Statistical distribution-based)

+ Dựa trên khoảng cách (Distance-based)

+ Dựa trên mật độ (Density-based)

+ Dựa trên độ lệch (Deviation-based)

Các giải pháp giảm thiểu nhiễu gồm:

+ Phân giỏ (Binning): Phương pháp này làm mịn dữ liệu bằng cách tham khảo những giá trị xung quanh nó (làm mịn dữ liệu cục bộ) Đầu tiên dữ liệu được sắp xếp vào các giỏ gọi là “bin”, sau đó làm mịn dữ liệu bằng các giá trị means, median, maximum, minimum… của bin

+ Hồi quy (Regression): Dữ liệu được làm mịn bằng cách làm cho dữ liệu khớp với một hàm Phương pháp hồi quy tuyến tính (Linear regression) tìm một đường thẳng tốt nhất khớp với hai thuộc tính (hoặc biến), vì thế có thể dùng một thuộc tính để dự đoán thuộc tính còn lại

+ Gom cụm (Clustering): Các giá trị tương tự nhau theo một tiêu chuẩn cho trước gom lại thành từng cụm gọi là cluster Bằng trực giác, những giá trị nằm ngoài tập hợp Cluster có thể xem là các phần tử cá biệt

- Đối với dữ liệu không nhất quán: Dữ liệu đôi khi bị ghi nhận khác nhau cho cùng một đối tượng hoặc không phản ánh ngữ nghĩa đúng cho các đối tượng đó Do đó gây ra sự không nhất quán trong bộ dữ liệu Để giảm thiểu điều này cần sử dụng một số giải pháp:

+ Tận dụng siêu dữ liệu hoặc các ràng buộc dữ liệu cùng với sự kiểm tra của các nhà phân tích dữ liệu để hỗ trợ cho việc nhận diện sự không nhất quán

+ Có thể điều chỉnh dữ liệu không nhất quán bằng tay hoặc sử dụng các giải pháp biến đổi hoặc chuẩn hóa dữ liệu tự động

1.2.2 Tích hợp dữ liệu (Data integration):

Bài toán 1: Phát hiện điểm đặc thù của dữ liệu

Sử dụng các công cụ thống kê thông dụng, biểu đồ, lược đồ Excel, chức năng của Orange để phát hiện ra các điểm đặc thù của dữ liệu nhằm đưa ra những đề xuất cho Dream Housing tham khảo

2.2 Chạy mô hình và kết quả

Hình 9 Biểu đồ giới tính

• Theo biểu đồ, ta có thể thấy rằng số lượng khách hàng là nam giới chiếm tỷ lệ khá cao, khoảng 81.6% trong tổng số khách hàng Và tỉ lệ có khả năng vay tín dụng để mua nhà của khách hàng nam giới là 56.5%

• Khách hàng nữ giới chiếm 18.4% trên tổng số khách hàng và tỉ lệ họ có khả năng vay tín dụng rơi vào khoảng 12.21%, thấp hơn khoảng 4.6 lần so với số khách hàng là nam giới có khả năng vay tín dụng để mua nhà

⇒ Vì thế công ty Dream Housing có thể quyết định cho các khách hàng là Nam giới vay tín dụng để mua nhà

• Married (Tình trạng hôn nhân):

Hình 10 Biểu đồ tình trạng hôn nhân

• Qua biểu đồ, ta có thể thấy được rằng số lượng khách hàng đã kết hôn chiếm khoảng 65% trên tổng số khách hàng và trong số đó, những khách hàng có khả năng vay tín dụng rơi vào khoảng 46.74% trên tổng số khách hàng

• Bên cạnh đó, nhóm khách hàng chưa kết hôn chiếm tỉ lệ khoảng 35% trên tổng số khách hàng, trong số đó những khách hàng có khả năng vay tín dụng khoảng 22%

⇒ So sánh giữa 2 tỷ lệ trên ta có thể thấy rằng những khách hàng đã kết hôn sẽ có khả năng vay tín dụng cao hơn, vì vậy Dream Housing có thể lựa chọn đầu tư vào những khách hàng đã kết hôn để an toàn hơn

Hình 11: Biểu đồ trình độ học vấn

• Biểu đồ phía trên thể hiện rằng, những khách hàng đã tốt nghiệp chiếm 78.2% trên tổng số khách hàng và trong số đó những khách hàng có khả năng vay tín dụng để mua nhà khá cao, chiếm 55.4% trên tổng số khách hàng

• Ngược lại, những khách hàng chưa tốt nghiệp chiếm 21.8%, trong đó những khách hàng có khả năng vay tín dụng chỉ chiếm 13.35% trên tổng số khách hàng

⇒ Chính vì vậy, lựa chọn an toàn để cho vay dành cho Dream Housing là những khách hàng đã tốt nghiệp

• Credit History (Lịch sử tín dụng):

Hình 12: Biểu đồ lịch sử tín dụng

• Biểu đồ trên cho ta biết, những khách hàng đã từng sử dụng tín dụng chiếm khoảng 84%, trong số đó những khách hàng có khả năng vay tín dụng để mua nhà chiếm đến 66.5% trên tổng số khách hàng

• Ngược lại, những khách hàng chưa từng sử dụng tín dụng chiếm khoảng 16% trên tổng số khách hàng và chỉ có khoảng 2.3% trong số đó có khả năng vay tín dụng để mua nhà

⇒ Dream Housing có thể dựa vào những thông số này để quyết định đầu tư vào những khách hàng đã từng sử dụng tín dụng để có thể cho họ vay tín dụng và mua nhà

Theo SBV: “Hộ gia đình sử dụng vốn tín dụng chính thức chiếm tỷ lệ cao Điều tra theo khảo sát từ 1.200 hộ gia đình cho thấy, người dân được tiếp cận nguồn vốn chính thức càng nhiều, họ càng có những nhận thức tích cực về nguồn vốn này Tỷ lệ hộ vay nguồn vốn chính thức chiếm 77,67%/tổng số hộ (932/1200), chưa kể đến khoảng 4,08% vay cả hai nguồn chính thức và phi chính thức Chỉ khoảng hơn 20% người dân sử dụng nguồn vốn phi chính thức hoặc không có nhu cầu vay vốn”

• Property Area (Khu vực bất động sản):

Hình 13 Biểu đồ khu vực sinh sống Theo biểu đồ, những khách hàng ở sống ở khu vực nông thôn chiếm khoảng 29% trên tổng số khách hàng và trong đó những khách hàng có khả năng vay tín dụng chiếm khoảng 18% Khách hàng ở khu vực bán đô thị chiếm khoảng 38%, trong đó số khách hàng có khả năng vay tín dụng chiếm khoảng 29% Và cuối cùng, những khách hàng sống ở khu vực đô thị chiếm khoảng 33%, trong đó những khách hàng có khả năng vay tín dụng chiếm khoảng 21.6% Ta có thể thấy rằng, những khách hàng sống ở khu vực bán đô thị có khả năng vay tín dụng cao nhất, chính vì thế Dream Housing nên quyết định đầu tư vào những khách hàng sống ở khu vực này

Hình 14 Biểu đồ khoản tiền vay Theo biểu đồ, chúng ta có thể thấy được rằng số tiền vay mà khách hàng mong muốn vay khoảng 150.000 - 200.000 là chiếm tỉ lệ nhiều nhất Tiếp đến là khoản tiền từ 50.000 - 100.000 Vì vậy, Dream Housing nên quyết định đầu tư vào những khách hàng có khoản vay rơi vào khoảng 150.000 - 200.000 để có được tệp khách hàng đủ điều

• Applicant income (Thu nhập của người nộp đơn):

Hình 15 Biểu đồ thu nhập của người nộp đơn Theo biểu đồ, chúng ta có thể thấy được rằng hầu như các khách hàng nộp đơn có thu nhập cá nhân rơi vào khoảng 5.000-10.000 là có khả năng vay tín dụng cao nhất, chiếm 69.23% trong

559 khách hàng Qua đó, Dream Housing có thể dựa vào thông tin này để đầu tư vào những khách hàng có khoảng thu nhập như trên

1.3 Kết luận thông qua các kết quả đạt được:

Thông qua các kết quả đạt được, ta có thể thấy rằng số lượng khách hàng có khả năng vay tín dụng đa số là nam, người đã kết hôn, đã tốt nghiệp, đã sử dụng tín dụng, thường ở khu vực bán đô thị, thu nhập rơi vào khoản 5.000 - 10.000, giá trị khoản vay khoảng 150.000 - 200.000… Thông qua các đặc thù, đặc trưng cơ bản này có thể giúp cho Dream Housing biết được tệp khách hàng nào có khả năng vay tín dụng để mua nhà Tỷ lệ khách hàng có khả năng vay tín dụng không chỉ phụ thuộc vào một yếu tố riêng lẻ mà nó còn phụ thuộc vào tất cả dữ liệu được đưa ra Ngoài ra còn có những tác động ngoại cảnh mà dữ liệu không thể thu thập được như sự quen biết, yếu tố tình cảm… Dữ liệu trong bài chỉ mang tính chất đặc trưng

Bài toán 2: Dự đoán khả năng điều kiện để cho khách hàng vay mua nhà

Phương pháp phân lớp (Classification): “

Phân lớp dữ liệu là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp Mô hình này đã được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó Quá trình gán nhãn cho một đối tượng dữ liệu chính là quá trình phân lớp “

Quá trình phân lớp dữ liệu gồm 2 bước chính:

➢ Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)

• Dữ liệu đầu vào: là dữ liệu đã được gán nhãn và tiền xử lý.’’

• Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật…

• Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp)

➢ Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ.”

• Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

• Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý Tuy nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn

• Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình

• Bước 2.2: Phân lớp dữ liệu mới

• Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)

• Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1.”

Các thuật toán phân lớp được sử dụng trong bài:

• Cây quyết định (Decision Tree): Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước

• Hồi quy logistic (Logistic Regression): Là phương pháp nhằm kiểm tra tính hiệu quả của mô hình phân lớp dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mô hình đó hay không Một mô hình lý tưởng là một mô hình không quá đơn giản, không quá phức tạp và không quá nhạy cảm với nhiễu

• SVM (Support Vector Machine): Là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.”

3.1.2 Mô tả bộ dữ liệu

Nhằm ứng dụng khai phá dữ liệu trong việc đưa ra các quyết định cho vay hợp lý cũng như chỉ ra khả năng chi trả khoản vay của người đi vay, bao gồm 11 thông tin: Gender, Married, Education, Self Employed, ApplicantIncome, CoapplicantIncome, LoanAmount, Loan_Amount_Term, Credit_History và Property_Area là những biến độc lập (biến tác động) và Loan_Status là biến phụ thuộc của 614 khách hàng lấy từ dữ liệu trực tuyến của công ty tài chính Dream Housing Do đó, mong muốn tạo điều kiện tốt nhất cho phần mềm học và dự báo, bộ dữ liệu của 614 khách hàng sẽ được chia thành 2 phần: bộ dữ liệu huấn luyện và bộ dữ liệu dự đoán

3.1.3 Mô tả quá trình Để tận dụng dữ liệu khách hàng nhằm hỗ trợ quyết định cho việc cho vay tín dụng trong công ty tài chính, chúng ta tiến hành phân loại dữ liệu bằng cách xây dựng một mô hình có khả năng dự đoán lớp tương ứng của các yếu tố mới, dựa trên các đặc điểm được cung cấp Điều này đảm bảo tính ứng dụng của mô hình trong việc khai thác dữ liệu khách hàng theo thời gian Để thực hiện quá trình phân lớp, chúng ta cần sử dụng một bộ dữ liệu huấn luyện, còn được gọi là Training Set (trong trường hợp này, đó là bộ dữ liệu đã được phân cụm trong giai đoạn trước) Bằng cách sử dụng Training Set, chúng ta có thể xây dựng một thuật toán học máy Trong quá trình huấn luyện, mô hình sẽ đánh giá dữ liệu nhiều lần để hiểu rõ về các đặc tính của dữ liệu và điều chỉnh mô hình để đạt được mục tiêu đã đề ra

Vấn đề trước mắt là cần đánh giá và thực nghiệm mô hình để xác minh khả năng dự đoán của nó khi gặp phải dữ liệu mới chưa được quan sát trước đó Điều này đảm bảo rằng mô hình thực sự hiệu quả và không gặp vấn đề overfitting (quá khớp) hoặc underfitting (không khớp đúng) Để đánh giá mô hình một cách khách quan và không thiên vị nhất, chúng ta có thể sử dụng bảng Test and Score hoặc Confusion Matrix với các chỉ số đánh giá độ chính xác của mô hình Tuy nhiên, để đạt được điều này, dữ liệu đầu vào cần đáp ứng các tiêu chí sau:

• Để đảm bảo tính khách quan và đúng đắn trong việc đánh giá mô hình, chúng ta cần tách riêng tập dữ liệu huấn luyện (Training Set) và tập dữ liệu kiểm thử (Testing Set) Testing Set sẽ được giữ bên ngoài và không tham gia vào quá trình huấn luyện của mô hình

• Cả hai tập dữ liệu cần tuân theo một phân phối xác suất Điều này đảm bảo rằng dữ liệu trong cả hai tập đều có tính đại diện và không gây thiên lệch trong quá trình đánh giá và kiểm thử mô hình

• Phương án đề ra là sử dụng dữ liệu được huấn luyện 70% (Data Train) và dữ liệu dự đoán 30% (Data Forecast)

3.2 Quy trình xây dựng mô hình

3.2.1 Các bước xây dựng mô hình “

Bước 1: Sử dụng file “Data Train”→ Nối File và 3 phương pháp SVM, Tree và Logistic Regression với Test and Score → Nối Test and Score với Confusion Matrix để thực hiện đánh giá kết quả và đánh giá ma trận nhầm lẫn

Bước 2: Liên kết phương pháp tốt nhất với file “Data Train” và nối file này vào công cụ Prediction cùng với đó nối file “Data Forecast” vào công cụ Prediction để tiến hành dự báo

Bước 3: Xuất kết quả dự báo qua Data Table”

Hình 16: Mô hình phân lớp dự đoán khả năng khách hàng đủ điều kiện vay để mua nhà

3.2.2 Đánh giá mô hình phân lớp

Theo ma trận nhầm lẫn (Confusion Matrix) ta có:

❖ Yes: khách hàng đủ điều kiện để vay

❖ No: khách hàng không đủ điều kiện để vay

Sai lầm loại I: Dự đoán là không đủ điều kiện vay (N) nhưng thực tế thì đủ điều kiện vay

(Y) Điều này dẫn đến công ty tài chính mất đi một khoản tiền lãi đến từ việc cho khách hàng vay

Sai lầm loại II: Dự đoán là đủ điều kiện vay (Y) nhưng thực tế thì không nên cho vay (N)

Sai lầm này ảnh hưởng đến công ty tài chính bởi vì nếu cho những người không có khả năng chi trả vay tiền thì công ty tài chính sẽ tăng nguy cơ rủi ro cũng như tăng về các khoản nợ xấu, nợ khó đòi có khả năng ảnh hưởng đến uy tín, danh tiếng của công ty

Hình 17: Kết quả phương pháp SVM

Hình 18: Kết quả phương pháp Tree

Hình 19: Kết quả phương pháp Logistic Regression

❖ Thông qua việc quan sát kết quả của ma trận nhầm lẫn của 3 phương pháp trên, ta thấy rằng:

❖ Sai lầm loại I: SVM (11.3%) < Logistic Regression (11.8%) < Tree (49.0%)

❖ Sai lầm loại II: Logistic Regression (19.8%) < SVM (20.6%) < Tree (22.1%)

Trong 3 phương pháp, thì Logistic Regression là phương pháp có tỷ lệ phần trăm sai lầm loại II bé nhất (19.8%) Từ đó ta tiến hành sử dụng phương pháp Logistic Regression để chạy mô hình dự báo

3.2.3 Kết quả dự báo và nhận xét

Hình 20: Kết quả dự báo

Bài toán 3: Phân cụm/ nhóm khách hàng không đủ điều kiện vay mua nhà

- Sử dụng Excel và phần mềm Orange để xử lý dữ liệu và giải quyết bài toán: PHÂN CỤM/ NHÓM KHÁCH HÀNG KHÔNG ĐỦ ĐIỀU KIỆN VAY MUA NHÀ

- Nạp bộ dữ liệu ban đầu đã qua tiền xử lý vào Orange

- Sử dụng Phương pháp k-Means để tiến hành phân cụm dữ liệu

4.1.1 Mô tả phương pháp phân cụm (Clustering)

Phân cụm trong khoa học dữ liệu là một kỹ thuật học không giám sát, trong đó dữ liệu được phân thành các nhóm dựa trên tính tương đồng của chúng Các nhóm này được gọi là cụm

Hình 25: Mô hình quá trình phân cụm dữ liệu

- Các đối tượng trong cùng một cụm sẽ có những tính chất tương tự nhau

- Các đối tượng thuộc cụm/nhóm khác nhau sẽ có các tính chất khác nhau Ý tưởng cơ bản của phân cụm là các điểm dữ liệu trong cùng một cụm sẽ có tính chất giống nhau hơn các điểm dữ liệu trong các cụm khác Tính chất giống nhau này có thể được đo lường bằng các phép đo khoảng cách, chẳng hạn như khoảng cách Euclid hoặc khoảng cách Manhattan Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn Đây là dữ liệu tự nhiên thường thấy trong thực tế

• Các phương pháp phân cụm

Loại Đặc điểm Các phương pháp điển hình

Phân cấp các đối tượng dựa trên một số tiêu chí

Xây dựng các phân hoạch khác nhau và đánh giá chúng Sau đó, tìm cách tối thiểu hóa tổng bình phương độ lỗi

Dựa trên các kết nối giữa các đối tượng và hàm mật độ

Dựa trên lưới (Grid- based approach)

Dựa trên cấu trúc độ chi tiết nhiều cấp STING, Wave

Giả định mỗi cụm có một mô hình và tìm cách fit mô hình đó vào mỗi cụm

Bảng 2 Các phương pháp phân cụm

4.1.2 Mô tả phương pháp K-Means

Thuật toán K-means là một thuật toán phân cụm dựa trên phân vùng Mục tiêu của thuật toán này là phân dữ liệu thành K cụm, sao cho các điểm dữ liệu trong cùng một cụm có khoảng cách trung bình đến tâm cụm nhỏ nhất

- Ưu điểm: Thuật toán thực hiện tương đối nhanh, phù hợp với các cụm có dạng hình cầu

+ Cần biết trước số lượng cụm k

+ Nhạy cảm với nhiễu và ngoại biên (outliers)

+ Không phù hợp với phân bố dữ liệu dạng không lồi (non-convex)

+ Kết quả (nghiệm) bài toán phụ thuộc vào cách khởi tạo các trung tâm cụm ban đầu

4.2 Chạy mô hình và kết quả

Khi thực hiện phân cụm bộ dữ liệu này nhóm đã quyết định dùng phương pháp K-Mean Bước 1: Chọn file “Data đã tiền xử lí.xlsx”

Bước 2: Chọn Select Row để chọn tìm ra nhóm khách hàng không đủ điều kiện vay

Bước 3: Dùng phương pháp K-Means để phân cụm dữ liệu, chọn Number of Clusters từ 2 đến

5, xem xét phân làm bao nhiêu cụm thì tối ưu nhất

Bước 4: Dùng Silhouette Plot để minh hoạ dữ liệu Dữ liệu từ Silhouette có thể được minh hoạ trên Scatter Plot hoặc Data Table

Bước 5: Tìm đặc điểm của các nhóm khách hàng không đủ điều kiện vay mua

Bước 6: Đánh giá và kết luận.”

Hình 26: Mô hình phân cụm 4.2.2 Tiến hành phân cụm với thuật toán K-Means

Hình 27: Bảng phân tích K-Means cho bộ dữ liệu Đối với phương pháp K-Means, để phân tích, đánh giá xem bộ dữ liệu này nên được phân ra bao nhiêu cụm là hợp lý nhất Thì ta phải dựa vào giá trị Silhouette của từng cách phân cụm, sau đó đánh giá và chọn ra số cụm tối ưu Cụ thể như sau, khi quan sát “Bảng phân tích K-Means cho bộ dữ liệu” trên

Nếu phân làm 2 cụm: Chỉ số Silhouette của K-Means= 0.429, chỉ số silhouette cao nhất của các cụm là 0.8, cụm 1 bị phân tách

Hình 28 Kết quả Silhouette Plot của 2 cụm

Nếu phân làm 3 cụm: Chỉ số Silhouette của K-Means= 0.311 chỉ số Silhouette cao nhất của các cụm là 0.6, cụm 1,2 bị phân tách

Hình 29 Kết quả Silhouette Plot của 3 cụm

Nếu phân làm 4 cụm: Chỉ số Silhouette của K-Means= 0.305 chỉ số silhouete cao nhất của các cụm là 0.6 , cụm 1,2,3 bị phân tách

Hình 30 Kết quả Silhouette Plot của 4 cụm

Cụm K - Means Cluster Silhouette Plot

Bảng 3 Bảng tổng hợp kết quả chỉ số Silhouette

Càng phân làm nhiều cụm thì chỉ số Silhouette càng thấp và càng nhiều cụm bị phân tách Giá trị Silhouette trung bình càng cao, càng tiến đến 1 thì phương pháp phân cụm đó sẽ càng chính xác, đáng tin cậy hơn Vì chỉ số Silhouette của 2 phân cụm = 0.8 tiến đến gần 1 nhất, đây là số tối đa => Vậy ta sẽ phân làm 2 cụm

Nhóm thực hiện đánh giá chi tiết từng về giá trị Silhouette của từng cụm của phương pháp phân làm 2 cụm

Hình 33 Kết quả Silhouette Plot

Qua kết quả Silhouette Plot, ta quan sát được thì cụm 1 (màu xanh) với giá trị Silhouette nằm trong khoảng đa số từ thấp hơn -0.8 đến gần 0.1 và cụm 2 (màu đỏ) có giá trị Silhouette nằm trong khoảng đa số từ 0 đến hơn 0.8

Vì các khoảng này đều nằm trong khoảng dương (trừ cụm 1 có khoảng 13 mẫu âm) và hầu hết ở cụm C2 có các mẫu đều tiến về 1

=> Phân cụm theo phương pháp K-Mean cũng khá sát với thực tế và đáng tin cậy

4.3 Kết luận thông qua các kết quả đạt được

Từ các kết quả của Distribution, ta có thể thấy:

Hình 34: Phân bố nhóm khách hàng không đủ điều kiện vay mua nhà theo Tình trạng hôn nhân Đối với thuộc tính Tình trạng hôn nhân, hầu hết các khách hàng đã kết hôn và chưa kết hôn không đủ điều kiện vay để mua nhà tập trung ở cụm 2, tình trạng đã kết hôn nhưng không đủ điều kiện vay để mua nhà chiếm tỉ lệ cao hơn Cụ thể như sau:

• Đối với nhóm khách hàng đã kết hôn: Khoảng 13 khách hàng ở nhóm C1 và cao hơn 100 khách hàng ở nhóm C2 không đủ điều kiện vay mua nhà

• Đối với nhóm khách hàng kkông kết hôn: Dưới 10 khách hàng thuộc nhóm C1, cao hơn

70 khách hàng ở nhóm C2 không đủ điều kiện vay mua nhà

Hình 35: Phân bố nhóm khách hàng không đủ điều kiện vay mua nhà theo Giới tính

Nhân viên Nữ và Nam không đủ điều kiện vay mua nhà đều tập trung ở nhóm C2 với nữ là xấp xỉ 40 và nam là khoảng 140 khách hàng Cụ thể như sau:

• Đối với nhóm C1: khách hàng nữ không đủ điều kiện vay mua nhà khoảng 2 người, khách hàng nam không đủ điều kiện vay mua nhà khoảng tầm gần 20 người

Hình 36: Phân bố nhóm khách hàng không đủ điều kiện vay mua nhà theo Trình độ học vấn Đối với thuộc tính Trình độ học vấn, các khách hàng không đủ điều kiện vay mua nhà cả đã tốt nghiệp và không tốt nghiệp tập trung ở C2, còn C1 chỉ có khách hàng đã tốt nghiệp Cụ thể như sau:

• Đối với nhóm C2: Số khách hàng không đủ điều kiện vay mua nhà đã tốt nghiệp cao hơn gấp đôi số khách hàng không đủ điều kiện vay mua nhà không tốt nghiệp

Hình 37: Phân bố nhóm khách hàng không đủ điều kiện vay mua nhà theo Tự chủ tài chính Đối với thuộc tính Tự chủ tài chính, các khách hàng không đủ điều kiện vay mua nhà cả tự chủ tài chính và không tự chủ tài chính tập chung ở cả 2 cụm Cụ thể như sau:

• Đối với nhóm khách hàng không tự chủ tài chính: Khoảng 18 khách hàng ở C1 và hơn

140 khách hàng ở C2 không đủ điều kiện vay mua nhà

• Đối với nhóm khách hàng tự chủ tài chính: dưới 10 khách hàng thuộc nhóm C1, dưới 40 khách hàng ở nhóm C2 không đủ điều kiện vay mua nhà

Hình 38: Phân bố nhóm khách hàng không đủ điều kiện vay mua nhà theo Số tiền vay Đa số khách hàng không đủ điều kiện vay mua nhà ở nhóm C2 ở mức trung bình, ở C1 rải rác hơn nhưng có số tiền vay cao Cụ thể như sau:

• Đối với nhóm C1: Dưới 20 khách hàng không đủ điều kiện vay mua nhà có số tiền vay từ 220-385 và từ 550-750

• Đối với nhóm C2: Khoảng 100 khách hàng không đủ điều kiện vay mua nhà có số tiền vay từ 100-220, đây là mức vay trung bình

Hình 39: Phân bố nhóm khách hàng không đủ điều kiện vay mua nhà theo Khu vực Đối với thuộc tính khu vực, các khách hàng không đủ điều kiện vay mua nhà ở nông thôn, bán thành thị và thành thị đều tập trung tương đối ở C2, C1 chỉ chiếm 1 phần nhỏ Cụ thể như sau:

• Đối với nhóm C1: Số lượng khách hàng không đủ điều kiện vay mua nhà ở nông thôn sẽ cao hơn bán thành thị và thành thị

• Đối với nhóm C2: Số lượng khách hàng không đủ điều kiện vay mua nhà ở thành thị sẽ cao hơn hai khu vực còn lại

Từ các kết quả của Distribution, ta có thể thấy:

• Tình trạng hôn nhân: o Tỉ lệ khách hàng không đủ điều kiện vay mua nhà có tình trạng hôn nhân chưa kết hôn và đã kết hôn đều tập trung ở cụm 2, nhưng tỉ lệ khách hàng đã kết hôn cao hơn tầm 30 khách hàng o Điều này cho thấy, các khách hàng đã kết hôn thường có thu nhập thấp hơn, hoặc có nhiều trách nhiệm gia đình hơn, khiến họ khó đáp ứng các điều kiện vay mua nhà hơn

• Giới tính: o Tỉ lệ khách hàng không đủ điều kiện vay mua nhà là nam cao hơn nữ Điều này có thể là do nam thường có nhiều trách nhiệm gia đình hơn, khiến họ khó đáp ứng các điều kiện vay mua nhà hơn

Ngày đăng: 12/11/2024, 20:25

HÌNH ẢNH LIÊN QUAN

Hình 4. Kết quả tiền xử lý dữ liệu - Dự Án  môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà
Hình 4. Kết quả tiền xử lý dữ liệu (Trang 17)
Hình 7. Tập dữ liệu thử nghiệm (Testing Set) sau khi tách bằng Data Sampler - Dự Án  môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà
Hình 7. Tập dữ liệu thử nghiệm (Testing Set) sau khi tách bằng Data Sampler (Trang 18)
Hình 8. Quá trình lấy mẫu dữ liệu - Dự Án  môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà
Hình 8. Quá trình lấy mẫu dữ liệu (Trang 19)
Hình 11: Biểu đồ trình độ học vấn - Dự Án  môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà
Hình 11 Biểu đồ trình độ học vấn (Trang 22)
Hình 16: Mô hình phân lớp dự đoán khả năng khách hàng đủ điều kiện vay để mua nhà - Dự Án  môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà
Hình 16 Mô hình phân lớp dự đoán khả năng khách hàng đủ điều kiện vay để mua nhà (Trang 30)
Hình 17: Kết quả phương pháp SVM - Dự Án  môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà
Hình 17 Kết quả phương pháp SVM (Trang 31)
Hình 19: Kết quả phương pháp Logistic Regression - Dự Án  môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà
Hình 19 Kết quả phương pháp Logistic Regression (Trang 32)
Hình 22. Mô hình xây dựng phân tích chuyên sâu hồi quy logistic và cây quyết định - Dự Án  môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà
Hình 22. Mô hình xây dựng phân tích chuyên sâu hồi quy logistic và cây quyết định (Trang 34)
Hình 26: Mô hình phân cụm  4.2.2 Tiến hành phân cụm với thuật toán K-Means - Dự Án  môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà
Hình 26 Mô hình phân cụm 4.2.2 Tiến hành phân cụm với thuật toán K-Means (Trang 41)
Hình 28. Kết quả Silhouette Plot của 2 cụm - Dự Án  môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà
Hình 28. Kết quả Silhouette Plot của 2 cụm (Trang 43)
Hình 29. Kết quả Silhouette Plot của 3 cụm - Dự Án  môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà
Hình 29. Kết quả Silhouette Plot của 3 cụm (Trang 44)
Hình 30. Kết quả Silhouette Plot của 4 cụm - Dự Án  môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà
Hình 30. Kết quả Silhouette Plot của 4 cụm (Trang 45)
Hình 31. Cluster 1 - Dự Án  môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà
Hình 31. Cluster 1 (Trang 46)
Hình 38: Phân bố nhóm khách hàng không đủ điều kiện vay mua nhà theo Số tiền vay - Dự Án  môn học khoa học dữ liệu Đề tài dự Đoán khả năng Đủ Điều kiện vay Để mua nhà
Hình 38 Phân bố nhóm khách hàng không đủ điều kiện vay mua nhà theo Số tiền vay (Trang 51)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w