1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Phân tích và dự đoán về sự chấp nhận của khách hàng trong vấn đề chuyển khoản nợ thành khoản vay

34 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 34
Dung lượng 2,73 MB

Cấu trúc

  • CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI (4)
    • 1.1. Lý do chọn đề tài (4)
    • 1.2. Mục tiêu đề tài (4)
    • 1.3. Đối tượng và phạm vi nghiên cứu của đề tài (4)
    • 1.4. Công cụ sử dụng (4)
    • 1.5. Ý nghĩa nghiên cứu (5)
    • 1.6. Cấu trúc đề tài (5)
  • CHƯƠNG 2. CƠ SỞ LÝ THUYẾT (5)
    • 2.1. Tổng quan về Khoa học dữ liệu (5)
    • 2.2. L ợi ích của Khoa học dữ liệu trong kinh doanh quản lý (6)
    • 2.3. Quy trình thực hiện dự án Khoa học dữ liệu (6)
    • 2.4. Lý thuyết và các phương pháp trong phân tích dữ liệu (7)
      • 2.4.1. Phương pháp phân lớp (7)
      • 2.4.2. Các phương pháp đánh giá mô hình phân lớp (11)
  • CHƯƠNG 3. PHÂN TÍCH YÊU CẦU NGƯỜI DÙNG VÀ MÔ TẢ DỮ LIỆU (14)
    • 3.1. Xác định và phân tích yêu cầu người dùng (14)
    • 3.2. Tổng quan về cơ sở dữ liệu nguồn (15)
      • 3.2.1. Mô tả dữ liệu nguồn (15)
      • 3.2.2. Dữ liệu cần phân tích đối với yêu cầu người dùng (0)
  • CHƯƠNG 4. PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ (18)
    • 4.1 Giới thiệu giải pháp và quy trình thực hiện (18)
    • 4.2. Phân tích và trực quan hóa kết quả (nếu có) (18)
    • 4.3 Thảo luận và đánh giá về kết quả phân tích và các đề xuất hỗ trợ ra quyết định (32)
  • CHƯƠNG 5. KẾT LUẬN (32)
    • 5.1. Kết quả đạt được (32)
    • 5.2. Hạn chế (33)
    • 5.3. Hướng phát triển đề tài (33)

Nội dung

Đề tài: PHÂN TÍCH VÀ DỰ ĐOÁN VỀ SỰ CHẤP NHẬN CỦA KHÁCH HÀNG TRONG VẤN ĐỀ CHUYỂN KHOẢN NỢ THÀNH KHOẢN VAY GVHD: ThS.. Mục tiêu đề tàiGiới thiệu phương pháp phân lớp khác nhau Logistic Reg

CƠ SỞ LÝ THUYẾT

Tổng quan về Khoa học dữ liệu

- “Khoa học dữ liệu là ngành khoa học về việc khai phá, quản trị và phân tích dữ liệu để dự đoán các xu hướng trong tương lai và đưa ra các quyết định, chiến lược hành động.”

- Nhiều doanh nghiệp, bất kể quy mô, đều sử dụng một chiến lược khoa học dữ liệu như một cách hiệu quả để thúc đẩy tăng trưởng và duy trì lợi thế cạnh tranh trên thị trường Một số lợi ích chính bao gồm: khám phá các mẫu biến đổi tiềm ẩn; sáng tạo các sản phẩm và giải pháp mới; tối ưu hóa trong thời gian thực;

- Khoa học dữ liệu gồm 3 phần chính:

+ Tạo ra giá trị và quản trị dữ liệu

+ Phân tích dữ liệu về lĩnh vực cụ thể

+ Chuyển kết quả phân tích thành giá trị hành động.

L ợi ích của Khoa học dữ liệu trong kinh doanh quản lý

- Khoa học dữ liệu giúp con người mô tả, chẩn đoán, dự đoán, và đề xuất từ đó đưa ra quyết định và hành động chính xác và hiệu quả nhất Ví dụ: cụ thể là trong bài toán đặt ra ở trên về dự đoán số lượng khách hàng chấp nhận chuyển đổi từ khoản nợ sang khoản vay; với một lượng lớn dữ liệu cần được xử lý trong bài toán thì việc ứng dụng khoa học dữ liệu, khai thác các phương pháp và tính năng trong nó để xử lý bài toán là hoàn toàn phù hợp và đem lại hiệu quả cao

- Khoa học dữ liệu giúp các doanh nghiệp phân tích kinh doanh nhằm quản lý nhân sự, hiểu khách hàng, quyết định đầu tư vào thị trường nào và bán sản phẩm gì

- Vai trò của khoa học dữ liệu thể hiện qua 6 bài toán của doanh nghiệp như tài chính, khách hàng, bán hàng, thị trường, nhân sự, hiểu khách hàng, quyết định đầu tư và thị trường nào và bán sản phẩm gì

- Khi nguồn dữ liệu là rất lớn và cần được xử lý thì cần áp dụng những ứng dụng của khoa học dữ liệu vào mô hình kinh doanh.

Quy trình thực hiện dự án Khoa học dữ liệu

- Quy trình thực hiện được yêu cầu như sau:

+ Thu thập dữ liệu và hiểu dữ liệu (Data collection and understanding): dữ liệu có thể tồn tại từ trước, mới được thu thập hoặc là một kho dữ liệu có thể tải xuống từ Internet

+ Tiền xử lý dữ liệu (Data preprocessing): là quy trình chuẩn hóa dữ liệu dựa theo một định dạng được định trước Quy trình này bao gồm xử lý dữ liệu còn thiếu, sửa lỗi dữ liệu và loại bỏ mọi dữ liệu ngoại lai

+ Chuyển đổi dữ liệu (Data transformation): là thao tác phân tích sơ bộ dữ liệu được sử dụng để lập kế hoạch kỹ hơn cho các chiến lược mô hình hóa dữ liệu + Phân tích d ữliệu-Ra quyết định (Data Analysis,making decisions): là một quá trình thu th p d ậ ữliệu thô và sau đó chuyển đổi nó thành thông tin h u ích cho viữ ệc ra quyết định của người dùng Dữ liệu được thu thập và phân tích để trả ờ l i các câu hỏi, kiểm tra các gi thuyả ết hoặc bác b các l thuyỏ ý ết

+ Diễn giải kết quả và đưa ra đánh giá (Interpretation and Evaluation): Các nhà khoa học dữ liệu hợp tác cùng các chuyên gia phân tích và doanh nghiệp để chuyển đổi thông tin chi tiết về dữ liệu thành hành động Họ tạo ra các sơ đồ, đồ thị và biểu đồ để thể hiện những xu hướng và dự đoán Tóm tắt dữ liệu giúp các bên liên quan hiểu rõ và triển khai kết quả một cách hữu hiệu.

Lý thuyết và các phương pháp trong phân tích dữ liệu

2.4.1.1 Cây quyết định (Decision Tree)

+ Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định

+ Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước

+ Ưu điểm: Dễ hiểu hông đòi hỏi việc chuẩn hóa dữ liệu ó thể xử lý , k , c trên nhiều kiểu dữ liệu khác nhau, xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn + Khuyết điểm: Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian, chi phí xây dựng mô hình cao.

2.4.1.2 Hồi quy logistic (Logistic Regression):

- Định nghĩa: “là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu vào (biểu diễn dưới dạng vector).”

+ “SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.”

+ Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể

+ SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau

- Các biến thể của SVM:

Hai lớp cần phân lớp là có thể phân chia tuyến tính (linearly seperable)

Hai lớp cần phân lớp là “gần” phân chia tuyến tính (almost linear seperable)

Phân lớp đa lớp (biên giữa các lớp là tuyến tính)

Kernel SVM Dữ liệu là phi tuyến

● Tiết kiệm bộ nhớ (do quá trình test chỉ cần so với điểm dữ liệu mới với mặt siêu phẳng tìm được mà không cần tính toán lại)

● Linh hoạt: vừa có thể phân loại tuyến tính và phi tính (sử dụng các kernel khác nhau)

● Xử lý được trong không gian nhiều chiều

● Trong trường hợp số chiều dữ liệu lớn hơn số dòng dữ liệu thì SVM cho kết quả không tốt

● Chưa thể hiện tính xác suất trong phân lớp

- Khái niệm: “Neural Network là mạng nơ ron nhân tạo, đây là một chuỗi - những thuật toán được đưa ra để tìm kiếm các mối quan hệ cơ bản trong tập hợp các dữ liệu Thông qua việc học theo cách thức hoạt động từ não bộ con người.”

● Có thể xây dựng một mô hình tính toán có khả năng học dữ liệu rất cao

● Thích ứng với nhiều loại thông số

● Yêu cầu số liệu thống kê tối thiểu đào tạo

● Phát hiện các mối quan hệ phức tạp giữa đầu vào và đầu ra

● Khó lập mô hình phân tích do sự nhạy cảm với những thay đổi ở đầu vào dữ liệu

● Yêu cầu lượng lớn tài nguyên để có thể vận hành

● Mạng hoạt động không tốt với các tập dữ liệu nhỏ

- Khái niệm: “Random forest là một phương pháp thống kê mô hình hóa bằng máy dùng để phục vụ các mục đích phân loại, tính hồi quy và các nhiệm vụ khác bằng cách xây dựng nhiều cây quyết định.”

● Là một phương pháp chính xác và mạnh mẽ, không bị vấn đề về overfitting, lý do chính là nó mất trung bình của tất cả các dự toán

● Sử dụng trong cả hai vấn đề phân loại và hồi quy

● Xử lý được các giá trị còn thiếu bằng cách sử dụng các giá trị trung bình để thay thế các biến liên tục và tính toán mức trung bình gần kề của các giá trị bị thiếu + Nhược điểm:

● Tốn thời gian và mô hình khó hiểu hơn cây quyết định

2.4.2 Các phương pháp đánh giá mô hình phân lớp:

+ “Là các phương pháp nhằm kiểm tra tính hiệu quả của mô hình phân lớp trên dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mô hình đó hay không.” + Một mô hình lý tưởng là một mô hình không quá đơn giản, không quá phức tạp và không quá nhạy cảm với nhiễu (tránh underfitting và overfitting)

2.4.2.1 Ma trận nhầm lẫn (Confusion Matrix):

- “Ma trận nhầm lẫn là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc vào một lớp cụ thể, và được dự đoán là rơi vào lớp nào Confusion matrix là có kích thước k x k với k là số lượng lớp của dữ liệu.”

Xét ví dụ, bài toán dự đoán vay nợ, có 2 lớp Lớp có vay nợ (Positive) và lớp không vay nợ (Negative)

● True positive (TP): Số các trường hợp dự đoán có vay nợ đúng hay có vay nợ thật

● True negative (TN): Số các trường hợp dự đoán không vay nợ đúng hay không vay nợ thật

● False positive (FP): Số các trường hợp dự đoán có vay nợ sai hay không vay nợ

● False negative (FN): Số các trường hợp dự đoán không vay nợ sai hay có vay nợ

- Tính chính xác (Accuracy): Là tỷ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu, nhưng không chỉ ra được cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác

- Độ chính xác (Precision): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao nhiêu mẫu có đúng

- Độ phủ (Recall) còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate)

- F1 -score: giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision và Recall

- ROC (Receiver Operating Characteristic): “Là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phân loại nhị phân Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo True positive rate (TPR) dựa trên tỷ lệ dự báo False positive rate (FPR) tại các ngưỡng khác nhau.”

- AUC (Area Under the Curve): “là diện tích nằm dưới đường cong ROC; giá trị này là một số dương nhỏ hơn hoặc bằng 1; giá trị này càng lớn thì mô hình càng tốt.”

2.4.2.2 Phương pháp phân chia giữ liệu Hold-out:

Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo một tỷ lệ nhất định Ví dụ, tập huấn luyện (training set) chiếm 70%, tập thử nghiệm (testing set) chiếm 30%

Phương pháp này thích hợp cho các tập dữ liệu nhỏ Tuy nhiên, các mẫu có thể không đại diện cho toàn bộ dữ liệu (thiếu lớp trong tập thử nghiệm)

Có thể cải tiến bằng cách dùng phương pháp lấy mẫu sao cho mỗi lớp được phân bố đều trong cả 2 tập dữ liệu huấn luyện và đánh giá Hoặc lấy mẫu ngẫu nhiên : thực hiện holdout k lần và độ chính xác acc(M) = trung bình cộng k giá trị chính xác

PHÂN TÍCH YÊU CẦU NGƯỜI DÙNG VÀ MÔ TẢ DỮ LIỆU

Xác định và phân tích yêu cầu người dùng

Bài toán dự đoán số khách hàng cũ đang có khoản nợ với ngân hàng có quyết định chuyển đổi thành khoản vay không Việc chuyển đổi khoản nợ thành khoản vay là hành động có lợi cho cả hai bên khách hàng và ngân hàng nếu cả hai đều đưa ra các hành động đúng đắn

- Đối với khách hàng, nếu chuyển khoản nợ mà khách hàng đang nợ ngân hàng thành khoản vay thì khách hàng có quyền lợi là được hưởng chiết khấu nếu trả trong thời gian được quy định trong hợp đồng thay vì phải trả hết khoản nợ và phần lãi vay phát sinh thêm sau thời gian chuyển đổi Ví dụ, khi chuyển từ nợ thành lãi vay khách hàng sẽ được áp dụng ưu đãi 2/30, nghĩa là khi trả tiền vay trong 30 ngày đầu thì sẽ được hưởng 2% số tiền giảm cho khoản vay phải trả, còn nếu sau đó thì không được giảm mà vẫn phải trả tiền với số lãi vay kèm theo Trong trường hợp khách hàng không chuyển thành lãi vay thì sẽ không có được khoản giảm giá nếu trả sớm trong

30 ngày như khi đã chuyển đổi

- Về phía ngân hàng, khi khách hàng chuyển đổi thành nợ vay và trả sớm theo thời gian quy định trong hợp đồng và được hưởng chiết khấu thì ngân hàng thu về khoản tiền đó sớm, làm tăng nguồn tiền tại ngân hàng và không phải lo lắng về các rủi ro phát sinh về việc có nhiều khoản phải thu nhưng lại thiếu hụt về dòng tiền.

Tổng quan về cơ sở dữ liệu nguồn

Dữ liệu bao gồm thông tin nhân khẩu học của khách hàng (tuổi, thu nhập, v.v.), mối quan hệ của khách hàng với ngân hàng (thế chấp, tài khoản chứng khoán, v.v.) và phản ứng của khách hàng đối với chiến dịch cho vay cá nhân gần đây nhất (Personal Loan)

3.2.1 Mô tả dữ liệu nguồn

Mô tả bộ dữ liệu khai thác:

Bộ dữ liệu được sử dụng là tổng hợp thông tin của 5000 khách hàng Trong số

5000 khách hàng này, chỉ có 480 (= 9,6%) chấp nhận khoản vay cá nhân được cung cấp cho họ trong chiến dịch trước đó

Sau đây là cấu trúc của tập dữ liệu:

Thuộc tính Ý nghĩa Mô tả

EXPERIENCE Sô năm kinh nghiệm

INCOME Thu nhập hàng năm 49,34,

ZIP CODE Mã địa chỉ nhà 91107,90089,

FAMILY Quy mô gia đình (1,

CCAvg Trung bình chi tiêu trên thẻ tín dụng mỗi tháng (1000 đô la)

EDUCATION Trình độ học vấn

(1: Đại học; 2: Cao học; 3: Cao cấp/Chuyên nghiệp)

MORTAGE Giá trị thế chấp nhà ở nếu có ($1000)

Khách hàng này có chấp nhận khoản vay cá nhân được cung cấp trong chiến dịch trước không? (0- Không,1-Có)

Khách hàng có tài khoản chứng khoán tại ngân hàng này không?

CD_ACCOUNT Khách hàng có tài khoản chứng chỉ tiền gửi (CD) tại ngân hàng này không?

Khách hàng có sử dụng các tiện ích ngân hàng trực tuyến (Internet Banking) không?

CREDIT CARD Khách hàng có sử dụng thẻ tín dụng do Universal Bank phát hành không? (0- Không,1-Có)

3.2.2 Lựa chọn và trình bày dữ liệu cần phân tích đối với yêu cầu người dùng

Lấy những dữ liệu “Income”, “Age”, “Experience”, “Family”, “Education”,

“CCAvg”, “Mortgage”, “Personal loan” để phân tích đối với yêu cầu người dùng.

PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ

Giới thiệu giải pháp và quy trình thực hiện

- Sử dụng các thông tin mà khách hàng đã cung cấp cho ngân hàng khi tham gia vào quá trình mượn nợ tại ngân hàng để thực hiện các phương pháp, mô hình phân tích và đưa ra dự đoán, giải pháp chính xác và thực tế nhất

+ Tiền xử lý dữ liệu Bao gồm các bước làm sạch dữ liệu: tóm tắt hóa dữ liệu, xử lý dữ liệu bị thiếu, bị nhiễu Bước này xử lý bằng phần mềm Orange, được gọi là lọc các dữ liệu ngoại lai

+ Lựa chọn các thuộc tính cần thiết để đưa vào phân tích

+ Thực hiện các phương pháp phân lớp và phương pháp đánh giá mô hình phân lớp Từ đó chọn ra phương pháp phân lớp chính xác nhất

+ Dùng phương pháp đã chọn ra ở bước trên để dự đoán kết quả Sau khi dự đoán, đem kết quả đi so sánh với số liệu đã được dán nhãn

+ Cuối cùng đưa ra đánh giá và kết luận.

Phân tích và trực quan hóa kết quả (nếu có)

4.2.1 Phân tích dữ liệu Bank Personal Loan Modeling:

4.2.1.1 Tiền xử lý dữ liệu:

- Thực hiện xử lý dữ liệu tại phần mềm Orange, bao gồm các bước: + Đưa dữ liệu Bank_loan vào file trong Orange

+ Loại bỏ các thuộc tính không cần thiết bằng cách chọn “skip” ở cột

“Role” Các thuộc tính được chọn để skip trong bài này là “ID”, “ZIP code”

+ Chọn thuộc tính “Personal Loan” làm “target” vì nó là biến phụ thuộc

+ Quan sát dữ liệu bằng Data table, ta có thể thấy số dữ liệu còn thiếu (Missing Values) là 0%

+ Tiến hành lọc ngoại lai để rút ngắn dữ liệu và tăng độ chính xác của kết quả dự đoán

Ta thấy có 423 instances ngoại lai đã được loại bỏ và giữ lại 4577 instances

+ Sử dụng Data Sampler để lấy mẫu dữ liệu theo tỷ lệ 70% dữ liệu huấn luyện, 30% dữ liệu dự đoán.

+ Tập dữ liệu được lấy gồm có 3204 dữ liệu khi thực hiện huấn luyện với 70%, 1373 dữ liệu dự đoán tương đương 30%

+ Dùng công cụ Select Columns để loại bỏ các thuộc tính không anh hưởng đến quyết định chuyển đổi của khách hàng Đưa các thuộc tính có liên quan là

“Income”, “Age”, “Experience”, “Family”, “Education”, “CCAvg”, “Mortgage” vào cột Features, các thuộc tính không có ý nghĩa trong phân tích đưa vào cột Ignored Chọn “Personal Loan” làm Target

- Phân tích dữ liệu: nhóm chúng tôi sử dụng 5 phương pháp phân lớp như sau để đưa ra dự đoán

+ Phương pháp Cây quyết định (Decision Tree)

+ Hồi quy logistic (Logistic Regression):

Sử dụng công cụ Test and Score để đánh giá các mô hình phân lớp đã sử dụng ở trên bằng cách nối các phương pháp phân lớp và Select Columns với Test and Score Tại bảng Test and Score, chọn chia tỷ lệ lấy mẫu, chọ tỷ lệ lấy mẫu tại Cross Valisation hoặc Random Sampling để có được chỉ số đẹp nhất

● Chọn tỷ lệ tại Random Sampling với Repeat train/test: 50 và Training set size: 90%

● Chọn tỷ lệ tại Random Sampling với Repeat train/test: 20 và Training set size: 70%

● Chọn tỷ lệ lấy mẫu Cross Validation tại Number of folds bằng 10

● Chọn tỷ lệ lấy mẫu Cross Validation tại Number of folds bằng 5

Nhận xét: Evalution Results cho ta biết kết quả định lượng của 5 mô hình Decision Tree, Logistic Regression, SVM, Neural Network, Random Forest giá trị nào là giá trị cao nhất Khi xem xét các chỉ số từ việc lựa chọn lấy mẫu ngẫu nhiên qua các trường hợp trên ta thấy mô hình Random Forest ở trường hợp chia mẫu dữ liệu thành

5 phần là có chỉ số cao và phù hợp nhất

● Giá trị trung bình điều hòa (F1): 98.5%

● Diện tích đường cong (AUC): 99.5%

+ Để thêm phần chắc chắn về việc sử dụng mô hình nào là chính xác và tốt nhất ta sử dụng phương pháp đánh giá mô hình phân lớp bằng Ma trận nhầm lẫn (Confusion matrix)

● Kết quả ma trận nhầm lẫn của Decision Tree

● Kết quả ma trận nhầm lẫn của Logistic Regresssion

● Kết quả ma trận nhầm lẫn của SVM

● Kết quả ma trận nhầm lẫn của Neural Network

● Kết quả ma trận nhầm lẫn của Random Forest

Nhận xét: Tại Confusion Matrix, mô hình tốt nhất và chính xác nhất khi có sai lầm loại 1 và loại 2 là thấp nhất Nhìn vào các số liệu trên, ta thấy mô hình Random Forest là phù hợp nhất với tỉ lệ sai nhỏ nhất: sai lầm loại 1 là 2.6%, sai lầm loại 2 là 1.4%

+ Phương pháp đánh giá thứ 3 là ROC Analysis: Đường cong với biến y là 0 Đường cong với biến y là 1

Nhận xét: Một mô hình là hiệu quả khi có đường cong ROC càng tiệm cận với điểm (0;1) Nên khi nhìn hình thể hiện đường cong ROC của biến y ta thấy được mô hình Random Forest có đường cong ROC tiệm cận với điểm (0;1) nhất nên mô hình này hiệu quả nhất so với 4 mô hình còn lại

Kết luận phương pháp dự đoán: Random Forest là phương pháp tốt nhất Vì các lý do sau:

● Có AUC hay diện tích nằm dưới đường cong ROC là lớn nhất

● Có tính chính xác (CA) cao nhất

● Có sai tỉ lệ 2 sai lầm nhỏ nhất

● Có hiệu quả cao nhất do đường cong ROC tiệm cận với điểm (0;1)

Ta tiến hành dùng phương pháp Random Forest đã được chọn để dự báo 1373 mẫu (30% mẫu dự đoán đã được chia phần tiền xử lý dữ liệu)

Sử dụng Prediction để dự báo dữ liệu theo phương pháp Random Forest bằng cách nối Data Sample và Random Forest với Predictions, từ Prediction nối và Data Table mới để nhận và xem kết quả dự báo ở Data Table vừa nối vào

Kết quả mô hình dự báo 1373 mẫu.

Thảo luận và đánh giá về kết quả phân tích và các đề xuất hỗ trợ ra quyết định

Mục tiêu ban đầu của nhóm đã hoàn thành được là dự báo được những khách hàng đồng ý chuyển đổi khoản nợ cá nhân thành khoản vay cá nhân giúp ngân hàng dự đoán được số nợ phải thu sẽ thu được trong một khoảng thời gian nhất định Từ đó, ngân hàng đưa ra được các quyết định đúng đắn nhất về việc sử dụng các nguồn lực hiện có tại ngân hàng, mà cụ thể là tiền để thực hiện các hoạt động đầu tư và cho vay một các hợp lý nhất.

Ngày đăng: 08/04/2024, 08:03

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w