Phân tích Bộ dữ liệu Tổ chức Tài chính và Dự báo Xét duyệt Hồ sơ Vay

MỤC LỤC

Phân lớp dữ liệu ( Classification)

Có rất nhiều phương pháp phân lớp dữ liệu được sử dụng dùng để dự báo dự liệu, có thể kể đến như Hồi quy Logistic (Logistic Regression), SVM (Support Vector Machine), Cây quyết định (Decision Tree), Naive Bayes, Neural Network,… Các phương phỏp sẽ được liệt kờ rừ hơn ở bờn dưới. Ứng dụng của Neural Network có ở rất nhiều lĩnh vực như tài chính, giao dịch, phân tích kinh doanh, lập các kế hoạch cho doanh nghiệp, hay quản trị rủi ro doanh nghiệp,… Ngoài ra, Neural Network còn được sử dụng ở nhiều lĩnh vực khác như dự báo thời tiết, đánh giá rủi ro doanh nghiệp,.

Hình 2: Minh họa thuật toán phân lớp Support Vector Machine (SVM)
Hình 2: Minh họa thuật toán phân lớp Support Vector Machine (SVM)

MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT

+ ROC (Receiver Operating Characteristic): Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo failse positive rate (FPR) tại các ngưỡng giá trị khác nhau. ROC được sử dụng khá phổ biến trong đánh giá các mô hình phân loại nhị phân. + AUC (Area Under the Curve): Là thước đo khả năng phân biệt các lớp của mô hình phân loại.

Công nghệ phân lớp dữ liệu đã, đang và sẽ phát triển mạnh mẽ trước những khao khát tri thức của con người. Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau như học máy (machine learning), hệ chuyên gia (expert system), thống kê (statistics). - Trong lĩnh vực tài chính ngân hàng: dự báo khả năng thanh toán nợ của khách hàng, đánh giá rủi ro tài chính, dự báo khả năng sinh lời của tài sản,….

Thuộc tính Ý nghĩa Mô tả loan_id Số ID nhận dạng hồ sơ tài chính đi.

KẾT QUẢ THỰC HIỆN

Tiền xử lý

    Qua mô tả thống kê ta có thể thấy một số thông tin thú vị như: Với bộ dữ liệu này số lượng hồ sơ được chấp thuận là đa số, giá trị tài sản của các bộ hồ sơ cho vay là rất cao. Ngoài ra ta thấy rừ được cỏc giỏ trị trung bỡnh, trung vị và mode của cỏc thuộc tính đều đạt các giá trị rất cao, thể hiện điều kiện vay và quy mô vay của các khoản này đều rất lớn. Mặc dù công ty tài chính tập hợp đến 4269 hồ sơ cho vay và rất nhiều thông tin liên quan, chứng tỏ đây là bộ dữ liệu khá lớn nhưng dữ liệu gốc lại không xuất hiện Missing data hay dữ liệu bị thiếu.

    Từ đó, ta thấy rằng quá trình thu thập, ghi nhận và xử lí dữ liệu của công ty tài chính vô cùng cẩn thận, không xảy ra sai sót và giúp cho quá trình nghiên cứu phân tích sau sẽ hiệu quả hơn, đạt được kết quả tích cực hơn. -Đồng thời, thuộc tính “Loan_ID” chỉ có mục đích phân loại và nhận dạng cho từng hồ sơ này không tác động đến kết quả dự báo đầu ra nên Role của thuộc tính này được nhóm điều chỉnh “Skip”. Sau khi quan sát và nghiên cứu bộ dữ liệu, cũng như tìm hiểu trong thực tế thì nhóm cho rằng thuộc tính “no_of_dependents” không có ảnh hưởng lớn đến biến phụ thuộc “Loan_status”.

    Đồng thời, khi sử dụng công dụng Rank để phân tích ảnh hưởng của các biến đến biến phụ thuộc thì nhóm thấy biến này cũng có giá trị Gain ratio và Gini rất thấp, cả hai đều có giá trị bằng 0.

    Hình 7: Type và Role ban đầu của các thuộc tính.
    Hình 7: Type và Role ban đầu của các thuộc tính.

    Phân cụm

      Trong nghiên cứu khoa học và phân tích dữ liệu thì Phương pháp Hierarchical clustering và phương pháp K-Means là hai phương pháp phân cụm phổ biến, đáng tin cậy và đạt được hiệu quả cao. Với nguyên tắc như sau Giá trị Silhouette có khoảng giá trị nằm trong khoảng từ -1 đến 1, nếu như giá trị này càng lớn (càng tiến gần về 1) thì kết quả phân cụm càng chính xác, càng đáng tin cậy. Như vậy khi quan sát kết quả phân bộ dữ liệu thành hai cụm bằng phương pháp Hierarchical clustering ở hình 4.7 ta có thể nhận xét như sau: Với cụm màu xanh (cụm 1) có các giá trị Silhouette đều dương, phần lớn có giá trị Silhouette lớn hơn 0,4, càng về sau thì giá trị giảm dần đặc biệt lưu ý các mẫu cuối có giá trị âm cần sự đánh giá lại của các chuyên gia; còn đối với cụm màu đỏ (cụm 2) thì hầu hết các mẫu có giá trị Silhouette lớn hơn 0,6 nhưng cũng giống cụm 1 các mẫu về sau lại phần lớn có giá trị nhỏ hơn 0.

      Thế nên có thể nói là chỉ phần lớn các mẫu của cụm có giá trị Silhouette thỏa mãn nguyên tắc đánh giá nêu ra ở trên, nhưng những mẫu còn lại cần sự đánh giá và tư vấn của chuyên gia đầu ngành. Theo kết quả trên ta thấy bộ dữ liệu được phân làm hai cụm: với cụm một (màu xanh) có các giá trị Silhouette được chia làm hai phần, phần lớn ở trên bao gồm các giá trị dương trải dài từ 0 đến 0,55 và phần dưới một ít mẫu có giá trị âm bao gồm các mẫu có giá trị từ -0,3 đến 0. Còn đối với các mẫu màu đỏ (cụm hai) lại là đa số các mẫu có giá trị dao động từ 0,6 đến 0,8 và càng về sau thì các mẫu lại có giá trị giảm dần về 0, đặc biệt là vài mẫu cuối của cụm hai có giá trị Silhouette bé hơn 0.

      Từ đây có thể nói rằng phân cụm theo phương pháp k-Means đạt kết quả khá tích cực, độ tin cậy ở mức khá, nhưng cụm một của phương pháp này thì cần sự đánh giá phân tích lại của chuyên gia có kinh nghiệm vì nó vẫn chưa đạt giá trị Silhouette hợp lí. Sau khi tiến hành đánh giá nội, đánh giá dựa chủ yếu trên chính dữ liệu phân cụm hay trong bài nghiên cứu này là đánh giá dựa vào chỉ số Silhouette Plot, thì nhóm sẽ tiến hành đánh giá ngoài hai phương pháp phân cụm trên. Qua kết quả tổng hợp bảng Pivot Table trong Excel nhóm có được kết quả như sau 2656 mẫu có giá trị “Approved” nghĩa là trong 4269 bộ hồ sơ đi vay thì có 2656 hồ sơ có đủ điều kiện để đăng ký tiền vay và còn lại 1613 kết quả có giá trị “Rejected” nghĩa đây là các cá nhân hoặc tổ chức không đủ điều kiện xét duyệt cho vay.

      Hình 14: Kết quả phân cấp trên Orange.
      Hình 14: Kết quả phân cấp trên Orange.

      Phân lớp dữ liệu

        Như vậy, theo c đánh giá ngoài thì dường như phân cụm theo phương pháp Hierarchical clustering có ưu điểm hơn, chính xác hơn so với phân cụm bằng phương pháp k-Means. Nhìn chung qua các trường hợp, nhóm thấy rằng các chỉ số đánh giá cho mô hình Cây quyết định là cao nhất tiếp theo là mô hình các còn lại đều được đánh giá khá tích cực. Ngoài ra, để có thể chọn ra phương pháp phân lớp tốt nhất thì nhóm quyết định thực hiện thêm các đánh giá khác để có kết quả tốt nhất, khách quan nhất.

        Ma trận nhầm lẫn (Confusion Matrix) là một phương pháp rất hữu ích trong việc đánh giá sự chính xác và hiệu quả của các mô hình phân lớp dữ liệu. Hai tỷ lệ này cho biết rằng một mô hình phân lớp được đánh giá là tốt hay xấu và điều kiện đánh giá là mô hình càng chính xác nhất khi có hai tỷ lệ sai lầm này là thấp nhất. Dựa vào lý thuyết đã nêu trên và dựa vào kết quả Ma trận nhầm lẫn thì phương pháp Decision Tree là phương pháp phân lớp hiệu quả và chính xác nhất vì mô hình có tỷ lệ sai lầm nhỏ nhất với sai lầm loại 1 là 2,1% và sai lầm loại 2 là 2,1%.

        Sai lầm loại loại 2 nghĩa là dự đoán cá nhân hoặc tổ chức không đủ điều kiện phê duyệt cho vay nhưng thực sự lại đủ khả năng vay, từ đó làm cho dự đoán và phân.

        Hình 31: Chuỗi thao tác phân lớp dữ liệu.
        Hình 31: Chuỗi thao tác phân lớp dữ liệu.

        Dự báo

          Đường cong càng gần đường viền bên trái và sau đó là đường viền trên cùng của không gian ROC, phân loại càng chính xác. Quan sát bảng kết quá trên ta thấy đường màu xanh của mô hình Decision Tree là mô hình tiệm cận với điểm (0;1) nhất. + Phương pháp này có AUC (Area Under the Curve) hay diện tích nằm dưới đường cong ROC là lớn nhất (xấp xỉ 1), tức là có mô hình tốt nhất;.

          Sau khi đã thực hiện phân lớp và đánh giá các mô hình phân lớp, ta đã lựa chọn được phương pháp Decision Tree là tốt nhất. Nhóm sử dụng mô hình Cây quyết định để tiến hành cho bộ dữ liệu nhóm có được kết quả như sau: Trong 426 mẫu dự báo có 265 mẫu có giá trị “Loan_status” =. “Approved” hay đây là bộ hồ sơ của cá nhân hoặc tổ chức đủ điều kiện để phê duyệt vay từ tổ chức tài chính và ngược lại, có 161 mẫu có giá trị “Loan_status” =.

          “Rejected” và đây là những bộ hồ sơ của cá nhân hoặc tổ chức không đủ điều kiện để phê duyệt vay từ tổ chức tài chính.

          Hình 38: Đưa bộ dữ liệu “Dự báo và Orange”
          Hình 38: Đưa bộ dữ liệu “Dự báo và Orange”

          Đánh giá kết quả nghiên cứu

          Sau khi hoàn thành dự báo ta thực hiện lưu kết quả dự báo về máy với tên File là KQDB.xlxs.