Hình vẽ thể hiện mạng lưới hoạt động của Neural NetworkHình 6: Bảng mô thống kê mô tả các biến khảo sát của dữ liệu gốc.Hình 7: Type và Role ban đầu của các thuộc tính.Hình 8: Kết quả th
Tổng quan về khoa học dữ liệu và đề tài nghiên cứu
Giới thiệu về KHDL
Trong những năm gần đây, xã hội đang ngày càng phát triển và thay đổi không ngừng đi cùng với sự bùng nổ của ngành công nghệ thông tin, thời đại công nghệ 4.0 đã khiến việc khai thác và phân tích dữ liệu của các hệ thống thông tin quản lý trở thành một vấn đề được quan tâm và chú trọng hơn cả Đặc biệt, đã có những nghiên cứu cho rằng, luồng thông tin chuyền tải trên thế giới được ước tính tăng gấp đôi cứ khoảng 20 tháng Trước hiện tượng tăng trưởng và bùng nổ nhanh chóng như thế của thông tin, nó đã buộc những người ra quyết định trong các lĩnh vực như tài chính, thương mại, khoa học, kinh doanh, không muốn bị bỏ sót hoặc lạc hậu về bất cứ thông tin nào thì phải thu thập, xử lí và phân tích nó theo một hình hợp lí, thích hợp. Đồng thời dựa vào chúng để đưa ra các quyết định đúng đắn hơn, có cái nhìn bao quát hơn và dự đoán chính xác hơn về các sự kiện hiện tượng có thể xảy ra trong tương lai. Đó chính là tiền đề đầu tiên cho sự ra đời của ngành Khoa học dữ liệu khi nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, xử lí, phân tích dữ liệu,… tăng nhanh chóng Theo đó, Khoa học dữ liệu là ngành khoa học về việc quản trị và phân tích dữ liệu, trích xuất các giá trị từ dữ liệu để tìm ra các hiểu biết, các tri thức hành động, các quyết định dẫn dắt hành động Khoa học dữ liệu nghiên cứu xử lý khối dữ liệu khổng lồ để tìm kiếm, phân tích thu được các thông tin có ý nghĩa và hỗ trợ đưa ra các quyết định kinh doanh Ngoài ra có thể nói rằng Khoa học dữ liệu là tổng hợp kiến thức nhiều lĩnh vực bao gồm thống kê, phương pháp khoa học, trí tuệ nhân tạo và phân tích dữ liệu để chiết xuất những giá trị hữu ích từ dữ liệu Những người thực hiện khoa học dữ liệu hay còn được biết đến là nhà khoa học dữ liệu Mục đích của khoa học dữ liệu là giúp ta có cái nhìn sâu hơn, đánh giá kỹ, phân tích và chuyển hóa những dữ liệu thô thành những giá trị hữu ích Các công việc có thể nói đến của khoa học dữ liệu như các quá trình thu thập dữ liệu và xử lý, tiến hành phân tích chuyên sâu, cuối cùng là trình bày thành quả, đưa ra quyết định và hành động Từ tầm quan trọng của của Khoa học dữ liệu mà ta có thể nói rằng tuy đây là lĩnh vực nghiên cứu mới xuất hiện thời gian gần đây nhưng lại có tầm quang trọng vô cùng to lớn, quyết định tương của nhân loại.
Giới thiệu về đề tài
1.2.1 Lý do chọn đề tài:
Trong thời buổi bùng nổ công nghệ thông tin như hiện nay, khi các công nghệ như Điện toán đám mây, AI, Blockchain, IoTs,… ngày càng phát triển mạnh mẽ và được ứng dụng rộng rãi trong đa phần các lĩnh vực trong đời sống của chúng ta, với sự gia tăng không ngừng của dữ liệu, việc phân tích và xử lý chúng để đưa ra những thông tin hữu ích và có giá trị cho doanh nghiệp là điều cần thiết Quá trình khai thác, phân tích dữ liệu ngày càng được chú trọng, trong đó nổi bật ở đây là việc thu thập, khai thác, phân tích và dự báo các hiện tượng kinh tế, đặc biệt là dịch vụ tài chính tín dụng và cho vay
Song song với đó, thực tế trong thời đại nền kinh tế hiện nay và đặc biệt là sau đại dịch Covid thì nhu cầu đi vay vốn của các cá nhân và tổ chức là một trong những vấn đề nóng hỏi trong thị trường kinh doanh tài chính Nhu cầu đi vay ngày càng, thông tin và hồ sơ đi vay gửi đến các tổ chức thì ngày nhiều và phức tạp Nếu chỉ xử lí thủ công thì các tổ chức tài chính phải mất rất nhiều nhân viên và thời gian từ đó gây ra chi phí lớn, lại mất đi nhiều cơ hội cho các việc kinh doanh khác cũng như dễ dàng xảy ra những sai sót trong xét duyệt, phân tích hồ sơ đi vay của khách hàng.
Ngược lại, các tổ chức kinh tế hay chính những công ty tài chính luôn mong muốn nguồn dữ liệu từ khách hàng một cách chính xác, rõ ràng và cụ thể nhất Từ đó họ có thể phân loại, dự đoán hành động của khách hàng trong tương lai để đưa ra các chính sách, quyết định đúng đắn, giúp đạt được hiệu quả kinh doanh cao nhất.
Hơn nữa, tầm quan trọng của việc phân tích dữ liệu tín dụng rất cao, giúp công ty đánh giá khả năng trả nợ của khách hàng và phân tích rủi ro từ các thông tin như: nghề nghiệp, thu nhập, số tiền, mục đích sử dụng vốn vay của khách hàng để phát hiện sớm gian lận, thí dụ như có thể so sánh về các thông tin bên khai báo của các khách hàng và các thông tin của ngân hàng đã thu thập được Nếu khách hàng có thu nhập hằng tháng càng cao thì khả năng có rủi ro tín dụng của khách hàng càng thấp, số tiền vay càng cao thì khả năng trả nợ đúng hạn của khách hàng càng thấp Hay công ty cũng nên quan tâm đến nghề nghiệp của khách hàng và đặc biệt lưu ý những khách hàng làm các công việc không có thu nhập ổn định thì cần bổ sung bảo lãnh của bên thứ ba Từ các dữ liệu trên các công ty tài chính sẽ đưa ra các quyết định tín dụng một cách nhanh chóng và chính xác, cũng như nâng cao trải nghiệm khách hàng và và hiệu suất tổ chức tài chính.
Hiểu được nhu cầu trên, nhóm em đã chọn bộ dữ liệu “Loan Approval
Prediction”, bộ dữ liệu sẽ giúp công ty xây dựng mô hình dự báo và xét duyệt các hồ sơ tín dụng một cách hợp lí, hiệu quả hơn Các chiến lược thu hồi nợ và xét duyệt tín dụng sẽ giúp tổ chức tài chính tối ưu nguồn lực theo đó sẽ giảm chi phí thu hồi, xác định sớm khả năng nợ quá hạn, phân mức ưu tiên để thu hồi nợ cũng như có các chính sách thu hút các khách hàng tiềm năng Trên đây là lý do nhóm chọn đề tài “PHÂN TÍCH BỘ DỮ LIỆU TỔ CHỨC TÀI CHÍNH VÀ TIẾN HÀNH DỰ BÁO XÉT DUYỆT HỒ SƠ VAY VỚI ORANGE ”.
1.2.2 Mục tiêu nghiên cứu: a Mục tiêu tổng quát:
Phân tích bộ dữ liệu gồm các hồ sơ đi vay từ đó phân loại và dự báo các cá nhân, tổ chức đủ điều kiện đi vay Đồng thời đánh giá các yếu tố ảnh hưởng đến quyết định cho vay của tổ chức này Dùng Orange để xây dựng mô hình phân cụm, phân lớp và dự đoán những hồ sơ đi vay để điều kiện xét duyệt. b Mục tiêu cụ thể:
Khám phá bộ dữ liệu.
Tiền xử lí và Làm sạch dữ liệu.
Phân lớp dữ liệu và đánh giá các mô hình phân lớp từ đó chọn cho thuật toán phân lớp phù hợp nhất.
Tiến hành dự đoán và phân loại những khách hàng có đủ kiền kiện đi vay từ tổ chức Từ đó giúp nhà quản trị tổ chức tài chính có được những chính sách và chiến lược phát triển hợp lí trong tương lai
- Nhóm tác giả sử dụng phần mềm Orange để tiến hành thực hiện xử lý dữ liệu, phân cụm, phân lớp dữ liệu và tiến hành dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp.
Để phân cụm bộ dữ liệu thành các nhóm, có hai phương pháp chính được sử dụng: phương pháp phân cụm phân cấp (Hierarchical clustering) và phương pháp phân cụm phân hoạch với thuật toán K-means.
Sau khi đánh giá và so sánh hai phương pháp phân cụm dựa trên các chỉ số như Silhouette và đánh giá ngoại nhóm, chúng tôi đã xác định được phương pháp tối ưu nhất cho bộ dữ liệu hiện tại Phương pháp này sẽ giúp phân chia dữ liệu thành các cụm đồng nhất và tách biệt, cung cấp thông tin chi tiết có giá trị về cấu trúc và đặc điểm của dữ liệu gốc.
- Đối với việc phân lớp dữ liệu, nhóm chọn biến “Loan_status” là biến mục tiêu, tiến hành phân lớp trên bốn phương pháp là Cây quyết định (Decision Tree), SVM (Support Vector Machine), Hồi quy Logistic (LogisticRgression) và Nerual Network Nhóm đánh giá các mô hình bằng cách sử dụng các phương pháp đánh giá như Test and Score, quan sát chỉ số AUC của từng mô hình, Ma trận nhầm lẫn và ROC để chọn ra mô hình phân lớp tốt nhất Sau đó dùng thuật toán đó để tiến hành dự báo.
Tổng quan về chương trình Orange và các phương pháp sử dụng
Tổng quan về phần mềm Orange
Orange là hệ điều hành nhân bản của Linux (Dòng Minimal X của OpenSUSE) Hệ điều hành này dựa trên kiến trúc x86 (32-bit) của Intel và chạy được dưới bộ vi x86 của Intel hay AMD Orange là một thư viện quy trình và đối tượng cốt lõi của C ++ kết hợp rất nhiều thuật toán Data mining và học máy tiêu chuẩn và không tiêu chuẩn Orange là một môi trường có thể viết kịch bản để tạo mẫu nhanh các thuật toán và mẫu thử nghiệm mới nhất Nó là một nhóm các mô-đun dựa trên python tồn tại trong thư viện lõi Phần mềm Orange được biết đến bởi việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở và học máy thông minh, đơn giản, được lập trình bằng Python với giao diện trực quan và tương tác dễ dàng Với nhiều chức năng,phần mềm này có thể phân tích được những dữ liệu từ đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt và thú vị và còn giúp việc khai thác dữ liệu và học máy trở nên dễ dàng hơn cho cả người dùng mới và chuyên gia Các công cụ (widgets) cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học, trực quan hóa các phần tử dữ liệu,…
Orange cung cấp cho người dùng tập các toolbox tinh gọn nhất giúp người dùng bắt tay ngay vào việc phân tích dữ liệu, bao gồm:
Data: dùng để rút trích, biến đổi, và nạp dữ liệu (ETL process).
Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn Model: gồm các hàm machine learning phân lớp dữ liệu
Evaluate: các phương pháp đánh giá mô hình máy học
Unsupervised: gồm các hàm machine learning gom nhóm dữ liệu.
Tổng quan về các phương pháp sử dụng
2.2.1 Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là bước quan trọng để cải thiện chất lượng dữ liệu, từ đó tăng chất lượng kết quả phân tích Dữ liệu thô thường không phù hợp cho việc phân tích, do đó, cần phải trải qua quá trình làm sạch, tích hợp, biến đổi và rút gọn Làm sạch dữ liệu là bước đầu tiên, giúp loại bỏ nhiễu, giá trị thiếu và bất thường, đồng thời đảm bảo tính chỉnh hợp và nhất quán của dữ liệu.
Làm sạch dữ liệu là quá trình chuẩn bị dữ liệu để phân tích bằng cách loại bỏ thông tin không liên quan hoặc không chính xác, không đầy đủ hoặc sai lệch có thể làm sai lệch kết quả và gây ra các quyết định sai lầm hoặc không thực tế Làm sạch dữ liệu không chỉ đề cập đến việc loại bỏ các phần dữ liệu không cần thiết mà còn thường được liên kết với việc sửa thông tin không chính xác trong tập dữ liệu.
Quá trình làm sạch dữ liệu sẽ cố gắng tóm tắt hóa dữ liệu, xử lí dữ liệu bị thiếu và bị nhiễu.
- Đối với tóm tắt hóa dữ liệu:
+ Xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu hướng chính (central tendency) và sự phân tán (dispersion) của dữ liệu Các độ đo về xu hướng chính gồm có: mean, median, mode, midrange… Các độ đo về sự phân tán gồm có: quartiles, interquartile range(IQR) và variance.
Xác định nhiễu (noise) hoặc phần tử biên (outliers) là phương pháp hiệu quả để nhận dạng dữ liệu nổi bật hoặc dữ liệu hiếm Những yếu tố này cung cấp cái nhìn tổng thể về dữ liệu, cho phép bạn hiểu sâu hơn về tập dữ liệu và đưa ra quyết định sáng suốt hơn.
- Đối với dữ liệu bị thiếu (missing value):
+ Bỏ qua những bộ thiếu giá trị: Phương pháp này thường được dùng khi nhãn lớp bị thiếu và sẽ không có hiệu quả đối với trường hợp dữ liệu bị thiếu là quá lớn.
+ Xử lý bằng tay: có thể xử lí không tự động hoặc bán tự động Tuy nhiên, phương pháp này sẽ mất rất nhiều thời gian đối với một tập dữ liệu lớn có nhiều giá trị bị thiếu.
+ Dùng những giá trị thay thế, tự động: Ví dụ như sử dụng hằng số toàn cục để thay thế tất cả những giá trị bị thiếu bằng cùng một hằng số hay dùng giá trị có nhiều khả năng nhất- được quyết định bằng phương pháp hồi quy, dựa vào những công cụ suy luận như Phương pháp Bayesian hoặc Cây quyết định Ngoài ra còn nhiều giá trị khác được dùng như: trị phổ biến nhất, trung bình toàn cục, trung bình cục bộ,
+ Ngăn chặn dữ liệu bị thiếu: Giảm thiểu vấn đề bị thiếu dữ liệu thông qua việc đảm bảo thiết kế thật tốt một CSDL và các thủ tục nhập liệu (ràng buộc dữ liệu).
- Đối với dữ liệu bị nhiễu:
Xử lí dữ liệu bị nhiễu bao gồm: nhận diện được phần tử không tuân theo đặc tính/ hành vi chung của tập dữ liệu (outliers) và giảm thiểu nhiễu (noisy data). Trước hết, các kĩ thuật nhận diện phần tử biên gồm:
+ Dựa trên phân bố thống kê (Statistical distribution-based)
+ Dựa trên khoảng cách (Distance-based)
+ Dựa trên mật độ (Density-based)
+ Dựa trên độ lệch (Deviation-based)
Các giải pháp giảm thiểu nhiễu gồm:
+ Phân giỏ (Binning): Phương pháp này làm mịn dữ liệu bằng cách tham khảo những giá trị xung quanh nó (làm mịn dữ liệu cục bộ) Đầu tiên dữ liệu được sắp xếp vào các giỏ gọi là ‘bin’, sau đó làm mịn dữ liệu bằng các giá trị means, median, maximum, minimum… của bin
Hồi quy là phương pháp làm mịn dữ liệu bằng cách đưa dữ liệu vào một hàm Trong hồi quy tuyến tính, phương pháp phổ biến nhất, dữ liệu được đưa vào một đường thẳng thích hợp Với đường thẳng này, một trong hai thuộc tính có thể được sử dụng để dự đoán thuộc tính còn lại.
+ Gom cụm (Clustering): Các giá trị tương tự nhau theo một tiêu chuẩn cho trước gom lại thành từng cụm gọi là cluster Bằng trực giác, những giá trị nằm ngoài tập hợp cluster có thể xem là các phần tử cá biệt.
- Đối với dữ liệu không nhất quán: Dữ liệu đôi khi bị ghi nhận khác nhau cho cùng một đối tượng hoặc không phản ánh ngữ nghĩa đúng cho các đối tượng đó Do đó gây ra sự không nhất quán trong bộ dữ liệu Để giảm thiểu điều này cần sử dụng một số giải pháp:
+ Tận dụng siêu dữ liệu hoặc các ràng buộc dữ liệu cùng với sự kiểm tra của các nhà phân tích dữ liệu để hỗ trợ cho việc nhận diện sự không nhất quán.
+ Có thể điều chỉnh dữ liệu không nhất quán bằng tay hoặc sử dụng các giải pháp biến đổi hoặc chuẩn hóa dữ liệu tự động. b Tích hợp và chuyển đổi dữ liệu:
Tích hợp dữ liệu (Data integration):
MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT
Nhóm sử dụng bộ dữ liệu “Loan-Approval-Prediction-Dataset” do một công ty tài chính đang tập hợp, xử lý và phân tích dữ liệu về các hồ sơ tài chính cũng như thông tin liên quan được sử dụng để xác định tính đủ điều kiện phê duyệt của các cá nhân hoặc tổ chức được vay vốn từ tổ chức cho vay Nó bao gồm nhiều yếu tố khác nhau như điểm dân cư, thu nhập, tình trạng việc làm, thời hạn cho vay, số tiền vay, giá trị tài sản và tình trạng khoản vay, Bộ dữ liệu này thường được sử dụng trong học máy và phân tích dữ liệu để phát triển các mô hình và thuật toán dự đoán khả năng phê duyệt khoản vay dựa trên các tính năng, thuộc tính nhất định Mục tiêu của bộ dữ liệu là giúp các nhà quản trị và nhà điều hành tổ chức tài chính cũng như người đi biết được các điều kiện ảnh hưởng trực tiếp, tác động mạnh đến điều kiện phê duyệt cho vay của tổ chức. Đặc biệt qua quá trình thu thập phân tích dữ liệu, bộ dữ liệu còn giúp các nhà quản trị phân loại và dự đoán được những cá nhân và tổ chức đi vay có đủ điều kiện dựa trên thông tin của họ.
Bộ dữ liệu này được nhóm thu thập từ: https://www.kaggle.com/datasets/architsharma01/loan-approval-prediction- dataset
Tiếp theo, nhóm tác giả tiến hành mô tả dữ liệu và giải thích các thuộc tính của bộ dữ liệu “Loan-Approval-Prediction-Dataset”:
Thuộc tính Ý nghĩa Mô tả loan_id Số ID nhận dạng hồ sơ tài chính đi vay của các cá nhân hoặc tổ chức Được định dạng là
Numeric. no_of_dependents Thể hiện số lượng người phụ thuộc của người nộp đơn đi vay Được định dạng là
Numeric. education Trình độ học vấn của người nộp đơn đi vay. Được định dạng là categorical Bao gồm hai giá trị: “Graduate” và
“Not Graduate”. self_employed Tình trạng việc làm của người nộp đơn đi vay Được định dạng là categorical Bao gồm hai giá trị: “Yes” và “No”. income_annum Thu nhập hàng năm của người nộp đơn của người đi vay Được định dạng là
Numeric. loan_amount Số tiền vay Được định dạng là
Numeric. loan_term Thời hạn cho vay tính theo năm Được định dạng là
Numeric. cibil_score Điểm tín dụng Được định dạng là numeric. residential_assets_value Thể hiện giá trị tài sản nhà ở của người nộp đơn đi vay. Được định dạng là numeric. commercial_assets_value Thể hiện giá trị tài sản thương mại của người nộp đơn đi vay Được định dạng là
Giá trị tài sản xa xỉ (ví dụ: kim cương, vàng) của người nộp đơn vay được biểu thị bằng giá trị "luxury_assets_value" Giá trị tài sản gửi ngân hàng của người nộp đơn vay được biểu thị bằng giá trị "bank_asset_value".
Numeric. loan_status Thể hiện sự xét duyệt hồ sơ đi vay của công ty tài chính đối với đối tượng nộp đơn Với giá trị
“Approved” là chấp thuận và
“Rejected” là từ chối cho vay. Được định dạng là categorical Bao gồm hai giá trị: “Approved” và
KẾT QUẢ THỰC HIỆN
Tiền xử lý
4.1.1 Làm sạch dữ liệu: a Mô tả dữ liệu:
Bộ dữ liệu “Loan-Approval-Prediction-Dataset” ban đầu bao gồm 4269 bộ hồ sơ tài chính được công ty tập hợp thông qua 13 thuộc tính quan sát, với
“loan_status” là biến phụ thuộc nhằm mục đích giúp phân loại hồ sơ được phê duyệt và dự đoán các các nhân hoặc tổ chức có đủ điều kiện để đi vay Nhóm chúng em đã sử dụng công cụ Feature Statistics để mô tả thống kê các biến này với những giá trị như Mean, Median, Dispersion, Min, và Max của 4269 bộ hồ sơ vay này.
Hình 6: Bảng mô thống kê mô tả các biến khảo sát của dữ liệu gốc.
Qua mô tả thống kê ta có thể thấy một số thông tin thú vị như: Với bộ dữ liệu này số lượng hồ sơ được chấp thuận là đa số, giá trị tài sản của các bộ hồ sơ cho vay là rất cao Ngoài ra ta thấy rõ được các giá trị trung bình, trung vị và mode của các thuộc tính đều đạt các giá trị rất cao, thể hiện điều kiện vay và quy mô vay của các khoản này đều rất lớn. b Xử lí Dữ liệu bị thiếu:
Mặc dù công ty tài chính tập hợp đến 4269 hồ sơ cho vay và rất nhiều thông tin liên quan, chứng tỏ đây là bộ dữ liệu khá lớn nhưng dữ liệu gốc lại không xuất hiện Missing data hay dữ liệu bị thiếu Vì đó nhóm không phải xử lí dữ liệu thiếu Từ đó, ta thấy rằng quá trình thu thập, ghi nhận và xử lí dữ liệu của công ty tài chính vô cùng cẩn thận, không xảy ra sai sót và giúp cho quá trình nghiên cứu phân tích sau sẽ hiệu quả hơn, đạt được kết quả tích cực hơn. c Thiết lập Type và Role của các thuộc tính:
Quan sát dữ liệu ban đầu nhóm có được Role và Type cùa 13 thuộc tính như sau:
Hình 7: Type và Role ban đầu của các thuộc tính.
Nhóm thực hiện điều chỉnh Type và Role của các thuộc tính sao cho phù hợp với nhu cầu xử lí khai thác dữ liệu:
- Ban đầu thuộc tính “loan_status” có Role là “Feature” Nhưng vì mục tiêu của bộ dữ liệu là dự báo cho biến phụ thuộc nên nhóm phải chuyển Role của thuộc tính này từ “Feature” sang “Target”.
-Đồng thời, thuộc tính “Loan_ID” chỉ có mục đích phân loại và nhận dạng cho từng hồ sơ này không tác động đến kết quả dự báo đầu ra nên Role của thuộc tính này được nhóm điều chỉnh “Skip”.
- Các biến còn lại đều đã được chỉnh Role và Type hợp lí nên không cần điều chỉnh thêm.
Hình 8: Kết quả thực hiện điều chỉnh Role
4.1.2 Loại bỏ các biến không phù hợp:
Sau khi quan sát và nghiên cứu bộ dữ liệu, cũng như tìm hiểu trong thực tế thì nhóm cho rằng thuộc tính “no_of_dependents” không có ảnh hưởng lớn đến biến phụ thuộc “Loan_status” Đồng thời, khi sử dụng công dụng Rank để phân tích ảnh hưởng của các biến đến biến phụ thuộc thì nhóm thấy biến này cũng có giá trị Gain ratio vàGini rất thấp, cả hai đều có giá trị bằng 0 Nên nhóm quyết định loại biến này khỏi mô hình trong quá trình tiền xử lí để tiến hành các thủ tục phân tích tiếp theo dễ dàng và hiệu quả hơn.
Hình 9: Kết quả đánh giá các thuộc tính trong Rank.
Hình 10: Thực hiện loại bỏ thuộc tính “no_of_dependents”.
Hình 11 : Bảng thể hiện các thao tác trong phần tiền xử lí dữ liệu.
Sau tiền xử lí nhóm lưu bộ dữ liệu thành file “File Tien xu li”.
Phân cụm
Vì đây là bộ dữ liệu mà nhóm thu thập từ Công ty tài chính để phê duyệt và phân loại, dự báo các hồ sơ nào có đủ điểu kiện vay Nên đây là bộ dữ liệu đã phân lớp hay bài toán đã có nhãn Nên để thực hiện phân cụm ta phải đưa bộ dữ liệu này về dạng chưa có nhãn Nhóm tiến hành giả định rằng bộ dữ liệu này chưa phân lớp bằng cách skip thuộc tính “Loan_Status”:
Hình 12: Bước xử lí skip thuộc tính “Loan_Status”.
Trong nghiên cứu khoa học và phân tích dữ liệu thì Phương pháp Hierarchical clustering và phương pháp K-Means là hai phương pháp phân cụm phổ biến, đáng tin cậy và đạt được hiệu quả cao Do đó, nên nhóm quyết định sẽ dùng hai phương pháp này để tiến hành phân cụm bộ dữ liệu “Loan-Approval-Prediction-Dataset”.
Hình 13: Các thao tác thực hiện phân cụm dữ liệu.
Hình 14: Kết quả phân cấp trên Orange.
Khi tiến hành phân cụm với phương pháp Hierarchical clustering, chỉ số liên kết giữa các đối tượng (Linkage), nhóm sẽ sử dụng cách tính toán khoảng cách trung bình (Average) Và sau nhiều lần thử phân thành những số cụm riêng biệt khác nhau như: phân bộ dữ liệu thành hai cụm, ba cụm, bốn cụm… Đồng thời kết hợp thông tin bộ dữ liệu gồm hai nhan ban đầu Thì nhóm quyết định chia toàn bộ các mẫu trong bộ dữ liệu thành hai cụm khác nhau Sau đó nhóm tiến hành phân bộ dữ liệu thành hai cụm riêng biệt với kết quả thu được như sau:
Hình 15: Bảng Silhouette Plot phân cụm cho cụm 1
Hình 16: Bảng Silhouette Plot phân cụm cho cụm 2
Khi tiến hành đánh giá kết quả phân cụm thì ta chủ yếu dựa vào giá trị Silhouette của từng mẫu được chia Với nguyên tắc như sau Giá trị Silhouette có khoảng giá trị nằm trong khoảng từ -1 đến 1, nếu như giá trị này càng lớn (càng tiến gần về 1) thì kết quả phân cụm càng chính xác, càng đáng tin cậy
Như vậy khi quan sát kết quả phân bộ dữ liệu thành hai cụm bằng phương pháp Hierarchical clustering ở hình 4.7 ta có thể nhận xét như sau: Với cụm màu xanh (cụm 1) có các giá trị Silhouette đều dương, phần lớn có giá trị Silhouette lớn hơn 0,4, càng về sau thì giá trị giảm dần đặc biệt lưu ý các mẫu cuối có giá trị âm cần sự đánh giá lại của các chuyên gia; còn đối với cụm màu đỏ (cụm 2) thì hầu hết các mẫu có giá trị Silhouette lớn hơn 0,6 nhưng cũng giống cụm 1 các mẫu về sau lại phần lớn có giá trị nhỏ hơn 0 Thế nên có thể nói là chỉ phần lớn các mẫu của cụm có giá trị Silhouette thỏa mãn nguyên tắc đánh giá nêu ra ở trên, nhưng những mẫu còn lại cần sự đánh giá và tư vấn của chuyên gia đầu ngành Đồng thời thể hiện rằng phương pháp phân cụm Hierarchical clustering với bộ dữ liệu này đã thu kết quả khá chính xác và khá đáng tin cậy.
Bước đầu tiên trong phân cụm K-Means là xác định số cụm để chia dữ liệu Việc lựa chọn này dựa trên chỉ số Silhouette Score trung bình của từng phương pháp phân cụm Silhouette Score trung bình càng cao, phương pháp phân cụm càng hiệu quả và đáng tin cậy Theo Hình 4.9, giá trị Silhouette của từng phương pháp phân cụm được hiển thị.
Hình 17: Bảng phân tích k-Means cho bộ dữ liệu Để xác định số cụm mà nhóm nên dùng để chia bộ dữ liệu với phương pháp k- Means là hợp lí nhất thì cần phải xét các giá trị Silhouette của từng cách phâm cụm Ta ưu tiên chọn số cụm nào có chỉ số Silhouette trung bình cao nhất để tiến hành phân cụm Do giá trị Silhouette trung bình càng cao thì phương pháp phân cụm đó sẽ càng đáng tin cậy và chính xác hơn Quan sát kết quả phân tích k-Means của hình 4.9 ta thấy chia bộ dữ liệu thành 2 cụm đạt giá trị Silhouette cao nhất với giá trị Silhouette Scores = 0,296 Đồng thời nhóm thực hiện phân tích đánh giá chi tiết tiết từng mẫu dữ liệu sau khi dùng sau khi được phân cụm:
Hình 18: Bảng Silhouette Plot cho cụm màu xanh (cụm 1).
Hình 19: Bảng Silhouette Plot cho cụm màu xanh (cụm 1).
Kết quả phân cụm theo phương pháp k-Means cho thấy dữ liệu được chia thành hai cụm chính Cụm 1 có các giá trị Silhouette phân bố ở hai phần: một phần lớn với giá trị dương (0 đến 0,55), một phần nhỏ với giá trị âm (-0,3 đến 0) Cụm 2 có hầu hết giá trị Silhouette từ 0,6 đến 0,8, giảm dần về 0 về cuối cụm Điều này cho thấy kết quả phân cụm k-Means khá tích cực, tuy nhiên cụm 1 cần được chuyên gia có kinh nghiệm đánh giá lại vì các giá trị Silhouette chưa đạt mức hợp lý.
Khi đánh giá bằng chỉ số Silhouette thì nhóm thấy chưa đạt được kết quả so sánh một cách khách quan nên nhóm quyết định tiến hành thêm đánh giá ngoại hai phương pháp này.
4.2.3 Tiến hành Đánh giá Ngoại hai phương pháp phân cụm:
Sau khi tiến hành đánh giá nội, đánh giá dựa chủ yếu trên chính dữ liệu phân cụm hay trong bài nghiên cứu này là đánh giá dựa vào chỉ số Silhouette Plot, thì nhóm sẽ tiến hành đánh giá ngoài hai phương pháp phân cụm trên Để từ đó có được cái nhìn khách quan và chính xác để biết rằng phương pháp nào là phương pháp phân cụm hợp lí hơn.
Sau khi tiến hành xong quá trình phân cụm dữ liệu với hai phương pháp Hierarchical clustering và K-Means thì nhóm đã lưu trữ dữ liệu dưới dạng file Excel để tiến hành so sánh ngoài
Hình 20: Bảng dữ liệu excel khi đã phân cụm theo phương pháp Hierarchical clustering.
Hình 21: Bảng dữ liệu excel khi đã phân cụm theo phương pháp k-Means
Để so sánh số lượng mẫu trong mỗi cụm ban đầu với kết quả phân cụm, nhóm nghiên cứu đã đếm các giá trị của thuộc tính "Loan_Status" trong dữ liệu ban đầu Sau đó, họ sử dụng bảng Pivot Table trong Excel để tổng hợp kết quả Kết quả cho thấy có 2656 mẫu có giá trị "Approved" và 1613 mẫu có giá trị "Rejected".
Bước 1, nhóm thực hiện sao chép kết quả các mẫu của thuộc tính
“Loan_Status” từ bộ dữ liệu đã tiền xử lí sang dữ liệu phân cụm bằng phương phápHierarchical Clustering.
Hình 22: Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có.
Bước 2, vì theo phương pháp Hierarchical Clustering thì cụm C2 có nhiều mẫu hơn C1 nên nhóm giải định rằng cụm C2 mang giá trị “Approved” và cụm C1 mang giá trị “Rejected” Sau đó nhóm tiến hành dán nhãn cho dữ liệu đã phân cụm dựa trên kết quả phân cụm bằng excel bằng lệnh =IF(L2="C2";"Approved";"Rejected").
Hình 23: Câu lệnh dán nhãn cho dữ liệu đã phân cụm.
Bước 3, tiến hành so sánh từng biến trong dữ liệu phân cụm theo phương phápHierarchical clustering với nhãn hiện có bằng Excel với câu lệnh ”=M2=N2”, nếu hai kết quả trùng nhau sẽ thu được “True” nếu khác nhau sẽ ra kết quả là “False” sau đó kéo ra 4269 mẫu quan sát thì thu được kết quả như sau:
Hình 24: So sánh giữa dữ liệu phân cụm và nhãn hiện có
Cuối cùng, nhóm thực hiện đếm số lượng mẫu đã phân cụm chính xác, nghĩa là đếm số lượng câu lệnh ra kết quả là “True” trong 4269 mẫu bằng câu lệnh
Phân lớp dữ liệu
Nhóm đưa bộ dữ liệu đã qua tiền xử lí vào phần mềm Orange và chọn thuộc tính “Loan_status” làm target Tiếp theo, Dùng lệnh Data Sampler để chia dữ liệu làm
2 phần với tỷ lệ khác nhau (90% - 10%) Dùng file dữ liệu 90% là “Bộ dữ liệu huấn luyện”, file 10% là “Bộ dữ liệu dự báo” Sau khi phân tách bộ dữ liệu thì nhóm sẽ dùng “Bộ dữ liệu huấn luyện” để xây dựng mô hình phân lớp và sử dụng “bộ dự liệu dự báo” để tiến hành dự báo.
Hình 30: Các thao tác bộ bộ dữ liệu “Huấn luyện” và “Dự báo”
Sau đó, Nhóm tiến hành phân lớp bộ dự liệu theo bốn phương pháp đã học:
- Cây quyết định (Decision Tree)
- Hồi quy Logistic (Logistic Regression)
Hình 31: Chuỗi thao tác phân lớp dữ liệu.
4.3.2 Đánh giá các mô hình:
Sau khi thực hiện các thao tác phân lớp dữ liệu, ta tiến hành đánh giá các mô hình phân lớp (kiểm tra tính đúng đắn của mô hình) bằng các công cụ sau: a Sử dụng Test and Score:
Nhóm dùng công cụ Test and Score như một phương pháp để so sánh, đánh giá các thuật toán và lựa chọn phương pháp tốt nhất để tiến hành dự báo
Trong bảng Test and Score có nhiều cách chia tỉ lệ lấy mẫu khác nhau như Cross validation hay Random Sampling… Dưới đây là một số kết quả tại Bảng Test and Score với 1 số cách chia tỉ lệ lấy mẫu khác nhau:
Hình 32: Kết quả khi chia mẫu dữ liệu 5 phần (Cross validation)
Hình 33: Kết quả khi chia mẫu dữ liệu 10 phần (Cross validation) Nhận xét: Tại mục “Evaluation results for target” cho biết được các chỉ số đánh giá về các mô hình Để đánh giá các mô hình ta sẽ chủ yếu dựa vào các chỉ số AUC,
CA Nhìn chung qua các trường hợp, nhóm thấy rằng các chỉ số đánh giá cho mô hình Cây quyết định là cao nhất tiếp theo là mô hình các còn lại đều được đánh giá khá tích cực Mô hình Decision Tree được đánh giá cao hơn so với các mô hình còn lại, cụ thể tại Cross validation=5% thì mô hình Decision Tree có: AUC = 0,972 và CA =0,979. Như vậy, theo Test and Score thì thuật toán Cây quyết định là một mô hình phân lớp tốt nhất, hợp lí nhất trong ba phương pháp Còn hai mô hình còn lại thì đều được đánh giá khá tốt, tuy nhiên ta thấy mô hình SVM được đánh giá cao hơn Logistic Regression rất nhiều Ngoài ra, để có thể chọn ra phương pháp phân lớp tốt nhất thì nhóm quyết định thực hiện thêm các đánh giá khác để có kết quả tốt nhất, khách quan nhất. b Sử dụng Ma trận nhầm lẫn (Confusion Matrix):
Ma trận nhầm lẫn được sử dụng rộng rãi để đánh giá tính chính xác của mô hình phân loại Nhóm nghiên cứu sử dụng Ma trận nhầm lẫn để đánh giá ba phương pháp phân loại đã thực hiện và đạt được kết quả cụ thể.
Hình 34: Kết quả ma trận nhầm lẫn của phương pháp Decision Tree
Hình 35: Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression
Hình 36: Kết quả ma trận nhầm lẫn của phương pháp SVM
Sau khi có được các kết quả trên, thì hai tỷ số cần đặc biết chú ý là tỷ lệ sai lầm loại 1 và tỷ lệ sai lầm loại 2 Hai tỷ lệ này cho biết rằng một mô hình phân lớp được đánh giá là tốt hay xấu và điều kiện đánh giá là mô hình càng chính xác nhất khi có hai tỷ lệ sai lầm này là thấp nhất.
Dựa vào lý thuyết đã nêu trên và dựa vào kết quả Ma trận nhầm lẫn thì phương pháp Decision Tree là phương pháp phân lớp hiệu quả và chính xác nhất vì mô hình có tỷ lệ sai lầm nhỏ nhất với sai lầm loại 1 là 2,1% và sai lầm loại 2 là 2,1% Nhóm đặc biệt quan tâm đến tỷ lệ sai lầm loại 2, vì đây là loại sai lầm có tác động rất nghiêm trọng Sai lầm loại loại 2 nghĩa là dự đoán cá nhân hoặc tổ chức không đủ điều kiện phê duyệt cho vay nhưng thực sự lại đủ khả năng vay, từ đó làm cho dự đoán và phân tích của siêu thị trở nên sai lệch làm công ty mất đi những khách hàng tiềm năng Tỷ lệ sai lầm loại 2 của ba phương pháp như sau:
Decision Tree = 2,1% < SVM = 5,1% < Logistic Regression = 34,6% Sai lầm loại 2 của phương pháp Decision Tree là nhỏ nhất trong bốn phương pháp. c Sử dụng đường cong ROC:
ROC là một công cụ để so sánh hiệu suất các mô hình phân loại, đường ROC càng gần góc trái trên cùng của vùng ROC thì mô hình phân loại càng tốt.
Nhận xét: Một mô hình hiệu quả, đáng tin cậy khi đường cong ROC càng tiệm cận với điểm (0;1) trong đồ thị Quan sát bảng kết quá trên ta thấy đường màu xanh của mô hình Decision Tree là mô hình tiệm cận với điểm (0;1) nhất Còn mô hình
Logistic Regression lại bị đánh giá thấp hơn
Kết luận: Phương pháp phân lớp Cây quyết định là phương pháp tốt nhất vì: + Phương pháp này có AUC (Area Under the Curve) hay diện tích nằm dưới đường cong ROC là lớn nhất (xấp xỉ 1), tức là có mô hình tốt nhất;
+ Phương pháp này tỷ lệ sai lầm loại 2 thấp nhất;
+ Độ chính xác (Precision) cao nhất;
+ Phương pháp này có hiệu quả cao nhất vì có đường cong ROC tiệm cận nhất với điểm (0;1).
Dự báo
Sau khi đã thực hiện phân lớp và đánh giá các mô hình phân lớp, ta đã lựa chọn được phương pháp Decision Tree là tốt nhất Vì vậy, nhóm sẽ dùng Decision Tree để tiến hành dự báo cho Bộ dữ liệu “Dự báo” đã chuẩn bị trước đó.
4.4.1 Lấy mẫu dự liệu: Đưa dữ liệu “Bộ Dự báo” vào Orange và tiến hành dự báo.
Hình 38: Đưa bộ dữ liệu “Dự báo và Orange”
Sử dụng Predictions để dự báo dữ liệu theo phương pháp Decision Tree.
Hình 39: Mô hình dự báo Kết quả dự báo:
Hình 40: Kết quả dự báo.
Nhóm sử dụng mô hình Cây quyết định để tiến hành cho bộ dữ liệu nhóm có được kết quả như sau: Trong 426 mẫu dự báo có 265 mẫu có giá trị “Loan_status” “Approved” hay đây là bộ hồ sơ của cá nhân hoặc tổ chức đủ điều kiện để phê duyệt vay từ tổ chức tài chính và ngược lại, có 161 mẫu có giá trị “Loan_status” “Rejected” và đây là những bộ hồ sơ của cá nhân hoặc tổ chức không đủ điều kiện để phê duyệt vay từ tổ chức tài chính.
Sau khi hoàn thành dự báo ta thực hiện lưu kết quả dự báo về máy với tên File là KQDB.xlxs
Đánh giá kết quả nghiên cứu
Qua quá trình nghiên cứu và phân tích bộ dữ liệu này đã giúp cả nhóm đã tiếp cận gần hơn với ngành “Khoa học dữ liệu”, nhờ đó mà hiểu rõ hơn, tìm hiểu kĩ hơn, có cái nhìn trực quan và sâu sắc hơn về nó cũng như phần mềm Orange Đồng thời nhóm học được cách thức để xây dựng một mô hình xử lý, khai phá dữ liệu bằng phần mềm Orange Từ đó áp dụng mô hình đã xây dựng để xử lý bộ dữ liệu “Loan-Approval-
Prediction-Dataset” được nhóm thu thập được bằng các thuật toán phân cụm và phân lớp phù hợp nhất
Trong quá trình tiền xử lý dữ liệu, nhóm nghiên cứu đã thiết lập lại Vai trò và Loại của các thuộc tính Sau đó, nhóm loại bỏ các dữ liệu nhiễu và các biến không cần thiết để thu được bộ dữ liệu tinh gọn hơn, loại bỏ các thuộc tính thừa Nhờ đó, quá trình nghiên cứu trở nên hiệu quả và chính xác hơn.
Từ đó nhóm hiểu được cách làm cho bộ dữ liệu phù hợp với yêu cầu nghiên cứu đặt ra, giúp bộ dữ liệu hoàn thiện hơn Ngoài ra còn giúp nhóm hiểu hơn về bộ dữ liệu, về đặc điểm của hồ sơ đi vay của các cá nhân hoặc tổ chức đủ điều kiện đi vay.
Với bài toán phân cụm, nhóm đã giả định bộ dữ liệu “Loan-Approval-
Prediction-Dataset” ban đầu không có nhãn và tiến hành phân cụm với hai phương pháp Hierarchical clustering và K-Means Sau khi tiến hạnh phân cụm và nhờ vào đánh giá nội, đánh giá ngoại mà nhóm thấy rằng với bộ dữ liệu này thì Hierarchical clustering là phương pháp phân cụm chính xác, đáng tin cậy hơn Còn đối với phân lớp dữ liệu, phương pháp Cây quyết định cho kết quả phân lớp hiệu quả hơn, hợp lí hơn, được đánh giá thông qua ma trận nhầm lẫn, các chỉ số đánh giá và đường cong ROC Ngoài ra kết quả của các mô hình đánh giá cho thấy các thuật toán còn lại cũng khá hợp lí nhưng tính đáng tin cậy không cao bằng phương pháp Cây Quyết định đối với bộ dữ liệu này.
Nhóm đã sử dụng phương pháp Cây Quyết định để tiến hành dự báo cho 10% mẫu dữ liệu ngẫu nhiên được lấy từ bộ dữ liệu “Dự báo” và cho kết quả rất tích cực.
Từ kết quả dự đoán của mô hình nghiên cứu mà giúp cho nhà quản trị và các cấp quản lí của tổ chức tài chính có thể dự đoán, phân loại các bộ hồ sơ đi vay của các cá nhân hoặc tổ chức đủ điều kiện phê duyệt cho vay Để từ đó công ty tài chính có thể có các chính sách hợp lí cho từng hợp đồng cho vay và tìm được các khách hàng tiềm năng cho tổ chức của họ Cũng như từ đó có được các chính sách, các quyết định phát triển kinh doanh, cách quyết định cho vay, xét duyệt cho vay hợp lí với từng khách hàng cụ thể.