Các công việc có thể nói đến của khoa học dữ liệu nhưcác quá trình thu thập dữ liệu và xử lý, tiến hành phân tích chuyên sâu, trình bày thànhquả, đưa ra quyết định và hành động.. Lý do c
Giới thiệu về KHDL
Trong những năm gần đây, xã hội đang ngày càng phát triển và thay đổi không ngừng với sự bùng nổ của ngành công nghệ thông tin Thời đại công nghệ 4.0 đã khiến việc khai thác và phân tích dữ liệu của các hệ thống thông tin quản lý trở thành một vấn đề được quan tâm và chú trọng hơn cả Trước hiện tượng tăng trưởng nhanh chóng của thông tin, những người ra quyết định trong các lĩnh vực như tài chính, thương mại, khoa học, kinh doanh không muốn bị bỏ sót hoặc lạc hậu về bất cứ thông tin hữu ích nào Họ dựa vào chúng để đưa ra các quyết định đúng đắn hơn, có cái nhìn bao quát hơn và dự đoán chính xác hơn về các sự kiện hiện tượng có thể xảy ra trong tương lai. Đó chính là tiền đề cho sự ra đời của ngành Khoa học dữ liệu khi nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, xử lí, phân tích dữ liệu,… tăng cao
Theo đó, Khoa học dữ liệu là ngành khoa học về việc quản trị và phân tích dữ liệu, trích xuất các thông tin có giá trị từ dữ liệu để giúp các doanh nghiệp, tổ chức đưa ra quyết định logic và đem lại nhiều lợi ích nhất Khoa học dữ liệu nghiên cứu xử lý khối dữ liệu khổng lồ để tìm kiếm, phân tích để thu được các thông tin có ý nghĩa và hỗ trợ đưa ra các quyết định kinh doanh Ngoài ra có thể nói rằng Khoa học dữ liệu là tổng hợp kiến thức nhiều lĩnh vực bao gồm thống kê, phương pháp khoa học, trí tuệ nhân tạo và phân tích dữ liệu để chiết xuất những giá trị hữu ích từ dữ liệu Những người thực hiện khoa học dữ liệu là nhà khoa học dữ liệu Mục đích của khoa học dữ liệu là giúp ta có cái nhìn sâu hơn, đánh giá kỹ, phân tích và chuyển hóa những dữ liệu thô thành những giá trị hữu ích Các công việc có thể nói đến của khoa học dữ liệu như các quá trình thu thập dữ liệu và xử lý, tiến hành phân tích chuyên sâu, trình bày thành quả, đưa ra quyết định và hành động Từ tầm quan trọng của của Khoa học dữ liệu mà ta có thể nói rằng tuy đây là lĩnh vực nghiên cứu mới xuất hiện thời gian gần đây nhưng lại có tầm quan trọng vô cùng to lớn, quyết định tương của nhân loại.
Giới thiệu về đề tài
Lý do chọn đề tài
Trong thời buổi bùng nổ công nghệ thông tin như hiện nay, khi các công nghệ như Điện toán đám mây, AI, Blockchain, IoTs,… ngày càng phát triển mạnh mẽ và được ứng dụng rộng rãi trong đa phần các lĩnh vực trong đời sống của chúng ta, với sự gia tăng không ngừng của dữ liệu, việc phân tích và xử lý chúng để đưa ra những thông tin hữu ích và có giá trị cho doanh nghiệp là điều cần thiết Quá trình khai thác, phân tích dữ liệu ngày càng được chú trọng, trong đó nổi bật ở đây là việc thu thập, khai thác, phân tích và dự báo các hiện tượng kinh tế, đặc biệt là dịch vụ tài chính tín dụng và cho vay
Song song với đó, thực tế trong thời đại nền kinh tế hiện nay và đặc biệt là sau đại dịch Covid thì nhu cầu đi vay vốn của các cá nhân và tổ chức là một trong những vấn đề nóng trong thị trường kinh doanh tài chính Nhu cầu đi vay ngày càng tăng, thông tin và hồ sơ đi vay gửi đến các tổ chức ngày nhiều và phức tạp Nếu chỉ xử lí thủ công thì các tổ chức tài chính phải mất rất nhiều nhân viên và thời gian từ đó gây ra
3 chi phí lớn, lại mất đi nhiều cơ hội cho các việc kinh doanh khác cũng như dễ dàng xảy ra những sai sót trong xét duyệt, phân tích hồ sơ đi vay của khách hàng.
Mặc khác, các tổ chức kinh tế hay chính những công ty tài chính luôn muốn có nguồn dữ liệu từ khách hàng một cách chính xác, rõ ràng và cụ thể nhất, để từ đó họ có thể phân loại, dự đoán hành động của khách hàng trong tương lai mà có được các chính sách, quyết định đạt được hiệu quả kinh doanh cao nhất Nhất là khi các tổ chức tín dụng tiến hành thực hiện quá trình cho vay, họ sẽ xem xét điều kiện của khách hàng trên rất nhiều yếu tố Họ muốn biết rõ thông tin về khách hàng và phân tích xem các khách hàng này có đủ điều kiện đi vay ở công ty mình hay không, các yếu tố nào ảnh hưởng lớn đến quyết định cho vay hay không của tổ chức Chính những câu hỏi và nhu cầu đã đặt ra ở trên mà nhóm có một đề tài dự án liên quan đến chuyên ngành tài chính.
Hơn nữa, tầm quan trọng của việc phân tích dữ liệu tín dụng rất cao, giúp công ty đánh giá khả năng trả nợ của khách hàng và phân tích rủi ro từ các thông tin như: nghề nghiệp, thu nhập, số tiền, mục đích sử dụng vốn vay của khách hàng để phát hiện sớm gian lận, thí dụ như có thể so sánh về các thông tin bên khai báo của các khách hàng và các thông tin của ngân hàng đã thu thập được Nếu khách hàng có thu nhập hằng tháng càng cao thì khả năng có rủi ro tín dụng của khách hàng càng thấp, số tiền vay càng cao thì khả năng trả nợ đúng hạn của khách hàng càng thấp Hay công ty cũng nên quan tâm đến nghề nghiệp của khách hàng và đặc biệt lưu ý những khách hàng làm các công việc không có thu nhập ổn định thì cần bổ sung bảo lãnh của bên thứ ba Từ các dữ liệu trên các công ty tài chính sẽ đưa ra các quyết định tín dụng một cách nhanh chóng và chính xác, cũng như nâng cao trải nghiệm khách hàng và và hiệu suất tổ chức tài chính.
Hiểu được nhu cầu trên, nhóm em đã chọn bộ dữ liệu “Loan Approval
Prediction”, bộ dữ liệu sẽ giúp công ty xây dựng mô hình dự báo và xét duyệt các hồ sơ tín dụng một cách hợp lí, hiệu quả hơn Các chiến lược thu hồi nợ và xét duyệt tín dụng sẽ giúp tổ chức tài chính tối ưu nguồn lực mà theo đó sẽ giảm chi phí thu hồi, xác định sớm khả năng nợ quá hạn, phân mức ưu tiên để thu hồi nợ cũng như có các chính sách thu hút các khách hàng tiềm năng Đấy là lý do nhóm chọn đề tài “PHÂN TÍCH
BỘ DỮ LIỆU TỔ CHỨC TÀI CHÍNH VÀ TIẾN HÀNH DỰ BÁO XÉT DUYỆT HỒ
Tổng quan về phần mềm Orange
Phần mềm Orange là một phần mềm mã nguồn mở, miễn phí, được sử dụng cho khai phá dữ liệu và học máy Phần mềm Orange là một công cụ khai phá dữ liệu và học máy mã nguồn mở, được viết bằng Python Phần mềm này có giao diện trực quan và dễ sử dụng, giúp cả người dùng mới và chuyên gia đều có thể sử dụng Orange cung cấp nhiều chức năng mạnh mẽ, có thể phân tích dữ liệu từ đơn giản đến phức tạp, tạo ra các đồ họa đẹp mắt và thú Orange giúp việc khai thác dữ liệu và học máy trở nên dễ dàng hơn vị cho cả người dùng mới và các chuyên gia có kinh nghiệm.
Orange cung cấp cho người dùng tập các toolbox tinh gọn nhất giúp người dùng bắt tay ngay vào việc phân tích dữ liệu, bao gồm:
Data: dùng để rút trích, biến đổi, và nạp dữ liệu (ETL process).
Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn
Model: gồm các hàm machine learning phân lớp dữ liệu
Evaluate: các phương pháp đánh giá mô hình máy học
Unsupervised: gồm các hàm machine learning gom nhóm dữ liệu.
Tổng quan về các phương pháp sử dụng
2.2.1 Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là quá trình chuẩn bị dữ liệu thô cho các bước phân tích dữ liệu và học máy tiếp theo Quá trình này giúp loại bỏ các dữ liệu bị thiếu, bị lỗi hoặc không cần thiết, hiệu chỉnh dữ liệu để phù hợp với các thuật toán phân tích dữ liệu và học máy, và biến đổi dữ liệu để phù hợp với các mục tiêu phân tích dữ liệu và học máy cụ thể Vì vậy, nó là một bước quan trọng trong quy trình phân tích dữ liệu và học máy Nó giúp đảm bảo rằng dữ liệu được chuẩn bị tốt để các bước tiếp theo có thể diễn ra chính xác và hiệu quả Quá trình tiền xử lí dữ liệu bao gồm: Làm sạch dữ liệu, Tích hợp và biến đổi dữ liệu và Rút gọn dữ liệu. a Làm sạch dữ liệu( Data cleansing/ Cleansing):
Làm sạch dữ liệu là quá trình chuẩn bị dữ liệu để phân tích bằng cách loại bỏ thông tin không liên quan hoặc không chính xác, không đầy đủ hoặc sai lệch có thể làm sai lệch kết quả và gây ra các quyết định sai lầm hoặc không thực tế Quá trình này là một bước quan trọng trong quy trình phân tích dữ liệu và học máy, vì nó giúp
MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT
Tổng quan về chương trình Orange và các phương pháp sử dụng
2.1 Tổng quan về phần mềm Orange:
Phần mềm Orange là một phần mềm mã nguồn mở, miễn phí, được sử dụng cho khai phá dữ liệu và học máy Phần mềm Orange là một công cụ khai phá dữ liệu và học máy mã nguồn mở, được viết bằng Python Phần mềm này có giao diện trực quan và dễ sử dụng, giúp cả người dùng mới và chuyên gia đều có thể sử dụng Orange cung cấp nhiều chức năng mạnh mẽ, có thể phân tích dữ liệu từ đơn giản đến phức tạp, tạo ra các đồ họa đẹp mắt và thú Orange giúp việc khai thác dữ liệu và học máy trở nên dễ dàng hơn vị cho cả người dùng mới và các chuyên gia có kinh nghiệm.
Orange cung cấp cho người dùng tập các toolbox tinh gọn nhất giúp người dùng bắt tay ngay vào việc phân tích dữ liệu, bao gồm:
Data: dùng để rút trích, biến đổi, và nạp dữ liệu (ETL process).
Visualize: dùng để biểu diễn biểu đồ (chart) giúp quan sát dữ liệu được tốt hơn
Model: gồm các hàm machine learning phân lớp dữ liệu
Evaluate: các phương pháp đánh giá mô hình máy học
Unsupervised: gồm các hàm machine learning gom nhóm dữ liệu.
2.2 Tổng quan về các phương pháp sử dụng:
2.2.1 Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là quá trình chuẩn bị dữ liệu thô cho các bước phân tích dữ liệu và học máy tiếp theo Quá trình này giúp loại bỏ các dữ liệu bị thiếu, bị lỗi hoặc không cần thiết, hiệu chỉnh dữ liệu để phù hợp với các thuật toán phân tích dữ liệu và học máy, và biến đổi dữ liệu để phù hợp với các mục tiêu phân tích dữ liệu và học máy cụ thể Vì vậy, nó là một bước quan trọng trong quy trình phân tích dữ liệu và học máy Nó giúp đảm bảo rằng dữ liệu được chuẩn bị tốt để các bước tiếp theo có thể diễn ra chính xác và hiệu quả Quá trình tiền xử lí dữ liệu bao gồm: Làm sạch dữ liệu, Tích hợp và biến đổi dữ liệu và Rút gọn dữ liệu. a Làm sạch dữ liệu( Data cleansing/ Cleansing):
Làm sạch dữ liệu là quá trình chuẩn bị dữ liệu để phân tích bằng cách loại bỏ thông tin không liên quan hoặc không chính xác, không đầy đủ hoặc sai lệch có thể làm sai lệch kết quả và gây ra các quyết định sai lầm hoặc không thực tế Quá trình này là một bước quan trọng trong quy trình phân tích dữ liệu và học máy, vì nó giúp đảm bảo rằng dữ liệu được chuẩn bị tốt để các bước tiếp theo có thể diễn ra chính xác và hiệu quả.
Quá trình làm sạch dữ liệu sẽ cố gắng tóm tắt hóa dữ liệu, xử lí dữ liệu bị thiếu và bị nhiễu.
- Đối với tóm tắt hóa dữ liệu:
+ Xác định các thuộc tính (properties) tiêu biểu của dữ liệu về xu hướng chính (central tendency) và sự phân tán (dispersion) của dữ liệu Các độ đo về xu hướng chính gồm có: mean, median, mode, midrange… Các độ đo về sự phân tán gồm có: quartiles, interquartile range (IQR) và variance.
+ Nhận diện dữ liệu nổi bật hay dữ liệu hiếm bằng cách xác định nhiễu (noise) hoặc phần tử biên (outliers), cung cấp cái nhìn tổng quan về dữ liệu.
- Đối với dữ liệu bị thiếu (missing value):
+ Bỏ qua những bộ thiếu giá trị: Phương pháp này thường được dùng khi nhãn lớp bị thiếu và sẽ không có hiệu quả đối với trường hợp dữ liệu bị thiếu là quá lớn.
+ Xử lý bằng tay: có thể xử lí không tự động hoặc bán tự động Tuy nhiên, phương pháp này sẽ mất rất nhiều thời gian đối với một tập dữ liệu lớn có nhiều giá trị bị thiếu.
+ Dùng những giá trị thay thế, tự động: Ví dụ như sử dụng hằng số toàn cục để thay thế tất cả những giá trị bị thiếu bằng cùng một hằng số hay dùng giá trị có nhiều khả năng nhất- được quyết định bằng phương pháp hồi quy, dựa vào những công cụ suy luận như Phương pháp Bayesian hoặc Cây quyết định Ngoài ra còn nhiều giá trị khác được dùng như: trị phổ biến nhất, trung bình toàn cục, trung bình cục bộ,
+ Ngăn chặn dữ liệu bị thiếu: Giảm thiểu vấn đề bị thiếu dữ liệu thông qua việc đảm bảo thiết kế thật tốt một CSDL và các thủ tục nhập liệu (ràng buộc dữ liệu).
- Đối với dữ liệu bị nhiễu:
Xử lí dữ liệu bị nhiễu bao gồm: nhận diện được phần tử không tuân theo đặc tính/ hành vi chung của tập dữ liệu (outliers) và giảm thiểu nhiễu (noisy data). Trước hết, các kĩ thuật nhận diện phần tử biên gồm:
+ Dựa trên phân bố thống kê (Statistical distribution-based)
+ Dựa trên khoảng cách (Distance-based)
+ Dựa trên mật độ (Density-based)
+ Dựa trên độ lệch (Deviation-based)
Các giải pháp giảm thiểu nhiễu gồm:
+ Phân giỏ (Binning): Phương pháp này làm mịn dữ liệu bằng cách tham khảo những giá trị xung quanh nó (làm mịn dữ liệu cục bộ) Đầu tiên dữ liệu được sắp xếp vào các giỏ gọi là ‘bin’, sau đó làm mịn dữ liệu bằng các giá trị means, median, maximum, minimum… của bin
+ Hồi quy (Regression): Dữ liệu được làm mịn bằng cách làm cho dữ liệu khớp với một hàm Phương pháp hồi quy tuyến tính (Linear regression) tìm một đường thẳng tốt nhất khớp với hai thuộc tính (hoặc biến), vì thế có thể dùng một thuộc tính để dự đoán thuộc tính còn lại.
+ Gom cụm (Clustering): Các giá trị tương tự nhau theo một tiêu chuẩn cho trước gom lại thành từng cụm gọi là cluster Bằng trực giác, những giá trị nằm ngoài tập hợp cluster có thể xem là các phần tử cá biệt.
- Đối với dữ liệu không nhất quán: Dữ liệu đôi khi bị ghi nhận khác nhau cho cùng một đối tượng hoặc không phản ánh ngữ nghĩa đúng cho các đối tượng đó Do đó gây ra sự không nhất quán trong bộ dữ liệu Để giảm thiểu điều này cần sử dụng một số giải pháp:
+ Tận dụng siêu dữ liệu hoặc các ràng buộc dữ liệu cùng với sự kiểm tra của các nhà phân tích dữ liệu để hỗ trợ cho việc nhận diện sự không nhất quán.
KẾT QUẢ THỰC HIỆN
Tiền xử lý
4.1.1 Làm sạch dữ liệu: a Mô tả dữ liệu:
Bộ dữ liệu “Loan-Approval-Prediction-Dataset” ban đầu bao gồm 4269 bộ hồ sơ tài chính được công ty tập hợp thông qua 13 thuộc tính quan sát, với “loan_status” là biến phụ thuộc nhằm mục đích giúp phân loại hồ sơ được phê duyệt và dự đoán các các nhân hoặc tổ chức có đủ điều kiện để đi vay Nhóm chúng em đã sử dụng công cụ Feature Statistics để mô tả thống kê các biến này với những giá trị như Mean, Median, Dispersion, Min, và Max của 4269 bộ hồ sơ vay này.
Hình 6: Bảng mô thống kê mô tả các biến khảo sát của dữ liệu gốc.
Qua mô tả thống kê ta có thể thấy một số thông tin thú vị như: Với bộ dữ liệu này số lượng hồ sơ được chấp thuận là đa số, giá trị tài sản của các bộ hồ sơ cho vay là rất cao Ngoài ra ta thấy rõ được các giá trị trung bình, trung vị và mode của các thuộc tính đều đạt các giá trị rất cao, thể hiện điều kiện vay và quy mô vay của các khoản này đều rất lớn. b Xử lí Dữ liệu bị thiếu:
Mặc dù công ty tài chính tập hợp đến 4269 hồ sơ cho vay và rất nhiều thông tin liên quan, chứng tỏ đây là bộ dữ liệu khá lớn nhưng dữ liệu gốc lại không xuất hiện Missing data hay dữ liệu bị thiếu Vì đó nhóm không phải xử lí dữ liệu thiếu Từ đó, ta thấy rằng quá trình thu thập, ghi nhận và xử lí dữ liệu của công ty tài chính vô cùng cẩn thận, không xảy ra sai sót và giúp cho quá trình nghiên cứu phân tích sau sẽ hiệu quả hơn, đạt được kết quả tích cực hơn. c Thiết lập Type và Role của các thuộc tính:
Quan sát dữ liệu ban đầu nhóm có được Role và Type cùa 13 thuộc tính như sau:
Hình 7: Type và Role ban đầu của các thuộc tính.
+ Nhóm thực hiện điều chỉnh Type và Role của các thuộc tính sao cho phù hợp với nhu cầu xử lí khai thác dữ liệu:
- Ban đầu thuộc tính “loan_status” có Role là “Feature” Nhưng vì mục tiêu của bộ dữ liệu là dự báo cho biến phụ thuộc nên nhóm phải chuyển Role của thuộc tính này từ “Feature” sang “Target”.
- Đồng thời, thuộc tính “Loan_ID” chỉ có mục đích phân loại và nhận dạng cho từng hồ sơ này không tác động đến kết quả dự báo đầu ra nên Role của thuộc tính này được nhóm điều chỉnh “Skip”.
- Các biến còn lại đều đã được chỉnh Role và Type hợp lí nên không cần điều chỉnh thêm.
Hình 8: Kết quả thực hiện điều chỉnh Role
4.1.2 Loại bỏ các biến không phù hợp:
Sau khi quan sát và nghiên cứu bộ dữ liệu, cũng như tìm hiểu trong thực tế thì nhóm cho rằng thuộc tính “no_of_dependents” không có ảnh hưởng lớn đến biến phụ thuộc “Loan_status” Đồng thời, khi sử dụng công dụng Rank để phân tích ảnh hưởng của các biến đến biến phụ thuộc thì nhóm thấy biến này cũng có giá trị Gain ratio và Gini rất thấp, cả hai đều có giá trị bằng 0 Nên nhóm quyết định loại biến này khỏi mô hình trong quá trình tiền xử lí để tiến hành các thủ tục phân tích tiếp theo dễ dàng và hiệu quả hơn.
Hình 9: Kết quả đánh giá các thuộc tính trong Rank.
Hình 10: Thực hiện loại bỏ thuộc tính “no_of_dependents”.
Hình 11 : Bảng thể hiện các thao tác trong phần tiền xử lí dữ liệu.
Sau tiền xử lí nhóm lưu bộ dữ liệu thành file “File Tien xu li”.
Phân cụm
Vì đây là bộ dữ liệu mà nhóm thu thập từ Công ty tài chính để phê duyệt và phân loại, dự báo các hồ sơ nào có đủ điểu kiện vay Nên đây là bộ dữ liệu đã phân lớp hay bài toán đã có nhãn Nên để thực hiện phân cụm ta phải đưa bộ dữ liệu này về dạng chưa có nhãn Nhóm tiến hành giả định rằng bộ dữ liệu này chưa phân lớp bằng cách skip thuộc tính “Loan_Status”:
Hình 12: Bước xử lí skip thuộc tính “Loan_Status”.
Trong nghiên cứu khoa học và phân tích dữ liệu thì Phương pháp Hierarchical clustering và phương pháp K-Means là hai phương pháp phân cụm phổ biến, đáng tin cậy và đạt được hiệu quả cao Do đó, nên nhóm quyết định sẽ dùng hai phương pháp này để tiến hành phân cụm bộ dữ liệu “Loan-Approval-Prediction-Dataset”.
Hình 13: Các thao tác thực hiện phân cụm dữ liệu.
Hình 14: Kết quả phân cấp trên Orange.
Khi tiến hành phân cụm với phương pháp Hierarchical clustering, chỉ số liên kết giữa các đối tượng (Linkage), nhóm sẽ sử dụng cách tính toán khoảng cách trung bình (Average) Và sau nhiều lần thử phân thành những số cụm riêng biệt khác nhau như: phân bộ dữ liệu thành hai cụm, ba cụm, bốn cụm… Đồng thời kết hợp thông tin bộ dữ liệu gồm hai nhan ban đầu Thì nhóm quyết định chia toàn bộ các mẫu trong bộ dữ liệu thành hai cụm khác nhau Sau đó nhóm tiến hành phân bộ dữ liệu thành hai cụm riêng biệt với kết quả thu được như sau:
Hình 15: Bảng Silhouette Plot phân cụm cho cụm 1
Hình 16: Bảng Silhouette Plot phân cụm cho cụm 2
Khi tiến hành đánh giá kết quả phân cụm thì ta chủ yếu dựa vào giá trị Silhouette của từng mẫu được chia Với nguyên tắc như sau Giá trị Silhouette có khoảng giá trị nằm trong khoảng từ -1 đến 1, nếu như giá trị này càng lớn (càng tiến gần về 1) thì kết quả phân cụm càng chính xác, càng đáng tin cậy
Như vậy khi quan sát kết quả phân bộ dữ liệu thành hai cụm bằng phương pháp Hierarchical clustering ở hình 16 ta có thể nhận xét như sau: Với cụm màu xanh (cụm
1) phần lớn có giá trị Silhouette lớn hơn 0,4, càng về sau thì giá trị giảm dần đặc biệt lưu ý các mẫu cuối có giá trị âm cần sự đánh giá lại của các chuyên gia; đối với cụm màu đỏ (cụm 2) thì hầu hết các mẫu có giá trị Silhouette lớn hơn 0,6 nhưng cũng giống cụm 1, các mẫu về sau lại phần lớn có giá trị nhỏ hơn 0 Thế nên có thể nói là chỉ phần lớn các mẫu của cụm có giá trị Silhouette thỏa mãn nguyên tắc đánh giá nêu ra ở trên, nhưng những mẫu còn lại cần sự đánh giá và tư vấn của chuyên gia đầu ngành Đồng thời thể hiện rằng phương pháp phân cụm Hierarchical clustering với bộ dữ liệu này đã thu kết quả khá chính xác và khá đáng tin cậy.
Bước đầu khi tiến hành phân cụm với K-Means là chọn số cụm mà nhóm muốn chia bộ dữ liệu thành Nguyên tắc chọn dựa hoàn toàn vào chỉ số Silhouette Scores trung bình của từng cách phân cụm, chỉ số Silhouette Scores trung bình càng cao nghĩa là cách phân cụm ấy càng hiệu quả và đáng tin cậy Vì thế cần quan sát Hình
17, kết quả giá trị Silhouette của từng cách phân cụm:
Hình 17: Bảng phân tích k-Means cho bộ dữ liệu Để xác định số cụm mà nhóm nên dùng để chia bộ dữ liệu với phương pháp k- Means là hợp lí nhất thì cần phải xét các giá trị Silhouette của từng cách phâm cụm Ta ưu tiên chọn số cụm nào có chỉ số Silhouette trung bình cao nhất để tiến hành phân cụm Do giá trị Silhouette trung bình càng cao thì phương pháp phân cụm đó sẽ càng đáng tin cậy và chính xác hơn Quan sát kết quả phân tích k-Means của hình 17 ta thấy chia bộ dữ liệu thành 2 cụm đạt giá trị Silhouette cao nhất với giá trị Silhouette Scores
= 0,296 Đồng thời nhóm thực hiện phân tích đánh giá chi tiết tiết từng mẫu dữ liệu sau khi dùng sau khi được phân cụm:
Hình 18: Bảng Silhouette Plot cho cụm màu xanh (cụm 1).
Hình 19: Bảng Silhouette Plot cho cụm màu xanh (cụm 1).
Vẫn sử dụng nguyên tắc đánh giá phâm cụm theo giá trị Silhouette đã nêu ở phương pháp Hierarchical clustering mà nhóm sẽ tiếp tục nhận xét kết quả phân cụm
27 theo phương pháp k-Means Theo kết quả trên ta thấy bộ dữ liệu được phân làm hai cụm: với cụm một (màu xanh) có các giá trị Silhouette được chia làm hai phần, phần lớn ở trên bao gồm các giá trị dương trải dài từ 0 đến 0,55 và phần dưới một ít mẫu có giá trị âm bao gồm các mẫu có giá trị từ -0,3 đến 0 Còn đối với các mẫu màu đỏ (cụm hai) lại là đa số các mẫu có giá trị dao động từ 0,6 đến 0,8 và càng về sau thì các mẫu lại có giá trị giảm dần về 0, đặc biệt là vài mẫu cuối của cụm hai có giá trị Silhouette bé hơn 0 Từ đây có thể nói rằng phân cụm theo phương pháp k-Means đạt kết quả khá tích cực, độ tin cậy ở mức khá, nhưng cụm một của phương pháp này thì cần sự đánh giá phân tích lại của chuyên gia có kinh nghiệm vì nó vẫn chưa đạt giá trị Silhouette hợp lí
Khi đánh giá bằng chỉ số Silhouette thì nhóm thấy chưa đạt được kết quả so sánh một cách khách quan nên nhóm quyết định tiến hành thêm đánh giá ngoại hai phương pháp này.
4.2.3 Tiến hành Đánh giá Ngoại hai phương pháp phân cụm:
Sau khi tiến hành đánh giá nội, đánh giá dựa chủ yếu trên chính dữ liệu phân cụm hay trong bài nghiên cứu này là đánh giá dựa vào chỉ số Silhouette Plot, thì nhóm sẽ tiến hành đánh giá ngoài hai phương pháp phân cụm trên Để từ đó có được cái nhìn khách quan và chính xác để biết rằng phương pháp nào là phương pháp phân cụm hợp lí hơn.
Sau khi tiến hành xong quá trình phân cụm dữ liệu với hai phương pháp Hierarchical clustering và K-Means thì nhóm đã lưu trữ dữ liệu dưới dạng file Excel để tiến hành so sánh ngoài
Hình 20: Bảng dữ liệu excel khi đã phân cụm theo phương pháp Hierarchical clustering.
Hình 21: Bảng dữ liệu excel khi đã phân cụm theo phương pháp k-Means
Mặc khác, nhóm thực hiện đếm các mẫu của thuộc tính “Loan_Status” trong dữ liệu ban đầu Để từ đó có cái nhìn tổng quan về số lượng các mẫu trong mỗi cụm ban đầu Sau đó mới tiến hành so sánh với kết quả phân cụm bằng Orange Qua kết quả tổng hợp bảng Pivot Table trong Excel, nhóm có được kết quả như sau: 2656 mẫu có giá trị “Approved” nghĩa là trong 4269 bộ hồ sơ đi vay thì có 2656 hồ sơ có đủ điều kiện để đăng ký tiền vay và còn lại 1613 kết quả có giá trị “Rejected” nghĩa đây là các cá nhân hoặc tổ chức không đủ điều kiện xét duyệt cho vay Qua bước thực hiện đếm các giá trị này ta có thể kết luận rằng cụm nào xuất hiện nhiều giá trị thì khả năng cao là cụm gồm những hồ sơ đủ điều kiện để vay tiền và ngược lại. a So sánh dữ liệu đã phân cụm bằng phương pháp Hierarchical với dữ liệu đã có nhãn sãn ban đầu:
Bước 1, nhóm thực hiện sao chép kết quả các mẫu của thuộc tính
“Loan_Status” từ bộ dữ liệu đã tiền xử lí sang dữ liệu phân cụm bằng phương pháp Hierarchical Clustering.
Hình 22: Bảng dữ liệu sau khi dán nhãn và copy nhãn hiện có.
Bước 2, vì theo phương pháp Hierarchical Clustering thì cụm C2 có nhiều mẫu hơn C1 nên nhóm giải định rằng cụm C2 mang giá trị “Approved” và cụm C1 mang giá trị “Rejected” Sau đó nhóm tiến hành dán nhãn cho dữ liệu đã phân cụm dựa trên kết quả phân cụm bằng excel bằng lệnh =IF(L2="C2","Approved","Rejected").
Hình 23: Câu lệnh dán nhãn cho dữ liệu đã phân cụm.
Phân lớp dữ liệu
Nhóm đưa bộ dữ liệu đã qua tiền xử lí vào phần mềm Orange và chọn thuộc tính “Loan_status” làm target Tiếp theo, Dùng lệnh Data Sampler để chia dữ liệu làm
2 phần với tỷ lệ khác nhau (1 phần gồm 10 dòng dữ liệu và phần còn lại) Dùng file dữ liệu 4259 dòng dữ liệu là “Bộ dữ liệu huấn luyện”, file 10 dòng dữ liệu là “Bộ dữ liệu dự báo” Sau khi phân tách bộ dữ liệu thì nhóm sẽ dùng “Bộ dữ liệu huấn luyện” để xây dựng mô hình phân lớp và sử dụng “bộ dự liệu dự báo” để tiến hành dự báo.
Hình 30: Các thao tác bộ bộ dữ liệu “Huấn luyện” và “Dự báo”
Sau đó, Nhóm tiến hành phân lớp bộ dự liệu theo bốn phương pháp đã học:
- Cây quyết định (Decision Tree)
- Hồi quy Logistic (Logistic Regression)
Hình 31: Chuỗi thao tác phân lớp dữ liệu.
4.3.2 Đánh giá các mô hình:
Sau khi thực hiện các thao tác phân lớp dữ liệu, ta tiến hành đánh giá các mô hình phân lớp (kiểm tra tính đúng đắn của mô hình) bằng các công cụ sau: a Sử dụng Test and Score:
Nhóm dùng công cụ Test and Score như một phương pháp để so sánh, đánh giá các thuật toán và lựa chọn phương pháp tốt nhất để tiến hành dự báo
Trong bảng Test and Score có nhiều cách chia tỉ lệ lấy mẫu khác nhau như Cross validation hay Random Sampling… Dưới đây là một số kết quả tại Bảng Test and Score với 1 số cách chia tỉ lệ lấy mẫu khác nhau:
Hình 32: Kết quả khi chia mẫu dữ liệu 5 phần (Cross validation)
Hình 33: Kết quả khi chia mẫu dữ liệu 10 phần (Cross validation) Nhận xét: Tại mục “Evaluation results for target” cho biết được các chỉ số đánh giá về các mô hình Để đánh giá các mô hình ta sẽ chủ yếu dựa vào các chỉ số AUC,
CA Nhìn chung qua các trường hợp, nhóm thấy rằng các chỉ số đánh giá cho mô hình Cây quyết định là cao nhất tiếp theo là mô hình các còn lại đều được đánh giá khá tích cực Mô hình Decision Tree được đánh giá cao hơn so với các mô hình còn lại, cụ thể tại Cross validation=5% thì mô hình Decision Tree có: AUC = 0,973 và CA =0,981. Như vậy, theo Test and Score thì thuật toán Cây quyết định là một mô hình phân lớp tốt nhất, hợp lí nhất trong ba phương pháp Còn hai mô hình còn lại thì đều được đánh giá khá tốt, tuy nhiên ta thấy mô hình SVM được đánh giá cao hơn Logistic Regression rất nhiều Ngoài ra, để có thể chọn ra phương pháp phân lớp tốt nhất thì nhóm quyết định thực hiện thêm các đánh giá khác để có kết quả tốt nhất, khách quan nhất. b Sử dụng Ma trận nhầm lẫn (Confusion Matrix):
Ma trận nhầm lẫn (Confusion Matrix) là một phương pháp rất hữu ích trong việc đánh giá sự chính xác và hiệu quả của các mô hình phân lớp dữ liệu Nhóm đã quyết định sử dụng Ma trận nhầm lẫn để đánh giá về ba phương pháp phân lớp đã thực hiện ở trên và thu được kết quả như sau:
Hình 34: Kết quả ma trận nhầm lẫn của phương pháp Decision Tree
Hình 35: Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression
Hình 36: Kết quả ma trận nhầm lẫn của phương pháp SVM
Sau khi có được các kết quả trên, thì hai tỷ số cần đặc biết chú ý là tỷ lệ sai lầm loại 1 và tỷ lệ sai lầm loại 2 Hai tỷ lệ này cho biết rằng một mô hình phân lớp được đánh giá là tốt hay xấu và điều kiện đánh giá là mô hình càng chính xác nhất khi có hai tỷ lệ sai lầm này là thấp nhất.
Dựa vào lý thuyết đã nêu trên và dựa vào kết quả Ma trận nhầm lẫn thì phương pháp Decision Tree là phương pháp phân lớp hiệu quả và chính xác nhất vì mô hình có tỷ lệ sai lầm khá nhỏ với sai lầm loại 1 là 2,0% và nhỏ nhất với sai lầm loại 2 là 2,3%. Nhóm đặc biệt quan tâm đến tỷ lệ sai lầm loại 2, vì đây là loại sai lầm có tác động rất nghiêm trọng Sai lầm loại loại 2 nghĩa là dự đoán cá nhân hoặc tổ chức không đủ điều kiện phê duyệt cho vay nhưng thực sự lại đủ khả năng vay, từ đó làm cho dự đoán và phân tích của trở nên sai lệch làm công ty mất đi những khách hàng tiềm năng Tỷ lệ sai lầm loại 2 của ba phương pháp như sau:
Decision Tree = 2,3% < Logistic Regression = 19,7% < SVM = 37,6%
Sai lầm loại 2 của phương pháp Decision Tree là nhỏ nhất trong bốn phương pháp. c Sử dụng đường cong ROC:
ROC Analysis: là 1 phương tiện so sánh giữa các mô hình phân loại Đường cong càng gần đường viền bên trái và sau đó là đường viền trên cùng của không gianROC, phân loại càng chính xác
Nhận xét: Một mô hình hiệu quả, đáng tin cậy khi đường cong ROC càng tiệm cận với điểm (0;1) trong đồ thị Quan sát bảng kết quá trên ta thấy đường màu xanh của mô hình Decision Tree là mô hình tiệm cận với điểm (0;1) nhất Còn mô hình
Logistic Regression lại bị đánh giá thấp hơn
Kết luận: Phương pháp phân lớp Cây quyết định là phương pháp tốt nhất vì: + Phương pháp này có AUC (Area Under the Curve) hay diện tích nằm dưới đường cong ROC là lớn nhất (xấp xỉ 1), tức là có mô hình tốt nhất;
+ Phương pháp này tỷ lệ sai lầm loại 2 thấp nhất;
+ Độ chính xác (Precision) cao nhất;
+ Phương pháp này có hiệu quả cao nhất vì có đường cong ROC tiệm cận nhất với điểm (0;1).
Dự báo
Sau khi đã thực hiện phân lớp và đánh giá các mô hình phân lớp, ta đã lựa chọn được phương pháp Decision Tree là tốt nhất Vì vậy, nhóm sẽ dùng Decision Tree để tiến hành dự báo cho Bộ dữ liệu “Dự báo” đã chuẩn bị trước đó.
4.4.1 Lấy mẫu dự liệu: Đưa dữ liệu “Bộ Dự báo” vào Orange và tiến hành dự báo.
Hình 38: Đưa bộ dữ liệu “Dự báo và Orange”
Sử dụng Predictions để dự báo dữ liệu theo phương pháp Decision Tree.
Hình 39: Mô hình dự báoKết quả dự báo:
Hình 40: Kết quả dự báo.
Nhóm sử dụng mô hình Cây quyết định để tiến hành cho bộ dữ liệu nhóm có được kết quả như sau: Trong 10 mẫu dự báo có 6 mẫu có giá trị “Loan_status” “Approved” hay đây là bộ hồ sơ của cá nhân hoặc tổ chức đủ điều kiện để phê duyệt vay từ tổ chức tài chính và ngược lại, có 5 mẫu có giá trị “Loan_status” = “Rejected” và đây là những bộ hồ sơ của cá nhân hoặc tổ chức không đủ điều kiện để phê duyệt vay từ tổ chức tài chính Và so sánh với bộ dữ liệu ban đầu thì quá trình dự đoán này là hoàn toàn chính xác, kết quá vô cùng đáng tin cậy và hợp lí.
Sau khi hoàn thành dự báo ta thực hiện lưu kết quả dự báo về máy với tên File là KQDB.xlxs
Đánh giá kết quả nghiên cứu
ngành “Khoa học dữ liệu”, nhờ đó mà hiểu rõ hơn, tìm hiểu kĩ hơn, có cái nhìn trực quan và sâu sắc hơn về nó cũng như phần mềm Orange Đồng thời nhóm học được cách thức để xây dựng một mô hình xử lý, khai phá dữ liệu bằng phần mềm Orange Từ đó áp dụng mô hình đã xây dựng để xử lý bộ dữ liệu “Loan-Approval-
Prediction-Dataset” được nhóm thu thập được bằng các thuật toán phân cụm và phân lớp phù hợp nhất
Khi tiến hành tiền xử lí bộ dữ liệu, nhóm đã tiến hành thiết lập lại Role và Type của các thuộc tính, xử lí dữ liệu nhiễu loại bỏ các biến không cần thiết để từ đó giúp cho bộ dữ liệu trở nên tinh gọn hơn, không còn các hiện tượng dư thừa những thuộc tính không cần thiết Nhờ vậy quá trình nghiên cứu trở nên hiệu quả và chính xác hơn.
Từ đó nhóm hiểu được cách làm cho bộ dữ liệu phù hợp với yêu cầu nghiên cứu đặt ra, giúp bộ dữ liệu hoàn thiện hơn Ngoài ra còn giúp nhóm hiểu hơn về bộ dữ liệu, về đặc điểm của hồ sơ đi vay của các cá nhân hoặc tổ chức đủ điều kiện đi vay.
Với bài toán phân cụm, nhóm đã giả định bộ dữ liệu “Loan-Approval-
Prediction-Dataset” ban đầu không có nhãn và tiến hành phân cụm với hai phương pháp Hierarchical clustering và K-Means Sau khi tiến hạnh phân cụm và nhờ
41 vào đánh giá nội, đánh giá ngoại mà nhóm thấy rằng với bộ dữ liệu này thì Hierarchical clustering là phương pháp phân cụm chính xác, đáng tin cậy hơn Còn đối với phân lớp dữ liệu, phương pháp Cây quyết định cho kết quả phân lớp hiệu quả hơn, hợp lí hơn, được đánh giá thông qua ma trận nhầm lẫn, các chỉ số đánh giá và đường cong ROC Ngoài ra kết quả của các mô hình đánh giá cho thấy các thuật toán còn lại cũng khá hợp lí nhưng tính đáng tin cậy không cao bằng phương pháp Cây Quyết định đối với bộ dữ liệu này.
Nhóm đã sử dụng phương pháp Cây Quyết định để tiến hành dự báo cho 10 dòng mẫu dữ liệu ngẫu nhiên được lấy từ bộ dữ liệu “Dự báo” và cho kết quả rất tích cực Từ kết quả dự đoán của mô hình nghiên cứu mà giúp cho nhà quản trị và các cấp quản lí của tổ chức tài chính có thể dự đoán, phân loại các bộ hồ sơ đi vay của các cá nhân hoặc tổ chức đủ điều kiện phê duyệt cho vay Để từ đó công ty tài chính có thể có các chính sách hợp lí cho từng hợp đồng cho vay và tìm được các khách hàng tiềm năng cho tổ chức của họ Cũng như từ đó có được các chính sách, các quyết định phát triển kinh doanh, cách quyết định cho vay, xét duyệt cho vay hợp lí với từng khách hàng cụ thể.