Đề áp dụng những kiến thức đã được học trên lớp vào bối cảnh như trên, nhóm tác giả quyết định thực hiện đề tài “Phân tích và dự đoán rủi ro phá sản các của công ty được niêm yết trên sà
Trang 1GIANG VIEN HUONG DAN: HO VAN PHUNG TEN DE TAI: PHAN TICH VA DU DOAN RUI RO PHA
SAN CAC CUA CONG TY DUOC NIEM YET TREN
SAN CHUNG KHOAN DAI LOAN
Nhom thuc hién: Nhom 1
Thông tin thành viên: Trần Nguyễn Như Quỳnh 31211023980
Phan Thị Thanh Ngân 31211026478
Trang 2LOI MO DAU
Khoa hoc dữ liệu hiện nay đã trở thành một trong những lĩnh vực quan trọng và phát triên mạnh mẽ trong thời đại số hóa ngày nay Sự gia tăng về khối lượng dữ liệu được tạo ra hàng ngày cùng với sự tiến bộ vượt bậc trong công nghệ và phần mềm đã mở ra cánh cửa cho việc áp dụng khoa học dữ liệu trong nhiều lĩnh vực từ kinh đoanh đến y tế, từ khoa học xã hội đến công nghệ thông tin Bên cạnh đó, ngành khoa học đữ liệu không chỉ tập trung vào việc thu thập và lưu trữ dữ liệu mà còn chủ trọng vào việc phân tích sâu rộng để tìm ra những thông tin quý báu và những định luật ân sau những con số Bằng cách áp dụng các kỹ thuật và công cụ phức tạp từ lĩnh vực thống kê, máy học và khoa học máy tính, khoa học dữ liệu giúp hiểu sâu hơn về các mô hình, xu hướng và dự đoán tương lai dựa trên dữ liệu có san
Trong bối cảnh toàn cầu hóa, việc nâng cao hiệu quả hoạt động kinh đoanh của các công ty niêm yết trên sàn chứng khoán đóng vai trò quan trọng đối với nên kinh tế của quốc gia và làm tăng sức cạnh tranh của công ty đối với các doanh nghiệp trong và ngoài nước Đặc biệt, giai đoạn hậu Covid-L9 đã làm gián đoạn các nhà máy, chuỗi cung ứng hàng hóa, dẫn đến hoạt động kinh doanh của các công ty gặp nhiều khó khăn, nhiều doanh nghiệp đứng trước nguy cơ phá sản
Đề áp dụng những kiến thức đã được học trên lớp vào bối cảnh như trên, nhóm tác giả quyết định thực hiện đề tài “Phân tích và dự đoán rủi ro phá sản các của công ty được niêm yết trên sàn chứng khoán Đài Loan” Tiêu luận này tập trung vào việc áp dụng các phương pháp khoa học dữ liệu đề dự đoán khả năng phá sản của các công ty Qua việc nghiên cứu, phân tích và ứng dụng các mô hình dự đoán, nhóm đã cùng nhau khám phá cách xử lý đữ liệu và áp dụng các thuật toán máy học có thế cung cấp thông tin quan trọng, từ đó giúp nhận diện và đánh giá rủi ro phá sản của công ty một cách hiệu quả Qua nghiên cứu, không chỉ giúp các doanh nghiệp tự bảo vệ mình tránh những rủi ro mà còn giúp họ đưa ra những quyết định chiến lược đúng đắn hơn trong việc vận hành công ty Vì kiến thức của nhóm vẫn còn hạn chế nên trong quá thực hiện đề tài có chỗ nào thiểu sót và cần khắc phục, nhóm chúng em hy vọng thay bo qua và đưa ra những lời góp ý, đánh giá dé dé tài của nhóm chúng em được tốt hơn
Trang 3Cuối cùng, không có sự thành công nào mà không có người dìu dắt, hướng dẫn và dạy cho chúng em những kiến thức bổ ích Vì vậy, nhóm chúng em xin gửi lời cảm ơn sâu sắc đến thầy vì những giờ giảng dạy, hướng dẫn của thầy trên lớp cũng như những lời góp ý bồ ích đề đề tài của nhóm được hoàn thành tốt hơn Nhóm chúng em xin chúc thầy và gia đình thật nhiều sức khỏe, bình an trong cuộc sông và hy vọng sẽ có duyên học lại thầy trong những học phân tiếp theo
Bài đô án có tên “Phân tích và dự đoán rủi ro phá sản các của công ty được niêm yết trên sàn chứng khoán Đài Loan” gồm 3 chương chính:
Chương |: Tổng quan Chương 2: Quy trình thực hiện và kết quả Chương 3: Kết luận và hướng phát triển đề tài
Bảng phân công nhiệm vụ
2 | Phan Thi Thanh Ngan | 31211026478 | 142.23 22-4, lời mở đầu 100%
3 Lê Yến Vy 31211027151 | Lộ: 2l: hướng phát | 1ogg, triên đề tải
1.2., 2.3, 3.1, danh 4 Pham Thi Ta Trinh 31211024763 | mục hình ảnh, danh 100%
mục bảng biêu
1.1, 2.2.1, 2.2.2, 3.3, 5 Tran Kim Hoang 31211023686 tài liệu tham khảo 100%
Trang 4MỤC LỤC
CHƯƠNG 1: TONG QUAN 5
1.1 Giới thiệu về khoa học dữ liệu cece cece eceeceeeecseesesesessesessesesteeeseeeeee 5
In <4: 6 an Í.Íš 5
1.1.2 Tổng quan về KHIDIL 5-51 E1 SE EE121221211112111111211 1111110111121 te 5 1.1.3 Sự phát triển KHIDL 22: S1 1111 11111111111E7211E11717111211111111 11t rre 6 1.1.4 Ứng dụng tiêu biỂu 52-52 21211 1117111121171111121121211 1111112 6 1.2 Giới thiệu đề tài 0 n2 H22 22t tre 8 L.2.L Ly do chon 46 taiec.ccccccccccccccescsscsessesessessesessesscsessesessesevseseesevevsvsissersicsees 8
1.2.2 Mục tiêu nghiên CỨU - 2 2 22 2221220111131 1131113111111 1131 111111111111 11 1151112 8 1.2.3 Đối tượng và phạm vi nghiên cứu 5 s- 9s SE SE111115121121111111 E121 t6 9 1.2.4 Ý nghĩa và đóng góp -5s c2 21 1121111121121121217111 11211 rrrrree 9
CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KÉT QUẢ -.5-5 10 2.1 Phân tích và tiền xử lý dữ liệu ST T2112111121221 1212 rrrrye 10
2.2.4 Kết luận chung 5 s11 211112112111121 11111111211 1 11 11g ngu 21
2.3 Bài toán 2: Phân lớp các công ty có khả năng phá sản hoặc không phá sản
Trang 53.2 Đề xuất giải phâp - -scs n1 T1 HE 2121221121111 111tr 32 3.3 Hạn chế - sc s 1121121121121121121211111 1 1121001211111 1n ng ryu 33 3.4 Hướng phât triển đề tăi âc 212211211111 1121111111121111 111111 21a 33 TĂI LIỆU THAM KHẢO 34
DANH MỤC HÌNH ẢNH
Hinh 1.1 Giao diĩn dataset dĩ nạp đữ liệu ca employee attrition ccc 11 Hình 1.2 Dữ liệu Employee attrition chưa qua tiền xử lý trín Data table 11 Hình 1.3 Giao diện select columns 2 2111121555111 1 1155525111111 1 951111111 115151211 1x4 12 Hình 1.4 Dữ liệu đê qua tiền xử lý trín Data Table 55 S1 E215 xe 12 Hinh 2.1 Mô hình quâ trình phđn cụm 14
Hinh 2.2 Quâ trình phđn cụm TDiana 2 2c 2122212211211 121 12211221 1111111 11111112 21xe2 16 Hinh 2.3 Quâ trình phđn cụm ĂÔønes - - L0 0201220111201 1121 112111121111 555 51111 vy 16 Hinh 2.4 Mô hình phđn cụm Hierarchical Clustering - 2 22 22+ +2 cszsxs2 L7
Hình 2.5 Nhập dữ liệu đầu văo S1 T222 1221211 1221212121 2011 are 17
Hình 2.6 Ma trận khoảng câch - - : 2 122012120 11231 1231115111511 1 1155111111151 1 tre, 18 Hình 2.7 Bảng phđn cụm bằng phương phâp Hierarchical Clustering - 18 Hình 2.8 Biểu đồ Silhouette phương phâp Hierarchical Clustering - s: 19 Hình 2.9 Bảng kết quả phđn cụm bằng phương phâp Hierarchical Clustering 19 Hình 2.10 Câc bước chạy phđn cụm K-meañs 5 2 2c 222221111 1122211 115212122 20 Hình 2.11 Kết quả chỉ số Silhouette phương phâp K-meas - 5s 2s czcxszzzczez 20 Hình 2.12 Kết quả Silhouette Plot phương phâp K-means -55- 5c scc szzzsze2 21 Hình 2.13 Bảng kết quả phđn cụm bằng phương phâp K-means 5-5555: 21 Hình 2.14 Quy trình thực hiện phđn cụm 5 0 2222122212211 11 1211111525111 25g 22
Hình 3.1 Mô hình phđn lớp 20
Hình 3.2 Mô hình lđy mẫu dữ liệu dự bâo - 2 1 S21 2192111821E7111211211 1 xe2 21
Hinh 3.3 Mô hình xđy dựng hoăn chỉnh - c1 2 2222221121121 121 1221281155112 xe 22 Hình 3.4 Đường cong ROC của biến mục tiíu Banlkrupt - 2 5 c2 23 Hình 3.5 Kết quả kiểm định Test and Score phđn chia dữ liệu 5 phần vă 10 phần 23
Hình 3.6 Kết quả kiím định Test and Score khi chia mẫu đữ liệu 50% - 80% 24 Hình 3.7 Kết quả kiím định Test and Score khi chia mẫu đữ liệu 20% - 95% 24
Hình 3.8 Kết quả dự bâo số công ty phâ sản vă không phâ sản -5 5c s5: 25
DANH MỤC BẢNG BIẾU
Bảng I.1 Mô tả thuộc tính dữ liệu că 2n nh HH hiện 14
Trang 6Bảng 2.1 Đánh giá tính hiệu quả phương pháp Hierarchical Clustering va K-means22 Bảng 3.I Bảng tông hợp kết quả ba phương pháp 26
CHƯƠNG 1: TONG QUAN 1.1 Giới thiệu về khoa học dữ liệu
Khoa học đữ liệu là ngành nghiên cứu về quản trị và phân tích đữ liệu, khai thác thông tin giá trị dé chuyên đôi thành trí thức, góp phần hỗ trợ các đoanh nghiệp đưa ra quyết định
Được chia thành 3 phần chính: - Tạo và quản trị dữ liệu - Phân tích dữ liệu - Chuyên kết quả phân tích thành giá trị Mục đích của Khoa học dữ liệu là biến đổi một lượng lớn dữ liệu chưa được xử lý thành những giá trị hữu ích, từ đó giúp hiểu được quá khứ, nhận định được hiện tại, dự đoán trước tương lai, đưa ra các quyết định
Trang 7Là một hình thức thí nghiệm, các công việc phải thực hiện bao gồm: Bước I: Thực hiện quan sat
Bước 2: Tiến hành đặt câu hỏi Bước 3: Hình thành các giả thuyết Bước 4: Tạo ra các bài kiểm tra Bước 5: Nghiên cứu, phân tích kết quả Bước 6: Đưa ra các dự báo, khuyến nghị thực tế
1.2 Giới thiệu đề tài 1.2.1 Lý do chọn đề tài
Thị trường chứng khoán là một thị trường sôi nôi và đầy biến động Trong lĩnh
vực tài chính, việc phân tích và dự đoán rủi ro phá sản là một van dé quan trong va sé giúp ích được cho không chỉ các nhà đầu tư mà còn là các đoanh nghiệp Ngoài việc xác định các công ty tốt đề đầu tư và sinh lợi lâu đài, ta cần hiểu thêm về những đặc điểm của các công ty có xu hướng hoạt động kém hiệu quả, hoặc tệ hơn nữa là dẫn đến kết quả phá sản đề tránh đầu tư hoặc rời bỏ sớm để xem xét các công ty hoạt động hiệu quả khác với rủi ro thấp và lợi nhuận cao hơn, sở hữu một danh mục đầu tư thông minh hơn Bên cạnh đó, Đài Loan cũng là một trung tâm tài chính của khu vực Châu Á, đặc biệt trong giai đoạn 1999 — 2009, không chỉ Đài Loan mà thị trường chứng khoán tại Châu Âu lẫn Châu Mỹ đều đang phát triển một cách mạnh mẽ nhờ vào các lợi thế về sản xuất, kinh doanh làm đòn bây cho sự tăng trưởng vượt bậc của các công ty Vì vậy, đến với năm 2008- khi khủng hoảng kinh tế xảy ra, sự sụp đồ hàng loạt của các công ty đã kéo theo thị trường chứng khoán bị tổn thương một cách nghiêm trọng Nghiên cứu về rủi ro phá sản không chỉ quan sát xem giai đoạn biến động trước đó, cách các công ty đối diện với sự kiện này, mà còn đưa ra đánh giá và ứng dụng đưa ra dự đoán cho các công ty hiện tại, đem lại các quyết định thông minh hơn Bài nghiên cứu sẽ đi từ việc phân tích và tiền xử lý đữ liệu, áp dụng các bài toán phân cụm và phân lớp để đạt được các kết quả, từ đó sẽ đưa ra đề xuất, hạn chế để các hướng nghiên cứu trong tương lai về đề tài tượng tự chị tiết và hoàn thiện hơn
Trang 81.2.2 Mục tiêu nghiên cứu
1.2.2.1 Mục tiêu tông quát
Phân tích và dự đoán rủi ro phá sản các của công ty được niêm yết trên sản
chứng khoán Đài Loan từ năm 1999 đến 2009
1.2.3.2 Phạm vi nghiên cứu Đề tài phân tích các yếu tố đự đoán khả năng phá sản của công ty được niêm vết trên sản chứng khoán Đài Loan Nghiên cứu được thu thập các đữ liệu phá sản từ Tạp chí Kinh tế Đài Loan của 6819 doanh nghiệp trong những năm 1999-2009 Ngoài ra, có hai tiêu chí được sử dụng khi thu thập mẫu dữ liệu Đầu tiên, các công ty mẫu phải có ít nhất ba năm thông tin đại chúng đầy đủ trước khi xảy ra cuộc khủng hoảng tài chính Thứ hai, cần có đủ số lượng các công ty có quy mô tương đương trong cùng ngành để so sánh giữa các trường hợp phá sản và không phá sản
1.2.4 Ý nghĩa và đóng góp Đề tài “Dự đoán khả năng phá sản của công ty” là một chủ đề nghiên cứu rất cần thiết trong lĩnh vực tài chính và kinh doanh Nghiên cứu này nhằm giúp xác định và đánh giá nguy cơ phá sản của một công ty trong tương lai dựa trên các chỉ số tài chính và các đữ liệu liên quan trong quá trình thực hiện đề tài
Đối với doanh nghiệp, việc dự đoán khả năng phá sản sẽ giúp họ để phòng rủi ro, nhận biết các dâu hiệu phá sản đề có thê thực hiện những biện pháp phòng và quản trị rủi ro một cách hiệu quả Ngoài ra, hiểu rõ tình hình tài chính của công ty sẽ giúp họ có các quyết định tài chính hợp lý bao gồm việc tối ưu hóa cấu trúc vốn, quản lý nợ
7
Trang 9để giảm thiêu khả năng phá sản Bên cạnh đó, dự đoán khả năng phá sản sẽ giúp nhà đầu tư và các tô chức tài chính đánh giá rủi ro và hỗ trợ trong việc ra quyết định đầu tư vào một công ty
CHƯƠNG 2: QUY TRÌNH THỰC HIỆN VÀ KÉT QUÁ 2.1 Phân tích và tiền xử lý dữ liệu
2.1.1 Phân tích dữ liệu Vì dữ liệu nhằm phân tích và dự đoán rủi ro phá sản các của công ty được niêm
vết trên sàn chứng khoán Đài Loan từ năm 1999 đến 2009 nên biến “y” sẽ là biến
“Bankrupt” Cac bién con lại sẽ dùng đề giải thích cho biến mục tiêu - _ Dữ liệu có những đặc tính, cụ thé thông tin về các biến như sau: - _ Mỗi hàng đại diện cho l công ty được niêm yết trên sản chứng khoán Đài Loan - - Dữ liệu thô chứa 6819 đối tượng và 96 cột đặc trưng Trong đó, bộ dữ liệu đã minh họa cho sự mắt cân đối rất lớn với 96,774% doanh nghiệp không phá sản và 3,226% doanh nghiệp phá sản
- _ Bộ đữ liệu có biến phụ thuộc là Bankrupt, với đữ liệu là 1 doanh nghiệp phá sản và với dữ liệu là 0, doanh nghiệp không phá sản
- _ Trong những cột dữ liệu về những thuộc tính, nhóm cho rằng có l4 thuộc tính chính, tổng hợp từ những đặc trưng còn lại, có ảnh hướng lớn đến việc phân tích và dự đoán khả năng phá sản của các doanh nghiệp Đài Loan : Depree of Financial Leverage (DFL); ROA(C) before interest and depreciation before interest; ROA(B) before interest and depreciation after tax; ROA(A) before interest and % after tax; Net profit before tax/Paid-in capital; Total debt/Total net worth; Persistent EPS in the Last Four Seasons; Per Share Net profit before tax (Yuan ¥); Net Income to Total Assets; Retained Earnings to Total Assets; Continuous interest rate (after tax); Borrowing dependency; After-tax net Interest Rate; Pre-tax net Interest Rate
2.1.2 Tiền xử lý dữ liệu
Tiến hành xử lý bộ dữ liệu trên phần mềm Orange: Đầu tiên, dữ liệu được lấy từ dataset Bộ dữ liệu Company Bankruptcy Prediction có 6819 đối tượng và 96 cột đặc trưng Trong đó, bộ dữ liệu đã minh họa
cho sự mắt cân đối rất lớn với 96,774% doanh nghiệp không phá sản và 3,226% doanh
nghiệp phá sản Doanh nghiệp phá sản và không phá sản được đánh đấu riêng biệt là ‘1’? va ‘0’
Trang 10i ED ( a § %
=) Data Table (1) - Orange = a] x
Info _ Bankrupt? 2rest and depreciat +fore interest and % interest and deprex »erating Gross Marc izec
ie 1L 1 0.370594 0.424389 0.40575 0.601457
Trang 11
Fier Filtor
@ Equity to Liability @® ROA(C) before interest and depreciation before interest
f Non-ndustry income and expenditure/revenue ® Net profit before tax/Paid-in capital Not Income to Stockholder's Equity
@ Interest Coverage Ratio (Interest expense to EBM) = @ Persistent EPS in the Last Four Seasons
Œ Guick Ratio @© Per Share Net profit before tax (Yuan ¥) BD Liability to Equity B® Net income to Total Assets
D Net Value Per Share (A) © Continuous interest rate (after tax) @ Net Value Per Share (B) Net Value Per Share (A) @ Borrowing
D Operating Gross Margin
Operating Expense Rate
@ Cash flow rate
D interest-bearing debt interest rate
© Operating Profit Per Share (Yuan ¥) DD Roalized Sales Gross Profit Growth Rate
Operating Profit Growth Rate
Hinh 1.3 Giao dién select columns Sau khi thực hiện bước select columns thì ta chọn data table dé xem dữ liệu employee attrtion có được tiền xử lý hay chưa Sau đó lưu toàn bộ dữ liệu đã được xử ly ra file excel bang save data
M jô| 00265547 0.426071 0472295 0.499019 0.148036, 00212477 0.180581 0.142803 077467 ‘Variables ‘ ii 0.0266966 0399844 0457733 0451265 0.147561 00095724 0.193722 0.148603, 0.739555 @ ston variable lbels(Foreccrt) |; g 00247518 0.465022 0522298, 0538432 0.167461 0.0051496 0.212537 0.168412 0.795016 CO) Visualize numene values (iit 66754 0.38868 0419134 0415177 0.137825 00142132 0.174835 0.138811 071042 G Color by instance classes , 00266223 0390923 0436158 0445704 0.127939 00244412 0.161482 0.128945 0.736619
sser t4 ras ›, i 00268906 0.489519 0543284 0545137 0.172159 000226612 0.218398 0.173157 0.803647
»o ii 0.027243 0.495686 0542963 0550916 0475658 000635424 0217831 0.176621 0.804195, 1 ae 00269711 0.482475, 0538198 0567543 0177611 000493256 0.218966 0.178579 0814111 1z | 00273909 0.444401 0.498956 0549717 0171526 00042924 0204689 0.172479 0804887 N | 00274797 0.491152 0543391 055157 017329 000873435 0.219344 0.174286 080326 | iim” 00243997 0474041 052 0533308 0167861 000515507 0212315 0.168863 0.794158 > Ti 00269963 0.506703 0.569638 0575829 017792 000398326 0.226435 0.178881 0819715 | 'N.ọè | 00268972 0513821 0558756 0571086 0.179828 000461157 0.223787 0.482421 0815419 ya 00270028 0.488909 0540206 0560238 0.175168 000239743 0.220195 9.176169 0810421 5, BNNMMMME 00269078 0535953 058092 0590438 0488289 000332394 0.233053 0.189275 0.826642 » ii 0.027637 0504071 0558649 0559802 0.175062 000835499 0.220006 9.176019 0.806264
2 00267938 0.485253, 0.534665 0545573 0.175205 000442463 0.219344 0.176169 0.804639
2 RA 00275654 0512017 0.569035 0.563672 0.176495 000895595 022322 0.17745 0.808976 a 00293639 0.494857 0540146 0548136 017286 00170364 0.218966 0.173824 0.798104 > i 00282061 0.509969 0552599 0561382 0.177309 00174112 0.221897 0.178278 0.803445 > BMMXM= 00264153 0444986 049553 0503652 0459679 000898421 0.203555 0.160654 0.772909,
Hình 1.4 Dữ liệu đã qua tiền xử lý trên Data Table
Trang 13Pre-tax net Interest Rate
Bang 1.1 M6 ta thuéc tinh dữ liệu 2.2 Bài toán 1: Phân cụm các công ty có khả năng phá sản hoặc không phá sản 2.2.1 Mô tả phương pháp phân cụm (Clustering)
Phan cum (Clustering) 1a quá trình chọn các đối tượng hay đữ liệu có các đặc điểm tương đồng để gom vào các cụm hay nhóm có đặc điểm tương ứng Các đối tượng trong củng một cụm sẽ có những tính chất tương tự nhau, tương tự, các đối tượng thuộc cụm/nhóm khác nhau sẽ có các tính chất khác nhau
Thuật toán AC 2
Biéu dién két Đánh giá kết
Hình 2.] Mô hình quá trình phán cụm
Trích chọn
đặc trưng
Dữ liệu
Nhiệm vụ chính của phương pháp này là tìm ra và đo đạc sự khác biệt giữa các đối tượng dữ liệu Phương pháp này thuộc nhóm phương pháp học không giám sát (unsupervised learning) vì không biết trước được số nhóm Các cụm có chất lượng cao sẽ sở hữu hai tính chất: Độ tương đồng bên trong cụm cao và độ tương tự giữa các cụm thấp (tức có sự khác biệt cao)
Trang 14Có rất nhiều phương pháp phân cụm được sử dụng với các mục đích khác nhau, trong bài này, nhóm lựa chọn hai phương pháp phù hợp nhất là: Phân cụm phân cap (Hierarchical clustering) va Phan cum phan hoach (Partitioning Clustering)
Phân cụm phân cấp (Hierarchical Clustering) xây dựng một cây phân cấp (dendrogram) đề biểu diễn quá trình phân cụm Mỗi nút trên cây đại điện cho một cụm hoặc một đối tượng, và các nhánh của cây đại diện cho sự tương đồng giữa chúng Bắt đầu với mỗi đối tượng được coi là một cụm riêng biệt, kế đó, kết hợp các cụm tương đồng nhất theo một tiêu chí nhất định, quá trình này sẽ được tiếp diễn cho đến khi tất cả các đối tượng được gom vào một cụm duy nhất Phương pháp này có lợi ở việc biểu diễn cau tric hình cây giúp hiểu rõ mức độ tương đồng giữa các cụm, đồng thời cũng không yêu cầu xác định trước số cụm
Phân cụm phân hoạch (Partitioning Clustering) sẽ bắt đầu với việc chọn ngẫu nhiên một số lượng phân vùng Sau đó, đối với mỗi đối tượng, xác định phân vùng mà nó thuộc về sao cho tông bình phương khoảng cách giữa các đối tượng trong cùng một phân vùng là nhỏ nhất, quá trình này sẽ được lặp lại cho đến khi không có sự thay đôi đáng kế trong việc phân vùng Phương pháp có ưu thế bởi đem lại hiệu suất cao cho các bộ dữ liệu lớn, cũng dễ hiểu và dễ triển khai
2.2.2 Các phương pháp thực hiện Phân cụm phân cấp (Hierarchical clustering) Diana va Agnes
Diana là phương pháp theo chiến lược top down, tức là theo chiều hướng thuận Diana sẽ bắt đầu với l cụm lớn chứa tất cả các phần tử, và cứ mỗi bước sẽ chia cụm ban đầu thành 2 cụm đựa trên sự không tương đồng giữa các phần tử gần nhau lại thành một cụm Quá trình được lặp lại trên các cụm mới được tách ra cho đến khi mỗi phần tử đều tạo thành một cụm riêng biệt, kết quả sẽ tạo ra cây phân cấp (dendrogram)
Hình 2.2 Quá trình phân cụm Diana
13
Trang 15Agnes là phương pháp theo chiến lược bottom up, phương pháp sẽ bắt đầu với những cụm chỉ là một phần tử riêng biệt, sau đó sẽ liên tục kết hợp các cụm gần nhau dựa trên sự tương đồng giữa chúng Tiếp tục lặp lại quá trình cho đến khi toàn bộ đữ liệu được gom vào một cụm lớn, kết quả cũng sẽ phát sinh cây phân cấp (dendrogram)
Tuy có ưu điểm là dễ hiểu và dễ triển khai, phủ hợp với đữ liệu lớn, không yêu
cầu số lượng cụm được xác định trước Những phương pháp này cũng có vài hạn chế như nhạy cảm với việc khởi tạo trung tâm cụm ban đầu, có thể hội tụ ở một điểm cực tiểu cục bộ, va không thích hợp cho dữ liệu có hình dạng cụm phức tạp hoặc có kích thước khác nhau
Như có thê thấy trong (hình), cho thấy sơ đồ rank của một số biến, không có mỗi tương quan chắc chắn giữa các biến và không có sàng lọc tính năng nào được thực hiện trong nghiên cứu này đề bảo toàn tính toàn vẹn của thông tin đầu vào
Sau khi thực hiện tiền xử lý dữ liệu, nhóm nghiên cứu quyết định giữ lại 15 biến thuộc
tính và biến “Bankrupt” lam bién muc tiéu