Vì vậy, nhómchúng em chọn “Dự đoán phá sản” làm đề tài nghiên cứu nhằm mục đích giúp các nhàquản lý, nhà đầu tư có thêm thông tin khi đưa ra quyết định của mình.II.Mục tiêu nghiên cứu:Mụ
Trang 1ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
BÀI TIỂU LUẬN KẾT THÚC HỌC PHẦN
Môn: KHOA HỌC DỮ LIỆU
Trang 2TỈ LỆ ĐIỂM CỦA CÁC THÀNH VIÊN CỦA NHÓM
Trang 3MỤC LỤC
Phần 1: MỤC ĐÍCH, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2
I Lý do chọn đề tài 2
II Mục tiêu nghiên cứu 2
III Phương pháp nghiên cứu 2
1 Phương pháp nghiên cứu lý luận 2
2 Phương pháp nghiên cứu thực tiễn 3
Phần 2: GIỚI THIỆU TỔNG QUAN VỀ BỘ DỮ LIỆU 3
I Giới thiệu về bộ dữ liệu 3
1 Thông tin tổng quát 3
2 Thông tin về các thuộc tính 4
II Các bài nghiên cứu liên quan đến bộ dữ liệu 11
Phần 3: QUY TRÌNH TIỀN XỬ LÍ BỘ DỮ LIỆU 11
I Quy trình thực hiện tiền xử lí dữ liệu 11
II Quan sát tổng quan bộ dữ liệu 11
1 Thực hiện quan sát đặc điểm của các đặc tính 11
2 Phân tích kết quả quan sát 12
III Quy trình tiền xử lí tổng quan bộ dữ liệu 15
Phần 4: THỰC HIỆN PHÂN CỤM DỮ LIỆU 17
I Lựa chọn phương pháp phân cụm dữ liệu 17
II Thực hiện và phân tích kết quả phân cụm 17
1 Phân cụm phân cấp 17
2 Thuật toán K-Means 23
III Kết luận cuối cùng 25
Phần 5: THỰC HIỆN PHÂN LỚP DỮ LIỆU 25
I Lựa chọn phương pháp phân lớp dữ liệu 25
II Thực hiện và phân tích kết quả phân lớp 27
1 Hồi quy Logistic và hiệu chỉnh hồi quy Logistic 27
2 Cây quyết định 31
3 SVM 32
Trang 44 Mạng thần kinh nơ ron nhân tạo 33 III Lời nói sau cùng và kết luận 34 Phần 6: THỰC HIỆN DỰ BÁO DỰA TRÊN MÔ HÌNH HỌC MÁY TỐT NHẤT 35 Phần 7: KẾT LUẬN 37 DANH MỤC TÀI LIỆU THAM KHẢO 39
Trang 5Phần 1: MỤC ĐÍCH, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
I Lý do chọn đề tài:
Lời đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến Thạc sĩ Trương ViệtPhương đã hỗ trợ chúng em trong suốt thời gian học tập giúp chúng em có cái nhìn tổngquát và hoàn thiện hơn đối với phần mềm Orange nói riêng và môn Khoa học dữ liệu nóichung Qua dự án lần này, nhóm chúng em xin trình bày những kiến thức và kỹ năng màchúng em đã được hướng dẫn qua các buổi học Trong quá trình hoàn thành dự án chúng
em còn nhiều hạn chế nên sẽ không tránh khỏi những thiếu sót Vì vậy, nhóm chúng emmong nhận được phản hồi góp ý của thầy để dự án kết thúc môn học này của chúng emđược hoàn thiện một cách tốt hơn
Dự đoán khả năng phá sản của các doanh nghiệp là một vấn đề vô cùng quan trọng
và cần thiết bởi vì nó giúp các doanh nghiệp có thể dự tính trước được mức độ sử dụngnguồn vốn sao cho hợp lý cũng như việc quản lí doanh nghiệp của mình như thế nào đểkhông rơi vào tình trạng phá sản Trong bối cảnh nền kinh tế phức tạp như hiện nay, việcsản xuất, vận hành của các doanh nghiệp gặp không ít khó khăn do đó việc dự báo khảnăng phá sản của các doanh nghiệp lại càng quan trọng hơn bao giờ hết Vì vậy, nhómchúng em chọn “Dự đoán phá sản” làm đề tài nghiên cứu nhằm mục đích giúp các nhàquản lý, nhà đầu tư có thêm thông tin khi đưa ra quyết định của mình
II Mục tiêu nghiên cứu:
Mục tiêu chính của nghiên cứu này là dự báo khả năng phá sản của các doanhnghiệp, để từ đó đưa ra các biện pháp cũng như cái nhìn tổng quan, giúp cho doanhnghiệp giảm nguy cơ phá sản
Nghiên cứu này tập trung vào các lý thuyết và kỹ thuật cơ bản của khoa học dữliệu và khai thác dữ liệu Các mô hình được xây dựng dựa trên bộ dữ liệu sẵn có và môhình phù hợp nhất được lựa chọn để thực hiện dự báo đối với bộ dữ liệu dự báo Nghiêncứu này góp phần tạo nền tảng cho các nghiên cứu tiếp theo
III Phương pháp nghiên cứu:
1 Phương pháp nghiên cứu lý luận:
2
Trang 6Tiến hành nghiên cứu, thu thập, chọn lọc và phân tích dữ liệu, thông tin bằng cáchđọc sách, báo, tài liệu nhằm tìm ra các quan niệm, quan điểm xây dựng cơ sở lý luận chonghiên cứu, dự đoán các thuộc tính của đối tượng nghiên cứu, xây dựng sơ bộ lý luận.Các phương pháp nghiên cứu bao gồm:
+ Phương pháp phân tích tổng hợp lý thuyết: kết hợp cả kỹ năng phân tích lẫn kỹ năngtổng hợp tư liệu Phân tích dựa trên nền tảng là những thông tin khoa học thu được từ cácnguồn tài liệu có sẵn
+ Phương pháp phân tích - tổng hợp lý thuyết: Đọc và tổng hợp các lý thuyết, quan niệm,quan điểm liên quan đến đối tượng nghiên cứu để rút ra những nội dung cần thiết
+ Phương pháp mô hình hóa: Xây dựng mô hình nghiên cứu dựa trên lý thuyết và ứngdụng mô hình để dự báo nhằm kiểm định tính chính xác của mô hình
2 Phương pháp nghiên cứu thực tiễn:
Từ cơ sở lý luận ấy, tiến hành vận dụng vào các phương pháp nghiên cứu thựctiễn: Thông qua các thuật toán của phần mềm Orange - một công cụ khá trực quan đểnghiên cứu về các thuật toán machine learning và thực hành khoa học dữ liệu phổ biếnhiện nay để phân tích dữ liệu và làm rõ vấn đề nghiên cứu Từ đó, xây dựng các mô hình
dự báo dựa vào bộ dữ liệu huấn luyện có sẵn và so sánh các kết quả rút ra được với nhaunhằm giúp các nhà quản lý, nhà đầu tư có thêm thông tin khi đưa ra quyết định của mình
Phần 2: GIỚI THIỆU TỔNG QUAN VỀ BỘ DỮ LIỆU
I Giới thiệu về bộ dữ liệu:
1 Thông tin tổng quát:
- Bộ dữ liệu được sử dụng trong bài tiểu luận này là bộ dữ liệu có tên là
“Taiwanese Bankruptcy Prediction” (Dự đoán phá sản ở Đài Loan)
- Bộ dữ liệu trên được lấy từ UCI Machine Learning Repository, với các tác giả là Deron Liang và Chih-Fong Tsai, deronliang '@' gmail.com; cftsai '@' mgt.ncu.edu.tw, Đại học Quốc lập Trung Ương Đài Loan (National Central
University), Đài Loan.
- Bộ dữ liệu trên lấy thông tin về các doanh nghiệp từ Tạp chí Tài chính ĐàiLoan trong giai đoạn 1999 đến 2009 Định nghĩa phá sản của công ty trong bộ
dữ liệu này được định đoạt dựa trên luật doanh nghiệp của Sàn chứng khoánĐài Loan
- Bộ dữ liệu trên bao gồm một số thông tin cơ bản như sau:
Trang 7 Đặc điểm của bộ dữ liệu: Đa biến.
Lĩnh vực chủ yếu của bộ dữ liệu: Doanh nghiệp, tài chính
Loại dữ liệu của các thuộc tính: Số thực
Số lượng thuộc tính: 96
Số lượng thực thể: 6819
2 Thông tin về các thuộc tính:
- Bộ dữ liệu bao gồm 96 thuộc tính với nội dung lần lượt là:
1
Bankruptcy Label: Thuộc tính phân nhãn
dữ liệu: 0 nếu không phá sản, 1 nếu phá
sản
Nhãn0,1
2
Cost of Interest-bearing Debt: Chi phí nợ
có lãi
Số thực dương liên tục[0;1]
Acid Test: Hệ số thanh toán nhanh (Còn
gọi là Quick Ratio)
Số thực dương liên tục[0;9.23e+09]
6
Interest Expenses/Total Revenue: Tỉ lệ chi
phí lãi trên tổng doanh thu trước thuế và trả
lãi
Số thực dương liên tục[0;1]
7
Total Liability/Equity Ratio: Tỉ số nợ phải
trả/vốn chủ sở hữu
Số thực dương liên tục[0;9.94e+09]
8
Liability/Total Assets: tỉ số nợ phải trả/tổng
tài sản
Số thực dương liên tục[0;1]
9
Interest-bearing Debt/Equity: Tỉ số nợ có
lãi/vốn chủ sở hữu
Số thực dương liên tục[0;9.9e+08]
10
Contingent Liability/Equity: Tỉ số nợ
không chắc chắn/vốn chủ sở hữu
Số thực dương liên tục[0;1]
11
Operating Income/Capital: Thu nhập hoạt
động/Vốn
Số thực dương liên tục[0;1]
4
Trang 8Pretax Income/Capital: Thu nhập trước
thuế/Vồn
Số thực dương liên tục[0;1]
13
Working Capital to Total Assets: Vốn lưu
động trên tổng tài sản
Số thực dương liên tục[0;1]
14
Quick Assets/Total assets: Tài sản
nhanh/Tổng tài sản
Số thực dương liên tục[0;1]
15
Current Assets/Total Assets: Tài sản ngắn
hạn/Tổng tài sản
Số thực dương liên tục[0;1]
22
Inventory/Current Liability: Hàng tồn
kho/Nợ phải trả ngắn hạn
Số thực dương liên tục[0;9.91e+09]
23
Current Liabilities/Liability: Nợ phải trả
ngắn hạn/Nợ phải trả
Số thực dương liên tục[0;1]
24
Working Capital/Equity: Vốn lưu
động/Vốn chủ sổ hữu
Số thực dương liên tục[0;1]
25 Current Liabilities/Equity: Nợ phải trả ngắn Số thực dương liên tục
Trang 9hạn/Vốn chủ sở hữu [0;1]
26
Long-term Liability to Current Assets: Nợ
phải trả dài hạn/Tài sản ngắn hạn
Số thực dương liên tục[0;9.54e+09]
27
Current Liability to Current Assets: Nợ
phải trả ngắn hạn trên Tài sản ngắn hạn
Số thực dương liên tục[0;1]
28
One if Total Liability exceeds Total Assets:
Chỉ số 1 nếu tổng nợ phải trả cao hơn tổng
tài sản
Giá trị định tính0;1
29
Equity to Liability: Vốn chủ sở hữu trên nợ
phải trả
Số thực dương liên tục[0;1]
30
Equity/Total Assets: Vốn chủ sở hữu/Tổng
tài sản
Số thực dương liên tục[0;1]
31
(Long-term Liability+Equity)/Fixed Assets:
(Nợ phải trả dài hạn + Vốn chủ sở hữu)/Tài
sản cố định
Số thực dương liên tục[0;1]
32
Fixed Assets to Assets: Tài sản cố định/Tài
sản
Số thực dương liên tục[0;8.32e+09]
33
Current Liability to Liability: Nợ phải trả
ngắn hạn/ Nợ phải trả
Số thực dương liên tục[0;1]
34
Current Liability to Equity: Nợ phải trả
ngắn hạn/Vốn chủ sở hữu
Số thực dương liên tục[0;1]
35
Equity to Long-term Liability: Vốn chủ sở
hựu/Nợ phải trả dài hạn
Số thực dương liên tục[0;1]
36
Liability to Equity: Nợ phải trả/Vốn chủ sở
hữu
Số thực dương liên tục[0;1]
37
Degree of Financial Leverage: Mức độ/ tỉ
số đòn bẩy tài chính
Số thực dương liên tục[0;1]
38 Interest Coverage Ratio: Hệ số trả lãi Số thực dương liên tục
6
Trang 1039
Operating Expenses/Net Sales: Chi phí
hoạt động/Lợi nhuận gộp
Số thực dương liên tục[0;9.99e+09]
40
(Research and Development Expenses)/Net
Sales: Chi phí nghiên cứu và phát triển/Lợi
nhuận gộp
Số thực dương liện tục[0;9.98e+9]
43
Book Value Per Share(A): Giá cổ phiếu ghi
sổ theo tiêu chí (A)
Số thực dương liên tục[0;1]
44
Book Value Per Share(C): Giá cổ phiếu ghi
sổ theo tiêu chí (C)
Số thực dương liên tục[0;1]
45
Cash Flow Per Share: Dòng tiền trên một
cổ phiếu
Số thực dương liên tục[0;1]
46
Sales Per Share: Thu nhập trên một cố
phiếu
Số thực dương liên tục[0;3.02e+09]
47
Operating Income Per Share: Thu nhập
hoạt động trên một cổ phiếu
Số thực dương liên tục[0;1]
48
Sales Per Employee: Doanh thu trên mỗi
nhân viên
Số thực dương liên tục[0;8.81e+09]
Trang 11trên tài sản (C).
[0;1]
53
Return On Total Assets(A): Tỉ suát sinh lợi
trên tài sản (A)
Số thực dương liên tục[0;1]
54
Return On Total Assets(B): Tỉ suát sinh lợi
trên tài sản (B)
Số thực dương liên tục[0;1]
55
Gross Profit /Net Sales: Lợi nhuận gộp trên
Doanh thu thuần
Số thực dương liên tục[0;1]
56
Realized Gross Profit/Net Sales: Lợi nhuận
gợp thực hiện được
Số thực dương liên tục[0;1]
57
Operating Income /Net Sales: Thu nhập
hoạt động / Doanh thu thuần
Số thực dương liên tục[0;1]
58
Pre-Tax Income/Net Sales: Thu nhập trước
thuế/doanh thu thuần
Số thực dương liên tục[0;1]
59
Net Income/Net Sales: Thu nhập thuần/
Doanh thu thuần
Số thực dương liên tục[0;1]
60
Net Non-operating Income Ratio: Tỉ lệ của
thu nhập khác
Số thực dương liên tục[0;1]
61
Net Income-Exclude Disposal Gain or
Loss/Net Sales: KHÔNG RÕ
Số thực dương liên tục[0;1]
62
EPS-Net Income:Thu nhập trên mỗi cổ
phần – Thu nhập thuần
Số thực dương liên tục[0;1]
63
Pretax Income Per Share: Thu nhập mỗi cổ
phần trước thuế
Số thực dương liên tục[0;1]
64
Retained Earnings to Total Assets: Tỷ lệ lợi
nhuận giữ lại trên tổng tài sản
Số thực dương liên tục[0;1]
65 Total Income to Total Expenses: Tổng thu Số thực dương liên tục
8
Trang 12Net Income to Total Assets: Thu nhập
thuần trên tổng tài sản
Số thực dương liên tục[0;1]
68
Gross Profit to Sales: Lợi nhuận thuần trên
doanh thu
Số thực dương liên tục[0;1]
69
Net Income to Stockholder's Equity: Thu
nhập thuần trên vốn cổ phần
Số thực dương liên tục[0;1]
70
One if Net Income is Negative for the Last
Two Years; Zero Otherwise: Giá trị phân
loại: Đánh cờ 1 nếu thu nhập thuần âm
trong 2 năm liên tiếp 0 nếu không phải
Nhãn0,1
71
(Inventory +Accounts Receivables)
/Equity: Tổng hàng tồn kho và khoản phải
thu trên vốn chủ sở hữu
Số thực dương liên tục[0;1]
72
Total Asset Turnover: Vòng quay tổng tài
sản
Số thực dương liên tục[0;1]
73
Accounts Receivable Turnover: Vòng quay
khoản phải thu
Số thực dương liên tục[0;9.74e+09]
74
Days Receivable Outstanding: Thời gian
thu khoản phải thu
Số thực dương liên tục[0;9.73e+09]
75
Inventory Turnover: Vòng quay hàng tồn
kho
Số thực dương liên tục[0;9.99e+09]
76
Fixed Asset Turnover: Vòng quay tài sản
cố định
Số thực dương liên tục[0;9.99e+09]
77
Equity Turnover: Vòng quay vốn chủ sở
hữu
Số thực dương liên tục[0;1]
78 Current Assets to Sales: Tài sản ngắn hạn Số thực dương liên tục
Trang 13trên doanh thu [0;1e+10]
79
Quick Assets to Sales: Tài sản tưởng đương
tiền trên doanh thu
Số thực dương liên tục[0;1e+10]
80
Working Capital to Sales: Vốn luân chuyển
trên doanh thu
Số thực dương liên tục[0;1]
83
No-credit Interval: Thời gian không có tín
dụng
Số thực dương liên tục[0;1]
84
Cash Flow from Operating/Current
Liabilities: Dòng tiên hoạt động kinh
doanh/ Nghĩa vụ nợ ngắn hạn
Số thực dương liên tục[0;1]
85
Cash Flow to Total Assets: Dòng tiền trẹn
tổng tài sản
Số thực dương liên tục[0;1]
86
Cash Flow to Liability: Dòng tiền trên nợ Số thực dương liên tục
[0;1]
87
CFO to Assets: Dòng tiền hoạt động kinh
doanh trên tài sản
Số thực dương liên tục[0;1]
88
Cash Flow to Equity: Dòng tiền trên vốn
chủ sở hữu
Số thực dương liên tục[0;1]
89
Realized Gross Profit Growth Rate: Tốc độ
tăng trưởng lợi nhuận gộp thực hiện được
Số thực dương liên tục[0;1]
90
Operating Income Growth: Tăng trưởng
thu nhập hoạt động
Số thực dương liên tục[0;1]
91 Net Income Growth: Tăng trường thu nhập
ròng
Số thực dương liên tục
10
Trang 1492
Continuing Operating Income after Tax
Growth: Thu nhập hoạt động liên tục sau
tăng trưởng thuế
Số thực dương liên tục[0;1]
93
Net Income-Excluding Disposal Gain or
Loss Growth: KHÔNG RÕ
Số thực dương liên tục[0;1]
94
Total Asset Growth: Tổng tăng trưởng tài
sản
Số thực dương liên tục[0;9.99e+09]
95
Total Equity Growth: Tổng tăng trưởng vốn
chủ sở hữu
Số thực dương liên tục[0;9.33e+09]
96
Return on Total Asset Growth: Tỉ suất sinh
lợi trên tăng trưởng tổng tài sản
Số thực dương liên tục[0;1]
II Các bài nghiên cứu liên quan đến bộ dữ liệu:
- Tựa đề Financial Ratios and Corporate Governance Indicators in BankruptcyPrediction: A Comprehensive Study
- Tác giả: Deron Liang, Chia-Chi Lu, Chih-Fong Tsai, and Guan-An Shih
Phần 3: QUY TRÌNH TIỀN XỬ LÍ BỘ DỮ LIỆU
I Quy trình thực hiện tiền xử lí dữ liệu:
Thực hiện quy trình cơ bản: đưa bộ dữ liệu vào khu vực quan sát để thu thậpthông tin về đánh giá thứ hạn các đặc tính, phân bố dữ liệu, phân bố giá trị, và
từ đó đưa quyết định và thực hiện tiền xử lý dữ liệu
II Quan sát tổng quan bộ dữ liệu:
1 Thực hiện quan sát đặc điểm của các đặc tính:
- Mục tiêu thực hiện từ việc quan sát dữ liệu: nhận ra thông tin mấu chốt choquá trình tiền xử lí dữ liệu để quyết định các công cụ cho quá trình tiền xử lí
- Công cụ: Phần mềm lập trình trực quan Orange (Công cụ Files, FeatureStatistics, Rank để quan sát và công cụ Merge Data, Data Table và Save Data
để tổng hợp dữ liệu
- Quy trình thực hiện:
1 Đưa dữ liệu vào công cụ Files
Trang 152 Dẫn dữ liệu qua công cụ Feature Statistics và Rank.
trình thực hiện tiền xử lí dữ liệu
2 Phân tích kết quả quan sát:
Bộ dữ liệu “data.csv” có kết quả quan sát như được trình bày dưới đây:
12
Hình 3.1: Đưa bộ dữ liệu vào File.
Hình 3.2: Mô hình lấy thông tin về các đặc tính của dữ liệu.
Trang 16Bộ dữ liệu có 3 đặc tính định tính (1 nhãn, 2 đặc tính phổ thông) và 93 đặc tínhđịnh lượng phổ thông Do mục tiêu của bộ dữ liệu là dự báo phá sản nên đặc tính nhãn
“Bankrupt?” phải được chọn làm mục tiêu dự báo (Target trong Orange) khi nhập Fileshay bằng Select Columns
Nhóm quyết định chuyển kết quả của Feature Statistics sang dạng bảng vì mụcđích làm gọn bài luận Từ bốn bảng dữ liệu trên, thì ta thấy được rằng đa số các đặc tínhđịnh lượng đều dao động trong khoảng [0;1] Tuy vậy, bộ dữ liệu có 24 đặc tính địnhlượng (bảng dữ liệu ở trên) dao động từ không đến một số giá trị rất lớn (vài trăm triệuđến một chục tỷ) Các đặc tính đó bao gồm: Interest-bearing debt interest rate; CurrentRatio; Revenue Per Share (Yuan ¥); Fixed Assets to Assets; Revenue per person; QuickAssets/Current Liability; Quick Ratio; Net Value Growth Rate; Long-term Liability toCurrent Assets; Allocation rate per person; Cash/Current Liability; Average CollectionDays; Accounts Receivable Turnover; Total assets to GNP price; Inventory/CurrentLiability; Total debt/Total net worth; Research and development expense rate; FixedAssets Turnover Frequency; Inventory Turnover Rate (times); Total Asset Growth Rate;Operating Expense Rate; Cash Turnover Rate; Quick Asset Turnover Rate; Current AssetTurnover Rate
Chúng ta phải chuẩn hóa 24 đặc tính trên về khoảng [0;1] mà không phải cáckhoảng khác vì:
- Các đặc tính định lượng khác đều biến thiên trong đoạn [0;1]
- Không chuẩn hóa sẽ tạo ra thiên vị, nhầm lẫn cho các biến có giá trị lớn
- Các giá trị lớn tạo thêm phức tạp trong quá trình học máy và phân cụm, làmgiảm độ chính xác của dự báo sau cùng
Bộ dữ liệu không có dữ liệu trống nên không cần phải điền khuyết giá trị bị thiếu
Bộ dữ liệu trên có phân bố dữ liệu theo kiểu phân phối (gần) chuẩn và không cónhiều phần tử ngoại lai cũng như phần tử thiếu nên không cần loại bỏ phần tử ngoài và
Hình 3.5: Đặc điểm của các đặc
Hình 3.7: 24 đặc tính định lượng
biến thiên ngoài [0;1].
Trang 17phân giỏ, tách rời dữ liệu (Kết quả quan sát phân bố dữ liệu không chèn vào bài, vì kếtquả rất nhiều sẽ làm bài luận quá dài).
Cuối cùng, do các đặc tính còn lại đều ảnh hưởng đáng kể lên dự báo phá sản cũngnhư là bộ dữ liệu bị không cân đối (220/6599) nên không thể loại thêm dữ liệu hay phântích PCA mà ít ảnh hưởng đến độ thiên vị (bias) của dữ liệu
Bây giờ, nhóm thực hiện quan sát kết quả từ công cụ Rank:
14
Hình 3.8, 3.9, 3.10, 3.11, 3.12:
Kết quả Rank 95 đặc tính.
Trang 18Sắp xếp dữ liệu theo mức độ tăng dần của Information Gains, từ công cụ Rank, tathấy đa số đặc tính đếu có ảnh hưởng đến lượng thông tin nhận được và độ chuẩn của kếtquả phân lớp/ phân cụm dữ liệu Tuy vậy, có 6 đặc tính gần như không ảnh hưởng đến kếtquả: Net Income Flag (toàn bộ giá trị đều như nhau), Net Worth Turnover Rate (times),Operating Expense Rate, Revenue Per Person, Current Liability to Liability, CurrentLiabilities/Liability Vì thế, ta sẽ lọc bỏ sáu đặc tính này để giảm thiểu kích cỡ dữ liệu,tăng độ chính xác và giảm bớt khối lượng dữ liệu cần xử lý.
III Quy trình tiền xử lí tổng quan bộ dữ liệu:
Dựa trên phân tích trên, bộ dữ liệu trên sẽ được xử lí bằng các phương pháp sau:
1 Loại bỏ biến không cần thiết, dùng công cụ Rank, chọn lấy 89/95 đặc trưng (Loại
6) trong công cụ Rank
2 Chuẩn hóa dữ liệu về khoảng [0;1], bằng công cụ Preprocessing, dùng công cụ
Normalize Features (chọn chuẩn Normalize to interval [0;1])
3 Cho phương pháp phân cụm: Skip cột “Bankrupt?”, do đặc điểm của phân cụm
nên bộ dữ liệu phải không có biến mục tiêu thì mới thấy phân bố và phân cụm của
Trang 19Phần 4: THỰC HIỆN PHÂN CỤM DỮ LIỆU
I Lựa chọn phương pháp phân cụm dữ liệu:
Các phương pháp phân cụm được sử dụng trong phần này, đồng thời cũng là cácphương pháp được hướng dẫn kỹ lưỡng nhất là:
1 Phân cụm phân cấp (Hierarchical Clustering) : Xây dựng một cây phân cấp dựatrên dữ liệu được tổng hợp và tiền xử lí thông qua các phương pháp, bao gồm matrần khoảng cách và đo khoảng cách cụm
16
Hình 3.13: Loại 6 đặc điểm không
quan trọng bằng Rank.
Hình 3.14: Tiền xử lí bằng chuẩn
hóa khoảng dữ liệu.
Hình 3.15: Mẫu kết quả tiền xử lí
dữ liệu.
Trang 202 Thuật toán phân cụm K-Means: Là một trong thuật toán phân hoạch, dựa trên
phân chia dữ liệu vào các cụm ngẫu nhiên và tính tâm cụm đến khi tâm cụm bao
quát mọi điểm dữ liệu được phân
II Thực hiện và phân tích kết quả phân cụm:
1 Phân cụm phân cấp:
Quy trình thực hiện phân cụm:
Hình 4.1: Mô hình phân cụm dữ liệu bằng Orange
Hình 4.2: Bỏ biến mục tiêu “Bankrupt?”
để phân cụm (Chuyển từ Target thành Meta).
Hình 4.3: Tùy chỉnh công cụ
Distances:
+ So sánh: Dòng với nhau.
+ Cách tính: Euclidean.