1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tiểu luận kết thúc học phần môn khoa học dữ liệu đề tài dự đoán phá sản

41 7 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Dự đoán phá sản
Tác giả Võ Thiệu Bình, Vũ Đức Dũng, Huỳnh Thị An Kiều, Trần Thị Ngọc Tuyền, Trương Ý Vy
Người hướng dẫn Thạc sĩ Trương Việt Phương
Trường học Đại học Kinh tế Thành phố Hồ Chí Minh
Chuyên ngành Khoa học dữ liệu
Thể loại tiểu luận
Năm xuất bản 2023
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 41
Dung lượng 2,64 MB

Nội dung

Vì vậy, nhómchúng em chọn “Dự đoán phá sản” làm đề tài nghiên cứu nhằm mục đích giúp các nhàquản lý, nhà đầu tư có thêm thông tin khi đưa ra quyết định của mình.II.Mục tiêu nghiên cứu:Mụ

Trang 1

ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ MINH KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

BÀI TIỂU LUẬN KẾT THÚC HỌC PHẦN

Môn: KHOA HỌC DỮ LIỆU

Trang 2

TỈ LỆ ĐIỂM CỦA CÁC THÀNH VIÊN CỦA NHÓM

Trang 3

MỤC LỤC

Phần 1: MỤC ĐÍCH, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2

I Lý do chọn đề tài 2

II Mục tiêu nghiên cứu 2

III Phương pháp nghiên cứu 2

1 Phương pháp nghiên cứu lý luận 2

2 Phương pháp nghiên cứu thực tiễn 3

Phần 2: GIỚI THIỆU TỔNG QUAN VỀ BỘ DỮ LIỆU 3

I Giới thiệu về bộ dữ liệu 3

1 Thông tin tổng quát 3

2 Thông tin về các thuộc tính 4

II Các bài nghiên cứu liên quan đến bộ dữ liệu 11

Phần 3: QUY TRÌNH TIỀN XỬ LÍ BỘ DỮ LIỆU 11

I Quy trình thực hiện tiền xử lí dữ liệu 11

II Quan sát tổng quan bộ dữ liệu 11

1 Thực hiện quan sát đặc điểm của các đặc tính 11

2 Phân tích kết quả quan sát 12

III Quy trình tiền xử lí tổng quan bộ dữ liệu 15

Phần 4: THỰC HIỆN PHÂN CỤM DỮ LIỆU 17

I Lựa chọn phương pháp phân cụm dữ liệu 17

II Thực hiện và phân tích kết quả phân cụm 17

1 Phân cụm phân cấp 17

2 Thuật toán K-Means 23

III Kết luận cuối cùng 25

Phần 5: THỰC HIỆN PHÂN LỚP DỮ LIỆU 25

I Lựa chọn phương pháp phân lớp dữ liệu 25

II Thực hiện và phân tích kết quả phân lớp 27

1 Hồi quy Logistic và hiệu chỉnh hồi quy Logistic 27

2 Cây quyết định 31

3 SVM 32

Trang 4

4 Mạng thần kinh nơ ron nhân tạo 33 III Lời nói sau cùng và kết luận 34 Phần 6: THỰC HIỆN DỰ BÁO DỰA TRÊN MÔ HÌNH HỌC MÁY TỐT NHẤT 35 Phần 7: KẾT LUẬN 37 DANH MỤC TÀI LIỆU THAM KHẢO 39

Trang 5

Phần 1: MỤC ĐÍCH, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

I Lý do chọn đề tài:

Lời đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến Thạc sĩ Trương ViệtPhương đã hỗ trợ chúng em trong suốt thời gian học tập giúp chúng em có cái nhìn tổngquát và hoàn thiện hơn đối với phần mềm Orange nói riêng và môn Khoa học dữ liệu nóichung Qua dự án lần này, nhóm chúng em xin trình bày những kiến thức và kỹ năng màchúng em đã được hướng dẫn qua các buổi học Trong quá trình hoàn thành dự án chúng

em còn nhiều hạn chế nên sẽ không tránh khỏi những thiếu sót Vì vậy, nhóm chúng emmong nhận được phản hồi góp ý của thầy để dự án kết thúc môn học này của chúng emđược hoàn thiện một cách tốt hơn

Dự đoán khả năng phá sản của các doanh nghiệp là một vấn đề vô cùng quan trọng

và cần thiết bởi vì nó giúp các doanh nghiệp có thể dự tính trước được mức độ sử dụngnguồn vốn sao cho hợp lý cũng như việc quản lí doanh nghiệp của mình như thế nào đểkhông rơi vào tình trạng phá sản Trong bối cảnh nền kinh tế phức tạp như hiện nay, việcsản xuất, vận hành của các doanh nghiệp gặp không ít khó khăn do đó việc dự báo khảnăng phá sản của các doanh nghiệp lại càng quan trọng hơn bao giờ hết Vì vậy, nhómchúng em chọn “Dự đoán phá sản” làm đề tài nghiên cứu nhằm mục đích giúp các nhàquản lý, nhà đầu tư có thêm thông tin khi đưa ra quyết định của mình

II Mục tiêu nghiên cứu:

Mục tiêu chính của nghiên cứu này là dự báo khả năng phá sản của các doanhnghiệp, để từ đó đưa ra các biện pháp cũng như cái nhìn tổng quan, giúp cho doanhnghiệp giảm nguy cơ phá sản

Nghiên cứu này tập trung vào các lý thuyết và kỹ thuật cơ bản của khoa học dữliệu và khai thác dữ liệu Các mô hình được xây dựng dựa trên bộ dữ liệu sẵn có và môhình phù hợp nhất được lựa chọn để thực hiện dự báo đối với bộ dữ liệu dự báo Nghiêncứu này góp phần tạo nền tảng cho các nghiên cứu tiếp theo

III Phương pháp nghiên cứu:

1 Phương pháp nghiên cứu lý luận:

2

Trang 6

Tiến hành nghiên cứu, thu thập, chọn lọc và phân tích dữ liệu, thông tin bằng cáchđọc sách, báo, tài liệu nhằm tìm ra các quan niệm, quan điểm xây dựng cơ sở lý luận chonghiên cứu, dự đoán các thuộc tính của đối tượng nghiên cứu, xây dựng sơ bộ lý luận.Các phương pháp nghiên cứu bao gồm:

+ Phương pháp phân tích tổng hợp lý thuyết: kết hợp cả kỹ năng phân tích lẫn kỹ năngtổng hợp tư liệu Phân tích dựa trên nền tảng là những thông tin khoa học thu được từ cácnguồn tài liệu có sẵn

+ Phương pháp phân tích - tổng hợp lý thuyết: Đọc và tổng hợp các lý thuyết, quan niệm,quan điểm liên quan đến đối tượng nghiên cứu để rút ra những nội dung cần thiết

+ Phương pháp mô hình hóa: Xây dựng mô hình nghiên cứu dựa trên lý thuyết và ứngdụng mô hình để dự báo nhằm kiểm định tính chính xác của mô hình

2 Phương pháp nghiên cứu thực tiễn:

Từ cơ sở lý luận ấy, tiến hành vận dụng vào các phương pháp nghiên cứu thựctiễn: Thông qua các thuật toán của phần mềm Orange - một công cụ khá trực quan đểnghiên cứu về các thuật toán machine learning và thực hành khoa học dữ liệu phổ biếnhiện nay để phân tích dữ liệu và làm rõ vấn đề nghiên cứu Từ đó, xây dựng các mô hình

dự báo dựa vào bộ dữ liệu huấn luyện có sẵn và so sánh các kết quả rút ra được với nhaunhằm giúp các nhà quản lý, nhà đầu tư có thêm thông tin khi đưa ra quyết định của mình

Phần 2: GIỚI THIỆU TỔNG QUAN VỀ BỘ DỮ LIỆU

I Giới thiệu về bộ dữ liệu:

1 Thông tin tổng quát:

- Bộ dữ liệu được sử dụng trong bài tiểu luận này là bộ dữ liệu có tên là

“Taiwanese Bankruptcy Prediction” (Dự đoán phá sản ở Đài Loan)

- Bộ dữ liệu trên được lấy từ UCI Machine Learning Repository, với các tác giả là Deron Liang và Chih-Fong Tsai, deronliang '@' gmail.com; cftsai '@' mgt.ncu.edu.tw, Đại học Quốc lập Trung Ương Đài Loan (National Central

University), Đài Loan.

- Bộ dữ liệu trên lấy thông tin về các doanh nghiệp từ Tạp chí Tài chính ĐàiLoan trong giai đoạn 1999 đến 2009 Định nghĩa phá sản của công ty trong bộ

dữ liệu này được định đoạt dựa trên luật doanh nghiệp của Sàn chứng khoánĐài Loan

- Bộ dữ liệu trên bao gồm một số thông tin cơ bản như sau:

Trang 7

 Đặc điểm của bộ dữ liệu: Đa biến.

 Lĩnh vực chủ yếu của bộ dữ liệu: Doanh nghiệp, tài chính

 Loại dữ liệu của các thuộc tính: Số thực

 Số lượng thuộc tính: 96

 Số lượng thực thể: 6819

2 Thông tin về các thuộc tính:

- Bộ dữ liệu bao gồm 96 thuộc tính với nội dung lần lượt là:

1

Bankruptcy Label: Thuộc tính phân nhãn

dữ liệu: 0 nếu không phá sản, 1 nếu phá

sản

Nhãn0,1

2

Cost of Interest-bearing Debt: Chi phí nợ

có lãi

Số thực dương liên tục[0;1]

Acid Test: Hệ số thanh toán nhanh (Còn

gọi là Quick Ratio)

Số thực dương liên tục[0;9.23e+09]

6

Interest Expenses/Total Revenue: Tỉ lệ chi

phí lãi trên tổng doanh thu trước thuế và trả

lãi

Số thực dương liên tục[0;1]

7

Total Liability/Equity Ratio: Tỉ số nợ phải

trả/vốn chủ sở hữu

Số thực dương liên tục[0;9.94e+09]

8

Liability/Total Assets: tỉ số nợ phải trả/tổng

tài sản

Số thực dương liên tục[0;1]

9

Interest-bearing Debt/Equity: Tỉ số nợ có

lãi/vốn chủ sở hữu

Số thực dương liên tục[0;9.9e+08]

10

Contingent Liability/Equity: Tỉ số nợ

không chắc chắn/vốn chủ sở hữu

Số thực dương liên tục[0;1]

11

Operating Income/Capital: Thu nhập hoạt

động/Vốn

Số thực dương liên tục[0;1]

4

Trang 8

Pretax Income/Capital: Thu nhập trước

thuế/Vồn

Số thực dương liên tục[0;1]

13

Working Capital to Total Assets: Vốn lưu

động trên tổng tài sản

Số thực dương liên tục[0;1]

14

Quick Assets/Total assets: Tài sản

nhanh/Tổng tài sản

Số thực dương liên tục[0;1]

15

Current Assets/Total Assets: Tài sản ngắn

hạn/Tổng tài sản

Số thực dương liên tục[0;1]

22

Inventory/Current Liability: Hàng tồn

kho/Nợ phải trả ngắn hạn

Số thực dương liên tục[0;9.91e+09]

23

Current Liabilities/Liability: Nợ phải trả

ngắn hạn/Nợ phải trả

Số thực dương liên tục[0;1]

24

Working Capital/Equity: Vốn lưu

động/Vốn chủ sổ hữu

Số thực dương liên tục[0;1]

25 Current Liabilities/Equity: Nợ phải trả ngắn Số thực dương liên tục

Trang 9

hạn/Vốn chủ sở hữu [0;1]

26

Long-term Liability to Current Assets: Nợ

phải trả dài hạn/Tài sản ngắn hạn

Số thực dương liên tục[0;9.54e+09]

27

Current Liability to Current Assets: Nợ

phải trả ngắn hạn trên Tài sản ngắn hạn

Số thực dương liên tục[0;1]

28

One if Total Liability exceeds Total Assets:

Chỉ số 1 nếu tổng nợ phải trả cao hơn tổng

tài sản

Giá trị định tính0;1

29

Equity to Liability: Vốn chủ sở hữu trên nợ

phải trả

Số thực dương liên tục[0;1]

30

Equity/Total Assets: Vốn chủ sở hữu/Tổng

tài sản

Số thực dương liên tục[0;1]

31

(Long-term Liability+Equity)/Fixed Assets:

(Nợ phải trả dài hạn + Vốn chủ sở hữu)/Tài

sản cố định

Số thực dương liên tục[0;1]

32

Fixed Assets to Assets: Tài sản cố định/Tài

sản

Số thực dương liên tục[0;8.32e+09]

33

Current Liability to Liability: Nợ phải trả

ngắn hạn/ Nợ phải trả

Số thực dương liên tục[0;1]

34

Current Liability to Equity: Nợ phải trả

ngắn hạn/Vốn chủ sở hữu

Số thực dương liên tục[0;1]

35

Equity to Long-term Liability: Vốn chủ sở

hựu/Nợ phải trả dài hạn

Số thực dương liên tục[0;1]

36

Liability to Equity: Nợ phải trả/Vốn chủ sở

hữu

Số thực dương liên tục[0;1]

37

Degree of Financial Leverage: Mức độ/ tỉ

số đòn bẩy tài chính

Số thực dương liên tục[0;1]

38 Interest Coverage Ratio: Hệ số trả lãi Số thực dương liên tục

6

Trang 10

39

Operating Expenses/Net Sales: Chi phí

hoạt động/Lợi nhuận gộp

Số thực dương liên tục[0;9.99e+09]

40

(Research and Development Expenses)/Net

Sales: Chi phí nghiên cứu và phát triển/Lợi

nhuận gộp

Số thực dương liện tục[0;9.98e+9]

43

Book Value Per Share(A): Giá cổ phiếu ghi

sổ theo tiêu chí (A)

Số thực dương liên tục[0;1]

44

Book Value Per Share(C): Giá cổ phiếu ghi

sổ theo tiêu chí (C)

Số thực dương liên tục[0;1]

45

Cash Flow Per Share: Dòng tiền trên một

cổ phiếu

Số thực dương liên tục[0;1]

46

Sales Per Share: Thu nhập trên một cố

phiếu

Số thực dương liên tục[0;3.02e+09]

47

Operating Income Per Share: Thu nhập

hoạt động trên một cổ phiếu

Số thực dương liên tục[0;1]

48

Sales Per Employee: Doanh thu trên mỗi

nhân viên

Số thực dương liên tục[0;8.81e+09]

Trang 11

trên tài sản (C).

[0;1]

53

Return On Total Assets(A): Tỉ suát sinh lợi

trên tài sản (A)

Số thực dương liên tục[0;1]

54

Return On Total Assets(B): Tỉ suát sinh lợi

trên tài sản (B)

Số thực dương liên tục[0;1]

55

Gross Profit /Net Sales: Lợi nhuận gộp trên

Doanh thu thuần

Số thực dương liên tục[0;1]

56

Realized Gross Profit/Net Sales: Lợi nhuận

gợp thực hiện được

Số thực dương liên tục[0;1]

57

Operating Income /Net Sales: Thu nhập

hoạt động / Doanh thu thuần

Số thực dương liên tục[0;1]

58

Pre-Tax Income/Net Sales: Thu nhập trước

thuế/doanh thu thuần

Số thực dương liên tục[0;1]

59

Net Income/Net Sales: Thu nhập thuần/

Doanh thu thuần

Số thực dương liên tục[0;1]

60

Net Non-operating Income Ratio: Tỉ lệ của

thu nhập khác

Số thực dương liên tục[0;1]

61

Net Income-Exclude Disposal Gain or

Loss/Net Sales: KHÔNG RÕ

Số thực dương liên tục[0;1]

62

EPS-Net Income:Thu nhập trên mỗi cổ

phần – Thu nhập thuần

Số thực dương liên tục[0;1]

63

Pretax Income Per Share: Thu nhập mỗi cổ

phần trước thuế

Số thực dương liên tục[0;1]

64

Retained Earnings to Total Assets: Tỷ lệ lợi

nhuận giữ lại trên tổng tài sản

Số thực dương liên tục[0;1]

65 Total Income to Total Expenses: Tổng thu Số thực dương liên tục

8

Trang 12

Net Income to Total Assets: Thu nhập

thuần trên tổng tài sản

Số thực dương liên tục[0;1]

68

Gross Profit to Sales: Lợi nhuận thuần trên

doanh thu

Số thực dương liên tục[0;1]

69

Net Income to Stockholder's Equity: Thu

nhập thuần trên vốn cổ phần

Số thực dương liên tục[0;1]

70

One if Net Income is Negative for the Last

Two Years; Zero Otherwise: Giá trị phân

loại: Đánh cờ 1 nếu thu nhập thuần âm

trong 2 năm liên tiếp 0 nếu không phải

Nhãn0,1

71

(Inventory +Accounts Receivables)

/Equity: Tổng hàng tồn kho và khoản phải

thu trên vốn chủ sở hữu

Số thực dương liên tục[0;1]

72

Total Asset Turnover: Vòng quay tổng tài

sản

Số thực dương liên tục[0;1]

73

Accounts Receivable Turnover: Vòng quay

khoản phải thu

Số thực dương liên tục[0;9.74e+09]

74

Days Receivable Outstanding: Thời gian

thu khoản phải thu

Số thực dương liên tục[0;9.73e+09]

75

Inventory Turnover: Vòng quay hàng tồn

kho

Số thực dương liên tục[0;9.99e+09]

76

Fixed Asset Turnover: Vòng quay tài sản

cố định

Số thực dương liên tục[0;9.99e+09]

77

Equity Turnover: Vòng quay vốn chủ sở

hữu

Số thực dương liên tục[0;1]

78 Current Assets to Sales: Tài sản ngắn hạn Số thực dương liên tục

Trang 13

trên doanh thu [0;1e+10]

79

Quick Assets to Sales: Tài sản tưởng đương

tiền trên doanh thu

Số thực dương liên tục[0;1e+10]

80

Working Capital to Sales: Vốn luân chuyển

trên doanh thu

Số thực dương liên tục[0;1]

83

No-credit Interval: Thời gian không có tín

dụng

Số thực dương liên tục[0;1]

84

Cash Flow from Operating/Current

Liabilities: Dòng tiên hoạt động kinh

doanh/ Nghĩa vụ nợ ngắn hạn

Số thực dương liên tục[0;1]

85

Cash Flow to Total Assets: Dòng tiền trẹn

tổng tài sản

Số thực dương liên tục[0;1]

86

Cash Flow to Liability: Dòng tiền trên nợ Số thực dương liên tục

[0;1]

87

CFO to Assets: Dòng tiền hoạt động kinh

doanh trên tài sản

Số thực dương liên tục[0;1]

88

Cash Flow to Equity: Dòng tiền trên vốn

chủ sở hữu

Số thực dương liên tục[0;1]

89

Realized Gross Profit Growth Rate: Tốc độ

tăng trưởng lợi nhuận gộp thực hiện được

Số thực dương liên tục[0;1]

90

Operating Income Growth: Tăng trưởng

thu nhập hoạt động

Số thực dương liên tục[0;1]

91 Net Income Growth: Tăng trường thu nhập

ròng

Số thực dương liên tục

10

Trang 14

92

Continuing Operating Income after Tax

Growth: Thu nhập hoạt động liên tục sau

tăng trưởng thuế

Số thực dương liên tục[0;1]

93

Net Income-Excluding Disposal Gain or

Loss Growth: KHÔNG RÕ

Số thực dương liên tục[0;1]

94

Total Asset Growth: Tổng tăng trưởng tài

sản

Số thực dương liên tục[0;9.99e+09]

95

Total Equity Growth: Tổng tăng trưởng vốn

chủ sở hữu

Số thực dương liên tục[0;9.33e+09]

96

Return on Total Asset Growth: Tỉ suất sinh

lợi trên tăng trưởng tổng tài sản

Số thực dương liên tục[0;1]

II Các bài nghiên cứu liên quan đến bộ dữ liệu:

- Tựa đề Financial Ratios and Corporate Governance Indicators in BankruptcyPrediction: A Comprehensive Study

- Tác giả: Deron Liang, Chia-Chi Lu, Chih-Fong Tsai, and Guan-An Shih

Phần 3: QUY TRÌNH TIỀN XỬ LÍ BỘ DỮ LIỆU

I Quy trình thực hiện tiền xử lí dữ liệu:

Thực hiện quy trình cơ bản: đưa bộ dữ liệu vào khu vực quan sát để thu thậpthông tin về đánh giá thứ hạn các đặc tính, phân bố dữ liệu, phân bố giá trị, và

từ đó đưa quyết định và thực hiện tiền xử lý dữ liệu

II Quan sát tổng quan bộ dữ liệu:

1 Thực hiện quan sát đặc điểm của các đặc tính:

- Mục tiêu thực hiện từ việc quan sát dữ liệu: nhận ra thông tin mấu chốt choquá trình tiền xử lí dữ liệu để quyết định các công cụ cho quá trình tiền xử lí

- Công cụ: Phần mềm lập trình trực quan Orange (Công cụ Files, FeatureStatistics, Rank để quan sát và công cụ Merge Data, Data Table và Save Data

để tổng hợp dữ liệu

- Quy trình thực hiện:

1 Đưa dữ liệu vào công cụ Files

Trang 15

2 Dẫn dữ liệu qua công cụ Feature Statistics và Rank.

trình thực hiện tiền xử lí dữ liệu

2 Phân tích kết quả quan sát:

Bộ dữ liệu “data.csv” có kết quả quan sát như được trình bày dưới đây:

12

Hình 3.1: Đưa bộ dữ liệu vào File.

Hình 3.2: Mô hình lấy thông tin về các đặc tính của dữ liệu.

Trang 16

Bộ dữ liệu có 3 đặc tính định tính (1 nhãn, 2 đặc tính phổ thông) và 93 đặc tínhđịnh lượng phổ thông Do mục tiêu của bộ dữ liệu là dự báo phá sản nên đặc tính nhãn

“Bankrupt?” phải được chọn làm mục tiêu dự báo (Target trong Orange) khi nhập Fileshay bằng Select Columns

Nhóm quyết định chuyển kết quả của Feature Statistics sang dạng bảng vì mụcđích làm gọn bài luận Từ bốn bảng dữ liệu trên, thì ta thấy được rằng đa số các đặc tínhđịnh lượng đều dao động trong khoảng [0;1] Tuy vậy, bộ dữ liệu có 24 đặc tính địnhlượng (bảng dữ liệu ở trên) dao động từ không đến một số giá trị rất lớn (vài trăm triệuđến một chục tỷ) Các đặc tính đó bao gồm: Interest-bearing debt interest rate; CurrentRatio; Revenue Per Share (Yuan ¥); Fixed Assets to Assets; Revenue per person; QuickAssets/Current Liability; Quick Ratio; Net Value Growth Rate; Long-term Liability toCurrent Assets; Allocation rate per person; Cash/Current Liability; Average CollectionDays; Accounts Receivable Turnover; Total assets to GNP price; Inventory/CurrentLiability; Total debt/Total net worth; Research and development expense rate; FixedAssets Turnover Frequency; Inventory Turnover Rate (times); Total Asset Growth Rate;Operating Expense Rate; Cash Turnover Rate; Quick Asset Turnover Rate; Current AssetTurnover Rate

Chúng ta phải chuẩn hóa 24 đặc tính trên về khoảng [0;1] mà không phải cáckhoảng khác vì:

- Các đặc tính định lượng khác đều biến thiên trong đoạn [0;1]

- Không chuẩn hóa sẽ tạo ra thiên vị, nhầm lẫn cho các biến có giá trị lớn

- Các giá trị lớn tạo thêm phức tạp trong quá trình học máy và phân cụm, làmgiảm độ chính xác của dự báo sau cùng

Bộ dữ liệu không có dữ liệu trống nên không cần phải điền khuyết giá trị bị thiếu

Bộ dữ liệu trên có phân bố dữ liệu theo kiểu phân phối (gần) chuẩn và không cónhiều phần tử ngoại lai cũng như phần tử thiếu nên không cần loại bỏ phần tử ngoài và

Hình 3.5: Đặc điểm của các đặc

Hình 3.7: 24 đặc tính định lượng

biến thiên ngoài [0;1].

Trang 17

phân giỏ, tách rời dữ liệu (Kết quả quan sát phân bố dữ liệu không chèn vào bài, vì kếtquả rất nhiều sẽ làm bài luận quá dài).

Cuối cùng, do các đặc tính còn lại đều ảnh hưởng đáng kể lên dự báo phá sản cũngnhư là bộ dữ liệu bị không cân đối (220/6599) nên không thể loại thêm dữ liệu hay phântích PCA mà ít ảnh hưởng đến độ thiên vị (bias) của dữ liệu

Bây giờ, nhóm thực hiện quan sát kết quả từ công cụ Rank:

14

Hình 3.8, 3.9, 3.10, 3.11, 3.12:

Kết quả Rank 95 đặc tính.

Trang 18

Sắp xếp dữ liệu theo mức độ tăng dần của Information Gains, từ công cụ Rank, tathấy đa số đặc tính đếu có ảnh hưởng đến lượng thông tin nhận được và độ chuẩn của kếtquả phân lớp/ phân cụm dữ liệu Tuy vậy, có 6 đặc tính gần như không ảnh hưởng đến kếtquả: Net Income Flag (toàn bộ giá trị đều như nhau), Net Worth Turnover Rate (times),Operating Expense Rate, Revenue Per Person, Current Liability to Liability, CurrentLiabilities/Liability Vì thế, ta sẽ lọc bỏ sáu đặc tính này để giảm thiểu kích cỡ dữ liệu,tăng độ chính xác và giảm bớt khối lượng dữ liệu cần xử lý.

III Quy trình tiền xử lí tổng quan bộ dữ liệu:

Dựa trên phân tích trên, bộ dữ liệu trên sẽ được xử lí bằng các phương pháp sau:

1 Loại bỏ biến không cần thiết, dùng công cụ Rank, chọn lấy 89/95 đặc trưng (Loại

6) trong công cụ Rank

2 Chuẩn hóa dữ liệu về khoảng [0;1], bằng công cụ Preprocessing, dùng công cụ

Normalize Features (chọn chuẩn Normalize to interval [0;1])

3 Cho phương pháp phân cụm: Skip cột “Bankrupt?”, do đặc điểm của phân cụm

nên bộ dữ liệu phải không có biến mục tiêu thì mới thấy phân bố và phân cụm của

Trang 19

Phần 4: THỰC HIỆN PHÂN CỤM DỮ LIỆU

I Lựa chọn phương pháp phân cụm dữ liệu:

Các phương pháp phân cụm được sử dụng trong phần này, đồng thời cũng là cácphương pháp được hướng dẫn kỹ lưỡng nhất là:

1 Phân cụm phân cấp (Hierarchical Clustering) : Xây dựng một cây phân cấp dựatrên dữ liệu được tổng hợp và tiền xử lí thông qua các phương pháp, bao gồm matrần khoảng cách và đo khoảng cách cụm

16

Hình 3.13: Loại 6 đặc điểm không

quan trọng bằng Rank.

Hình 3.14: Tiền xử lí bằng chuẩn

hóa khoảng dữ liệu.

Hình 3.15: Mẫu kết quả tiền xử lí

dữ liệu.

Trang 20

2 Thuật toán phân cụm K-Means: Là một trong thuật toán phân hoạch, dựa trên

phân chia dữ liệu vào các cụm ngẫu nhiên và tính tâm cụm đến khi tâm cụm bao

quát mọi điểm dữ liệu được phân

II Thực hiện và phân tích kết quả phân cụm:

1 Phân cụm phân cấp:

Quy trình thực hiện phân cụm:

Hình 4.1: Mô hình phân cụm dữ liệu bằng Orange

Hình 4.2: Bỏ biến mục tiêu “Bankrupt?”

để phân cụm (Chuyển từ Target thành Meta).

Hình 4.3: Tùy chỉnh công cụ

Distances:

+ So sánh: Dòng với nhau.

+ Cách tính: Euclidean.

Ngày đăng: 30/01/2024, 04:55

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w