Lọc các tỷ số tài chính dựa trên lý thuyết tập hợp- 123docz.net

3.3.1. Bảng phân loại tác động của từng biến

Mốc thời gian T1 T2 T3 T4

Trong bài nghiên cứu, tác giả xây dựng bảng phân loại về tác động của từng biến đối với việc dự báo phá sản của công ty bằng cách sử dụng mô hình hồi quy logistic. Công thức tổng quát của mô hình logistic được tóm tắt như sau: Cho (Y1, X1),...,(Yn, Xn) là một mẫu ngẫu nhiên từ phân phối logit có điều kiện. Cho X1j, X2j

... XKj là một tập hợp của k biến độc lập ký hiệu véc tơ x. Giả sử rằng mỗi biến tối thiểu phải được đo bằng thang đo khoảng và xác suất có điều kiện, kết quả được ký hiệu là P(Y = 1| x) = π (x) thì logit của mô hình hồi quy logistic được ký hiệu là: g(x) = 𝛽0+ 𝛽1𝑥1+ 𝛽2𝑥2+ ⋯ + 𝛽𝑚𝑥𝑚 Với 𝜋(𝑥) = exp 𝑔(𝑥) 1+exp 𝑔(𝑥) Hay ta có: 𝑃(𝑌 = 1) = 1 1 + 𝑒𝑥𝑝 (−𝛽𝑇𝑥)

Có thể thấy xác suất xảy ra sự kiện là một hàm phi tuyến phụ thuộc vào biến số beta.Với mỗi xác suất P xác định, ta sẽ so sánh P với c1. Hệ số c1 sử dụng trong việc thiết lập bảng phân loại cho 2 phương pháp NSS được xác định bằng tỷ số công ty khỏe mạnh trên công ty kiệt quệ, trong bài nghiên cứu này tương ứng với giá trị bằng 1. Nếu P > c1, ta dự báo rằng công ty này là một công ty khỏe mạnh và ngược lại, khi P < c1 ta dự báo công ty đang lâm vào tình trạng phá sản.

Do đó, bước đầu tiên, bài nghiên cứu sẽ xác định hệ số c1 như quy trình nêu trên ở 2 thời kỳ t-1 và t-2.

Bài nghiên cứu xác định vai trò của các biến đối với việc dự báo kiệt quệ (hệ số beta) bằng cách hồi quy logistic từng biến độc lập với biến giả phụ thuộc (biến giả mang giá trị =1: công ty khỏe mạnh, biến giả mang giá trị = 0: công ty kiệt quệ) với mức ý nghĩa 5%, những biến không có ý nghĩa thống kê sẽ được xem như không có tác động đến việc dự báo phá sản của doanh nghiệp. Sự phân loại tình hình sức khỏe của công ty được dựa trên các định nghĩa về tài chính đã được thảo luận ở trước đó và được phát triển đặc biệt cho bài nghiên cứu này.

Sau khi xác định c1 và Beta (𝛽), các tỷ số tài chính của từng công ty sẽ được thiết lập thành bảng nhị phân nhằm sử dụng cho bộ lọc NSS.

3.3.2. Rút gọn tham số theo phương pháp NSS

Các bước thực hiện cho việc rút gọn tham số theo phương pháp mới (NSS). 1. Hồi quy Logistic trong tập traing để tìm giá trị 𝛽̂𝑖.

2. Đưa vào 𝑈 = {𝑥1, … , 𝑥𝑚} 1 là tập hợp các tỷ số tài chính và 𝐸 = {ℎ1, … , ℎ𝑛} là tập hợp các công ty.

3. Thành lập bảng thông tin của soft sets.

𝑣𝑖𝑗 = {

1 𝑛ế𝑢 exp(𝛽̂𝑖𝑥𝑖𝑗) ≥ 𝑐 𝑣à Y = 1 1 𝑛ế𝑢 exp(𝛽̂𝑖𝑥𝑖𝑗) < 𝑐 𝑣à Y = 0 0 𝑐á𝑐 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ò𝑛 𝑙ạ𝑖

4. Đặt 𝑁𝑆𝑇 = {ℎ𝑗: 𝑌𝑗 = 1} là tập các công ty bình thường, 𝑆𝑇 = {ℎ𝑗: 𝑌𝑗 = 0} là tập các công ty được quan tâm đặc biệt. Ta có 𝑁𝑆𝑇 = {ℎ1, ℎ2, … , ℎ𝑛1}và 𝑆𝑇 = {ℎ𝑛1+1, … , ℎ𝑛}.

5.Tìm soft set 𝐹𝑁𝑆𝑇 = {(ℎ𝑗, 𝑓𝑁𝑆𝑇(ℎ𝑗)) , 𝑗 = 1, … , 𝑛1} và 𝐹𝑆𝑇 = {(ℎ𝑗, 𝑓𝑆𝑇(ℎ𝑗)) , 𝑗 = 𝑛1+ 1, … , 𝑛}.2

6. Tìm 𝐹𝑁𝑆𝑇 ∧ 𝐹𝑆𝑇.3

7. Sử dụng quyết định uni-int để thiết lập quy luật trên 𝐹𝑁𝑆𝑇∧ 𝐹𝑆𝑇.

8. Tìm được tập quyết định tối ưu của 𝑈, đây là tập các tỷ số tài chính được rút gọn tối ưu.

Bài nghiên cứu sử dụng công cụ Matlab để lập trình nên bộ lọc TSS và NSS. Quy trình lọc biến sẽ được thực hiện ở phần mục lục.

Bước tiếp theo sau khi lọc được bộ tỷ tài chính phù hợp, bài nghiên cứu sẽ dựa vào các mô hình khác nhau để xác định độ chính xác, bao gồm: Mô hình Logistic và các mô hình phân lớp dữ liệu.

3.4. Mô hình sử dụng trong bài nghiên cứu 3.4.1. Mô hình hồi quy Logistic

1 U là tập hợp tất cả các tỷ số tài chính trong bài nghiên cứu, xem chi tiết phần phụ lục.

Sau khi xác định được các biến tối ưu thông qua lý thuyết tập hợp mềm, tiến hành hồi quy bằng mô hình logistic để tính toán mức độ chính xác trong việc dự báo phá sản của mô hình.Với các biến được chọn từ lý thuyết NSS, bài nghiên cứu tiến hành hồi quy với mẫu số liệu đầy đủ gồm 104 công ty nhằm tìm ra hệ số beta cũng như mức ý nghĩa của từng biến số.Sau khi tiến hành hồi quy thì tương ứng mỗi thời kỳ (t-1 và t-2) sẽ xuất hiện một hàm hồi quy với tập thử nghiệm cho trước. Tiến hành thay thế các biến của tập kiểm định với beta tương ứng nhằm tìm ra xác suất dự báo. Nếu xác suất dự báo lớn hơn c2, công ty được dự báo là khỏe mạnh, ngược lại, công ty sẽ được dự báo đang lâm vào tình trạng phá sản. c2 được tìm bằng cách hồi quy liên tục các giá trị c2 của mẫu 104 công ty từ 0 đến 1 (do xác suất của một sự kiện chỉ có thể nằm trong khoảng giá trị [0,1].

c2 của mô hình cho ra kết quả dự báo chính xác nhất sẽ được lựa chọn. Sau khi chọn được c2, bài nghiên cứu sẽ áp dụng tính toán mức độ chính xác trong dự báo của từng tập training trong 10 nhóm phân loại bằng phương pháp độ chính xác ACC. Kết quả dự báo sẽ được so sánh với tình trạng sức khỏe thực tế của công ty trong tập testing. Những công ty được dự báo là khỏe mạnh và trùng với tình trạng sức khỏe thực tế thì sẽ được xem như một TP (True Positive - dự báo khỏe mạnh chính xác), những công ty được dự báo lâm vào phá sản và trùng với thực tế thì sẽ được xem như một TN (True Negative - dự báo kiệt quệ chính xác). Ta có công thức tính toán độ chính xác của mô hình dự báo là:

ACC= 𝑇𝑃+𝑇𝑁 𝑃+𝑁

Trong đó: TP: tổng số công ty khỏe mạnh được dự báo chính xác. TN: tổng số công ty kiệt quệ được dự báo chính xác.

P+N: tổng số công ty khỏe mạnh và kiệt quệ (bằng với mẫu testing).

3.4.2. Mô hình sử dụng phân lớp dữ liệu

Phân lớp dữ liệu là một kỹ thuật trong khai phá dữ liệu được sử dụng rộng rãi nhất và được nghiên cứu mở rộng hiện nay. Mục đích của phương pháp này là dự đoán

các mẫu dữ liệu huấn luyện, với một nhãn phân lớp cho mỗi mẫu dữ liệu. Dữ liệu đầu ra là bộ phân lớp dựa trên tập huấn luyện, hoặc những nhãn phân lớp. Phân lớp dữ liệu dựa trên tập thử nghiệm (training) và các giá trị trong một thuộc tính phân lớp và dùng nó để xác định lớp cho dữ liệu mới. Kỹ thuật phân lớp dữ liệu được tiến hành bao gồm hai bước. Bước thứ nhất là xây dựng mô hình từ tập thử nghiệm. Trong bước này, mỗi bộ (mẫu) dữ liệu được phân vào một lớp được xác định trước, lớp của một bộ (mẫu) dữ liệu được xác định bởi thuộc tính gán nhãn lớp, tập các bộ (mẫu) dữ liệu thử nghiệm (tập thử nghiệm) được dùng để xây dựng mô hình. Bước thứ hai là sử dụng mô hình, kiểm tra tính chính xác của mô hình và dùng nó để phân lớp dữ liệu mới. Ở bước này, sử dụng mô hình để phân lớp cho những đối tượng mới hoặc chưa được phân lớp, sau đó đánh giá độ chính xác của mô hình, lớp biết trước của một mẫu (bộ) dữ liệu đem kiểm tra được so sánh với kết quả thu được từ mô hình. Tỷ lệ chính xác bằng phần trăm các mẫu (bộ) dữ liệu được phân lớp đúng bởi mô hình trong số các lần kiểm tra được gọi là độ chính xác (ACC).

Mô hình được biểu diễn bởi các luật phân lớp, trong đó có 2 mô hình phân lớp được sử dụng trong bài nghiên cứu là mô hình SVM và mô hình NN.

3.4.2.1. Mô hình NN

Mạng thần kinh nhân tạo (Neural Network - NN) của McCulloch và Pitts (1943), Schmidhuber (2009 - 2012) là một mô phỏng xử lý thông tin, được nghiên cứu ra từ hệ thống thần kinh của sinh vật, giống như bộ não để xử lý thông tin. Nó bao gồm số lượng lớn các mối gắn kết cấp cao để xử lý các yếu tố làm việc trong mối liên hệ giải quyết vấn đề rõ ràng. NN giống như con người, được học bởi kinh nghiệm, lưu những kinh nghiệm hiểu biết và sử dụng trong những tình huống phù hợp. Đặc trưng của mạng nơ-ron nhân tạo là khả năng học và xử lý song song. Do đó việc xử lý thông tin có thể gần đúng mối quan hệ tương quan phức tạp giữa các yếu tố đầu vào và đầu ra của các quá trình cần nghiên cứu và khi đã học được thì việc kiểm tra độc lập thường cho kết quả tốt. Sau khi đã học xong, mạng nơ-ron nhân tạo có thể tính toán kết quả đầu ra tương ứng với bộ số liệu đầu vào mới.Về mặt cấu trúc, mạng nơ-ron nhân tạo là một hệ thống gồm nhiều phần tử xử lý đơn giản cùng hoạt

động song song. Tính năng này của NN cho phép nó có thể được áp dụng để giải các bài toán lớn.Với những đặc điểm đó, mạng nơron nhân tạo đã được sử dụng để giải quyết nhiều bài toán thuộc nhiều lĩnh vực của các ngành khác nhau. Các nhóm ứng dụng mà mạng nơ-ron nhân tạo đã được áp dụng rất có hiệu quả là: Bài toán phân lớp, bài toán dự báo, bài toán điều khiển và tối ưu hoá.

Bài toán phân lớp: loại bài toán này đòi hỏi giải quyết vấn đề phân loại các đối tượng quan sát được thành các nhóm dựa trên các đặc điểm của các nhóm đối tượng đó. Đây là dạng bài toán cơ sở của rất nhiều bài toán trong thực tế: nhận dạng chữ viết, tiếng nói, phân loại gen, phân loại chất lượng sản phẩm.

Bài toán dự báo: Mạng nơ-ron nhân tạo đã được ứng dụng thành công trong việc xây dựng các mô hình dự báo sử dụng tập dữ liệu trong quá khứ để dự đoán số liệu trong tương lai. Đây là nhóm bài toán khó và rất quan trọng trong nhiều ngành khoa học.

Bài toán điều khiển và tối ưu hoá: Nhờ khả năng học và xấp xỉ hàm mà mạng nơ- ron nhân tạo đã được sử dụng trong nhiều hệ thống điều khiển tự động cũng như góp phần giải quyết những bài toán tối ưu trong thực tế.

Bài nghiên cứu sử dụng ứng dụng phân lớp của mạng thần kinh nhân tạo để ước tính được giá trị chính xác (ACC). Phần mềm Nero Solution 7.0 được sử dụng để ước tính giá trị ACC.

Quy trình xây dựng Mô hình mạng thần kinh nhân tạo cho bài nghiên cứu.

Bước thứ nhất, sử dụng dữ liệu của 94 công ty trong mẫu gồm 104 công ty đưa vào mô hình NN để mô hình tự học và đưa ra những dự đoán. Tiếp theo, sử dụng dữ liệu của 10 công ty còn lại để ước tính được độ chính xác của dự đoán ACC. Bước cuối cùng, ghi nhận kết quả giữa các thời kỳ, giá trị của từng fold, của ba phương pháp: NTH, TSS và NSS Để từ đó có thể ước tính được ACC trung bình. (Hướng dẫn chi tiết được trình bày ở phần Phụ lục).

3.4.2.2. Mô hình SVM

Kỹ thuật vectơ hỗ trợ (Support Vector Machines - SVM) của Vapnik và Chervonenkis (1963) là kỹ thuật mới đối với việc phân lớp dữ liệu, là

phương pháp học sử dụng không gian giả thuyết các hàm tuyến tính trên không gian đặc trưng nhiều chiều, dựa trên lý thuyết tối ưu và lý thuyết thống kê. Trong kỹ thuật SVM không gian dữ liệu nhập ban đầu sẽ được ánh xạ vào không gian đặc trưng và trong không gian đặc trưng này mặt siêu phẳng phân chia tối ưu sẽ được xác định. Bài nghiên cứu ứng dụng mô hình SVM để ước tính độ chính xác (ACC) của 3 cách chọn biến NTH, TSS và NSS. Bài nghiên cứu sử dụng phần mềm libsvm để có thể ước tính giá trị ACC.

Quy trình xây dựng Mô hình kỹ thuật vectơ hỗ trợ cho bài nghiên cứu.

Bước thứ nhất, bài nghiên cứu đưa bộ dữ liệu của 94 công ty trong bộ gồm 104 công ty để ước lượng được mô hình từ bộ dữ liệu đưa vào. Tiếp theo, đưa bộ dữ liệu của 10 công ty còn lại để ước tính được giá trị ACC. Bước cuối cùng, ghi nhận kết quả giữa các thời kỳ, giá trị của từng fold, của ba phương pháp NTH, TSS và NSS để từ đó có thể ước tính được ACC trung bình. (Hướng dẫn chi tiết được trình bày ở phần phụ lục).

Tổng hợp có 3 mô hình là mô hình logistic, mô hình SVM và mô hình NN; 3 bộ biến được lọc theo cách chọn biến như của NTH, TSS và NSS được sử dụng trong bài nghiên cứu. Ngoài ra còn có sự so sánh với mô hình Q được trình bày ở chương tiếp theo nhằm kiểm định tính vững của bộ biến được lọc thông qua các mô hình dự báo ở trên.

CHƯƠNG 4. KẾT QUẢ NGHIÊN CỨU 4.1. Hồi quy hệ số Beta

Bảng kết quả giá trị beta qua hai thời kỳ t-1 và t-2 được sử dụng cho phương pháp NTH, TSS và NSS được trình bày trong Bảng 4.1 và Bảng 4.2.

Bảng 4.1. Bảng kết quả hồi quy beta các biến độc lập ở thời kỳ t-1.

STT Tên biến độc lập Beta

1 TMTDT/NNH 0.6913 2 TM/TN 0.6103 3 DT/KPT 0.0000 4 EBIT/TTS 0.0000 5 EBIT/I 0.1032 6 EBITDA/TN 9.1460 7 CF/NNH 1.2603 8 LNHDR/DT 4.5386 9 LNR/DT 4.7910 10 EBT 0.0000 11 KPT/TLNTT 0.0000 12 LNRHDKD/TTS 20.0586 13 CFHDKD/LNR 0.0000 14 CPHDTX/LNG 0.0000 15 TTS/DT -0.1066 16 DT/HTK 0.0000 17 DT/TSCD 0.0000 18 DT/VCP 0.0000 19 DT/KPT 0.1889 20 DT/VLC 0.0000 21 CF/DTKDC 0.0000 22 P/CF 0.0000 23 P/DT 27.7551 24 g 1.4157 25 gTS 3.6649 26 gDTKDC 0.0000 27 gLNR 0.0000

28 gCFSCP 0.0000 29 TLLNGL -23.2853 30 P/B 0.0000 31 gOCF 0.0000 32 gDTDT 0.0000 33 gDTTC 0.0000 34 CPTC/TCP -2.6834 35 CPQL/TCP 0.0000 36 NDH/TTS -4.8366 37 VLC/TSR 0.0000 38 KPT/TN 0.0000 39 NDH/TN 0.0000 40 TTS/VCP 0.0000 41 VCP/N 0.0000 42 VCP/TTS 3.8709 43 EPS/DPS 0.0000 44 EBT/SCP 0.0001 45 DPS 0.0000 46 CTV/KH 18.3154 47 CFHDKD/SCP 0.0000 48 EBITDA/SCP 0.0000 49 TSR/SCP 0.0000 50 T 0.0001

Bảng trên thể hiện giá trị hồi quy của hệ số beta ở thời kỳ t-1 với giá trị dương của hệ số thể hiện tỷ số tài chính tác động cùng chiều với xác suất một công ty được dự đoán là khỏe mạnh và giá trị âm của hệ số thể hiện tỷ số tài chính tác động ngược chiều với xác suất một công ty được dự đoán là khỏe mạnh. Trong đó,

TMTDT: Tiền mặt + tương đương, NNH: Nợ ngắn hạn, TM: Tiền mặt, TN: Tổng nợ, NDH: Nợ dài hạn,

CFHDKD: Dòng tiền HĐKD, DT: Doanh thu, KPT: Khoản phải thu, EBIT: thu nhập trước thuế trước lãi vay,

I: Lãi vay, EBITDA: Thu nhập trước thuế trước lãi vay và trước khấu hao, CF: Dòng tiền, LNHDR: LNHĐ ròng, LNR: LN ròng, EBT: TN trước thuế, TLNTT: Tổng LN trước thuế, LNRHDKD: LN ròng từ HĐKD,

TTS: Tổng tài sản, CPHDTX: Chi phí HĐ thường xuyên, LNG: LN gộp, HTK: Hàng Tồn Kho, TSCD: Tài sản cố định, VCP: Vốn cổ phần, VLC: Vốn luân chuẩn, DTKDC: Doanh thu kinh doanh chính, g: Tốc độ tăng trưởng, TLLNGL: Tỷ lệ lợi nhuận giữ lại, P: Giá thị trường, B: Giá trị sổ sách, DTDT: Dòng tiền đầu tư,

DTTC: Dòng tiền tài chính, CPTC: Chi phi tài chính, CPQL: Chi phí quản lý, TCP: Tổng chi phí, TSR: TS ròng, EPS: Thu nhập trên mỗi cổ phần, DPS: Cổ tức, CTV: Chi tiêu vốn, KH: Khấu hao, T: Thuế.

Bảng 4.2. Bảng kết quả hồi quy beta các biến độc lập ở thời kỳ t-2.

STT Tên biến độc lập Beta

1 TMTDT/NNH 1.3992 2 TM/TN 1.4545 3 DT/KPT 0.0000 4 EBIT/TTS 0.0000 5 EBIT/I 0.4785 6 EBITDA/TN 8.8032 7 CF/NNH 0.0000

Lọc các tỷ số tài chính dựa trên lý thuyết tập hợp mềm

Phân tách các công ty chạy mô hình

Xác định thời điểm dự báo