Các bước thực hiện cho việc rút gọn tham số theo phương pháp mới (NSS). 1. Hồi quy Logistic trong tập traing để tìm giá trị 𝛽̂𝑖.
2. Đưa vào 𝑈 = {𝑥1, … , 𝑥𝑚} 1 là tập hợp các tỷ số tài chính và 𝐸 = {ℎ1, … , ℎ𝑛} là tập hợp các công ty.
3. Thành lập bảng thông tin của soft sets.
𝑣𝑖𝑗 = {
1 𝑛ế𝑢 exp(𝛽̂𝑖𝑥𝑖𝑗) ≥ 𝑐 𝑣à Y = 1 1 𝑛ế𝑢 exp(𝛽̂𝑖𝑥𝑖𝑗) < 𝑐 𝑣à Y = 0 0 𝑐á𝑐 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ò𝑛 𝑙ạ𝑖
4. Đặt 𝑁𝑆𝑇 = {ℎ𝑗: 𝑌𝑗 = 1} là tập các công ty bình thường, 𝑆𝑇 = {ℎ𝑗: 𝑌𝑗 = 0} là tập các công ty được quan tâm đặc biệt. Ta có 𝑁𝑆𝑇 = {ℎ1, ℎ2, … , ℎ𝑛1}và 𝑆𝑇 = {ℎ𝑛1+1, … , ℎ𝑛}.
5.Tìm soft set 𝐹𝑁𝑆𝑇 = {(ℎ𝑗, 𝑓𝑁𝑆𝑇(ℎ𝑗)) , 𝑗 = 1, … , 𝑛1} và 𝐹𝑆𝑇 = {(ℎ𝑗, 𝑓𝑆𝑇(ℎ𝑗)) , 𝑗 = 𝑛1+ 1, … , 𝑛}.2
6. Tìm 𝐹𝑁𝑆𝑇 ∧ 𝐹𝑆𝑇.3
7. Sử dụng quyết định uni-int để thiết lập quy luật trên 𝐹𝑁𝑆𝑇∧ 𝐹𝑆𝑇.
8. Tìm được tập quyết định tối ưu của 𝑈, đây là tập các tỷ số tài chính được rút gọn tối ưu.
Bài nghiên cứu sử dụng công cụ Matlab để lập trình nên bộ lọc TSS và NSS. Quy trình lọc biến sẽ được thực hiện ở phần mục lục.
Bước tiếp theo sau khi lọc được bộ tỷ tài chính phù hợp, bài nghiên cứu sẽ dựa vào các mô hình khác nhau để xác định độ chính xác, bao gồm: Mô hình Logistic và các mô hình phân lớp dữ liệu.
3.4. Mô hình sử dụng trong bài nghiên cứu 3.4.1. Mô hình hồi quy Logistic
1 U là tập hợp tất cả các tỷ số tài chính trong bài nghiên cứu, xem chi tiết phần phụ lục.
Sau khi xác định được các biến tối ưu thông qua lý thuyết tập hợp mềm, tiến hành hồi quy bằng mô hình logistic để tính toán mức độ chính xác trong việc dự báo phá sản của mô hình.Với các biến được chọn từ lý thuyết NSS, bài nghiên cứu tiến hành hồi quy với mẫu số liệu đầy đủ gồm 104 công ty nhằm tìm ra hệ số beta cũng như mức ý nghĩa của từng biến số.Sau khi tiến hành hồi quy thì tương ứng mỗi thời kỳ (t-1 và t-2) sẽ xuất hiện một hàm hồi quy với tập thử nghiệm cho trước. Tiến hành thay thế các biến của tập kiểm định với beta tương ứng nhằm tìm ra xác suất dự báo. Nếu xác suất dự báo lớn hơn c2, công ty được dự báo là khỏe mạnh, ngược lại, công ty sẽ được dự báo đang lâm vào tình trạng phá sản. c2 được tìm bằng cách hồi quy liên tục các giá trị c2 của mẫu 104 công ty từ 0 đến 1 (do xác suất của một sự kiện chỉ có thể nằm trong khoảng giá trị [0,1].
c2 của mô hình cho ra kết quả dự báo chính xác nhất sẽ được lựa chọn. Sau khi chọn được c2, bài nghiên cứu sẽ áp dụng tính toán mức độ chính xác trong dự báo của từng tập training trong 10 nhóm phân loại bằng phương pháp độ chính xác ACC. Kết quả dự báo sẽ được so sánh với tình trạng sức khỏe thực tế của công ty trong tập testing. Những công ty được dự báo là khỏe mạnh và trùng với tình trạng sức khỏe thực tế thì sẽ được xem như một TP (True Positive - dự báo khỏe mạnh chính xác), những công ty được dự báo lâm vào phá sản và trùng với thực tế thì sẽ được xem như một TN (True Negative - dự báo kiệt quệ chính xác). Ta có công thức tính toán độ chính xác của mô hình dự báo là:
ACC= 𝑇𝑃+𝑇𝑁 𝑃+𝑁
Trong đó: TP: tổng số công ty khỏe mạnh được dự báo chính xác. TN: tổng số công ty kiệt quệ được dự báo chính xác.
P+N: tổng số công ty khỏe mạnh và kiệt quệ (bằng với mẫu testing).
3.4.2. Mô hình sử dụng phân lớp dữ liệu
Phân lớp dữ liệu là một kỹ thuật trong khai phá dữ liệu được sử dụng rộng rãi nhất và được nghiên cứu mở rộng hiện nay. Mục đích của phương pháp này là dự đoán
các mẫu dữ liệu huấn luyện, với một nhãn phân lớp cho mỗi mẫu dữ liệu. Dữ liệu đầu ra là bộ phân lớp dựa trên tập huấn luyện, hoặc những nhãn phân lớp. Phân lớp dữ liệu dựa trên tập thử nghiệm (training) và các giá trị trong một thuộc tính phân lớp và dùng nó để xác định lớp cho dữ liệu mới. Kỹ thuật phân lớp dữ liệu được tiến hành bao gồm hai bước. Bước thứ nhất là xây dựng mô hình từ tập thử nghiệm. Trong bước này, mỗi bộ (mẫu) dữ liệu được phân vào một lớp được xác định trước, lớp của một bộ (mẫu) dữ liệu được xác định bởi thuộc tính gán nhãn lớp, tập các bộ (mẫu) dữ liệu thử nghiệm (tập thử nghiệm) được dùng để xây dựng mô hình. Bước thứ hai là sử dụng mô hình, kiểm tra tính chính xác của mô hình và dùng nó để phân lớp dữ liệu mới. Ở bước này, sử dụng mô hình để phân lớp cho những đối tượng mới hoặc chưa được phân lớp, sau đó đánh giá độ chính xác của mô hình, lớp biết trước của một mẫu (bộ) dữ liệu đem kiểm tra được so sánh với kết quả thu được từ mô hình. Tỷ lệ chính xác bằng phần trăm các mẫu (bộ) dữ liệu được phân lớp đúng bởi mô hình trong số các lần kiểm tra được gọi là độ chính xác (ACC).
Mô hình được biểu diễn bởi các luật phân lớp, trong đó có 2 mô hình phân lớp được sử dụng trong bài nghiên cứu là mô hình SVM và mô hình NN.