Chương 3 : PHÂN TÍCH DỮ LIỆU HUẤN LUYỆN VÀ DỰ BÁO
3.6. Kết quả của dữ liệu huấn luyện
Đầu tiên, chúng ta sẽ sử dụng phần mềm Orange để đưa bộ dữ liệu huấn luyện vào. Sau khi đưa bộ dữ liệu huấn luyện vào, chúng ta sẽ bắt đầu khai báo các thuộc tính của bộ dữ liệu huấn luyện. Các thuộc tính của bộ dữ liệu huấn luyện được thiết kế như sau. Đối với các biến độc lập ROA, DE, BV sẽ được khai báo thuộc tính là “feature”, sau đó, chúng ta sẽ khai báo thuộc tính “target” cho Assessment (Assessment là kết quả huấn luyện cho kết quả EPS là cao hay thấp). Assessment sẽ được chia ra thành hai loại “HIGH – cao” và “LOW – thấp), đối với EPS, vì đã được quy đổi thành Assessment nên sẽ khơng tham gia vào quá trình dự báo và sẽ được “skip”. Cịn đối với Code, vì này là dạng ký tự nên sẽ khơng ảnh hưởng đến q trình dự báo, vì vậy chúng ta khơng cần “skip”.
Nguồn: Kết quả từ chương trình Orange
Sau khi đã khai báo các thuộc tính của các dữ liệu cần được chú ý, bài nghiên cứu sẽ lựa chọn phương pháp phân lớp dữ liệu phù hợp nhất thông qua các chỉ số như CA, F 1
– score, Precison, Recall. Các phương pháp phân lớp mà bài nghiên cứu sử dụng là Tree Decision, Logistic Regression, SVM, Neural Network. Bài nghiên cứu đã vẽ ra sơ đồ của quá trình huấn luyện và dự báo được thể hiện ở hình 3.4 như sau:
Hình 3.4. Tổng quan về quy trình huấn luyện và dự báo bằng sơ đồ
Sau khi đã có được sơ đồ của hình 3.4, bài nghiên cứu sẽ tiếp tục vào phần Test and Score để tổng quan các chỉ số và lựa chọn mơ hình phù hợp nhất cho bài nghiên cứu.
Ở bài nghiên cứu này sử dụng phương pháp đánh giá mơ hình phân lớp với Cross
Validation với Number of fold là 5 (k = 5) để đánh giá với tính năng vượt trội hơn và tránh
trùng lặp giữa các tập kiểm thử.
Hình 3.5. Kết quả của mơ hình đánh giá phân lớp bằng Cross Validation
Nguồn: Kết quả từ chương trình Orange
Ở hình 3.5, Neural Network được đánh giá là cao nhất kể cả 4 chỉ số CA, F1, Precision, Recall. Giá trị F1 của Neural Network là cao nhất với 94.6%. Giá trị này chưa phải là cao nhất, trong khi đó, giá trị AUC của Neural Network là 98.1%, một chỉ số rất cao. Để tính được các chỉ số này, bài nghiên cứu sử dụng ma trận nhầm lẫn ở hình 3.6 như sau:
Hình 3.6. Ma trận nhầm lẫn với Neural Network
Nguồn: Kết quả từ chương trình Orange
Ta có thể tính giá trị của F1 – Score bằng công thức như đã đề cập ở chương 2 (Cơ sở lý luận) với TP = 56, FP = 1, FN = 5 và TN = 48 như sau. Đầu tiên chúng ta sẽ đi tính
giá trị của Precision và Recall sau đó áp dụng cơng thức để tính F1 – Score và kết quả được thể hiện như ở hình 3.5 tại Neural Network. Ở ma trận nhầm lẫn này, ta có thể giải thích như sau. Có 61 cơng ty có chỉ số EPS cao tức mơ hình hoạt động kinh doanh của các
cơng ty này tốt trong đó có 56 mẫu được phân lớp chính xác và có 5 mẫu bị phân lớp khơng chính xác. Ngồi ra, có 49 cơng ty có chỉ số EPS thấp tức mơ hình hoạt động kinh doanh của các cơng ty này xấu trong đó có 48 cơng ty được phân lớp đúng và chỉ có 1 cơng ty bị phân nhầm lớp.
Tơi có thể kết luận rằng, mơ hình Neural Network rất thích hợp cho bộ dữ liệu của bài nghiên cứu này và khá phù hợp để dự báo mơ hình hoạt động kinh doanh của các cơng ty được niêm yết trên sàn giao dịch chứng khốn. Sau khi đã phân tích chi tiết về bộ dữ liệu huấn luyện. Tiếp theo, bài nghiên cứu sẽ đi phân tích dự báo để dự đốn xem mơ hình Neural Network dự báo như thế nào trong bộ dữ liệu dự báo thông qua bộ dữ liệu huấn luyện. Kết quả của dữ liệu dự báo được trình bày ở mục 3.7.