THIẾT KẾ VÀ ỨNG DỤNG MẠNG THẦN KINH NHÂN TẠO ĐỂ DỰ BÁO GIÁ CHỨNG KHOÁN TRÊN THỊ TRƯỜNG
2.1.3. Tiền xử lý dữ liệu
Tiền xử lý dữ liệu đề cập đến việc phân tích và chuyển đổi các biến đầu vào và đầu ra để tối thiểu hóa nhiễu, nhấn mạnh các mối quan hệ nổi bật, phát hiện xu hướng, và san bằng phân phối của các biến số để phục vụ cho ANN trong việc huấn luyện và ghi nhớ các mẫu hình liên quan từ bộ dữ liệu đầu vào. Bởi lẽ sức mạnh của ANN nằm ở khả năng phát hiện các mẫu hình từ dữ liệu đầu vào, việc thể hiện các dữ liệu để ANN đọc trong quá trình huấn luyện giữ vai trị quan trọng trong q trình thiết kế một ANN hoạt động hiệu quả. Tối thiểu ở đây, các dữ liệu thơ cần được chuẩn
hóa thành các giá trị có giới hạn trên và giới hạn dưới của hàm chuyển đổi được xác định. Hai trong số nhiều phương pháp phổ biến được sử dụng trong q trình chuẩn hóa dữ liệu của luận án, cả trong hồi quy truyền thống lẫn ứng dụng ANN là lấy chênh lệch giữa hai giá trị tại hai thời điểm (t; t1) và lấy logarit tự nhiên của các biến số đầu vào. Đầu tiên là phương pháp lấy chênh lệch, hay còn gọi là phương pháp sử dụng sự thay đổi giữa các biến số qua thời gian, có thể được sử dụng để loại bỏ xu hướng tuyến tính từ dữ liệu. Bên cạnh đó, phép biến đổi logarit hữu ích đối với dữ liệu mà trong đó có thể xuất hiện đồng thời cả giá trị rất lớn, rất bé và được đặc trưng bằng một phân phối xác suất có hình dạng lệch phải. Trong từng phần luận án đều có mơ tả dữ liệu đưa vào mơ hình. Bảng 2.1 đã thể hiện q trình tính tốn các biến đầu vào cũng như biến đầu ra VNI.
Tuy nhiên, ngoài hai phương pháp lấy chênh lệch, lấy logarit một phần luận án còn sử dụng các chỉ báo kỹ thuật để làm dữ liệu đầu vào bao gồm các trung bình di động, oscillators, đường phương hướng, và các bộ lọc dao động. Phần này luận án trình bày trong mục 2.6.
Trong 7 biến đưa vào để khảo sát sự biến động của VNI, luận án đã lọc ra mơ hình giải thích tốt nhất với 4 biến. Mơ hình 1: với biến đầu vào là CPI, IP, M2 và CR với số PE trong mơ hình là 3. Mơ hình 2: với biến đầu vào là LR, IP, TB, CR cũng với số PE là 3. Bảng 2.2 cho kết quả của quá trình tiền xử lý dữ liệu để xem xét khả năng dự báo VNI.
Bảng 2.2: Kết quả quá trình tiền xử lý dữ liệu khi đưa lần lược các biến đầu vào trong 7 biến kinh tế vĩ mô để dự báo VNI
Mơ hình INPUT Biến loại bỏ Số PE MSE (Training) MSE (CV)
Mơ hình 1 CPI, IP, M2, CR USD, LR, TB 3 0,013783 0,131202 Mơ hình 2 LR, IP, TB, CR CPI, USD, M2 3 0,019331 0,073505