.2 Tạo tập huấn luyện trong mạng nơ-ron

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu một số mô hình khai phá dữ liệu thời gian thực áp dụng vào bài toán dự báo ứng dụng trong phân tích số liệu tài chính (Trang 52 - 54)

Trong hình vẽ trên ta sử dụng thuật tốn cửa sổ trượt để xây dựng tập huấn luyện.

Thuật tốn cửa sổ trượt (Sliding window) như sau:

1. Cho chuỗi Rh(1),Rh(2),. . . ,Rh(n), thời gian t và kích thước

cửa sổ w

2. Xây dựng mơ hình với tập dữ liệu huấn luyện Rh(t−w−1),...

,Rh(t−1)

3. LẶP

a. Dự đốn giá trị cho Rh(t)

b. Ghi lại tỉ lệ lỗi dự đốn

c. Thêm Rh(t) vào tập huấn luyện và xĩa Rh(t−w−1) ra khỏi tập

huấn luyện

d. Xây dựng mơ hình mới với tập huấn luyện mới

e. Đặt t = t + 1

4. ĐẾN KHI t = n

Mục tiêu của huấn luyện là tìm ra được tập trọng số liên kết giữa các nơ-ron sao cho hàm lỗi (hàm giá) là nhỏ nhất. Nếu một mơ hình khơng rơi vào trạng thái overfiting thì tập trọng số liên kết cĩ thể cung cấp khả năng tổng quát hĩa tốt. Thuật tốn lan truyền ngược sai số như đã giới thiệu ở chương 2 là thuật tốn phổ biến và hiệu quả nhất để huấn luyện mạng. Tuy nhiên, thuật tốn này cũng khơng đảm bảo cĩ được một cực tiểu tồn cục, thuật tốn cĩ thể bị mặc kẹt vào một cực tiểu địa phương nào đĩ[16].

Trong khuơn khổ của luận văn, tác giả đã sử dụng giải thuật gen di truyền (GA)

kết hợp với mơ hình mạng nơ-ron để tối ưu hĩa tốc độ học (decay) của mơ hình và sử

dụng giải thuật GA kết hợp với mơ hình máy vector hỗ trợ để tối ưu hĩa hai tham số

3.6 Đánh giá mơ hình và dự báo kết quả

Ước lượng độ chính xác của mơ hình là quan trọng ở chỗ nĩ cho phép dự đốn được độ chính xác của các kết quả dự báo những dữ liệu tương lai. Độ chính xác cịn giúp so sánh các mơ hình phân lớp khác nhau.

Mục đích chính của bất kì việc đánh giá nào là chỉ ra độ chính xác của mơ hình dự đốn đạt được một giá trị đáng tin cậy nào đĩ. Nếu như sự đánh giá của chúng ta đáng tin cậy, chúng ta hồn tồn cĩ thể tin tưởng rằng giá trị dự đốn sẽ khơng lệch nhiều so với kết quả thực tế khi ta đưa dữ liệu mới vào mơ hình.

Trong thiết lập thời gian khởi tạo, t là thời gian bắt đầu giai đoạn thử nghiệm. Dữ liệu với thời gian trước t dùng để huấn luyện mơ hình dự đốn, cịn dữ liệu cĩ được sau thời điểm t sẽ được sử dụng để kiểm tra mơ hình đĩ.

Khi cĩ quyết định thiết lập thử nghiệm, ta vẫn phải chọn cơng thức tỷ lệ lỗi mà ta sẽ sử dụng để đánh giá mơ hình. Đồng thời, chúng ta cũng phải đề cập đến những cơng

thức tỷ lệ lỗi tương quan như bình phương lỗi nhỏ nhất (normalized mean squared

error), cung cấp chỉ số lỗi tương quan của mơ hình. Trong kĩ thuật phân tích thời gian

thực phổ biến dùng hệ số Theil U để giải quyết vấn đề trên. Hệ số thống kê này về cơ bản là giá trị trung bình bình phương lỗi đã được điều chỉnh cho phù hợp với vấn đề thời gian thực. Theo đĩ, ta sẽ sử dụng mơ hình đơn giản dưới đây để đơn giản hĩa quá trình dự đốn[9]:

Trong bài tốn dự báo tài chính, điều này tương đương với việc dự đốn rằng giá trị dự đốn tại thời điểm t+h và giá trị được quan sát ngày hơm nay (tại thời điểm t) là như nhau. Theo đĩ, hệ số Theil U được định nghĩa như sau:

Với là dự đốn của mơ hình tại thời điểm , là giá trị đúng tại thời điểm t + h, là giá trị đúng tại thời điểm t. Mục đích của chúng ta là làm sao cho giá trị U càng nhỏ hơn 1 càng tốt.

Các dự đốn của chuỗi thời gian sử dụng mạng nơ-ron bao gồm giảng dạy net lịch sử của các biến trong một thời gian hạn chế lựa chọn và áp dụng các thơng tin dạy cho tương lai.

Một phần của tài liệu (LUẬN văn THẠC sĩ) tìm hiểu một số mô hình khai phá dữ liệu thời gian thực áp dụng vào bài toán dự báo ứng dụng trong phân tích số liệu tài chính (Trang 52 - 54)

Tải bản đầy đủ (PDF)

(73 trang)