0
Tải bản đầy đủ (.docx) (64 trang)

Phân hoạch tập dữ liệu

Một phần của tài liệu NGUYÊN CỨU VÀ XÂY DỰNG HỆ THỐNG QUẢN LÝ VÀ DỰ ĐOÁN XU THẾ GIÁ CHỨNG KHOÁN DỰA TRÊN NỀN TẢNG MÃ NGUỒN MỞ (Trang 37 -38 )

Bất kể một mô hình nào cũng cần phải được đánh giá và kiểm tra trước khi đưa vào áp dụng thực tế. Chúng ta sẽ làm việc này bằng cách chia tập dữ liệu đã được chuẩn hóa thành ba tập dữ liệu con gồm: tập huấn luyện (training set), tập đánh giá (validation set), và tập kiểm tra (testing set). Tập dữ liệu là tập con lớn nhất ( thường chiếm tới 70%) dùng để huấn luyện và thiết lập các tham số của mạng. Tập đánh giá ( thường chiếm 20%) được sử dụng với mục đích kiểm định xem mô hình học đã thực sự tốt hay chưa. Nếu chưa tốt thì tiến hành học lại. Tập kiểm tra (thường chiếm 10%) dùng để kiểm tra độ chính xác của mô hình trước khi chúng được đưa vào áp dụng thực tế. Một mô hình mạng noron tốt là mô hình mà cho tỉ lệ lỗi với tập test ở mức chấp nhận được. Hình vẽ dưới đây thể hiện tỉ lệ kích thước giữa các tập huấn luyện, kiểm tra và kiểm chứng [9].

Rh(1) Rh(2) … Rh(k) Rh(k+1) Rh(2) Rh(3) …

Hình 4.2 – Tỷ lệ kích thước giữa các tập huấn luyện [9]

Hiện tượng overfitting [3], [9] thường xảy ra khi tập huấn luyện không đủ độ tổng quát. Nói theo cách khác, có tương đối ít các mẫu quan sát về các mối tương quan giữa các tham số của mô hình vì thế mà mô hình có khả năng ghi nhớ các mẫu riêng lẻ hơn là tổng quát hóa các mẫu. Với mạng nơ ron, số trọng số liên kết và kích thước tập huấn luyện có ảnh hướng quyết định đến nguy cơ overfitting. Số trọng số liên kết càng lớn hơn kích thước của tập huấn luyện, thì mạng càng có khả năng ghi nhớ tốt các mẫu riêng lẻ. Kết quả là khả năng tổng quát hóa trên tập kiểm chứng bị mất dẫn tới khả năng dự báo của mô hình giảm đi rõ rệt.

Để ngăn chặn nguy cơ overfitting (hiện tượng khả năng học của mạng là rất tốt nhưng khả năng tổng quát hóa của mạng là kém, tức là mạng dự đoán tốt với những dữ liệu đã được huấn luyện nhưng lại tỏ ra kém hiệu quả khi dữ liệu mới vào mô hình) thì kích cỡ của tập huấn luyện ít nhất phải bằng 5 lần số trọng số liên kết [5].

Một phần của tài liệu NGUYÊN CỨU VÀ XÂY DỰNG HỆ THỐNG QUẢN LÝ VÀ DỰ ĐOÁN XU THẾ GIÁ CHỨNG KHOÁN DỰA TRÊN NỀN TẢNG MÃ NGUỒN MỞ (Trang 37 -38 )

×