CHƯƠNG 1 CƠ SỞ LÝ THUYẾT VỀ ĐIỆN NÃO ĐỒ
3.5 Dữ liệu validation và dữ liệu kiểm tra
Quá trình xây dựng một mơ hình học máy cĩ thể tĩm gọn lại trong các bước như trong Hình 3-19, trong đĩ dữ liệu ban đầu được chia làm ba phần: training data, validation và testing data. Tập training dùng cho quá trình huấn luyện mơ hình, sau đĩ hiệu suất của mơ hình sẽđược kiểm tra trên tập validation để cĩ thể đánh giá mơ hình hay chính là đánh giá siêu tham số của mơ hình đĩ, để chọn ra bộ siêu tham số phù hợp nhất. Mơ hình được lựa chọn sẽ được đánh giá lại bằng tập testing data, nếu cho kết quả tốt thì cĩ thểđược sử dụng, ngược lại, cần chọn bộ siêu tham số khác hoặc chọn thuật tốn học máy khác phù hợp hơn với bài tốn.
Hình 3-19 Sơ đồ làm việc của machine learning
Như vậy, để so sánh các mơ hình với nhau khơng thể dựa trên dữ liệu training mà cần sử dụng các dữ liệu mới hồn tồn (chưa gặp trong quá trình huấn luyện). Tập validation giúp chọn các tham số tốt nhất cho mơ hình cịn tập testing data giúp đánh giá mơ hình đĩ.
Đối với những trường hợp tập huấn luyện cĩ số mẫu nhỏ, cĩ thể sử dụng Phương pháp k-fold cross validation. Ý tưởng của Phương pháp này là chia tập dữ liệu huấn luyện thành tập training data và testing data; sau đĩ lại chia tập training data thành k phần và lấy 1 phần trong đĩ làm tập validation. Thực hiện huấn luyện mơ hình k lần, mỗi lần chọn một tập validation khác nhau trong k tập trên, lần lượt đến hết bộ dữ liệu. Như vậy thời gian huấn luyện mơ hình tăng k
lần, nhưng dữ liệu được sử dụng cho tập training lớn hơn (qua k lần huấn luyện, mọi mẫu trong tập training đều được sử dụng trong quá trình huấn luyện; khác
70 với trường hợp phải chia một phần làm dữ liệu validation). Hình 3-20 mơ tả sự phân chia dữ liệu thành tập training và validation trong các sử dụng k-fold cross validation.
Hình 3-20 Phân chia dữ liệu thành tập training và validation trong các sử dụng k-fold cross validation