Tập dữ liệu đầu vào cho mô hình CNN

Đối với phương pháp máy học và học sâu, tập dữ liệu đóng vai trò rất quan trọng, không có dữ liệu, máy tính không thể học được. Cho dù thuật toán có hiệu quả hoặc kích thước của tập dữ liệu lớn như thế nào thì với một bộ dữ liệu không đủ tốt, toàn bộ mô hình sẽ thất bại. Tùy theo mục đích mà yêu cầu của bài toán mà ta có thể sử dụng những bộ dữ liệu phổ biến trong lĩnh vực, những bộ dữ liệu được người dung cung cấp sẵn hoặc tự chuẩn bị thu thập dữ liệu theo ý muốn.

Một bộ dữ liệu cơ bản sẽ được chia làm 2 thành phần: bộ dữ liệu huấn luyện (training dataset) và bộ dữ liệu kiểm tra (test dataset). Bộ dữ liệu huấn luyện bao gồm cả dữ liệu đầu vào và phân lớp đầu ra của nó. Bộ dữ liệu này được đưa vào trong mô hình CNN để huấn luyện, tạo nên các biểu đồ đặc trưng và mạng nơ-ron liên kết các đặc trưng, từ đó cập nhật các trọng số để kết quả dữ liệu được đưa về gần chính xác với phân lớp đã xác định từ trước nhất. Bộ dữ liệu kiểm tra được sử dụng để đánh giá hiệu quả của mô hình sau khi đã được huấn luyện. Cụ thể là với mô hình đặc trưng đã được huấn luyện trước đó, phần trăm số lượng ảnh trong tập này được dự đoán phân lớp chính xác sẽ thể hiện hiệu quả của mô hình. Do đó, để đảm bảo tính khách quan, 2 bộ dữ liệu này phải tách biệt, không đan xen lẫn nhau. Bởi vì những dữ liệu trong bộ dữ liệu huấn luyện đã được mô hình cân chỉnh các trọng số, nếu đưa vào kiểm tra việc cho ra kết quả phân lớp đúng là đương nhiên.

Việc phân chia tỉ lệ dữ liệu trong 2 tập này cũng khá quan trọng, người ta đã nghiên cứu và sử dụng một số phương pháp phân chia phổ biến có thể kể đến như Hold-Out hay K-Fold Cross-Validation [16].

Phương pháp Hold-Out

Trong phương pháp Hold-Out, tập dữ liệu đầu vào được phân chia một cách ngẫu nhiên thành 2 phần là : tập dữ liệu huấn luyện và tập dữ liệu kiểm tra. Thông thường 2/3 dữ liệu được cấp cho tập dữ liệu huấn luyện và 1/3 còn lại đưa vào trong tập dữ liệu kiểm tra (một số nghiên cứu khác có thể sử dụng tỉ lệ 80 - 20).

Phương pháp này thích hợp cho các tập dữ liệu lớn và ít có thời gian để huấn luyện mô hình. Tuy nhiên, do việc lấy ngẫu nhiên nên các mẫu có thể không đại diện cho toàn bộ dữ liệu (thiếu phân lớp trong tập kiểm tra). Để khắc phục điểm yếu này có thể cải tiến bằng cách dùng phương pháp lấy mẫu sao cho mỗi lớp được phân bố đều trong cả 2 tập dữ liệu huấn luyện và kiểm tra.

Phương pháp K-Fold hay Cross-Validation

K-Fold hay một cái tên khác là Cross-Validation : đây là phương pháp nâng cấp của Hold-Out. Toàn bộ tập dữ liệu sẽ được chia thành K tập con. Quá trình học của máy sẽ diễn ra K lần. Trong mỗi lần, một tập con được dùng để kiểm tra và K-1 tập còn lại dùng để huấn luyện, cứ như thế đến khi tất cả K tập con đều đã được dùng để kiểm tra.

Với nhiều lần huấn luyện và kiểm tra như thế rõ ràng có thể thấy phương pháp này sẽ tốn nhiều thời gian để máy tính xử lý. Nhưng bù lại, có thể nó sẽ cho ta kết quả tốt hơn với việc huấn luyện kỹ càng như thế.

Tập dữ liệu đầu vào cho mô hình CNN

Các tiêu chuẩn đánh giá

Kiến trúc cơ bản của mô hình CNN