Quá trình huấn luyện 20 epoch xấp xỉ 5 giờ đồng hồ và kết quả thực hiện trên
trên tập Cifar-10 độ chính xác thu được là 66,82% thấp hơn nhiều so với kết quả khi
tác giả thực hiện trên chính tập dữ liệu của tác giả.
0 10 20 30 40 50 60 70 80 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
Hình 3.13 Confusion matrix (MyNet-Cifar10)
Độ chính xác của mơ hình được hiển thị rõ ràng hơn trên bảng ma trận nhầm lẫn (confusion matrix). Các cột trong ma trận biểu thị cho các nhãn đã được dự đoán trong khi các hàng sẽ đại diện cho các nhãn đã biết trước.
Từ những kết quả trên chúng ta thấy được tập dữ liệu huấn luyện ảnh hưởng rất nhiều đến độ chính xác của một kiến trúc mạng. Vậy câu hỏi tiếp tục đặt ra là nếu cùng một tập dữ liệu chuẩn thì độ chính xác kiến trúc mạng CNN-10 lớp so với các kiến trúc hoặc phương pháp huấn luyện khác sẽ như thế nào? Để trả lời câu hỏi này chúng ta tiếp tục xây dựng một bộ phân loại đơn giản sử dụng phương pháp trích đặc trưng HOG (Histogram of Oriented Gradient) kết hợp SVM (Support Vector Machine) đa lớp thực hiện trên tập dữ liệu chuẩn Cifar-10.
(Tham khảo: http://www.learnopencv.com/histogram-of-oriented-gradients/) Dữ liệu được sử dụng để huấn luyện phân loại là các vector đặc trưng HOG được trích ra từ các hình ảnh huấn luyện. Do đó, điều quan trọng là phải đảm bảo vector đặc trưng HOG mã hóa đúng số lượng thơng tin về đối tượng. Đối với dữ liệu ảnh kích thước 32x32 trong tập Cifar-10 tác giả chọn kích thước tế bào (CellSize) là
trực quan thông tin của ảnh và hạn chế số lượng kích thước trong vector tính năng HOG, giúp cải thiện tốc độ huấn luyện của mạng. Hàm extractHOGFeatures trả về các đặc trưng HOG được trích xung quanh vị trí đã chọn.
[hog_4x4, vis4x4] = extractHOGFeatures(img,'CellSize',[4 4]);