Biểu đồ Precision đánh giá mơ hình phân loại theo các chủ đề ảnh

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập (Trang 73 - 75)

Hình 4.2 và hình 4.3 cho thấy mơ hình phân lớp chủ đề ảnh ngựa vằn (zebras) có độ chính xác khá cao, đạt 97,89%. Nguyên nhân là do các đặc trưng của ngựa vằn nổi bật hơn so với các chủ đề ảnh còn lại như có các vệt vằn đen trên lưng. Ngược lại mơ hình phân lớp chủ đề ảnh mèo (cat) có độ chính xác chưa cao, chỉ đạt 68,79%. Nguyên nhân có thể là do các đặc trưng ở mèo khó nhận dạng hơn các chủ đề ảnh khác và có nhiều đặc trưng tương đồng với một số chủ đề ảnh khác như chó và khỉ vì chúng đều là những động vật 4 chân, hình dáng đều nhỏ nhắn và chỉ khác biệt rõ nhất ở gương mặt.

4.3.1. Vai trò của Dropout

Như đã đề cập ở phần trên, các lớp Dropout sẽ loại bỏ một số ngẫu nhiên các nơ- ron, từ đó giúp cho quá trình h́n luyện khơng bị overfitting. Để đánh giá vai trò của lớp Dropout trong việc phân loại dữ liệu hình ảnh thơng qua việc sử dụng các tỉ lệ dropout khác nhau: 0% (tức không sử dụng lớp dropout), 30%, 50%, 70% và 90%. Chú ý rằng tỉ lệ dropout thể hiện tỉ lệ nơ-ron được loại bỏ. Kết quả đưa ra thể hiện xu thế học của mơ hình và được mơ tả ở Bảng 2.

Thông qua kết quả nhận được, ta thấy mơ hình khơng có lớp Dropout cho tỉ lệ lỗi khi huấn luyện thấp nhất (9,31%). Nhưng độ chênh lệch tỉ lệ lỗi giữa quá trình huấn luyện và kiểm tra lại cao hơn so với các trường hợp khác. Mối quan hệ giữa tỉ lệ dropout, tỉ lệ lỗi khi huấn luyện và kiểm tra cho thấy được hiện tượng overfitting rõ ràng ở trường hợp khơng có lớp Dropout. Hiện tượng này giảm dần khi tăng tỉ lệ dropout. Tuy nhiên, khi tỉ lệ dropout q lớn, ví dụ 90%, thì tỉ lệ lỗi nhận dạng trong huấn luyện và kiểm tra đều tăng vọt (thể hiện quá trình underfitting). Nguyên nhân gây ra hiện tượng này là thơng tin bị mất khá nhiều trong q trình xử lý dẫn đến phân loại khơng được chính xác.

Thực tế, để có được tỉ lệ phân loại tối ưu nhất, yêu cầu phải thực hiện thử nghiệm nhiều tỉ lệ khác nhau và riêng lẻ cho từng mơ hình.

4.3.2. Ảnh hưởng của Batch size đến kết phân lớp dữ liệu

Batch size quyết định số lượng ảnh được dùng cho mỗi lần cập nhật trọng số, với kích thước tập huấn luyện của tập dữ liệu thu thập là 11.850 ảnh. Một chu kỳ học tương ứng với xử lý 11.850 ảnh. Nếu chọn batch size = 20, có nghĩa là dữ liệu sẽ được chia thành 592 gói con để xử lý. Tương tự, nếu batch size = 200, thì số gói dữ liệu là 59 gói. Bảng 3 là kết quả khi có sự thay đổi về kích thước gói dữ liệu batch.

Với kích thước Batch size nhỏ, tỉ lệ lỗi cao (47,41%). Khi kích thước tăng dần, kết quả thu được có những thay đổi khả quan.

Nhìn chung, khi batch size lớn, các trọng số sẽ được cập nhật một cách ổn định hơn. Nhưng cũng lưu ý rằng, batch size lớn sẽ yêu cầu nhiều bộ nhớ hơn.

Kích thước tập huấn luyện ảnh hưởng đến độ chính xác tăng lên khi số lượng dữ liệu tăng lên. Càng nhiều dữ liệu trong tập huấn luyện, tác động của lỗi huấn luyện và lỗi thử nghiệm càng nhỏ và cuối cùng là độ chính xác có thể được cải thiện.

Bằng quá trình này, mơ hình được đào tạo sẽ được sử dụng để phân loại hình ảnh có trong dữ liệu thử nghiệm như minh họa Hình 4.4.

Một phần của tài liệu (LUẬN văn THẠC sĩ) phân lớp ngữ nghĩa hình ảnh dựa trên mạng nơ ron tích chập (Trang 73 - 75)

Tải bản đầy đủ (PDF)

(85 trang)