Các nghiên cứu trên thế giới

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu mạng nơron CNN và ứng dụng trong bài toán phân loại ảnh (Trang 56 - 57)

CNN thường được sử dụng trong các hệ thống nhận dạng hình ảnh [11] , [12] [13] . Vào năm 2012, một tỷ lệ lỗi 0,23% trên cơ sở dữ liệu MNIST đã được báo cáo. Một bài báo khác về việc sử dụng CNN để phân loại hình ảnh đã báo cáo rằng quá trình luyện mạng "nhanh đến mức đáng ngạc nhiên"; trong cùng một bài báo, các kết quả được cơng bố tốt nhất tính đến năm 2011 đã đạt được trong cơ sở dữ liệu MNIST và cơ sở dữ liệu NORB. Sau đó, một CNN tương tự có tên AlexNet đã giành chiến thắng trong Thử thách nhận dạng hình ảnh quy mơ lớn ImageNet 2012 [12] .

Khi áp dụng cho nhận dạng khuôn mặt, CNN đã đạt được mức giảm lớn về tỷ lệ lỗi. Một bài báo khác đã báo cáo tỷ lệ nhận dạng 97,6% trên "5.600 ảnh tĩnh của hơn 10 đối tượng". CNN được sử dụng để đánh giá chất lượng video một cách khách quan sau khi huấn luyện thủ cơng; hệ thống kết quả có lỗi bình phương trung bình gốc rất thấp.

Thử thách nhận dạng hình ảnh quy mơ lớn ImageNet là một chuẩn mực trong phân loại và phát hiện đối tượng, với hàng triệu hình ảnh và hàng trăm lớp đối tượng. Trong ILSVRC 2014, một thách thức nhận dạng hình ảnh quy mơ lớn, hầu hết mọi nhóm được xếp hạng cao đều sử dụng CNN làm khung cơ bản. Người chiến thắng GoogLeNet (nền tảng của DeepDream) đã tăng độ chính xác trung bình trung bình của phát hiện đối tượng lên 0,439329 và giảm lỗi phân loại xuống 0,06656, kết quả tốt nhất cho đến nay. Mạng CNN này sử hơn 30 lớp. Hiệu suất của các CNN trong các thử nghiệm ImageNet gần bằng với con người. Các thuật toán tốt nhất vẫn phải vật lộn với các vật thể nhỏ hoặc mỏng, chẳng hạn như một con kiến nhỏ trên thân cây hoa hoặc một người cầm một chiếc bút lông trong tay. Họ cũng gặp rắc rối với hình ảnh đã bị méo với các bộ lọc, một hiện tượng ngày càng phổ biến với máy ảnh kỹ thuật số hiện đại. Ngược lại, những loại hình ảnh đó hiếm khi gây rắc rối cho con người. Con người, tuy nhiên, có xu hướng gặp rắc rối với các vấn đề khác. Ví dụ, chúng khơng giỏi trong việc phân loại các đối tượng thành các loại hạt mịn như giống chó hoặc lồi chim cụ thể, trong khi mạng CNN có thể xử lý việc này [17] .

Vào năm 2015, một CNN nhiều lớp đã chứng minh khả năng phát hiện khuôn mặt từ nhiều góc độ khác nhau, bao gồm lộn ngược, ngay cả khi bị che khuất một phần, với hiệu suất cạnh tranh. Mạng được đào tạo trên cơ sở dữ liệu gồm 200.000 hình ảnh bao gồm các khn mặt ở nhiều góc độ và định hướng khác nhau và hơn 20 triệu hình ảnh khơng có khn mặt. Họ đã sử dụng lơ 128 hình ảnh trên 50.000 lần lặp [17] .

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu mạng nơron CNN và ứng dụng trong bài toán phân loại ảnh (Trang 56 - 57)

Tải bản đầy đủ (PDF)

(84 trang)