15 Mơ hình GoogleNet

Một phần của tài liệu nghiên cứu về mạng neural convolutional, áp dụng vào bài toán nhận dạng đối tượng trong lĩnh vực thị giác máy tính (Trang 55 - 60)

Bảng 2.5: Bảng so sánh hiệu suất của kiến trúc mạng trên FaceNet

Qua bảng trên ta có thể thấy kiến trúc NN2 và NN1 có độ chính xác cao nhất.

Bảng 2.6: Bảng so sánh độ chính xác dựa trên số lượng dữ liệu đào tạo

Quả bảng so sánh độ chính xác dựa trên dữ liệu đào tạo, ta có thể thấy độ chính xác được cải thiện rõ rệt khi dữ liệu tăng lên đáng kể. Do đó, ngồi kiến trúc mạng hợp lý, dữ liệu được sử dụng để đào tạo cũng là một nhân tố góp phần tạo nên độ chính xác cao cho mơ hình.

2.5.5 Mơ hình Baidu (2015)

Mơ hình Baidu, 2015, là mơ hình được tạo ra bởi hãng Baidu, Trung Quốc. Với nguồn lực và lượng thông tin cá nhân lớn, Baidu đã xây dựng được một hệ thống nhận diện khuôn mặt với tỉ lệ lỗi rất thấp.

Bảng 2.7: Tỉ lệ lỗi trên lượng dữ liệu khác nhau

Có thể thấy, ở mơ hình của Baidu, với lượng người càng lớn và số khuôn mặt càng nhiều, hệ thống càng trở nên chính xác.

2.6 Kết luận

Bài tốn nhận dạng đã có từ rất lâu với nhiều phương pháp khác nhau. Tuy nhiên, với các kỹ thuật mới, ta có thể thấy rằng độ chính xác của các phương pháp ngày càng tăng trong khi chi phí tính tốn ngày càng giảm.

Hình 2.17: Thống kê các mơ hình, số lượng bộ dữ liệu sử dụng, và các mốc thời gian xuất bản

Qua cách thức hoạt động và các mơ hình được sử dụng trong bài tốn nhận dạng, ta có thể thấy dữ liệu là chìa khóa rất quan trọng trong việc đào tạo. Nếu mơ hình cịn hạn

thiện ở mức đáng kể. Có thể thấy, các mơ hình có độ chính xác cao trên 97% đều sử dụng trên 100 nghìn ảnh để huẩn luyện. Ngoài ra, việc xử lý nhiều phần khn mặt cũng giúp ích rất nhiều cho độ chính xác của nhận diện, tuy nhiên hệ thống sẽ cần số lượng tính tốn lớn hơn để có thể nhận diện.

Các phương pháp nhận dạng bằng mạng nơ ron tích chập hiện nay có độ sai số rất nhỏ và nằm trong ngưỡng chấp nhận được. Nên việc áp dụng mạng nơ ron tích chập để xây dựng một hệ thống nhận diện là hoàn toàn khả thi và có thể đáp ứng nhiều nhu cầu khi chúng ta đang dần tiến tới cách mạng công nghiệp 4.0.

CHƯƠNG 3.

SỬ DỤNG MẠNG NƠ RON TÍCH CHẬP TRONG NHẬN DẠNG ĐỐI TƯỢNG

3.1 Sơ lược về áp dụng mạng nơ ron tích chập vào các giải pháp thôngminh trong thực tế minh trong thực tế

Hiện nay, xã hội đang tiến dần đến kỷ nguyên cách mạng công nghiệp 4.0. Với cách mạng công nghiệp 4.0, các mức tự động hóa, cũng như học máy đều ở mức cao, có thể thay thế con người khỏi nhiều việc, nhằm góp phần giải phóng sức lao động. Ngoài ra, việc khai phá dữ liệu cũng đem lại nhiều tối ưu cho các mơ hình kinh doanh, cũng như cho xã hội. Để hướng đến cách mạng công nghiệp 4.0, rất cần các giải pháp tự động hóa cho các mơ hình cơng hoặc mơ hình kinh doanh như bệnh viện, cửa hàng hoặc siêu thị. Ở các giải pháp này, hệ thống thơng minh sẽ tự động phân tích số lượng người ra/vào, hay nhận diện thời điểm xuất hiện của khách hàng thân thiết.

Ở phạm vi của đề tài, luận văn áp dụng hai giải pháp về nhận diện người và nhận diện khuôn mặt sử dụng CNN để áp dụng xây dựng các hệ thống thực tế. Các phương pháp nhận diện người cũng như khn mặt qua thực tế đã có độ chính xác và có khả năng thương mại hóa cao.

3.2 Áp dụng mạng nơ ron tích chập để xây dựng hệ thống nhận diện người vào/ra và đánh giá thực nghiệm, so sánh với phương pháp HOG

3.2.1 Giới thiệu hệ thống nhận diện và đếm lượt người vào/ra sử dụng mạngnơ ron tích chập nơ ron tích chập

Mơ tả bài tốn: Hiện nay, camera rất thông dụng và được lắp ở mọi nơi. Tuy nhiên, camera dân dụng thơng thường chỉ có chức năng chụp ảnh hoặc ghi hình mà khơng có chức năng thơng minh nào khác. Do đó, giải pháp hướng đến là lập nên một hệ thống có chức năng thống kê người vào/ra. Hệ thống có thể áp dụng cho nhiều địa điểm như các cổng ra vào ở bệnh viện, trường học, siêu thị, ... Dựa trên kết quả thống kê, người dùng có thể nắm được các thơng tin về trạng thái hiện tại của khu vực đặt camera. Hệ thống này được xây dựng theo kiến trúc như trong hình. Trong đó:

2. Máy chủ xử lý nhận diện và đếm lượng người: máy chủ có cấu hình mạnh,

tốc độ xử lý cao, có thể xử lý tồn bộ dữ liệu của hệ thống camera, tạo thành báo cáo để đẩy vào hệ thống trích xuất dữ liệu.

3. Hệ thống trích xuất dữ liệu và hình ảnh đối chiếu: sau khi được xử lý qua

máy chủ xử lý, dữ liệu được gom nhóm kèm video, và được lưu trữ ở đây trước khi được đẩy về máy chủ trung tâm.

4. Cơ sở dữ liệu chứa thông tin nhận diện đối tượng: đây là dữ liệu bao gồm

số liệu và hình ảnh và video của hệ thống nhận diện đối tượng.

5. Quản trị viên: quản trị viên là người kết nối lên máy chủ tổng, là người xem

xét dữ liệu để nắm được thông tin số lượng người ra/vào theo khung giờ, và lập các báo cáo cần thiết.

(adsbygoogle = window.adsbygoogle || []).push({});

Một phần của tài liệu nghiên cứu về mạng neural convolutional, áp dụng vào bài toán nhận dạng đối tượng trong lĩnh vực thị giác máy tính (Trang 55 - 60)