Bài viết trình bày việc xây dựng tập dữ liệu thực tế được thu thập về bao gồm 15035 ảnh của 15 thương hiệu từ các diễn đàn, mạng xã hội, cũng như các công cụ tìm kiếm hình ảnh; Thực hiện đánh giá các phương pháp Deep learning tốt nhất hiện nay bao gồm YOLO, RetinaNet, Faster RCNN, Mask RCNN, trên tập dữ liệu thu thập được về các yếu tố độ chính xác, tốc độ xử lý và tài nguyên tính toán.
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XII Nghiên cứu ứng dụng Công nghệ thông tin (FAIR); Huế, ngày 07-08/6/2019 DOI: 10.15625/vap.2019.00017 ĐÁNH GIÁ CÁC PHƯƠNG PHÁP DỰA TRÊN DEEP LEARNING CHO BÀI TOÁN PHÁT HIỆN LOGO Nguyễn Nhật Duy, Đỗ Văn Tiến, Ngô Đức Thành, Huỳnh Ngọc Tín, Lê Đình Duy Phịng Thí nghiệm Truyền thông Đa phƣơng tiện, Trƣờng Đại học Công nghệ Thơng tin ĐHQG TP Hồ Chí Minh {duynn, tiendv, thanhnd, tinhn, duyld}@uit.edu.vn TÓM TẮT: Phát xuất logo để quản lý thương hiệu ứng dụng điển hình việc áp dụng kết toán thị giác vào ứng dụng thực tiễn Trước đây, ứng dụng dạng thường dựa liệu dạng văn để xử lý Tuy nhiên, với phổ biến ảnh video hướng tiếp cận dựa phát logo hướng với nhiều tiềm Hiện nay, tốn phát logo có nhiều hướng giải quyết, đặc biệt hướng tiếp cận tiên tiến sử dụng học sâu (Deep learning) mang lại hiệu cao Tuy nhiên, triển khai vào ứng dụng việc lựa chọn phương pháp để đảm bảo cân yếu tố độ xác liệu thực tế, tốc độ tài nguyên cần để xử lý thách thức cần giải Theo đó, báo (1) xây dựng tập liệu thực tế thu thập bao gồm 15035 ảnh 15 thương hiệu từ diễn đàn, mạng xã hội, cơng cụ tìm kiếm hình ảnh; (2) thực đánh giá phương pháp Deep learning tốt bao gồm YOLO, RetinaNet, Faster RCNN, Mask RCNN, tập liệu thu thập yếu tố độ xác, tốc độ xử lý tài ngun tính tốn Cùng với đó, phân tích kết đánh giá tài liệu tham khảo hữu ích cho nhà phát triển ứng dụng Từ khóa: Phát đối tượng, phát logo, mơ hình mạng học sâu, Deep learning I GIỚI THIỆU Quản lý thƣơng hiệu thơng qua viết, hình ảnh, video có xuất thƣơng hiệu đƣợc chia sẻ Internet vấn đề đƣợc công ty đặc biệt quan tâm Thông qua việc phân tích liệu cơng ty nhận đƣợc đánh giá sản phẩm dịch vụ mình, qua đƣa đánh giá tổng thể giải pháp phát triển mơ hình kinh doanh cách hiệu Các hệ thống quản lý thƣơng hiệu thơng qua phân tích nội dung đa phƣơng tiện thƣờng xử lý liệu dạng văn (text) nhƣ nội dung viết, nhận xét từ ngƣời dùng, v.v Đây dạng liệu dễ xử lý so với liệu dạng ảnh, video với phát triển phần cứng liệu ảnh video có nội dung liên quan đến thƣơng hiệu phổ biến Hiện với phát triển vƣợt bậc kỹ thuật lĩnh vực thị giác máy đặc biệt kỹ thuật theo hƣớng tiếp cận Deep learning toán phát logo đạt đƣợc nhiều kết khả quan tập liệu chuẩn [1], [2] Tuy nhiên, áp dụng phƣơng pháp vào liệu thực tế - liệu ảnh chụp video từ ngƣời dùng đƣợc đƣa lên thành viết internet gặp nhiều thách thức nhƣ bị mờ, che khuất, kích thƣớc nhỏ, v.v dẫn đến độ xác khơng cịn đảm bảo nhƣ tập liệu chuẩn (Hình 1) Ngồi ra, muốn lựa chọn phƣơng pháp phù hợp để xây dựng ứng dụng thực tiễn đạt đƣợc hiệu cao nhà phát triển phải cân yếu tố nhƣ độ xác, tốc độ xử lý nhƣ tài ngun tính tốn Với lý trên, báo chúng tơi có đóng góp sau đây: Xây dựng tập liệu thực tế 15 thƣơng hiệu phổ biến Việt Nam với nhiều lĩnh vực khác Tập liệu bao gồm 15035 ảnh đƣợc thu thập từ nhiều nguồn khác bao gồm từ diễn đàn, mạng xã hội cơng cụ tìm kiếm ảnh phổ biến Với tiêu chí lựa chọn nhƣ: hình ảnh phải hình ảnh đƣợc ngƣời dùng chụp cắt từ video mà khơng phải hình ảnh quảng cáo, nhƣ có đa dạng góc nhìn, kích thƣớc Tập liệu mà xây dựng đƣợc khơng tập liệu có nhiều thách thức cần giải cho nhóm nghiên cứu ngồi nƣớc, mà cịn nguồn tham khảo hữu ích cho nhà phát triển ứng dụng Chúng tiến hành thực nghiệm bốn phƣơng pháp tiên tiến cho toán phát đối tƣợng tập liệu xây dựng đƣợc bao gồm YOLO [3], Faster RCNN [4], Mask RCNN [5], RetinaNet [6] Việc đánh giá thực yếu tố nhƣ độ xác, tốc độ xử lý nhƣ tài nguyên tính tốn cần thiết để chạy Bên cạnh đó, ứng với phƣơng pháp cụ thể chúng tơi cịn tiến hành nhiều thiết bị đặt khác nhằm đƣa đƣợc thơng số tốt Phân tích so sánh kết thực nghiệm cho thấy phát triển ứng dụng thực tế với yêu cầu cân yếu tố phƣơng pháp YOLO lựa chọn hợp lý phƣơng pháp cho kết tốt với độ xác trung bình 51.5% tốc độ xử lý 0.03 giây Bố cục báo đƣợc trình bày nhƣ sau: phần II khảo sát số cơng trình liên quan; phần III IV trình bày tập liệu thu thập đƣợc nhƣ phân tích nhận định dựa kết đánh giá; kết luận đƣợc trình phần V ĐÁNH GIÁ CÁC PHƢƠNG PHÁP DỰA TRÊN DEEP LEARNING CHO BÀI TỐN PHÁT HIỆN LOGO 128 Hình Một số hình ảnh chứa logo (a) từ tập liệu thực chuẩn (b) từ tập liệu thực tế II MỘT SỐ NGHIÊN CỨU LIÊN QUAN Trong phần này, giới thiệu số phƣơng pháp liên quan đến tốn phát đối tƣợng nói chung nhƣ áp dụng cho toán phát logo Đầu vào tốn hình ảnh cần đƣợc phát hiện, đầu vị trí đối tƣợng có (vị trí đƣợc thể thơng qua hình chữ nhật bao quanh đối tƣợng - bounding box (Hình 2) Trong lĩnh vực thị giác máy tốn phát đối tƣợng nói chung hay logo nói riêng đạt đƣợc nhiều kết áp dụng hƣớng tiếp cận Deep learning Có thể kể đến số hƣớng tiếp cận tiên tiến bao gồm RCNN [7], Fast RCNN [8], Faster RCNN [4], Mask RCNN [5], RetinaNet [6], YOLO [3], v.v Trong đó, phƣơng pháp đƣợc chia thành loại [9]: loại có hƣớng tiếp cận two-stage - tức trình phát dựa vùng đề xuất (region proposals) kết từ phƣơng pháp khác nhƣ Selective Search [10] Region Proposal Network [4] loại có hƣớng tiếp cận one-stage - tức thân cấu trúc mạng phƣơng pháp bao gồm thao tác đƣa vùng đề xuất Trong nghiên cứu này, thực đánh giá hai loại, cụ thể phƣơng pháp đƣợc chọn bao gồm Faster RCNN, Mask RCNN (two-stage), RetinaNet, YOLO (one-stage) Hình Ví dụ minh họa ảnh đầu vào ảnh đầu toán phát logo A Faster RCNN Phƣơng pháp Faster RCNN phƣơng pháp phát đối tƣợng sử dụng mạng Deep learning đạt độ xác cao tập liệu chuẩn nhƣ COCO [11] Faster RCNN đƣợc cải tiến dựa phƣơng pháp trƣớc RCNN Fast RCNN Trong Faster RCNN, tác giả đề xuất sử dụng mạng vùng đề xuất RPN (Region Proposal Network) để tạo vùng đề xuất Sau có đƣợc đặc trƣng học sâu (deep feature) từ lớp tích chập (convolutional) đầu tiên, mạng RPN sử dụng cửa sổ trƣợt đồ đặc trƣng (feature map) để rút trích đặc trƣng cho vùng đề xuất RPN đƣợc xem nhƣ mạng liên kết đầy đủ lúc thực nhiệm vụ dự đốn tọa độ cho đối tƣợng độ tin cậy cho đối tƣợng (objectness score) So với phƣơng pháp trƣớc Faster RCNN đạt kết cao có thời gian xử lý nhanh hơn, nhiên tốc độ vẫn chƣa thể đáp ứng xử lý theo thời gian thực Nguyễn Nhật Duy, Đỗ Văn Tiến, Ngô Đức Thành, Huỳnh Ngọc Tín, Lê Đình Duy 129 B Mask RCNN Phƣơng pháp Mask RCNN phƣơng pháp thực song song toán phân vùng đối tƣợng (Instance Segmentation) phát đối tƣợng Mask RCNN phƣơng pháp đƣợc cải tiến từ Faster RCNN, Mask RCNN đề xuất sử dụng lớp RoI Align thay cho RoI pooling Faster RCNN việc sử dụng RoI Align giúp Mask RCNN cải thiện đáng kể việc chọn vùng rút trích đặc trƣng Điều giúp cải thiện độ xác phát đối tƣợng sở tốt cho toán phân vùng đối tƣợng Mask RCNN thực toán lúc nên thiết kế mạng Mask RCNN có nhánh song song Nhiệm vụ nhánh phát đối tƣợng tƣơng tự nhƣ Faster RCNN nhánh phân vùng tính toán đặc trƣng từ lớp RoI Align để đƣa mặt nạ (mask) phân vùng cho đối tƣợng Mặc dù Mask RCNN cải thiện đƣợc độ so với Faster RCNN nhƣng chƣa cải thiện đƣợc phần tính tốn mặt thời gian Mask RCNN chƣa đƣợc cải thiện nhiều C RetinaNet RetinaNet phƣơng pháp tiếp cận one-stage, RetinaNet thực tính tốn dựa anchor boxes mặc định vị trí cần tính tốn thay sử dụng vùng đề xuất đƣợc tạo từ nghiên cứu khác Dữ liệu đầu vào RetinaNet đƣợc đƣa qua mơ hình mạng có tên FPN [12] nhằm rút trích ma trận đặc trƣng với tỉ lệ nhƣng theo nhiều kích thƣớc khác Sau từ ma trận đặc trƣng bắt đầu tính tốn vùng để xuất Cuối vùng đề xuất đƣợc đƣa qua hai mạng phụ để tính vị trí bounding box lớp đối tƣợng mà bounding box bao quanh D You Only Look Once (YOLO) YOLO đƣợc xem phƣơng pháp xử lý liệu theo thời gian thực đạt đƣợc độ xác cao Ý tƣởng cốt lõi YOLO thay sử dụng vùng đề xuất để rút trích đặc trƣng YOLO sử dụng thơng tin cục từ liệu huấn luyện để học đặc trƣng cần quan tâm cách chia ảnh liệu đầu vào thành lƣới (grid view) để khai thác đặc trƣng lƣới Nếu trọng tâm đối tƣợng rơi vào ô lƣới chịu trách nhiệm phát đối tƣợng Kích thƣớc lƣới nhƣ phụ thuộc vào phiên YOLO, YOLO có đến phiên gồm YOLOv1 [3], YOLOv2 [13], YOLOv3 [14] phiên có cách chia lƣới thực khác Nổi bật phiên YOLOv3 tốc độ chậm YOLOv2 nhƣng độ xác đƣợc cải thiện đáng kể so với YOLOv2 Các kết thực nghiệm tập liệu chuẩn toán phát đối tƣợng cho thấy phƣơng pháp two-stage thƣờng cho kết với độ xác cao hƣớng tiếp cận one-stage Nhƣng thời gian thực phƣơng pháp one-stage thƣờng nhanh hơn, cụ thể xử lý gần thời gian thực Tuy nhiên, hiệu suất phƣơng pháp có kết khác tùy thuộc kích thƣớc, thuộc tính, độ phức tạp, tính đa dạng tập liệu sử dụng cho việc huấn luyện nhƣ cách thiết kế mạng Deep learning Do đó, việc đánh giá đƣợc ảnh hƣởng yếu tố áp dụng phƣơng pháp đƣợc liệt kê trên tập liệu thực giúp nhà phát triển lựa chọn phù hợp với yêu cầu III THỰC NGHIỆM VÀ KẾT QUẢ Để đánh giá phƣơng pháp theo hƣớng tiếp cận Deep learning liệu thực tế Chúng tiến hành thu thập gán nhãn liệu 15 thƣơng hiệu với nhiều lĩnh vực khác từ nhiều nguồn Sau đó, tiến hành đánh giá phƣơng pháp nhiều yếu tố bao gồm độ xác, thời gian tài nguyên cần xử lý Ngoài ứng với phƣơng pháp khác chúng tơi cịn đánh giá với nhiều thiết lập, tham số (model hyperparameters) khác để chọn đƣợc tham số phù hợp ứng với phƣơng pháp Theo đó, nội dung chúng tơi nêu tiêu chí nhƣ độ đo sử dụng việc đánh giá, thông tin chi tiết tập liệu thu thập đƣợc thiết đặt khác tƣơng ứng với phƣơng pháp A Tiêu chí độ đo đánh giá Chúng tơi đánh giá so sánh phƣơng pháp yếu tố sau: Độ xác phƣơng pháp liệu thực tế Một lý cần xét tới tiêu chí có nhiều trƣờng hợp phƣơng pháp chạy tốt tập liệu chuẩn, nhƣng bị hạn chế tập liệu thực tế tính phức tạp liệu Tốc độ nhƣ thời gian xử lý đóng vai trị quan trọng ứng dụng, việc cân độ xác tốc độ xử lý thách thức Hầu hết phƣơng pháp tiếp cận theo hƣớng Deep learning yêu cầu tài nguyên tính tốn lớn Do thống kê tài nguyên cần thiết phƣơng pháp khác yêu cầu cần thiết muốn triển khai kết vào ứng dụng thực tế 130 ĐÁNH GIÁ CÁC PHƢƠNG PHÁP DỰA TRÊN DEEP LEARNING CHO BÀI TOÁN PHÁT HIỆN LOGO Để đánh giá yếu tố này, chúng tơi sử dụng độ đo chuẩn tốn phát đối tƣợng Trong đó, với tiêu chí xác sử dụng độ đo mAP (mean average precision) theo chuẩn đánh giá PASCAL VOC [15] nhƣ công thức bên dƣới Đo thời gian huấn luyện mô hình xác định tài nguyên sử dụng cho mơ hình dung lƣợng RAM GPU dùng q trình huấn luyện chạy dự đốn Cơng thức tính độ xác trung bình (mAP): mAP = ∑ Trong Q số lƣợng lớp đối tƣợng có tập liệu, AP độ xác trung bình lớp đƣợc tính cơng thức nhƣ sau: AP = Với ∑ đƣợc tính cơng thức: ̃ ̃ Trong ̃ ̃ độ xác (precision) đƣợc đo độ phủ (recall) ̃ B Tập liệu đề xuất Với tiêu chí cần xây dựng tập liệu thực tế cho nhu cầu xây dựng ứng dụng phát xuất logo nhƣ toán quản lý thƣơng hiệu Chúng tiến hành thu thập liệu cách xây dựng công cụ để thu thập liệu từ diễn đàn, mạng xã hội công cụ tìm kiếm Trong đó, liệu thu thập đƣợc có tính đa dạng hình dáng, kích thƣớc, góc nhìn (Hình số ví dụ tập liệu thu thập đƣợc) Hầu hết ảnh mà thu thập đƣợc ảnh đƣợc ngƣời dùng chụp trực tiếp loại máy ảnh khác Do tập liệu thu thập đƣợc đa dạng chủng loại, kích csm góc nhìn, chất lƣợng ảnh Kết trình thu thập tập liệu với tổng cộng khoảng 15035 ảnh cho 15 loại thƣơng hiệu-lớp với nhiều lĩnh vực khác (thơng tin chi tiết xem Bảng 1) Trong đó, lớp có nhiều ảnh “Cocacola” 1648 ảnh lớp có số lƣợng ảnh “Tiki” 354 ảnh Sau trình gán nhãn tay, chia tập liệu xây dựng đƣợc theo tỉ lệ nhƣ sau: tập huấn luyện ảnh chiếm 60%, số lƣợng ảnh tập validate 20% tập test chiếm 20% phục vụ cho trình đánh giá Hình Một số hình ảnh từ liệu thu thập đƣợc Bảng Bảng chi tiết số lƣợng ảnh tập liệu Xe ô tô Nước uống Hyundai Honda Toyota Mercedes Pepsi Cocacola Lavie Aquafina Số lƣợng ảnh 1550 1049 942 1871 940 1648 976 783 Tên logo FPT 619 Thương hiệu khác Grab Thegioididong Apple Tiki VNPT Nike 575 652 967 354 769 1340 C Một số thiết đặt tương ứng với phương pháp đánh giá Đối với phƣơng pháp phát đối tƣợng thân phƣơng pháp có thiết đặt ứng với tham số mơ hình nhƣ tốc độ học (Learning rate), số lần lặp (Iteration), kích thƣớc ảnh đầu vào (Image size), v.v Bên cạnh việc lựa chọn mơ hình cho q trình trích xuất đặc trƣng (backbone) đóng vai trị quan trọng trình chạy phƣơng pháp Tất thiết đặt ảnh hƣởng tới yếu tố nhƣ độ xác, tốc độ, thời gian xử lý tài nguyên hệ thống Theo đó, phần thực nghiệm, việc so sánh phƣơng pháp khác chúng tơi cịn thiết đặt tham số khác phƣơng pháp, từ đƣa tham số tốt Các mô hình mà chúng tơi đánh giá gồm có YOLOv3, RetinaNet, Mask RCNN, Faster RCNN với backbone gồm FPN [12], ResNet [16] Chúng tơi huấn luyện mơ hình mạng Deep learning phƣơng pháp transfer learning- tức sử dụng trọng số đƣợc huấn luyện trƣớc tập liệu lớn nhƣ ImageNet [17], sau cách sử dụng trọng số Nguyễn Nhật Duy, Đỗ Văn Tiến, Ngơ Đức Thành, Huỳnh Ngọc Tín, Lê Đình Duy 131 đƣợc học tiếp tục huấn luyện tập liệu thực toán Việc huấn luyện theo phƣơng pháp giúp giải đƣợc vấn đề thiếu liệu việc huấn luyện mạng Deep learning Đối với YOLO chúng tơi sử dụng K-means nhƣ tác giả đề cập tính lại kích thƣớc tỉ lệ anchors, theo thực nghiệm sau tính lại anchors kết YOLOv3 cho kết anchors mặc định định sử dụng anchors mặc định gồm: [10, 13], [16, 30], [33, 23], [30, 61], [62, 45], [59, 119], [116, 90], [156, 198], [373, 326] Phần lại liên quan đến siêu thơng số đƣợc trình bày Bảng Chúng tơi huấn luyện mơ hình tổng cộng 30 epochs Từ kết thu đƣợc tiến hành so sánh phƣơng pháp lẫn dựa tiêu chí đặt từ tìm ƣu điểm hạn chế phƣơng pháp Bảng Thông tin thống kê chi tiết siêu tham số huấn luyện mơ hình Phương pháp Learning rate Batchsize Weight decay Max iteration Gamma Scales Stepsize Image size Mask RCNN 0.001 0.0001 135000 0.1 60000, 120000 500, 833 Faster RCNN 0.001 0.0001 135000 0.1 60000, 120000 500, 833 RetinaNet 0.001 0.0001 135000 0.1 60000, 120000 500, 833 YOLOv3 0.001 32 0.0005 422202 40000 416, 416 0.1 IV PHÂN TÍCH VÀ ĐÁNH GIÁ Trong phần chúng tơi trình bày kết đạt đƣợc thơng qua phần đánh giá thực nghiệm Tất mô hình đƣợc huấn luyện đƣợc chạy mơi trƣờng Ubuntu 14.04 64 bits với cấu hình Intel(R) Xeon(R) CPU E5-2620b3 @ 2.40GHz, 65 GB RAM DDR3, GPU Tesla P100 12Gb RAM Nhƣ đề cập phần trƣớc, chúng tơi chủ yếu so sánh tiêu chí đánh giá độ xác, tốc độ tài nguyên sử dụng phần chia thành mục nhƣ sau: A Độ xác Dựa kết độ xác phƣơng pháp (Bảng 3), thấy phƣơng pháp two-stage mơ hình Mask RCNN mơ hình đạt kết mAP cao đặc biệt Mask RCNN với mạng ResNet50-FPN đạt 80.9% cao khoảng 2% so với mạng ResNet101-FPN đạt 78.5% Điều cho thấy việc sử dụng mạng có nhiều lớp chƣa cho kết tốt Mạng có nhiều lớp số thơng số cần học lớn điều có nghĩa cần nhiều liệu để huấn luyện mơ hình mà có nhiều lớp Vì q trình huấn luyện giá trị thông số đƣợc cập nhật thuật tốn tối ƣu nhƣ Gradient Descent thơng qua liệu truyền vào Nếu phƣơng pháp sử dụng khơng xử lý tốt rút trích đặc trƣng từ liệu phần kết phân lớp dự đoán tọa độ cho đối tƣợng bị ảnh hƣởng Điều tƣơng tự xảy với phƣơng pháp Faster RCNN, mạng ResNet50-FPN đạt 78.4% ResNet101-FPN đạt 78.1%, trƣờng hợp chênh lệch mạng không đáng kể 0.3% Mặc dù kết Faster RCNN thấp Mask RCNN khoảng 2% nhƣng việc chênh lệch mạng cho thấy việc kết hợp mạng với Faster RCNN cho kết tốt so với Mask RCNN Đối với phƣơng pháp one-stage mơ hình YOLOv3 đạt kết thấp 51.5% nhƣng đánh đổi lại YOLOv3 có khả xử lý liệu theo thời gian thực Đối với RetinaNet ngƣợc lại kết hợp với mạng ResNet101 đat 78.1% cho kết tốt ResNet-50 1.1% Điều giải thích RetinaNet sử dụng Focal Loss để tính độ lỗi mà Focal Loss đƣợc đề xuất để sử dụng trƣờng hợp liệu lớp không cân foreground background trƣờng hợp nhƣ tập liệu RetinaNet cho kết ổn định kết hợp với mạng Ngoài ra, lớp có AP tƣơng đƣơng nhau, riêng có lớp thƣơng hiệu Toyota có AP thấp Để giải thích cho điều này, liệu đƣợc huấn luyện cho Toyota thƣờng hình ảnh có chứa logo nhỏ, đồng thời đặc trƣng Toyota lại tƣơng đồng với logo Hyundai Và dựa vào kiểm chứng thực nghiệm với hình ảnh có chứa logo Toyota mơ hình thƣờng nhận dạng sai sang Hyundai Thơng qua kết chúng tơi thấy độ xác mơ hình ảnh hƣởng nhiều vào mạng sở rút trích đặc trƣng phần mạng phía sau dùng để xử lý đặc trƣng nhƣ hàm tính độ lỗi huấn luyện phƣơng pháp ĐÁNH GIÁ CÁC PHƢƠNG PHÁP DỰA TRÊN DEEP LEARNING CHO BÀI TỐN PHÁT HIỆN LOGO 132 Bảng Thơng tin thống kê chi tiết kết thực nghiệm tập liệu thu thập Tên phương pháp ReitnaNet ResNet101 Mask ResNet50 C4 Mask ResNet50 FPN Mask ResNet101 FPN Faster ResNet50 C4 Faster ResNet50 FPN Faster ResNet101 FPN 68 65.7 45.1 88.3 91.9 73.4 86.9 79.1 92.4 88.2 69 68.3 47.7 89.4 92.5 69.2 87.9 77.5 93.5 88.6 67.1 68 51 85.4 91.9 71.8 82.4 78.6 77.5 83.2 76.5 66.9 57 89.5 93.1 75.2 83.7 86 88.2 85.7 73.2 69.1 55.1 86.5 94.5 68.1 76.1 79.7 84.9 83 74 66.4 50.8 88.2 91.2 78.6 84.8 75.6 87.2 85.4 72.9 69 51.1 85.9 92.2 71.8 76.7 81.1 85.4 86.8 70.2 65.5 55.5 86.6 91.9 70.9 75.9 84.6 85.7 83.1 53.3 65.1 73.2 92 93.2 94.1 91.2 91.5 93.6 63.1 36.8 26.4 46.8 97.7 74.7 79 69.4 85.6 80.1 78.4 70.2 78.2 65.8 85.6 66.5 79.3 80.8 89.7 69.1 79.9 75.3 88.5 70.3 88.4 78.8 84.4 68.4 81.3 76.1 86.6 67.9 78.1 73.7 87.4 69.2 51.5 77 78.1 76.3 80.9 78.5 79.6 78.4 78.1 Tên logo YOLO v3 RetinaNet ResNet50 Hyundai Honda Toyota Mercedes FPT Pepsi Coca Cola Grab Lavie Aquafina Thế giới di động Apple Tiki VNPT Nike Trung bình (mAP %) 45.5 32.9 24.8 71.5 60.2 64.9 68.6 45.1 69.6 62.7 B Tài ngun tính tốn Khi xét tài ngun tính tốn cần sử dụng huấn luyện sử dụng mơ hình (Hình 4), chúng tơi nhận thấy bình quân dung lƣợng GPU RAM cần sử dụng huấn luyện mơ hình phƣơng pháp RetinaNet với backbone ResNet50-FPN thấp 3.13GB, phƣơng pháp YOLOv3 tốn nhiều tài nguyên sử dụng sử dụng đến gấp đôi tài nguyên mà phƣơng pháp khác cần YOLOv3 sử dụng nhiều tài nguyên thay sử dụng mạng darknet19 nhƣ phiên trƣớc đó, YOLOv3 sử dụng mạng darknet53 với vị trí dự đốn kết với tỉ lệ đối tƣợng khác thay vị trí dự đốn cho tất đối tƣợng nhƣ phiên trƣớc Đứng sau Retinanet dung lƣợng sử dụng tài nguyên Mask RCNN 3.9GB với mạng ResNet50-C4 kết hợp với độ xác 76.3% RetinaNet có phần vƣợt trội Nhƣng so sánh RetinaNet ResNet50-FPN với Mask RCNN ResNet50-FPN Mask RCNN sử dụng khoảng 4.14 GB lớn 1GB để tăng độ xác khoảng 2% Nếu so sánh Faster RCNN với RetinaNet Mask RCNN trƣờng hợp tài nguyên sử dụng kết hợp với độ xác RetinaNet với Mask RCNN hiệu suất tốt Hình Thơng số đánh giá dựa vào GPU RAM sử dụng huấn luyện tập liệu chuẩn C Tốc độ Khi xét thông số thời gian huấn luyện phƣơng pháp (Hình 5), phƣơng pháp YOLOv3 mơ hình có thời gian huấn luyện trung bình nhanh khoảng 1.5 giờ, so với mặt chung mơ hình khác tốn thời gian lâu Đặc biệt, phƣơng pháp Faster RCNN với mạng ResNet101-FPN có thời gian tối đa lên đến Nguyễn Nhật Duy, Đỗ Văn Tiến, Ngơ Đức Thành, Huỳnh Ngọc Tín, Lê Đình Duy 133 ngày cho 10 epoch khác Đồng thời mạng khác kết hợp với Faster RCNN tốn nhiều thời gian để huấn luyện Mask RCNN phƣơng pháp có tốc độ huấn luyện nhanh thứ kết hợp với độ xác tài nguyên sử dụng Mask RCNN phƣơng pháp hoạt động tập trung vào độ xác So tốc độ huấn luyện nhƣ tốc độ xử lý liệu YOLOv3 phƣơng pháp dẫn đầu lƣợng tài nguyên sử dụng huấn luyện cao Hình Thơng số đánh giá dựa vào thời gian huấn luyện tập liệu chuẩn Khi so sánh mặt tốc độ xử lý sử dụng mơ hình (Bảng 4) chúng tối thấy YOLO phƣơng pháp xử lý nhanh Mask RCNN chậm Nếu xét tổng thể, bao gồm mặt thời gian xử lý độ xác YOLO phƣơng pháp sở hữu nhiều ƣu tốn nhiều tài nguyên GPU RAM Bảng Thời gian sử dụng mơ hình để phát logo Tên phƣơng pháp Thời gian (s/ảnh) YOLO 0.03 RetinaNet-Resnet50-FPN 0.1 RetinaNet-Resnet101-FPN 0.13 Mask RCNN-Resnet50-C4 0.41 Mask RCNN-Resnet50-FPN 0.1 Mask RCNN-Resnet101-FPN 0.12 Faster RCNN-Resnet50-C4 0.41 Faster RCNN-Resnet50-FPN 0.1 Faster RCNN-Resnet50-FPN 0.12 V KẾT LUẬN Nội dung nghiên cứu tập trung vào việc đánh giá phƣơng pháp phát đối tƣợng bao gồm YOLO, RetinaNet, Faster RCNN, Mask RCNN tập liệu thực tế tự thu thập gán nhãn Chúng đánh giá, so sánh phân tích ba yếu tố bao gồm độ xác, tốc độ xử lý tài nguyên cần tính toán - yếu tố quan trọng cần xem xét áp dụng kết tính tốn vào ứng dụng thực tiễn Bên cạnh với tập liệu xây dựng đƣợc 15 loại logo với tổng 15035 nguồn tham khảo hữu ích cho nhóm nghiên cứu quan tâm đến tốn Kết đánh giá cho thấy, YOLO phƣơng pháp cho tốc độ xử lý liệu nhanh chóng nhƣng độ xác khơng cao (mAP = 51.5%), Mask RCNN phƣơng pháp cho độ xác tốt (mAP = 80.9) nhƣng thời gian xử lý lâu Để cân yếu tố tốc độ, thời gian tài nguyên sử dụng YOLO lựa chọn tốt muốn phát triển ứng dụng Bên cạnh đó, với tập liệu thực tế 15 loai logo khoảng 15035 ảnh đƣợc thu thập gán nhãn hy vọng tập liệu tham khảo hữu ích cho cộng đồng quan tâm nghiên cứu đến toán 134 ĐÁNH GIÁ CÁC PHƢƠNG PHÁP DỰA TRÊN DEEP LEARNING CHO BÀI TOÁN PHÁT HIỆN LOGO VI LỜI CẢM ƠN Nghiên cứu đƣợc tài trợ Trƣờng Đại học Công nghệ thông tin - ĐHQG-HCM khuôn khổ Đề tài mã số D2-2019-017 TÀI LIỆU THAM KHẢO [1] C Eggert, A Winschel, D Zecha, and R Lienhart, “Saliency-guided selective magnification for company logo detection,” Proc - Int Conf Pattern Recognit., pp 651-656, 2017 [2] H Su, X Zhu, and S Gong, “Deep learning logo detection with data expansion by synthesising context,” Proc 2017 IEEE Winter Conf Appl Comput Vision, WACV 2017, pp 530-539, 2017 [3] J Redmon, S Divvala, R Girshick, and A Farhadi, “You Only Look Once: Unified, Real-Time Object Detection,” 2015 [4] S Ren, K He, R Girshick, and J Sun, “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks.,” IEEE Trans Pattern Anal Mach Intell., vol 39, no 6, pp 1137-1149, 2017 [5] K He, G Gkioxari, P Dollar, and R Girshick, “Mask R-CNN,” Proc IEEE Int Conf Comput Vis., vol 2017October, pp 2980-2988, 2017 [6] T Y Lin, P Goyal, R Girshick, K He, and P Dollar, “Focal Loss for Dense Object Detection,” Proc IEEE Int Conf Comput Vis., vol 2017-October, pp 2999-3007, 2017 [7] R Girshick, J Donahue, T Darrell, and J Malik, “Rich feature hierarchies for accurate object detection and semantic segmentation,” Proc IEEE Comput Soc Conf Comput Vis Pattern Recognit., pp 580-587, 2014 [8] R Girshick, “Fast R-CNN,” Proc IEEE Int Conf Comput Vis., vol 2015 International Conference on Computer Vision, ICCV 2015, pp 1440-1448, 2015 [9] L Liu et al., “Deep Learning for Generic Object Detection: A Survey,” 2018 [10] T G A W M Smeulders, “Selective Search for Object Recognition,” pp 154-171, 2013 [11] T Lin, C L Zitnick, and P Doll, “Microsoft COCO : Common Objects in Context,” pp 1-15 [12] T Y Lin, P Dollár, R Girshick, K He, B Hariharan, and S Belongie, “Feature pyramid networks for object detection,” Proc - 30th IEEE Conf Comput Vis Pattern Recognition, CVPR 2017, vol 2017-January, pp 936944, 2017 [13] J Redmon and A Farhadi, “YOLO9000: Better, faster, stronger,” Proc - 30th IEEE Conf Comput Vis Pattern Recognition, CVPR 2017, vol 2017-January, pp 6517-6525, 2017 [14] J Redmon and A Farhadi, “YOLOv3: An Incremental Improvement,” 2018 [15] M Everingham, L Van Gool, C K I Williams, and J Winn, “The P ASCAL Visual Object Classes ( VOC ) Challenge,” pp 303-338, 2010 [16] K He, X Zhang, S Ren, and J Sun, “Deep Residual Learning for Image Recognition,” 2015 [17] A Krizhevsky, I Sutskever, and G E Hinton, “ImageNet Classification with Deep Convolutional Neural Networks,” in Advances in Neural Information Processing Systems 25, F Pereira, C J C Burges, L Bottou, and K Q Weinberger, Eds Curran Associates, Inc., 2012, pp 1097-1105 EVALUATION OF DEEP LEARNING BASED APPROACHES FOR LOGO DETECTION Duy Nguyen, Tien Do, Thanh Duc Ngo, Tin Huynh, Duy Dinh Le ABSTRACT: Detecting the appearance of logos to manage trademark is a typical application of computer vision to practical applications In the past, applications of this type were often based on textual data for processing With the popularity of images and videos, approaches based on logo detection is a new one with great potential There are many solutions to deal with logo detection, especially the state-of-the-art approaches based on Deep learning which achieve high performance However, the choice of approaches to ensure a balance between factors such as accuracy, speed of processing and resource usage is a challenge to handle when deploying them into an application In this paper, we have (1) built the actual dataset consisting of 15035 images of 15 type of logos collected from social networks and search engines for images; (2) evaluated the state of the art models based on Deep learning including YOLO, Faster RCNN, Mask RCNN, RetinaNet on our proposed dataset with factors of accuracy, processing speed and resource usage The analysis on the experimental evaluation is a useful reference for application developers ... kết vào ứng dụng thực tế 130 ĐÁNH GIÁ CÁC PHƢƠNG PHÁP DỰA TRÊN DEEP LEARNING CHO BÀI TOÁN PHÁT HIỆN LOGO Để đánh giá yếu tố này, sử dụng độ đo chuẩn toán phát đối tƣợng Trong đó, với tiêu chí... huấn luyện phƣơng pháp ĐÁNH GIÁ CÁC PHƢƠNG PHÁP DỰA TRÊN DEEP LEARNING CHO BÀI TỐN PHÁT HIỆN LOGO 132 Bảng Thơng tin thống kê chi tiết kết thực nghiệm tập liệu thu thập Tên phương pháp ReitnaNet... loai logo khoảng 15035 ảnh đƣợc thu thập gán nhãn hy vọng tập liệu tham khảo hữu ích cho cộng đồng quan tâm nghiên cứu đến toán 134 ĐÁNH GIÁ CÁC PHƢƠNG PHÁP DỰA TRÊN DEEP LEARNING CHO BÀI TOÁN PHÁT