Ứng dụng các mô hình học sâu giải quyết một số bài toán phân tích và xử lý hình ảnh

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Ứng dụng mơ hình học sâu giải số tốn phân tích xử lý hình ảnh NGUYỄN HỮU MINH Minh.NH202955M@sis.hust.edu.vn Ngành: Toán Tin Chuyên ngành: Toán Tin Giảng viên hướng dẫn: TS Bùi Xuân Diệu Bộ mơn: Tốn Viện: Tốn ứng dụng Tin học HÀ NỘI, 08/2022 Chữ ký GVHD CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Nguyễn Hữu Minh Đề tài luận văn: Ứng dụng mơ hình học sâu giải số tốn phân tích xử lý hình ảnh Chun ngành: Toán Tin Mã số SV: 20202955M Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 31/08/2022 với nội dung sau: Bổ sung thêm cấu hình phần cứng sử dụng trình huấn luyện dự đoán thử nghiệm thời gian huấn luyện mơ hình Ngày 31 tháng 08 năm 2022 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG SĐH.QT9.BM11 Ban hành lần ngày 11/11/2014 Lời cảm ơn Với lịng biết ơn vơ sâu sắc, xin gửi lời cảm ơn chân thành đến q Thầy Cơ Viện Tốn ứng dụng Tin học, Đại học Bách Khoa Hà Nội quý đồng nghiệp từ phận AI Research, Công ty TNHH Pixta Vietnam tạo điều kiện hỗ trợ dành cho vốn kiến thức quý báu Đặc biệt, xin chân thành cảm ơn TS Bùi Xuân Diệu tận tâm hướng dẫn suốt thời gian vừa qua Nhờ có lời hướng dẫn thầy mà luận văn tơi hồn thành cách tốt Tơi mong nhận ý kiến đóng góp quý Thầy Cô bạn học để luận văn tơi hồn thiện Tơi xin chân thành cảm ơn! Tóm tắt nội dung luận văn Cách mạng công nghiệp 4.0 mang đến cho người kỷ ngun khai phá liệu với mơ hình học sâu giúp giải toán thị giác máy tính nói chung tốn xử lý hình ảnh nói riêng Nổi bật thu hút nhiều quan tâm số tốn nhận diện đối tượng nhận diện khuôn mặt Tuy nhiên, với phát triển khoa học công nghệ, nhu cầu không dừng lại việc xử lý tốn với ảnh có kích thước nhỏ mà cịn ảnh có kích thước lớn Trong khuôn khổ luận văn, nghiên cứu phân tích mơ hình học sâu có sẵn giải toán nhận diện đối tượng nhận diện khuôn mặt Hơn nữa, đề xuất số tính sau: - Mơ hình RetinaFocus giải tốn nhận diện khn mặt ảnh chất lượng cao với chi phí tính tốn thấp - Bộ liệu WIDER FACE kích thước lớn gồm nhiều ảnh chất lượng cao giúp đánh giá cách khách quan độ xác tốc độ mơ hình nhận diện khn mặt Hà Nội, ngày tháng năm Học viên thực Mục lục Lời cảm ơn Tóm tắt nội dung luận văn Danh sách hình vẽ Phát biểu tốn Chương Cơ sở lý thuyết 1.1 Mơ hình Faster R-CNN 1.2 Kiến trúc Feature Pyramid Networks 1.3 Mơ hình RetinaNet 7 11 15 Chương Mơ hình đề xuất 20 2.1 Tổng quan ý tưởng mơ hình RetinaFocus 20 2.2 Chi tiết kiến trúc mô hình RetinaFocus 21 2.3 Chiến lược dự đốn mơ hình RetinaFocus 30 Chương Dữ liệu thực nghiệm 34 3.1 Bộ liệu WIDER FACE 34 3.2 Bộ liệu WIDER FACE kích thước lớn 37 3.3 Các thí nghiệm kết mơ hình RetinaFocus 40 Kết luận phương hướng phát triển 49 Chỉ mục từ khoá 50 Tài liệu tham khảo 51 Danh sách hình vẽ 10 11 12 13 14 15 16 17 18 19 20 21 Kiến trúc mơ hình RPN (Nguồn: [4]) So sánh kiến trúc xử lý vấn đề đối tượng có kích thước khác tỷ lệ chiều dài chiều rộng khác (Nguồn: [4]) Toàn cảnh kết hợp mơ hình RPN Fast R-CNN tạo mơ hình Faster R-CNN (Nguồn: [4]) So sánh kiến trúc pyramid khác (Nguồn: [5]) So sánh kiến trúc theo dạng từ xuống khác (Nguồn: [5]) Chi tiết kiến trúc FPN (Nguồn: [5]) Chi tiết hai kiến trúc mơ hình pha tiếng SSD YOLO (Nguồn: [6]) Cách đề xuất khu vực mỏ neo mơ hình YOLO (Nguồn: [7]) Cách đề xuất khu vực mỏ neo mơ hình SSD (Nguồn: [6]) So sánh kết với tham số hàm mát Focal với hàm mát entropy chéo (Nguồn: [11]) Kiến trúc mơ hình RetinaNet (Nguồn: [11]) Kiến trúc mơ hình RetinaFocus Kết mơ hình RetinaFace ngun liệu WIDER FACE val test (Nguồn: [22]) Mơ hình RetinaFace ngun giúp cải thiện kết tốn nhận diện danh tính khn mặt (Nguồn: [22]) Chi tiết kiến trúc nguyên khối Context Module (Nguồn: [32]) Ý tưởng hàm mát đa nhiệm vụ mơ hình RetinaFace Ngồi hàm mát học tự giám sát [33, 34], hàm mát cịn lại kế thừa cho mơ hình RetinaFocus (Nguồn: [22]) Vai trò lớp DCN hàm mát học tự giám sát kết mơ hình RetinaFace ngun liệu WIDER FACE (Nguồn: [22]) Thống kê tỷ lệ diện tích vùng chứa đối tượng nhỏ (kích thước nhỏ 32 điểm ảnh), vừa (kích thước từ 32 đến 96 điểm ảnh) lớn (kích thước lớn 96 điểm ảnh) so sánh với diện tích background ảnh liệu COCO [36] (Nguồn: [15]) Các nhóm hộp giới hạn khác thuật toán Focus Pixel (Nguồn: [15]) So sánh số lượng hộp giới hạn nhóm kích thước mà mơ hình RetinaFace dự đốn khơng dự đốn tương ứng với IoU 0.5 (a), IoU 0.75 (b), IoU 0.9 (c) Tỷ lệ số lượng hộp giới hạn mà mơ hình RetinaFace dự đốn khơng dự đốn tương ứng với IoU 0.5 (a), IoU 0.75 (b), IoU 0.9 (c) nhóm kích thước hộp giới hạn 8 10 12 13 14 15 16 16 18 18 20 21 22 22 22 23 24 25 26 27 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Tỷ lệ kích thước hộp giới hạn mà RetinaFace khơng dự đốn tương ứng với IoU 0.5 (a), IoU 0.75 (b), IoU 0.9 (c) Chi tiết thuật toán sinh Focus Chips (Nguồn: [15]) Ví dụ chế hoạt động thuật toán Focus Stacking (Nguồn: [15]) Sơ đồ mơ chiến lược dự đốn mơ hình RetinaFocus Một số ví dụ chiến lược dự đốn mơ hình AutoFocus (Nguồn: [15]) So sánh số lượng độ đa dạng liệu WIDER FACE với số liệu khác (Nguồn: [29]) So sánh độ khó liệu WIDER FACE với liệu khác (Nguồn: [29]) Ví dụ mức độ khó khn mặt việc gán landmarks (Nguồn: [22]) Các thơng số độ khó khn mặt việc gán landmarks (Nguồn: [22]) Một số ví dụ liệu WIDER FACE (Nguồn: [29]) Một ví dụ ảnh liệu WIDER FACE [29] (a) so sánh với liệu WIDER FACE kích thước lớn dạng lưới 2X2 (b) 3X3 (c) Phân phối kích thước ảnh liệu WIDER FACE [29] (a) so sánh với liệu WIDER FACE kích thước lớn dạng lưới 2X2 (b) 3X3 (c) Phân phối tỷ lệ kích thước hộp giới hạn kích thước ảnh liệu WIDER FACE [29] (a) so sánh với liệu WIDER FACE kích thước lớn dạng lưới 2X2 (b) 3X3 (c) Kết so sánh cấu hình sử dụng đồ đặc trưng FPN làm đầu vào cho nhánh tập trung đối tượng ba liệu WIDER FACE val easy (a), medium (b) hard (c) Kết so sánh cấu hình sử dụng đồ đặc trưng FPN làm đầu vào cho nhánh tập trung đối tượng ba liệu WIDER FACE kích thước lớn lưới 2X2 val easy (a), medium (b) hard (c) Kết so sánh cấu hình sử dụng đồ đặc trưng FPN làm đầu vào cho nhánh tập trung đối tượng ba liệu WIDER FACE kích thước lớn lưới 3X3 val easy (a), medium (b) hard (c) Kết so sánh cấu hình tốt RetinaFocus với cấu hình RetinaFace ba liệu WIDER FACE val easy (a), medium (b) hard (c) Kết so sánh cấu hình tốt RetinaFocus với cấu hình RetinaFace ba liệu WIDER FACE kích thước lớn lưới 2X2 val easy (a), medium (b) hard (c) Kết so sánh cấu hình tốt RetinaFocus với cấu hình RetinaFace ba liệu WIDER FACE kích thước lớn lưới 3X3 val easy (a), medium (b) hard (c) 28 29 29 31 32 34 35 35 36 36 37 38 39 41 42 43 45 46 48 Phát biểu toán Bài toán nhận diện đối tượng Bài toán nhận diện đối tượng (object detection) toán phổ biến lĩnh vực thị giác máy tính coi số toán máy học kinh điển Một số ứng dụng toán như: y tế giúp nhận diện vị trí bị bệnh thể, bảo mật giúp định nhận diện người khu vực cấm, nông nghiệp giúp xác định số lượng nơng sản Bài tốn nhận diện đối tượng tổng hợp hai toán con: toán định vị đối tượng (object localization) toán phân loại ảnh (image classification) Cụ thể hơn, toán định vị đối tượng toán xác định vị trí đối tượng ảnh hộp giới hạn (bounding box) đại diện cho vị trí đối tượng Trong đó, tốn phân loại ảnh giúp xác định đối tượng vừa định vị đối tượng Với quan tâm giới nghiên cứu cho tốn nhận diện đối tượng, có nhiều nghiên cứu giải pháp đời đạt độ xác cao chạy thời gian thực Bài tốn nhận diện khn mặt Bài tốn nhận diện khn mặt (face detection) tốn tảng quan trọng cho nhiều tốn khác khn mặt xác thực khn mặt, sinh ảnh khuôn mặt, phân lớp thuộc tính khn mặt Những ứng dụng nhóm tốn liên quan đến khn mặt kể đến nhận diện khách hàng, điểm danh chấm công, phân tích cảm xúc Với tiềm trên, nhận diện khuôn mặt trở thành nhánh nghiên cứu thu hút nhiều quan tâm giới nghiên cứu tính ứng dụng cao động lực đẩy độ xác mơ hình giải tốn lên đến tuyệt đối Nhiều nghiên cứu nhấn mạnh vào đặc thù riêng biệt khuôn mặt người so với đối tượng vật nói chung để đưa giải pháp nhằm thúc đẩy độ xác mơ hình Tuy vậy, nghiên cứu [1], nhóm tác giả nhận diện khuôn mặt toán toán nhận diện đối tượng giải cách hiệu mơ hình nhận diện đối tượng nói chung Bài tốn nhận diện khn mặt với ảnh chất lượng cao Mặc dù có nhiều nghiên cứu quan tâm đến toán nhận diện đối tượng nhận diện khuôn mặt, tồn vấn đề nan giải toán nhận diện ảnh chất lượng cao chụp từ camera đại Việc xử lý hình ảnh có kích thước lớn 4K (3840×2160) hay 8K (7680×4320) mơ hình học sâu gây nhiều vấn đề chi phí thời gian tính tốn Do đó, việc sử dụng hình ảnh chất lượng cao trình dự đốn khó, việc huấn luyện mơ hình với hình ảnh gần bất khả thi Một cách đơn giản thu nhỏ kích thước ảnh trước đưa vào mơ hình học sâu Tuy nhiên cách làm gây việc mát nhiều thông tin đối tượng ảnh, đặc biệt đối tượng có kích thước nhỏ Sau thu nhỏ ảnh ban đầu, đối tượng gần biến khỏi ảnh gây khó khăn cho mơ hình để thu thập đặc trưng đối tượng Vì vậy, ta cần giải pháp tốt để xử lý ảnh chất lượng cao, cho vừa đảm bảo độ xác vừa đảm bảo chi phí thời gian tính tốn mơ hình Chương Chương Cơ sở lý thuyết Các nghiên cứu đại việc giải toán nhận diện khuôn mặt nhận diện khuôn mặt ảnh chất lượng cao kế thừa nhiều ý tưởng từ nghiên cứu giải toán nhận diện đối tượng Các mơ hình giải tốn nhận diện đối tượng chia thành hai nhóm: nhóm mơ hình hai pha (two-stage) nhóm mơ hình pha (single-stage) Các mơ hình hai pha phổ biến R-CNN [2], Fast R-CNN [3], Faster R-CNN [4] FPN [5] Các mơ hình hai pha đạt độ xác cao, nhiên, tốc độ chạy khơng thật nhanh động lực để mơ hình pha đời Các mơ hình pha tiếng thu hút nhiều quan tâm SSD [6], chuỗi mơ hình YOLO [7, 8, 9, 10], RetinaNet [11] Bên cạnh đó, nhiều nghiên cứu năm gần tập trung vào việc xử lý ảnh chất lượng cao Các mơ hình hướng tới việc trì tăng cường độ xác mơ hình nhận diện đối tượng tiết kiệm tối đa chi phí tính tốn Một số nghiên cứu đáng ý SNIP [12], SNIPER [13], Scale Match [14] hướng đến q trình huấn luyện mơ hình với ảnh chất lượng cao, AutoFocus [15], Attention pipeline [16], Dynamic Zoom-in [17], PeleeNet [18] đưa ý tưởng cải thiện q trình dự đốn mơ hình với ảnh chất lượng cao Lấy tảng từ mơ hình nhận diện đối tượng, mơ hình nhận diện khuôn mặt bổ sung chỉnh sửa số điểm nhằm tăng độ xác liệu khn mặt Dựa SSD [6], mơ hình S3FD [19] thay đổi chiến lược sinh khu vực mỏ neo nhằm đạt độ xác cao liệu khn mặt Mơ hình Pyramid Box [20] Pyramid Box++ [21] thay đổi kiến trúc mơ hình FPN [5] phù hợp toán nhận diện khn mặt Hay mơ hình RetinaFace [22], kế thừa từ RetinaNet [11], sử dụng thêm liệu hàm mát đặc trưng khn mặt 1.1 Mơ hình Faster R-CNN Được lấy động lực từ điểm yếu mơ hình R-CNN [2] Fast R-CNN [3], nhóm tác giả nghiên cứu phát triển mơ hình Faster R-CNN [4] với trung tâm kiến trúc mơ hình Region Proposal Network (gọi tắt RPN) Mơ hình RPN kỳ vọng thay hoàn toàn thuật toán Selective Search [23] kiến trúc mơ hình two-stage giải tốn nhận diện đối tượng, hướng đến việc cải thiện không tốc độ mơ hình mà cịn cải thiện độ xác Kiến trúc mơ hình RPN Mơ hình RPN nhận đầu vào ảnh với kích thước trả đầu toạ độ khu vực xác suất khu vực đối tượng lớp đối tượng Nhằm tiết kiệm chi phí tính tốn, mơ hình RPN dùng chung phần mơ hình xương sống với Fast R-CNN Nguyễn Hữu Minh Chương Hình 1: Kiến trúc mơ hình RPN (Nguồn: [4]) Sau đưa ảnh qua mơ hình xương sống thu đồ đặc trưng, mơ hình RPN nhận đầu vào đồ đặc trưng trả đầu khu vực đề xuất gọi khu vực mỏ neo Nhóm tác giả xây dựng phương pháp đề xuất khu vực mỏ neo dựa kích thước tỷ lệ chiều dài chiều rộng khu vực mỏ neo Cụ thể, mơ hình RPN đưa đồ đặc trưng qua lớp Conv thu đồ đặc trưng có kích thước W x H Từ đó, nhóm tác giả đề xuất ba kích thước khu vực mỏ neo ba tỷ lệ chiều dài chiều rộng khu vực mỏ neo tạo chín khu vực mỏ neo với điểm ảnh đồ đặc trưng kích thước W x H Tổng cộng tồn đồ đặc trưng kích thước W x H, ta thu W x H x khu vực mỏ neo Các đồ đặc trưng đại diện cho khu vực mỏ neo tiếp tục đưa qua lớp Conv để biến đổi đồ đặc trưng có dạng (W x H x 9) x đại diện cho xác suất khu vực mỏ neo đối tượng có dạng (W x H x 9) x đại diện cho toạ độ x góc trái trên, y góc trái trên, chiều dài chiều rộng hộp giới hạn Một điểm mạnh RPN so với mơ hình nhận diện đối tượng thời khả dự đốn đối tượng có kích thước khác tỷ lệ chiều dài chiều rộng khác nhờ vào cách cấu hình khu vực mỏ neo Hình 2: So sánh kiến trúc xử lý vấn đề đối tượng có kích thước khác tỷ lệ chiều dài chiều rộng khác (Nguồn: [4]) Một số kiến trúc đề xuất thời điểm gặp phải rào cản khối lượng tính toán lớn - Kiến trúc image / feature pyramids sử dụng ảnh với nhiều kích thước khác nhằm tạo đồ đặc trưng có nhiều kích thước khác Kiến trúc tốn nhiều chi phí tính tốn ta cần xử lý nhiều lần (thường ba lần) với ảnh đầu vào khác - Kiến trúc thứ hai pyramid of filters đưa đồ đặc trưng đầu vào qua nhiều Nguyễn Hữu Minh Chương 41 Trong thí nghiệm này, tất cấu hình sử dụng chung cấu hình tuỳ chỉnh kích thước ảnh q trình dự đốn mơ lại chiến lược Image Pyramids RetinaFace (a) (b) (c) Hình 35: Kết so sánh cấu hình sử dụng đồ đặc trưng FPN làm đầu vào cho nhánh tập trung đối tượng ba liệu WIDER FACE val easy (a), medium (b) hard (c) Cụ thể, mô hình RetinaFocus thực vịng lặp dự đốn năm lần, đó: - Vịng lặp tuỳ chỉnh kích thước ảnh đầu vào mơ hình nằm khoảng từ 500 điểm ảnh đến 750 điểm ảnh - Vịng lặp thứ hai tuỳ chỉnh kích thước ảnh đầu vào mơ hình tương đương với kích thước ảnh gốc ban đầu nằm khoảng từ 800 điểm ảnh đến 1200 điểm ảnh - Vòng lặp thứ ba tuỳ chỉnh kích thước ảnh đầu vào mơ hình tương đương với kích thước ảnh gốc ban đầu nằm khoảng từ 1100 điểm ảnh đến 1650 điểm ảnh - Vòng lặp thứ tư tuỳ chỉnh kích thước ảnh đầu vào mơ hình tương đương với kích thước ảnh gốc ban đầu nằm khoảng từ 1400 điểm ảnh đến 2100 điểm ảnh Nguyễn Hữu Minh Chương 42 - Vòng lặp cuối tuỳ chỉnh kích thước ảnh đầu vào mơ hình tương đương với kích thước ảnh gốc ban đầu nằm khoảng từ 1700 điểm ảnh đến 2550 điểm ảnh Đối với WIDER FACE thơng thường, hai cấu hình đạt độ xác cao cấu hình sử dụng đồ đặc trưng P5 cấu hình sử dụng đồ đặc trưng C5 cho nhánh tập trung đối tượng với thời gian thực toàn trình dự đốn liệu 1436 1377 giây Trong cấu hình sử dụng đồ đặc trưng P5 cho kết tốt WIDER FACE val easy medium cấu hình sử dụng đồ đặc trưng C5 cho kết tốt WIDER FACE val hard Các cấu hình khác P4 , P3 C4 có thời gian thực tồn q trình dự đốn nhanh độ xác khơng tốt Đặc biệt cấu hình C3 vừa có thời gian thực tồn q trình dự đốn chậm vừa đạt độ xác thấp (a) (b) (c) Hình 36: Kết so sánh cấu hình sử dụng đồ đặc trưng FPN làm đầu vào cho nhánh tập trung đối tượng ba liệu WIDER FACE kích thước lớn lưới 2X2 val easy (a), medium (b) hard (c) Nguyễn Hữu Minh Chương 43 Đối với WIDER FACE kích thước lớn lưới 2X2, ta có cấu hình tuỳ chỉnh gồm hai vịng lặp dự đốn với kích thước ảnh tương ứng vòng lặp [800, 1200] điểm ảnh [1600, 2400] điểm ảnh Hai cấu hình đạt độ xác cao cấu hình sử dụng đồ đặc trưng P5 cấu hình sử dụng đồ đặc trưng C5 với thời gian thực toàn q trình dự đốn liệu 1832 1831 giây Đối với liệu này, cấu hình sử dụng đồ đặc trưng P5 cho kết tốt WIDER FACE kích thước lớn lưới 2X2 val easy hard cấu hình sử dụng đồ đặc trưng C5 cho kết tốt WIDER FACE kích thước lớn lưới 2X2 val medium Tuy nhiên, WIDER FACE kích thước lớn lưới 2X2 val hard, kết cấu hình sử dụng đồ đặc trưng C4 P3 cho kết tiệm cận với cấu hình sử dụng đồ đặc trưng C5 (a) (b) (c) Hình 37: Kết so sánh cấu hình sử dụng đồ đặc trưng FPN làm đầu vào cho nhánh tập trung đối tượng ba liệu WIDER FACE kích thước lớn lưới 3X3 val easy (a), medium (b) hard (c) Nguyễn Hữu Minh Chương 44 Đối với WIDER FACE kích thước lớn lưới 3X3, ta có cấu hình tuỳ chỉnh gồm hai vịng lặp dự đốn với kích thước ảnh tương ứng vịng lặp [800, 1200] điểm ảnh [1600, 2400] điểm ảnh Từ đó, cấu hình đạt độ xác cao có thay đổi Đối với WIDER FACE kích thước lớn lưới 3X3 easy, cấu hình sử dụng đồ đặc trưng P5 cho kết tốt với thời gian thực tồn q trình dự đốn liệu 4185 giây Đối với WIDER FACE kích thước lớn lưới 3X3 medium, cấu hình sử dụng đồ đặc trưng C5 cho kết tốt với thời gian thực tồn q trình dự đoán liệu 4231 giây Đối với WIDER FACE kích thước lớn lưới 3X3 hard, cấu hình sử dụng đồ đặc trưng P3 cho kết tốt nhất, vượt qua xa hai cấu hình sử dụng đồ đặc trưng P5 C5 , với thời gian thực toàn q trình dự đốn liệu 4172 giây Kết luận thí nghiệm này, liệu khác WIDER FACE thơng thường, WIDER FACE kích thước lớn lưới 2X2 hay 3X3 liệu easy, medium hard, kết cấu hình đạt độ xác cao khác nhau, phụ thuộc vào kích thước ảnh đầu vào tỷ lệ kích thước hộp giới hạn kích thước ảnh đầu vào tương ứng Thí nghiệm so sánh cấu hình tốt mơ hình RetinaFocus với cấu hình mơ hình RetinaFace Mơ hình RetinaFocus khoảng 48 tiếng dành cho trình huấn luyện sử dụng thư viện Pytorch với phần cứng GPU NVIDIA GeForce RTX 2080 Ti Đối với mơ hình RetinaFace, khuôn khổ luận văn, không thực q trình huấn luyện mơ hình mà sử dụng kết mơ hình có sẵn tác giả Các cấu hình mơ hình RetinaFace sử dụng thí nghiệm bao gồm: - Cấu hình sử dụng chiến lược Image Pyramids kết hợp với việc lật ảnh đầu vào q trình dự đốn, ký hiệu RetinaFace with Image Pyramids and Flip - Cấu hình không sử dụng chiến lược Image Pyramids mà sử dụng tuỳ chỉnh kích thước ảnh [1600, 2150], ký hiệu RetinaFace with single scale [1600, 2150] Cấu hình mơ hình RetinaFocus sử dụng thí nghiệm cấu hình cho kết tốt liệu Cụ thể, liệu WIDER FACE val easy medium, ta chọn cấu hình sử dụng đồ đặc trưng P5 ký hiệu RetinaFocus using feature maps P5 Đối với liệu WIDER FACE val hard, ta chọn cấu hình sử dụng đồ đặc trưng C5 ký hiệu RetinaFocus using feature maps C5 Cả hai cấu hình thực vịng lặp dự đốn năm lần, với kích thước ảnh đầu vào mơ hình tương đương với kích thước ảnh gốc ban đầu với vòng lặp [500, 750] điểm ảnh, [800, 1200] điểm ảnh, [1100, 1650] điểm ảnh, [1400, 2100] điểm ảnh, [1700, 2550] điểm ảnh Trong so sánh hình 38, cấu hình mơ hình RetinaFocus cho kết độ xác thấp so với cấu hình mơ hình RetinaFace khoảng từ 1% - 2% Tuy nhiên, Nguyễn Hữu Minh Chương 45 xét khía cạnh tốc độ, cấu hình mơ hình RetinaFocus cho kết nhanh khoảng lần so với cấu hình tốt RetinaFace with Image Pyramids and Flip nhanh khoảng 1.5 lần so với cấu hình RetinaFace with single scale [1600, 2150] (a) (b) (c) Hình 38: Kết so sánh cấu hình tốt RetinaFocus với cấu hình RetinaFace ba liệu WIDER FACE val easy (a), medium (b) hard (c) Trên liệu WIDER FACE kích thước lớn lưới 2X2, kết so sánh thể hình 39, ta sử dụng hai cấu hình RetinaFace with Image Pyramids and Flip RetinaFace with single scale [1600, 2150] đại diện cho mơ hình RetinaFace Đối với mơ hình RetinaFocus, ta sử dụng cấu hình tốt tương ứng với liệu Ta chọn cấu hình sử dụng đồ đặc trưng P5 ký hiệu RetinaFocus using feature maps P5 dành cho WIDER FACE kích thước lớn lưới 2X2 val easy hard Ta chọn cấu hình sử dụng đồ đặc trưng C5 ký hiệu RetinaFocus using feature maps C5 dành cho WIDER FACE kích thước lớn lưới 2X2 val medium Nguyễn Hữu Minh Chương 46 Cả hai cấu hình thực vịng lặp dự đốn hai lần, với kích thước ảnh đầu vào mơ hình tương đương với kích thước ảnh gốc ban đầu với vòng lặp [800, 1200] điểm ảnh [1600, 2400] điểm ảnh Trong thí nghiệm này, kết cấu hình mơ hình RetinaFocus cho kết độ xác thấp so với cấu hình mơ hình RetinaFace khoảng từ 1% 2% Trên khía cạnh tốc độ, cấu hình mơ hình RetinaFocus cho kết nhanh khoảng lần so với cấu hình tốt RetinaFace with Image Pyramids and Flip nhanh khoảng 1.2 lần so với cấu hình RetinaFace with single scale [1600, 2150] Điều thể tham số chiến lược dự đoán cấu hình mơ hình RetinaFocus lựa chọn chưa thật xác phù hợp với mơ hình, dẫn đến kết dự đốn (a) (b) (c) Hình 39: Kết so sánh cấu hình tốt RetinaFocus với cấu hình RetinaFace ba liệu WIDER FACE kích thước lớn lưới 2X2 val easy (a), medium (b) hard (c) Nguyễn Hữu Minh Chương 47 Trên liệu WIDER FACE kích thước lớn lưới 3X3, kết so sánh thể hình 40, ta sử dụng hai cấu hình RetinaFace with Image Pyramids and Flip RetinaFace with single scale [1600, 2150] đại diện cho mô hình RetinaFace Đối với mơ hình RetinaFocus, ta sử dụng cấu hình tốt tương ứng với liệu Ta chọn cấu hình sử dụng đồ đặc trưng P5 ký hiệu RetinaFocus using feature maps P5 dành cho WIDER FACE kích thước lớn lưới 3X3 val easy Ta chọn cấu hình sử dụng đồ đặc trưng C5 ký hiệu RetinaFocus using feature maps C5 dành cho WIDER FACE kích thước lớn lưới 3X3 val medium Và ta chọn cấu hình sử dụng đồ đặc trưng P3 ký hiệu RetinaFocus using feature maps P3 dành cho WIDER FACE kích thước lớn lưới 3X3 val hard Cả ba cấu hình thực vịng lặp dự đốn hai lần, với kích thước ảnh đầu vào mơ hình tương đương với kích thước ảnh gốc ban đầu với vòng lặp [800, 1200] điểm ảnh [1600, 2400] điểm ảnh Trong thí nghiệm này, kết cấu hình mơ hình RetinaFocus khả quan nhiều Đối với WIDER FACE kích thước lớn lưới 3X3 val easy, cấu hình RetinaFocus using feature maps P5 cho kết 1% so với cấu hình mơ hình RetinaFace Về mặt tốc độ, cấu hình RetinaFocus using feature maps P5 nhanh so với cấu hình RetinaFace with Image Pyramids and Flip khoảng ba lần chậm so với cấu hình RetinaFace with single scale [1600, 2150] Đối với WIDER FACE kích thước lớn lưới 3X3 val medium, cấu hình RetinaFocus using feature maps C5 cho kết khoảng 0.4% so với cấu hình RetinaFace with Image Pyramids and Flip tốt khoảng 0.3% so với cấu hình RetinaFace with single scale [1600, 2150] Về mặt tốc độ, cấu hình RetinaFocus using feature maps C5 nhanh so với cấu hình RetinaFace with Image Pyramids and Flip khoảng ba lần chậm so với cấu hình RetinaFace with single scale [1600, 2150] Đối với WIDER FACE kích thước lớn lưới 3X3 val hard, cấu hình RetinaFocus using feature maps P3 cho kết tốt vượt trội so với cấu hình mơ hình RetinaFace khoảng 6% - 6.5% Về mặt tốc độ, cấu hình RetinaFocus using feature maps P3 nhanh so với cấu hình RetinaFace with Image Pyramids and Flip khoảng ba lần chậm so với cấu hình RetinaFace with single scale [1600, 2150] Tổng kết lại, tất liệu WIDER FACE, WIDER FACE kích thước lớn lưới 2X2 WIDER FACE kích thước lớn lưới 3X3, kết cấu hình mơ hình RetinaFocus đạt kết cạnh tranh độ xác (kém khoảng từ 1% - 2%) so với mô hình RetinaFace nguyên trì tốc độ tốt nhiều Đặc biệt, WIDER FACE kích thước lớn lưới 3X3 val hard gồm nhiều khn mặt nhỏ ảnh, cấu hình RetinaFocus using feature maps P3 cho kết tốt vượt trội so với cấu hình mơ hình RetinaFace ngun khoảng 6% - 6.5% trì tốc độ dự đoán nhanh Nguyễn Hữu Minh Chương 48 (a) (b) (c) Hình 40: Kết so sánh cấu hình tốt RetinaFocus với cấu hình RetinaFace ba liệu WIDER FACE kích thước lớn lưới 3X3 val easy (a), medium (b) hard (c) Nguyễn Hữu Minh Kết luận phương hướng phát triển Với phát triển khoa học cơng nghệ, kích thước ảnh thực tế sống ngày tăng điều địi hỏi mơ hình học sâu xử lý với độ xác cao tốc độ nhanh Rào cản phần vượt qua thơng qua nghiên cứu năm trở lại đây, giúp việc xử lý ảnh chất lượng cao trở nên dễ dàng, xác tiết kiệm chi phí tính tốn Từ tảng nghiên cứu gần với mục tiêu giải tốn nhận diện khn mặt ảnh chất lượng cao, đóng góp tính luận văn bao gồm: - Mơ hình RetinaFocus giúp cải thiện độ xác tốc độ mơ hình học sâu giải tốn nhận diện khuôn mặt với ảnh chất lượng cao nhiều So sánh với mơ hình ngun bản, mơ hình RetinaFocus tăng tốc q trình dự đốn trì độ xác tương đương liệu nhận diện khuôn mặt - Bộ liệu WIDER FACE kích thước lớn giúp đánh giá cách xác khách quan độ xác tốc độ mơ hình RetinaFocus việc xử lý ảnh chất lượng cao, so sánh với kết mơ hình ngun Từ đó, mơ hình RetinaFocus tiền đề cho nghiên cứu khác giải tốn nhận diện khn mặt nhận diện đối tượng ảnh chất lượng cao tương lai 49 Chỉ mục từ khoá AlexNet, 11 background, 16, 22, 28, 36 bounding box, toán phân loại ảnh, đồ đặc trưng, 8, 9, 12–14, 16, 19, 21, 22, 24, 25, 27, 40–45, 47 channel, 14, 19 face detection, Faster R-CNN, 12, 14, 19 Feature Pyramid Network, 13 Feature Pyramid Networks, 12 Featurized image pyramid, 12 foreground, 16 FPN, 12–14, 19 grid, 15, 16 groundtruth, 9, 15, 17, 19, 23, 25, 26, 28 hai pha, 7, 15, 17, 19 hàm mát, 9–11 hàm mát entropy chéo, 17 hàm mát entropy chéo cân bằng, 17 hàm mát entropy chéo nhị phân, 17 hàm mát Focal, 17, 18 hàm mát học tự giám sát, 22, 24 hàm mát đa nhiệm vụ, nhận diện khuôn mặt, nhận diện đối tượng, 1, 5, 7, 22–24 12–17, 19, 29, 49 hộp giới hạn, 5, 8, 9, 15, 16, 19, 20, 22, 23, object detection, 25–31, 34, 36, 44 object localization, image classification, phân loại ảnh, InceptionNet, 11 Pyramidal feature hierarchy, IoU, 9, 15, 19, 25–28 12 khu vực cần tập trung, 30, ResNet, 11 33 RetinaNet, 15–19 khu vực mỏ neo, 7–10, 15–19, 23 Single feature map, 12 kiến trúc pyramid, 12 single-stage, lan truyền ngược, 11 lớp Conv, 8, 12–15, 19 lớp fully connected, 15 lớp đối tượng, 7, 16, 19 SNIPER, SqueezeNet, 11 stride, 14 số vịng lặp, 33 mơ hình xương sống, 7, 8, 10–14 cân liệu, 10, 16, 17, 19 mát Focus, 17 pha, 7, 15, 16, 19, 21 thuật tốn người hàng xóm gần nhất, 14 two-stage, ngưỡng tự tin, 30, 33 nhánh tập trung đối tượng, 20–22, 24, 26, 28–30, 32, 33, 40–43 nhánh xác định đối tượng, 20–23, 25, 26, 29, 30 nhận diện danh tính khn mặt, 21, 22 50 upsample, 14 VGG, 11 VGG-16, 12 điểm ảnh, 8, 24–29, 32, 34, 37, 41–44, 46, 47 đường kết nối lateral, 13, 14 đường mơ hình lên, 13, 14 đường mơ hình xuống, 13, 14 định vị đối tượng, độ tự tin, 15, 30 Tài liệu tham khảo [1] Yanjia Zhu, Hongxiang Cai, Shuhan Zhang, Chenhao Wang, and Yichao Xiong Tinaface: Strong but simple baseline for face detection arXiv preprint arXiv:2011.13183, 2020 [2] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik Rich feature hierarchies for accurate object detection and semantic segmentation In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 580–587, 2014 [3] Ross Girshick Fast r-cnn In Proceedings of the IEEE international conference on computer vision, pages 1440–1448, 2015 [4] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun Faster r-cnn: Towards real-time object detection with region proposal networks Advances in neural information processing systems, 28, 2015 [5] Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He, Bharath Hariharan, and Serge Belongie Feature pyramid networks for object detection In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 2117–2125, 2017 [6] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C Berg Ssd: Single shot multibox detector In European conference on computer vision, pages 21–37 Springer, 2016 [7] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali Farhadi You only look once: Unified, real-time object detection, 2016 [8] Joseph Redmon and Ali Farhadi Yolo9000: Better, faster, stronger, 2016 [9] Joseph Redmon and Ali Farhadi Yolov3: An incremental improvement, 2018 [10] Alexey Bochkovskiy, Chien-Yao Wang, and Hong-Yuan Mark Liao Yolov4: Optimal speed and accuracy of object detection, 2020 [11] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and Piotr Dollár Focal loss for dense object detection In Proceedings of the IEEE international conference on computer vision, pages 2980–2988, 2017 [12] Bharat Singh and Larry S Davis An analysis of scale invariance in object detection snip In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 3578–3587, 2018 [13] Bharat Singh, Mahyar Najibi, and Larry S Davis Sniper: Efficient multi-scale training Advances in neural information processing systems, 31, 2018 51 [14] Xuehui Yu, Yuqi Gong, Nan Jiang, Qixiang Ye, and Zhenjun Han Scale match for tiny person detection In Proceedings of the IEEE/CVF winter conference on applications of computer vision, pages 1257–1265, 2020 [15] Mahyar Najibi, Bharat Singh, and Larry S Davis Autofocus: Efficient multi-scale inference In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 9745–9755, 2019 [16] Vit Ruzicka and Franz Franchetti Fast and accurate object detection in high resolution 4k and 8k video using gpus In 2018 IEEE High Performance extreme Computing Conference (HPEC), pages 1–7 IEEE, 2018 [17] Mingfei Gao, Ruichi Yu, Ang Li, Vlad I Morariu, and Larry S Davis Dynamic zoom-in network for fast object detection in large images In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6926–6935, 2018 [18] F Ozge Unel, Burak O Ozkalayci, and Cevahir Cigla The power of tiling for small object detection In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops, pages 0–0, 2019 [19] Shifeng Zhang, Xiangyu Zhu, Zhen Lei, Hailin Shi, Xiaobo Wang, and Stan Z Li S3fd: Single shot scale-invariant face detector In Proceedings of the IEEE international conference on computer vision, pages 192–201, 2017 [20] Xu Tang, Daniel K Du, Zeqiang He, and Jingtuo Liu Pyramidbox: A contextassisted single shot face detector In Proceedings of the European conference on computer vision (ECCV), pages 797–813, 2018 [21] Zhihang Li, Xu Tang, Junyu Han, Jingtuo Liu, and Ran He Pyramidbox++: High performance detector for finding tiny face arXiv preprint arXiv:1904.00386, 2019 [22] Jiankang Deng, Jia Guo, Evangelos Ververas, Irene Kotsia, and Stefanos Zafeiriou Retinaface: Single-shot multi-level face localisation in the wild In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5203–5212, 2020 [23] Jasper RR Uijlings, Koen EA Van De Sande, Theo Gevers, and Arnold WM Smeulders Selective search for object recognition International journal of computer vision, 104(2):154–171, 2013 [24] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton Imagenet classification with deep convolutional neural networks Advances in neural information processing systems, 25, 2012 [25] Karen Simonyan and Andrew Zisserman Very deep convolutional networks for large-scale image recognition arXiv preprint arXiv:1409.1556, 2014 52 [26] Christian Szegedy, Wei Liu, Yangqing Jia, Pierre Sermanet, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, and Andrew Rabinovich Going deeper with convolutions In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 1–9, 2015 [27] Forrest N Iandola, Song Han, Matthew W Moskewicz, Khalid Ashraf, William J Dally, and Kurt Keutzer Squeezenet: Alexnet-level accuracy with 50x fewer parameters and< 0.5 mb model size arXiv preprint arXiv:1602.07360, 2016 [28] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun Deep residual learning for image recognition In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016 [29] Shuo Yang, Ping Luo, Chen-Change Loy, and Xiaoou Tang Wider face: A face detection benchmark In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 5525–5533, 2016 [30] Jiankang Deng, Jia Guo, Niannan Xue, and Stefanos Zafeiriou Arcface: Additive angular margin loss for deep face recognition In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 4690–4699, 2019 [31] Kaipeng Zhang, Zhanpeng Zhang, Zhifeng Li, and Yu Qiao Joint face detection and alignment using multitask cascaded convolutional networks IEEE signal processing letters, 23(10):1499–1503, 2016 [32] Mahyar Najibi, Pouya Samangouei, Rama Chellappa, and Larry S Davis Ssh: Single stage headless face detector In Proceedings of the IEEE international conference on computer vision, pages 4875–4884, 2017 [33] Yuxiang Zhou, Jiankang Deng, Irene Kotsia, and Stefanos Zafeiriou Dense 3d face decoding over 2500fps: Joint texture & shape convolutional mesh decoders In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 1097–1106, 2019 [34] Kyle Genova, Forrester Cole, Aaron Maschinot, Aaron Sarna, Daniel Vlasic, and William T Freeman Unsupervised training for 3d morphable model regression In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 8377–8386, 2018 [35] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong Zhang, Han Hu, and Yichen Wei Deformable convolutional networks In Proceedings of the IEEE international conference on computer vision, pages 764–773, 2017 [36] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays, Pietro Perona, Deva Ramanan, Piotr Dollár, and C Lawrence Zitnick Microsoft coco: Common objects in context In European conference on computer vision, pages 740–755 Springer, 2014 53 [37] Olga Russakovsky, Jia Deng, Hao Su, Jonathan Krause, Sanjeev Satheesh, Sean Ma, Zhiheng Huang, Andrej Karpathy, Aditya Khosla, Michael Bernstein, et al Imagenet large scale visual recognition challenge International journal of computer vision, 115(3):211–252, 2015 [38] Mark Everingham, Luc Van Gool, Christopher KI Williams, John Winn, and Andrew Zisserman The pascal visual object classes (voc) challenge International journal of computer vision, 88(2):303–338, 2010 [39] Maryam Rahnemoonfar, Tashnim Chowdhury, Argho Sarkar, Debvrat Varshney, Masoud Yari, and Robin Roberson Murphy Floodnet: A high resolution aerial imagery dataset for post flood scene understanding IEEE Access, 9:89644–89654, 2021 [40] Pavel Korshunov and Touradj Ebrahimi Uhd video dataset for evaluation of privacy In 2014 Sixth International Workshop on Quality of Multimedia Experience (QoMEX), pages 232–237 IEEE, 2014 [41] Jan Pfister, Konstantin Kobs, and Andreas Hotho Self-supervised multi-task pretraining improves image aesthetic assessment In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 816–825, 2021 [42] Pengfei Zhu, Longyin Wen, Dawei Du, Xiao Bian, Heng Fan, Qinghua Hu, and Haibin Ling Detection and tracking meet drones challenge arXiv preprint arXiv:2001.06303, 2020 [43] Piotr Dollár, Christian Wojek, Bernt Schiele, and Pietro Perona Pedestrian detection: A benchmark In 2009 IEEE conference on computer vision and pattern recognition, pages 304–311 IEEE, 2009 [44] Vidit Jain and Erik Learned-Miller Fddb: A benchmark for face detection in unconstrained settings Technical report, UMass Amherst technical report, 2010 [45] Xiangxin Zhu and Deva Ramanan Face detection, pose estimation, and landmark localization in the wild In 2012 IEEE conference on computer vision and pattern recognition, pages 2879–2886 IEEE, 2012 [46] Martin Koestinger, Paul Wohlhart, Peter M Roth, and Horst Bischof Annotated facial landmarks in the wild: A large-scale, real-world database for facial landmark localization In 2011 IEEE international conference on computer vision workshops (ICCV workshops), pages 2144–2151 IEEE, 2011 [47] Christos Sagonas, Georgios Tzimiropoulos, Stefanos Zafeiriou, and Maja Pantic 300 faces in-the-wild challenge: The first facial landmark localization challenge In Proceedings of the IEEE international conference on computer vision workshops, pages 397–403, 2013 54 [48] Junjie Yan, Xuzong Zhang, Zhen Lei, and Stan Z Li Face detection by structural models Image and Vision Computing, 32(10):790–799, 2014 [49] Bin Yang, Junjie Yan, Zhen Lei, and Stan Z Li Fine-grained evaluation on face detection in the wild In 2015 11th IEEE International Conference and Workshops on Automatic Face and Gesture Recognition (FG), volume 1, pages 1–7 IEEE, 2015 [50] Jordan Cheney, Ben Klein, Anil K Jain, and Brendan F Klare Unconstrained face detection: State of the art baseline and challenges In 2015 International Conference on Biometrics (ICB), pages 229–236 IEEE, 2015 [51] Qiong Cao, Li Shen, Weidi Xie, Omkar M Parkhi, and Andrew Zisserman Vggface2: A dataset for recognising faces across pose and age In 2018 13th IEEE international conference on automatic face & gesture recognition (FG 2018), pages 67–74 IEEE, 2018 [52] Xueyang Wang, Xiya Zhang, Yinheng Zhu, Yuchen Guo, Xiaoyun Yuan, Liuyu Xiang, Zerun Wang, Guiguang Ding, David Brady, Qionghai Dai, et al Panda: A gigapixel-level human-centric video dataset In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 3268–3278, 2020 [53] C Lawrence Zitnick and Piotr Dollár Edge boxes: Locating object proposals from edges In European conference on computer vision, pages 391–405 Springer, 2014 55

Định dạng
Số trang	57
Dung lượng	1,61 MB