Ứng dụng các mô hình học sâu giải quyết một số bài toán phân tích và xử lý hình ảnh

58 4 0
Ứng dụng các mô hình học sâu giải quyết một số bài toán phân tích và xử lý hình ảnh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Ứng dụng mơ hình học sâu giải số tốn phân tích xử lý hình ảnh NGUYỄN HỮU MINH Minh.NH202955M@sis.hust.edu.vn Ngành: Toán Tin Chuyên ngành: Toán Tin Giảng viên hướng dẫn: TS Bùi Xuân Diệu Bộ mơn: Tốn Chữ ký GVHD Viện: Toán ứng dụng Tin học HÀ NỘI, 08/2022 CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Nguyễn Hữu Minh Đề tài luận văn: Ứng dụng mơ hình học sâu giải số tốn phân tích xử lý hình ảnh Chun ngành: Toán Tin Mã số SV: 20202955M Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 31/08/2022 với nội dung sau: Bổ sung thêm cấu hình phần cứng sử dụng trình huấn luyện dự đoán thử nghiệm thời gian huấn luyện mơ hình Ngày 31 tháng 08 năm 2022 Giáo viên hướng dẫn Tác giả luận văn CHỦ TỊCH HỘI ĐỒNG SĐH.QT9.BM11 Ban hành lần ngày 11/11/2014 Lời cảm ơn Với lịng biết ơn vơ sâu sắc, xin gửi lời cảm ơn chân thành đến q Thầy Cơ Viện Tốn ứng dụng Tin học, Đại học Bách Khoa Hà Nội quý đồng nghiệp từ phận AI Research, Công ty TNHH Pixta Vietnam tạo điều kiện hỗ trợ dành cho vốn kiến thức quý báu Đặc biệt, xin chân thành cảm ơn TS Bùi Xuân Diệu tận tâm hướng dẫn suốt thời gian vừa qua Nhờ có lời hướng dẫn thầy mà luận văn tơi hồn thành cách tốt Tơi mong nhận ý kiến đóng góp quý Thầy Cô bạn học để luận văn tơi hồn thiện Tơi xin chân thành cảm ơn! Tóm tắt nội dung luận văn Cách mạng công nghiệp 4.0 mang đến cho người kỷ ngun khai phá liệu với mơ hình học sâu giúp giải toán thị giác máy tính nói chung tốn xử lý hình ảnh nói riêng Nổi bật thu hút nhiều quan tâm số tốn nhận diện đối tượng nhận diện khuôn mặt Tuy nhiên, với phát triển khoa học công nghệ, nhu cầu không dừng lại việc xử lý tốn với ảnh có kích thước nhỏ mà cịn ảnh có kích thước lớn Trong khuôn khổ luận văn, nghiên cứu phân tích mơ hình học sâu có sẵn giải toán nhận diện đối tượng nhận diện khuôn mặt Hơn nữa, đề xuất số tính sau: - Mơ hình RetinaFocus giải tốn nhận diện khn mặt ảnh chất lượng cao với chi phí tính tốn thấp - Bộ liệu WIDER FACE kích thước lớn gồm nhiều ảnh chất lượng cao giúp đánh giá cách khách quan độ xác tốc độ mơ hình nhận diện khn mặt Hà Nội, ngày tháng năm Học viên thực Mục lục Lời cảm ơn Tóm tắt nội dung luận văn 1 Danh sách hình vẽ Phát biểu tốn Chương Cơ sở lý thuyết 1.1 Mơ hình Faster R-CNN 1.2 Kiến trúc Feature Pyramid Networks 1.3 Mơ hình RetinaNet Chương Mô hình đề xuất 2.1 Tổng quan ý tưởng mơ hình RetinaFocus 2.2 Chi tiết kiến trúc mơ hình RetinaFocus 2.3 Chiến lược dự đoán mơ hình RetinaFocus Chương Dữ liệu thực nghiệm 11 15 20 20 21 30 34 3.1 Bộ liệu WIDER FACE 34 3.2 Bộ liệu WIDER FACE kích thước lớn 37 3.3 Các thí nghiệm kết mơ hình RetinaFocus 40 Kết luận phương hướng phát triển 49 Chỉ mục từ khoá 50 Tài liệu tham khảo 51 Danh sách hình vẽ Kiến trúc mơ hình RPN (Nguồn: [4]) So sánh kiến trúc xử lý vấn đề đối tượng có kích thước khác tỷ lệ chiều dài chiều rộng khác (Nguồn: [4]) Toàn cảnh kết hợp mơ hình RPN Fast R-CNN tạo mơ hình Faster R-CNN (Nguồn: [4]) 10 So sánh kiến trúc pyramid khác (Nguồn: [5]) 12 So sánh kiến trúc theo dạng từ xuống khác (Nguồn: [5]) 13 Chi tiết kiến trúc FPN (Nguồn: [5]) 14 Chi tiết hai kiến trúc mơ hình pha tiếng SSD YOLO (Nguồn: [6]) 15 Cách đề xuất khu vực mỏ neo mơ hình YOLO (Nguồn: [7]) 16 Cách đề xuất khu vực mỏ neo mơ hình SSD (Nguồn: [6]) 16 10 15 So sánh kết với tham số hàm mát Focal với hàm mát entropy chéo (Nguồn: [11]) 18 Kiến trúc mơ hình RetinaNet (Nguồn: [11]) 18 Kiến trúc mơ hình RetinaFocus 20 Kết mơ hình RetinaFace ngun liệu WIDER FACE val test (Nguồn: [22]) 21 Mơ hình RetinaFace ngun giúp cải thiện kết tốn nhận diện danh tính khuôn mặt (Nguồn: [22]) 22 Chi tiết kiến trúc nguyên khối Context Module (Nguồn: [32]) 16 Ý tưởng hàm mát đa nhiệm vụ mơ hình RetinaFace Ngồi 11 12 13 14 22 hàm mát học tự giám sát [33, 34], hàm mát lại kế thừa cho mơ hình RetinaFocus (Nguồn: [22]) 17 22 Vai trò lớp DCN hàm mát học tự giám sát kết mơ hình RetinaFace ngun liệu WIDER FACE (Nguồn: [22]) 23 18 Thống kê tỷ lệ diện tích vùng chứa đối tượng nhỏ (kích thước nhỏ 32 điểm ảnh), vừa (kích thước từ 32 đến 96 điểm ảnh) lớn (kích thước lớn 96 điểm ảnh) so sánh với diện tích background 19 20 21 ảnh liệu COCO [36] (Nguồn: [15]) 24 Các nhóm hộp giới hạn khác thuật toán Focus Pixel (Nguồn: [15]) 25 So sánh số lượng hộp giới hạn nhóm kích thước mà mơ hình RetinaFace dự đốn khơng dự đốn tương ứng với IoU 0.5 (a), IoU 0.75 (b), IoU 0.9 (c) 26 Tỷ lệ số lượng hộp giới hạn mà mơ hình RetinaFace dự đốn khơng dự đốn tương ứng với IoU 0.5 (a), IoU 0.75 (b), IoU 0.9 (c) nhóm kích thước hộp giới hạn 27 22 Tỷ lệ kích thước hộp giới hạn mà RetinaFace khơng dự đốn tương ứng với IoU 0.5 (a), IoU 0.75 (b), IoU 0.9 (c) 28 23 Chi tiết thuật toán sinh Focus Chips (Nguồn: [15]) 29 24 Ví dụ chế hoạt động thuật toán Focus Stacking (Nguồn: [15]) 29 25 Sơ đồ mơ chiến lược dự đốn mơ hình RetinaFocus 31 26 Một số ví dụ chiến lược dự đốn mơ hình AutoFocus (Nguồn: [15]) 32 27 28 29 30 31 32 33 So sánh số lượng độ đa dạng liệu WIDER FACE với số liệu khác (Nguồn: [29]) 34 So sánh độ khó liệu WIDER FACE với liệu khác (Nguồn: [29]) 35 Ví dụ mức độ khó khn mặt việc gán landmarks (Nguồn: [22]) 35 Các thơng số độ khó khn mặt việc gán landmarks (Nguồn: [22]) 36 Một số ví dụ liệu WIDER FACE (Nguồn: [29]) 36 Một ví dụ ảnh liệu WIDER FACE [29] (a) so sánh với liệu WIDER FACE kích thước lớn dạng lưới 2X2 (b) 3X3 (c) 37 Phân phối kích thước ảnh liệu WIDER FACE [29] (a) so sánh với liệu WIDER FACE kích thước lớn dạng lưới 2X2 (b) 3X3 (c) 34 38 Phân phối tỷ lệ kích thước hộp giới hạn kích thước ảnh liệu WIDER FACE [29] (a) so sánh với liệu WIDER FACE kích thước lớn dạng lưới 2X2 (b) 3X3 (c) 39 35 Kết so sánh cấu hình sử dụng đồ đặc trưng FPN làm đầu vào cho nhánh tập trung đối tượng ba liệu WIDER FACE val easy (a), medium (b) hard (c) 41 36 Kết so sánh cấu hình sử dụng đồ đặc trưng FPN làm đầu vào cho nhánh tập trung đối tượng ba liệu WIDER FACE kích thước lớn lưới 2X2 val easy (a), medium (b) hard (c) 42 37 Kết so sánh cấu hình sử dụng đồ đặc trưng FPN làm đầu vào cho nhánh tập trung đối tượng ba liệu WIDER FACE kích thước lớn lưới 3X3 val easy (a), medium (b) hard (c) 43 38 39 40 Kết so sánh cấu hình tốt RetinaFocus với cấu hình RetinaFace ba liệu WIDER FACE val easy (a), medium (b) hard (c) 45 Kết so sánh cấu hình tốt RetinaFocus với cấu hình RetinaFace ba liệu WIDER FACE kích thước lớn lưới 2X2 val easy (a), medium (b) hard (c) 46 Kết so sánh cấu hình tốt RetinaFocus với cấu hình RetinaFace ba liệu WIDER FACE kích thước lớn lưới 3X3 val easy (a), medium (b) hard (c) 48 Phát biểu toán Bài toán nhận diện đối tượng Bài toán nhận diện đối tượng (object detection) toán phổ biến lĩnh vực thị giác máy tính coi số toán máy học kinh điển Một số ứng dụng toán như: y tế giúp nhận diện vị trí bị bệnh thể, bảo mật giúp định nhận diện người khu vực cấm, nông nghiệp giúp xác định số lượng nông sản Bài toán nhận diện đối tượng tổng hợp hai toán con: toán định vị đối tượng (object localization) toán phân loại ảnh (image classification) Cụ thể hơn, toán định vị đối tượng tốn xác định vị trí đối tượng ảnh hộp giới hạn (bounding box) đại diện cho vị trí đối tượng Trong đó, toán phân loại ảnh giúp xác định đối tượng vừa định vị đối tượng Với quan tâm giới nghiên cứu cho toán nhận diện đối tượng, có nhiều nghiên cứu giải pháp đời đạt độ xác cao chạy thời gian thực Bài toán nhận diện khn mặt Bài tốn nhận diện khn mặt (face detection) toán tảng quan trọng cho nhiều tốn khác khn mặt xác thực khuôn mặt, sinh ảnh khuôn mặt, phân lớp thuộc tính khn mặt Những ứng dụng nhóm tốn liên quan đến khn mặt kể đến nhận diện khách hàng, điểm danh chấm cơng, phân tích cảm xúc Với tiềm trên, nhận diện khuôn mặt trở thành nhánh nghiên cứu thu hút nhiều quan tâm giới nghiên cứu tính ứng dụng cao động lực đẩy độ xác mơ hình giải toán lên đến tuyệt đối Nhiều nghiên cứu nhấn mạnh vào đặc thù riêng biệt khuôn mặt người so với đối tượng vật nói chung để đưa giải pháp nhằm thúc đẩy độ xác mơ hình Tuy vậy, nghiên cứu [1], nhóm tác giả nhận diện khn mặt tốn toán nhận diện đối tượng giải cách hiệu mơ hình nhận diện đối tượng nói chung Bài tốn nhận diện khuôn mặt với ảnh chất lượng cao Mặc dù có nhiều nghiên cứu quan tâm đến tốn nhận diện đối tượng nhận diện khn mặt, tồn vấn đề nan giải toán nhận diện ảnh chất lượng cao chụp từ camera đại Việc xử lý hình ảnh có kích thước lớn 4K (3840×2160) hay 8K (7680×4320) mơ hình học sâu gây nhiều vấn đề chi phí thời gian tính tốn Do đó, việc sử dụng hình ảnh chất lượng cao q trình dự đốn khó, việc huấn luyện mơ hình với hình ảnh gần bất khả thi Một cách đơn giản thu nhỏ kích thước ảnh trước đưa vào mơ hình học sâu Tuy nhiên cách làm gây việc mát nhiều thông tin đối tượng ảnh, đặc biệt đối tượng có kích thước nhỏ Sau thu nhỏ ảnh ban đầu, đối tượng gần biến khỏi ảnh gây khó khăn cho mơ hình để thu thập đặc trưng đối tượng Vì vậy, ta cần giải pháp tốt để xử lý ảnh chất lượng cao, cho vừa đảm bảo độ xác vừa đảm bảo chi phí thời gian tính tốn mơ hình Chương Chương Cơ sở lý thuyết Các nghiên cứu đại việc giải tốn nhận diện khn mặt nhận diện khuôn mặt ảnh chất lượng cao kế thừa nhiều ý tưởng từ nghiên cứu giải tốn nhận diện đối tượng Các mơ hình giải toán nhận diện đối tượng chia thành hai nhóm: nhóm mơ hình hai pha (two-stage) nhóm mơ hình pha (single-stage) Các mơ hình hai pha phổ biến R-CNN [2], Fast R-CNN [3], Faster R-CNN [4] FPN [5] Các mơ hình hai pha đạt độ xác cao, nhiên, tốc độ chạy không thật nhanh động lực để mơ hình pha đời Các mơ hình pha tiếng thu hút nhiều quan tâm SSD [6], chuỗi mơ hình YOLO [7, 8, 9, 10], RetinaNet [11] Bên cạnh đó, nhiều nghiên cứu năm gần tập trung vào việc xử lý ảnh chất lượng cao Các mơ hình hướng tới việc trì tăng cường độ xác mơ hình nhận diện đối tượng tiết kiệm tối đa chi phí tính tốn Một số nghiên cứu đáng ý SNIP [12], SNIPER [13], Scale Match [14] hướng đến trình huấn luyện mơ hình với ảnh chất lượng cao, AutoFocus [15], Attention pipeline [16], Dynamic Zoom-in [17], PeleeNet [18] đưa ý tưởng cải thiện trình dự đốn mơ hình với ảnh chất lượng cao Lấy tảng từ mơ hình nhận diện đối tượng, mơ hình nhận diện khn mặt bổ sung chỉnh sửa số điểm nhằm tăng độ xác liệu khuôn mặt Dựa SSD [6], mơ hình S3FD [19] thay đổi chiến lược sinh khu vực mỏ neo nhằm đạt độ xác cao liệu khn mặt Mơ hình Pyramid Box [20] Pyramid Box++ [21] thay đổi kiến trúc mơ hình FPN [5] phù hợp tốn nhận diện khn mặt Hay mơ hình RetinaFace [22], kế thừa từ RetinaNet [11], sử dụng thêm liệu hàm mát đặc trưng khuôn mặt 1.1 Mơ hình Faster R-CNN Được lấy động lực từ điểm yếu mơ hình R-CNN [2] Fast R-CNN [3], nhóm tác giả nghiên cứu phát triển mơ hình Faster R-CNN [4] với trung tâm kiến trúc mơ hình Region Proposal Network (gọi tắt RPN) Mơ hình RPN kỳ vọng thay hồn tồn thuật tốn Selective Search [23] kiến trúc mơ hình two-stage giải toán nhận diện đối tượng, hướng đến việc cải thiện khơng tốc độ mơ hình mà cịn cải thiện độ xác Kiến trúc mơ hình RPN Mơ hình RPN nhận đầu vào ảnh với kích thước trả đầu toạ độ khu vực xác suất khu vực đối tượng lớp đối tượng Nhằm tiết kiệm chi phí tính tốn, mơ hình RPN dùng chung phần mơ hình xương sống với Fast R-CNN Nguyễn Hữu Minh

Ngày đăng: 04/06/2023, 13:08

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan