Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 141 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
141
Dung lượng
9,23 MB
Nội dung
BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH TRẦN VĂN DUYẾN TÁI TẠO HÌNH DẠNG 3D CỦA ĐỐI TƯỢNG THƠNG QUA HÌNH ẢNH PHÁC THẢO 2.5D Chuyên ngành: KHOA HỌC MÁY TÍNH Mã chuyên ngành: 60480101 LUẬN VĂN THẠC SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2019 Cơng trình hồn thành Trường Đại học Cơng nghiệp TP Hồ Chí Minh Người hướng dẫn khoa học: PGS.TS Phạm Thế Bảo Người phản biện 1: TS Lê Thành Sách Người phản biện 2: TS Trần Anh Tuấn Luận văn thạc sĩ bảo vệ Hội đồng chấm bảo vệ Luận văn thạc sĩ Trường Đại học Cơng nghiệp thành phố Hồ Chí Minh ngày …… tháng …… năm ……… Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: PGS.TS Huỳnh Trung Hiếu - Chủ tịch Hội đồng TS Lê Thành Sách - Phản biện TS Trần Anh Tuấn - Phản biện TS Đặng Thị Phúc - Ủy viên TS Phạm Thị Thiết - Thư ký CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA CNTT BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CƠNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: TRẦN VĂN DUYẾN MSHV:15117851 Ngày, tháng, năm sinh:16/11/1984 Nơi sinh: Hưng Yên Chuyên ngành: Khoa học máy tính Mã chuyên ngành: 60480101 I TÊN ĐỀ TÀI: Tái tạo hình dạng 3D đối tượng thơng qua hình ảnh phác thảo 2.5D NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu phương pháp tái tạo hình dạng 3D đối tượng từ mợt ảnh RGB mợt góc nhìn thơng qua hình ảnh phác thảo 2.5D Tìm hiểu, cài đặt, thực huấn luyện, thử nghiệm liệu đánh giá mơ hình II NGÀY GIAO NHIỆM VỤ: Theo Quyết định số 1486/QĐ-ĐHCN 25/06/2018 III NGÀY HOÀN THÀNH NHIỆM VỤ: 25/12/2018 IV NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS Phạm Thế Bảo Tp Hồ Chí Minh, ngày … tháng … năm 20 … NGƯỜI HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO TRƯỞNG KHOA CNTT LỜI CẢM ƠN Trước hết xin gửi lời cảm ơn chân thành tới tập thể thầy cô giáo Khoa Công nghệ Thông tin, Trường Đại học Công nghiệp TP Hồ Chí Minh giúp đỡ tận tình chu tơi có mợt mơi trường tốt cho học tập nghiên cứu Đặc biệt, xin bày tỏ lòng biết ơn sâu sắc tới thầy PGS.TS Phạm Thế Bảo, người trực tiếp hướng dẫn, bảo tận tình suốt q trình nghiên cứu hồn thiện luận văn Một lần xin gửi lời cảm ơn đến tất thầy cô giáo, gia đình, bạn bè đồng nghiệp quan giúp đỡ thời gian vừa qua i TÓM TẮT LUẬN VĂN THẠC SĨ Tái tạo đối tượng 3D từ mợt hình ảnh mợt vấn đề xác định rõ ràng, tốn địi hỏi kiến thức hình dạng 3D hợp lí Điều đưa thách thức cho phương pháp tiếp cận dựa học, thích đối tượng 3D có hình ảnh thực Các nghiên cứu trước thường chọn huấn luyện liệu tổng hợp với thông tin 3D thực tế, khơng thích ứng thử nghiệm liệu thực, điều dẫn đến hình dạng tái tạo chưa đạt hiệu tốt nhất, hầu hết chưa hợp lí khơng tương ứng với vật thể ngồi thực tế số nhiều hình dạng giải thích cho mợt quan sát có nhiều hình dạng phù hợp với hình ảnh 2D tốt nhau; tức là, khơng xác định hình dạng 3D xác đối tượng đầu vào một ảnh đơn Các tiếp cận theo hướng giám sát đầy đủ không giải vấn đề thường tạo hình dạng với bề mặt nhẵn khơng có chi tiết tốt Nghiên cứu tìm hiểu đánh giá lại mợt mơ hình huấn luyện từ đầu đến cuối cách tích hợp mơ hình học sâu, có khả ước tính phác thảo 2.5D hình dạng đối tượng 3D Đầu tiên, so với hình dạng 3D đầy đủ, phác thảo 2.5D dễ dàng phục hồi từ hình ảnh 2D; mơ hình phục hồi phác thảo 2.5D có nhiều khả chuyển từ liệu tổng hợp sang liệu thực Thứ hai, để tái tạo hình dạng 3D từ phác thảo 2.5D, hệ thống học hồn tồn từ liệu tổng hợp Điều dễ dàng hiển thị phác thảo 2.5D thực tế mà khơng cần mơ hình hóa biến thể xuất đối tượng ảnh thật, bao gồm ánh sáng, kết cấu, , điều làm giảm vấn đề thích ứng miền Thứ ba, cách tích hợp mợt mạng học sâu với hình dạng bất lợi học từ trước điều chỉnh mơ hình hình dạng 3D đầu khơng phù hợp với hình dạng thực tế giúp tái tạo hồn chỉnh hình dạng đối tượng mợt cách xác ii ABSTRACT Reconstructing 3D objects from a single image is a well-defined problem which requires knowledge of reasonable 3D shapes This introduces challenges for learningbased approaches, as 3D object annotations are scarce in real images The previous researches have often chosen training on synthetic data with ground truth 3D information, but are not adaptive when testing on real data, which results in the most inefficient rendering shape, most of which are unreasonable and not correspond to real objects or among many shapes that can explain an observation that there will be many shapes that fit the 2D image equally well ; i.e., it is impossible to determine the most accurate 3D shape of an object for input as a single image Existing fully supervised approaches not solve these problems and often produce shapes with smooth surfaces but without fine details This study research and re-evaluates an end-to-end trainable model by integrating deep generation learning models that are capable of sequential estimation of 2.5D sketches and 3D object shapes First, compared to full 3D shape, 2.5D sketches are much easier to be recovered from a 2D image; models that recover 2.5D sketches are also more likely to transfer from synthetic to real data Second, 3D shape reconstruction from 2.5D sketches, systems can learn purely from synthetic data This is because we can easily render realistic 2.5D sketches without modeling object appearance variations in real images, including lighting, texture, … Third, by integrating deep generative network with adversarially learned shape priors that penalize the model only if its output is unrealistic This helps to completely reconstruct the shape of the object iii LỜI CAM ĐOAN Tôi xin cam đoan nợi dung luận văn “Tái tạo hình dạng 3D đối tượng thơng qua hình ảnh phác thảo 2.5D” thực hướng dẫn thầy PGS TS Phạm Thế Bảo Những nợi dung trình bày luận văn cá nhân, tổng hợp từ nhiều nguồn tài liệu khác Tất tài liệu tham khảo có xuất xứ rõ ràng trích dẫn đầy đủ Tơi xin chịu hồn tồn trách nhiệm chịu hình thức kỉ luật theo quy định cho lời cam đoan Học viên Trần Văn Duyến iv MỤC LỤC MỤC LỤC v DANH MỤC HÌNH ẢNH vii DANH MỤC BẢNG BIỂU x DANH MỤC TỪ VIẾT TẮT xi MỞ ĐẦU .1 Đặt vấn đề Mục tiêu nghiên cứu Đối tượng phạm vi nghiên cứu .2 Cách tiếp cận phương pháp nghiên cứu Ý nghĩa thực tiễn đề tài CHƯƠNG TỔNG QUAN 1.1 Bài toán Tái tạo hình dạng 3D trực tiếp từ mợt ảnh RGB 1.2 Các hướng tiếp cận 1.2.1 Phương pháp sử dụng mạng nhúng TL .4 1.2.2 Phương pháp sử dụng mạng đối kháng để sinh mẫu có bợ mã hóa tự đợng thay đổi 3D 1.2.3 Phương pháp sử dụng mạng neural tái tạo hồi quy 3D .11 1.3 Khó khăn thử thách .19 1.4 Đề xuất hướng giải .20 CHƯƠNG CƠ SỞ LÝ THUYẾT .21 2.1 Nhận thức hình dạng 3D người 21 2.1.1 Biểu diễn phác thảo sơ cấp 22 2.1.2 Phác thảo 2.5D 23 2.2 Các biểu diễn hình ảnh 2D 3D máy tính .25 2.2.1 Biểu diễn 2D 25 2.2.2 Biểu diễn 3D 26 2.3 Mạng neural tích chập .28 2.3.1 Tốn tử tích chập .28 2.3.2 Kiến trúc CNN 30 v 2.3.3 Huấn luyện CNN .38 2.3.4 Mạng neural tích chập 2.5D 3D 46 2.4 Các CNN sử dụng mơ hình 48 2.4.1 Mạng thặng dư 48 2.4.2 Mạng đối kháng sinh mẫu Wasserstein .53 CHƯƠNG MƠ HÌNH TÁI TẠO HÌNH DẠNG 3D 64 3.1 Mơ hình 64 3.1.1 Cơng cụ ước tính phác thảo 2.5D .65 3.1.2 Cơng cụ ước tính hình dạng 3D 71 3.1.3 Công cụ tinh chỉnh đợ xác hình dạng 3D dự đốn 74 3.2 Huấn luyện mơ hình .79 3.2.1 Các thông số huấn luyện 79 3.2.2 Huấn luyện mơ hình 81 3.3 Thử nghiệm mơ hình 92 3.3.1 Các thông số thử nghiệm 92 3.3.2 Thử nghiệm mơ hình 93 3.4 Phương pháp đánh giá kết mơ hình 99 CHƯƠNG KẾT QUẢ VÀ ĐÁNH GIÁ 106 4.1 Môi trường thực nghiệm 106 4.2 Dữ liệu 106 4.3 Kết đạt 107 4.4 Đánh giá kết 117 KẾT LUẬN 120 Kết luận 120 1.1 Ưu điểm 120 1.2 Hạn chế 120 Kiến nghị 121 TÀI LIỆU THAM KHẢO 122 PHỤ LỤC 126 LÝ LỊCH TRÍCH NGANG CỦA HỌC VIÊN 127 vi DANH MỤC HÌNH ẢNH Hình 1.1 Biểu diễn một không gian nhúng Hình 1.2 Kiến trúc mạng nhúng TL Hình 1.3 Kết tái tạo bợ liệu IKEA mạng nhúng TL Hình 1.4 Kiến trúc mạng đối kháng sinh mẫu GAN Hình 1.5 Trình sinh mẫu 3D-GAN Hình 1.6 Kiến trúc mạng VAE-GAN 10 Hình 1.7 Kết tái tạo bợ liệu IKEA mạng 3D-VAE-GAN .11 Hình 1.8 Kiến trúc mạng 3D-R2N2 12 Hình 1.9 Kiến trúc mạng LSTM 13 Hình 1.10 Kiến trúc mạng 3D-R2N2 15 Hình 1.11 Biểu diễn đầu vào cho LSTM (a), 3D-LSTM (b) 3D-GRU (c) 17 Hình 1.12 Kết tái tạo bợ liệu PASCAL VOC mạng 3D-R2N2 19 Hình 2.1 Hình ảnh khác ghế có hình dạng 3D .21 Hình 2.2 Biểu diễn mức đợ nhận thức hình dạng 3D người 21 Hình 2.3 Ví dụ biểu diễn mức đợ nhận thức hình dạng 3D người 22 Hình 2.4 Ảo ảnh Necker 23 Hình 2.5 Mợt ví dụ phác thảo 2.5D 24 Hình 2.6 Biểu diễn trực quan 2.5D ảnh RGB 24 Hình 2.7 Ảnh 2D biểu diễn điểm ảnh ảnh .25 Hình 2.8 Các dạng biểu diễn 3D .26 Hình 2.9 Tương quan độ phân giải mật độ voxel 27 Hình 2.10 Biểu diễn đám mây điểm một ghế .27 Hình 2.11 Ảnh hưởng bợ lọc phát cạnh 5×5 hình ảnh 30 Hình 2.12 Các thành phần mợt CNN 30 Hình 2.13 Kiến trúc kết nối đầy đủ với ba đầu vào mợt lớp ẩn 31 Hình 2.14 Các trường tiếp nhận tồn cục (a) cục bợ (b) 32 Hình 2.15 Trượt trường tiếp nhận cục bợ đầu vào 16×16 phần tử 32 Hình 2.16 Mợt lớp tích chập tạo đồ đặc trưng 𝑓 có kích thước 12×12 33 vii Hình 4.9 Kết xử lí tái tạo hồn chỉnh hình dạng 3D đối tượng mợt số hình ảnh máy bay, xe ghế mơ hình 113 Thực huấn luyện thử nghiệm lần riêng biệt mơ hình với từ điển liệu (nêu mục 4.2), sau đánh giá mơ hình phương diện định tính định lượng Về đánh giá định tính kết hiển thị hình dạng 3D mơ hình dự đốn từ hình ảnh RGB chế đợ xem mợt góc nhìn, thấy cấu trúc bợ mã hóa - giải mã thơng thường thường tạo hình dạng trung bình với mợt vài chi tiết, mơ hình dự đốn hình dạng có khác biệt chi tiết Ngoài ra, hình ảnh đối tượng có chi tiết bị che khuất, mơ hình dự đốn hình dạng 3D chất lượng cao, hợp lý, trông đẹp mắt tương đối đầy đủ phần khơng có hình ảnh đầu vào Khi sử dụng lỗi đợ xác, mạng điều chỉnh tạo hình dạng trung bình khơng hợp lý giảm thiểu lỗi giám sát Trong Hình 4.10, hiển thị hình dạng xây dựng lại từ mơ hình có khơng có lỗi đợ xác (nghĩa trước tinh chỉnh với lỗi 𝐿𝑒𝑥𝑎𝑐𝑡𝑖𝑛𝑔 ), với hình dạng dự đốn phương pháp 3D-EPN [36] hình dạng thực tế Kết hình dạng 3D mơ hình nghiên cứu tạo chứa chi tiết tốt so với kết từ 3DEPN Ngồi ra, hiệu suất mơ hình cải thiện đáng kể với lỗi đợ xác, dự đốn hình dạng hợp lý đầy đủ 114 Hình 4.10 Kết so sánh định tính với phương pháp 3D-EPN Đối với đánh giá định lượng, thực tính số IoU (Hình 4.11) tập hình dạng 3D kết đầu mơ hình cho lần thử nghiệm, tương ứng với lần thử nghiệm đối tượng ghế, xe máy bay; số IoU tính tốn lưu tệp tin result.csv (Hình 4.12) tính kết trung bình cho lần thử nghiệm để so sánh với số liệu kết phương pháp thực độ phân giải 323 , Bảng 4.1 mơ tả đợ xác trung bình lần thử nghiệm Bảng 4.2 mô tả so sánh số liệu IoU phương pháp, kết nghiên cứu đề tài đạt kết tốt 115 Hình 4.11 Tính số IoU Hình 4.12 Kết tính IoU tập liệu kết mơ hình 116 Bảng 4.1 Đợ xác trung bình lần thử nghiệm Số liệu IoU Thử nghiệm Ghế Xe Máy bay Trung bình Lần 0.501 0.786 0.564 0.617 Lần 0.485 0.735 0.512 0.577 Lần 0.483 0.767 0.547 0.599 Trung bình 0.490 0.763 0.541 0.598 Bảng 4.2 So sánh đợ xác phương pháp Số liệu IoU Ghế Xe Máy bay Trung bình Phương pháp thực [10] 0.488 0.698 0.452 0.529 Phương pháp đề tài 0.490 0.763 0.541 0.598 4.4 Đánh giá kết Qua việc so sánh kết cho thấy phương pháp đề xuất đề tài [10] đạt một số thành cơng định Về đánh giá định tính, mơ hình tái tạo thành cơng hình dạng 3D một đối tượng từ ảnh đơn RGB thông qua bước trung gia ảnh 2.5D ba đối tượng máy bay, xe ghế Mơ hình chọn số nhiều hình dạng phù hợp giải thích cho việc quan sát, tái tạo lại hình dạng 3D với chi tiết tốt; ngược lại, đầu từ 3D-EPN khơng có tổng hợp hình dạng không theo tỷ lệ thường bị mờ 117 Về đánh giá định lượng, qua lần huấn luyện thử nghiệm mơ hình tập liệu cho kết IoU khác có giá trị cao phương pháp thực hiện, kết giải thích sau: Thứ nhất, với thông số huấn luyện tập liệu huấn luyện, kết lần thử nghiệm (chỉ số IoU) có thay đổi việc xáo trợn ngẫu nhiên liệu huấn luyện sau epoch việc cập nhật gradient ngẫu nhiên Việc tính số IoU độ phân giải 323 không ảnh hưởng lớn đến kết cuối cùng, có chênh lệch kết IoU độ phân giải 323 1283 vào khoảng 0.2 thời gian tính tốn giảm nhiều (3 phút cho độ phân giải 323 so với 45 phút cho 1283) Thứ hai, việc thay đổi giảm kích thước kernel từ 7×7 thành 3×3 lớp tích chập Conv1 Resnet-18 mạng ước tính 2.5D mạng ước tính 3D mặt lí thuyết làm giảm nhiễu, làm mịn chi tiết ảnh tích chập làm tăng đợ xác kết Thứ ba, số IoU đối tượng xe cao xe khơng có nhiều chi tiết nhỏ, mảnh so với ghế máy bay nên kết nên đạt hiệu suất tái tạo cao Mơ hình thực chuyển tiếp liệu từ đầu đến cuối xử lí cho kết nhanh cho hình ảnh đầu vào (~0.7 giây) Tuy nhiên, bên cạnh cịn mợt số trường hợp cho kết thiếu sót khơng xác Quan sát kết đầu mơ hình nhận thấy có lỗi phổ biến đơi bị nhầm lẫn bợ phận đối tượng biến dạng ví dụ bánh xe ghế Hình 4.13a, bỏ lỡ bộ phận đối tượng không phổ biến vịng phía bánh xe Hình 4.13b, tạo mẫu khác thay Hình 4.13c gặp khó khăn việc khơi phục cấu trúc mỏng Hình 4.13d Mặc dù biểu diễn voxel cho phép kết hợp lỗi đợ xác, theo nhận định, mơ hình khuyến khích mạng tập trung vào phần hình dạng dày hơn, chúng mang nhiều trọng số hàm lỗi 118 Hình 4.13 Mợt số trường hợp sai sót tái tạo hình dạng 3D Trong mợt số trường hợp, kết tái tạo mơ hình khơng xác, hình dạng đối tượng bị dự đốn sai Lí vấn đề tập liệu huấn luyện chưa bao quát hết tất loại đối tượng tất góc nhìn; lớp đối tượng cụ thể, số lượng tập liệu không đồng loại đối tượng, chẳng hạn liệu máy bay chủ yếu tập trung tập liệu máy bay chở khách máy bay tiêm kích nên đưa hình ảnh mợt máy bay có hình dạng đặc biệt khác vào mơ hình thường xử lí đưa mợt kết mợt hình dạng thiếu chi tiết hình dạng khơng xác định, Hình 4.14 Hình 4.14 Hình dạng đầu chưa xác một số đối tượng 119 KẾT LUẬN Kết luận Luận văn nghiên cứu, tìm hiểu tốn tái tạo hình dạng 3D đối tượng thơng qua mợt số phương pháp tiếp cận; tìm hiểu hạn chế, khó khăn phương pháp đề xuất tìm hiểu, cài đặt đánh giá lại mợt nghiên cứu sử dụng hình ảnh phác thảo 2.5D [10] để giải vấn để tồn tái tạo 3D với mợt số kết đạt được, tương ứng với mục tiêu đề ban đầu 1.1 Ưu điểm Tìm hiểu hướng nghiên cứu phương pháp tái tạo hình dạng 3D từ ảnh RGB đơn, sở đánh giá hạn chế phương pháp nghiên cứu trước Tìm hiểu, nghiên cứu kiến thức hình ảnh 2D, 2.5D 3D máy tính; mạng tích chập; mạng neural sử dụng mơ hình để giải tốn tái tạo hình dạng 3D thơng qua hình ảnh phác thảo 2.5D Tìm hiểu, cài đặt đánh giá mợt phương pháp tái tạo hình dạng 3D thơng qua hình ảnh phác thảo 2.5D [10] Trên sở kiến thức nghiên cứu lí thuyết đạt được, cài đặt mơ hình thay đổi thơng số cấu trúc mạng mơ hình phù hợp với cấu hình máy tính có (tốc đợ xử lí GPU 4GB so với khuyến nghị >10GB) đánh giá lại nghiên cứu với kết đạt tốt (chỉ số IoU cao hơn), thời gian xử lí đầu vào cho kết đầu nhanh (