Cải tiến giải thuật phát triển chiều sâu điểm ảnh cho stereo camera

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐỖ NGỌC BÌNH PHƯƠNG CẢI TIẾN GIẢI THUẬT PHÁT TRIỂN CHIỀU SÂU ĐIỂM ẢNH CHO STEREO CAMERA IMPROVE THE DEPTH ALGORITHM FOR STEREO CAMERA BY TEMPORAL SUPERPIXELS METHOD Chuyên ngành : Kỹ thuật Cơ điện tử Mã số: 8520114 LUẬN VĂN THẠC SĨ TP HỒ CHÍ MINH, tháng 09 năm 2020 CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG -HCM Cán hướng dẫn khoa học: PGS.TS Nguyễn Quốc Chí Cán chấm nhận xét 1: PGS.TS Trương Đình Nhơn Cán chấm nhận xét 2: PGS.TS Lê Mỹ Hà Luận văn thạc sĩ bảo vệ Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 03 tháng 09 năm 2020 Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: TS Đoàn Thế Thảo TS Lê Thanh Hải PGS TS Trương Đình Nhơn PGS TS Lê Mỹ Hà TS Phùng Trí Cơng Xác nhận Chủ tịch Hội đồng đánh giá LV Trưởng Khoa quản lý chuyên ngành sau luận văn sửa chữa (nếu có) CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ tên học viên: ĐỖ NGỌC BÌNH PHƯƠNG MSHV:1870234 Ngày, tháng, năm sinh: 22/10/1987 Nơi sinh: TP.Hồ Chí Minh Chuyên ngành: Kỹ thuật Cơ điện tử Mã số : 8520114 I TÊN ĐỀ TÀI: Cải tiến giải thuật phát triển chiều sâu điểm ảnh cho stereo camera Improve the depth algorithm for stereo camera by temporal superpixels method II NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu phân tích ưu/nhược điểm thuật tốn tái dựng 3D truyền thống - Áp dụng thuật tốn từ đề xuất phương án cải thiện độ xác thời gian quét so với phương pháp có - Tăng độ xác quét 3D bề mặt có đặc trưng thấp - Lập trình kiểm tra mức độ cải thiện thuật toán đề xuất III NGÀY GIAO NHIỆM VỤ: 10/02/2020 IV NGÀY HOÀN THÀNH NHIỆM VỤ: 07/08/2020 V CÁN BỘ HƯỚNG DẪN (Ghi rõ học hàm, học vị, họ, tên): PGS.TS Nguyễn Quốc Chí, BM Cơ điện tử, Khoa Cơ Khí Tp HCM, ngày tháng 08 năm 2020 CÁN BỘ HƯỚNG DẪN (Họ tên chữ ký) CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên chữ ký) TRƯỞNG KHOA….……… (Họ tên chữ ký) Luận văn thạc sĩ Đỗ Ngọc Bình Phương LỜI CẢM ƠN Lời cảm ơn em xin chân thành gửi đến thầy PGS TS Nguyễn Quốc Chí hết lịng hướng dẫn em suốt trình thực luận văn Và luận văn khơng thể hồn tất khơng có dạy thầy Ngồi ra, em xin cảm ơn quý thầy cô môn Cơ điện tử truyền đạt kiến thức kinh nghiệm quý báu để em thực tốt nghiên cứu Em xin cảm ơn gia đình, người thân bạn bè CaLab hỗ trợ tài chính, thời gian kiến thức Một lần xin chân thành cảm ơn TP HCM, ngày 07 tháng 08 năm 2020 Đỗ Ngọc Bình Phương Luận văn thạc sĩ Đỗ Ngọc Bình Phương TĨM TẮT LUẬN VĂN Thị giác máy tính phát triển cách nhiều thập kỉ với mục đích ứng dụng thuật tốn để thu thập phân tích cách tự động thơng tin từ ảnh kĩ thuật số đoạn phim, qua tái dựng hệ thống thị giác mắt người Tái dựng mơ hình 3D phát triển mạnh mẽ ứng dụng vào nhiều lĩnh vực y học, khảo cổ, hay tự động hóa Hiện nay, có nhiều thuật tốn giải pháp đề xuất cho tái dựng 3D; nhiên độ xác thời gian quét mẫu hai vấn đề cần quan tâm chưa có phương pháp tối ưu cho hai yêu cầu Do tái dựng 3D đề tài quan tâm nghiên cứu khoa học Luận văn đề xuất phương án quét 3D stereo camera cải thiện độ xác so với phương pháp truyền thống đồng thời không tốn q nhiều tài ngun tính tốn cách (i) phân tích phương pháp truyền thống; (ii) từ đề xuất phương án cải tiến cách kết hợp thuật toán chuyển dịch ảnh, học sâu, phân tách mảng giới hạn biên; (iii) cuối tiến hành đánh giá kết hướng phát triển cho thuật toán ABSTRACT Computer vision is a field of science was developed decades ago that applies algorithms to collect and analyze information from digital photos or videos automatically, thereby imitates a human vision system 3D reconstruction has also been developed and applied in many fields such as medical, archeology, or automation Until now, there are many algorithms and solutions proposed for 3D reconstruction; however, the accuracy and scanning time are still the two big concerns and there is no optimal method for both of these requirements Therefore, 3D reconstruction is still an active topic for scientific research This thesis proposes a 3D scan solution with stereo camera that can improve accuracy compared to traditional methods and does not consume too many computational resources by (i) analyzing traditional methods; (ii) thereby proposing improvement options by combining algorithms such as temporal images, deep learning, superpixels and contour constraint; (iii) finally, evaluating of the results and discuss future improvement for the algorithm Luận văn thạc sĩ Đỗ Ngọc Bình Phương LỜI CAM ĐOAN Tôi xin cam kết tất nội dung trình bày luận văn khơng chép cơng trình nghiên cứu cá nhân hay tổ chức Tôi xin đảm bảo thực nghiêm túc việc trích dẫn tài liệu tham khảo sử dụng luận văn TP HCM, ngày 07 tháng 08 năm 2020 Đỗ Ngọc Bình Phương Luận văn thạc sĩ Đỗ Ngọc Bình Phương MỤC LỤC CHƯƠNG TỔNG QUAN 1.1 Tổng quan 1.2 Đặt vấn đề 1.3 Chi tiết số cơng trình nghiên cứu stereo camera 1.3.1 Định nghĩa stereo camera 1.3.2 Hiệu chỉnh ảnh (Rectification) 1.3.3 Tìm cặp điểm tương ứng CHƯƠNG CÁC THUẬT TOÁN CƠ SỞ 14 2.1 Thuật toán hiệu chỉnh ảnh (Rectification) 14 2.2 Guided Filter 17 2.3 Holistically-nested edge detection (HED) 19 2.4 Simple linear iterative clustering (SLIC) 21 CHƯƠNG PHƯƠNG ÁN ĐỀ XUẤT 26 3.1 Tổng quát thuật toán 26 3.2 Chi tiết thuật toán 27 3.2.1 Bước – Tiền xử lý 27 3.2.2 Bước – Tính tốn đồ cạnh (Contour Map) 27 3.2.3 Bước – Tạo superpixel cho ảnh trái ràng buộc contour map 28 3.2.3.a Tạo superpixel 28 3.2.3.b Phân rã superpixel theo ràng buộc contour 28 3.2.4 Bước – Ước tính vector dịch chuyển 31 3.2.5 Bước – Tạo superpixel cho ảnh phải ràng buộc contour map 37 3.2.5.a Tạo superpixel 37 3.2.5.b Phân rã superpixel theo ràng buộc contour 38 3.2.6 Bước – Khớp superpixel từ khớp pixel 39 CHƯƠNG KẾT QUẢ THỰC NGHIỆM, ĐÁNH GIÁ 43 4.1 Phần cứng máy tính 43 4.2 Phần mềm 43 4.3 Kết thực nghiệm cách đánh giá 43 CHƯƠNG KẾT LUẬN 48 5.1 Kết đạt 48 5.2 Mặt hạn chế 48 5.3 Hướng mở rộng 48 TÀI LIỆU THAM KHẢO 49 Luận văn thạc sĩ Đỗ Ngọc Bình Phương DANH MỤC HÌNH Hình 1.1 Các kĩ thuật tái dựng 3D Hình 1.2 Nguyên lý ToF Hình 1.3 Autodesk Recap Hình 1.4 Máy scan ATOS Hình 1.5 Cách xếp stereo camera Hình 1.6 Biểu diễn hình học cho tính tốn mơ hình stereo Hình 1.7 Ảnh stereo hiệu chỉnh .7 Hình 1.8 So sánh Hartley Zhang Hình 1.9 Minh hoạ cách tính SAD 10 Hình 1.10 Minh hoạ DSI 10 Hình 1.11 Minh hoạ semi-global 12 Hình 1.12 MI semi-global 13 Hình 2.1 Rectify stereo camera 14 Hình 2.2 Làm mịn ảnh 19 Hình 2.3 So sánh contour map Canny HED 21 Hình 2.4 Minh hoạ superpixel với nhiều kích thước khác 21 Hình 2.5 Tạo superpixel phương pháp SLIC 25 Hình 3.1 Tạo superpixel ảnh trái phương pháp SLIC 29 Hình 3.2 Đường thẳng nối pixel với tâm superpixel tương ứng 30 Hình 3.3 Hai đường giao lại khơng có pixel trùng 30 Hình 3.4 Quy trình nối đường (line-filling) 30 Hình 3.5 Dịch chuyển superpixel từ ảnh trái thành superpixel ảnh phải 33 Hình 3.6 Các superpixel lân cận 34 Hình 3.7 Bán kính giới hạn để tìm pixel lân cận 35 Hình 3.8 Trọng số superpixel lân cận 36 Hình 3.9 Superpixels ảnh phải 38 Hình 3.10 Superpixel tương ứng cặp ảnh stereo camera 39 Hình 3.11 Chồng lắp hai superpixel 41 Hình 4.1 So sánh diparity map từ SAD truyền thống phương pháp đề xuất 46 Hình 4.2 Minh hoạ chương trình C++ cho phương pháp đề xuất lập trình test qua Visual Studio 2017 47 Luận văn thạc sĩ Đỗ Ngọc Bình Phương DANH MỤC BẢNG Bảng 2.1 So sánh phương pháp tìm superpixels 22 Bảng 2.2 So sánh tốc độ độ xác phương pháp tạo superpixel 24 Bảng 3.1 Toạ độ điểm đường nối pixel với tâm superpixel tương ứng 29 Bảng 4.1 So sánh kết phương án đề xuất với SAD truyền thống tập ảnh Flowerpot 45 Luận văn thạc sĩ Đỗ Ngọc Bình Phương Tương tự bước 3.2.3.b, mục tiêu bước ta tiến hành kiểm tra xem superpixel ảnh phải có nằm đường contour hay khơng, có tiến thành chia tách superpixel theo đường contour Cho đến giai đoạn này, ta gán cho pixel cluster ID (Hay gọi superpixel ID) cho biết pixel thuộc superpixel Ta cần xét pixel để xem có bị chia cách với tâm superpixel hay khơng Nếu có ta tách pixel theo giống 3.2.3.b Lưu ý ta cần áp dụng kỹ thuật line filling để việc phân rã xác Theo hình bên dưới, ta thấy đồng superpixel trái superpixel phải Đây ưu điểm phương pháp dịch ảnh: (a) (b) Hình 3.10 (a) ảnh gốc, (b) ảnh biểu diễn superpixel tương đồng Hình 3.10 3.2.6 Bước – Khớp superpixel từ khớp pixel Đầu vào: Tập hợp chứa thông tin superpixel ảnh trái ảnh phải Đầu ra: Bản đồ chênh lệch (disparity map) Sau phân tách thành công superpixel, nhờ vào giải thuật dịch ảnh 39 Luận văn thạc sĩ Đỗ Ngọc Bình Phương ràng buộc contour, ta tiến hành trùng khớp Ưu điểm giải thuật đề xuất so với SAD truyền thống là: 1- Đối với bề mặt khơng có nhiều đặc trưng ví dụ bề mặt kim loại, gốm, v.v… mà màu sắc pixel giống vùng không gian lớn, việc áp dụng SAD túy cho kết khơng xác SAD tương đồng cho pixel lân cận Có thể khắc phục cách phủ lên bề mặt đặc trưng phun sơn, chiếu ánh sáng thành vân (light pattern), nhiên đồng nghĩa giảm khả tự động trình (nếu phủ sơn) tăng độ phức tạp giá thành (nếu sử dụng máy chiếu vân ánh sáng) Do vậy, phân tách superpixel, ta tạo vùng đặc trưng phần mềm, giúp cho việc khớp điểm tương ứng xác Do ta tiến hành khớp superpixel với trước 2- Sau trùng khớp superpixel, ta tiến hành khớp pixel với khoảng lân cận ràng buộc nằm superpixel tương ứng, nhờ mà khoảng so sánh chênh lệch (disparity range) giảm khoảng 1/3 so với SAD truyền thống Cụ thể, để thực hóa ưu điểm 1, ta tiến hành sau: Ta tạo vòng lặp, tiến hành duyệt danh sách ID tương ứng superpixel ảnh trái ảnh phải Như trình bày mục 3.2.5.a, superpixel ảnh phải có tượng overlap lên sau dịch chuyển, dẫn đến ID bảo tồn hình dạng superpixel có thay đổi Để đảm bảo trùng khớp, ta tiến hành di chuyển superpixel ảnh phải phía superpixel tương ứng ảnh trái cho số lượng pixel overlap nhiều Tuy nhiên, cặp superpixel tương ứng, ta không thiết phải dịch chuyển hết bề rộng superpixel tốn nhiều thời gian để duyệt tồn superpixel ảnh Thay vào đó, ta nhận thấy chuyển để trùng lấp, số lượng pixel trùng lấp tăng dần đạt cực đại (nghĩa trùng lấp nhiều nhất) bắt đầu giảm xuống Vì vậy, ta ngưng việc trùng lấp giảm Thực 40 Luận văn thạc sĩ Đỗ Ngọc Bình Phương nghiệm cho thấy thời gian xử lý giảm nửa Hình sau minh họa trình Ta để ý hình b, hai superpixel nằm hoàn toàn overlap với nhau, nên số lượng pixel overlap nhiều (a) (b) Hình 3.11 (a) Hai superpixel tương ứng, (b) Sau chồng lấp hai superpixel tương ứng Sau đó, ta tiến hành giải thuật SAD cho cặp superpixel trùng khớp Với mổi pixel nằm superpixel ảnh trái, ta mở rộng vùng tìm kiếm phía bên trái bên phải superpixel ảnh phải Ở ta dùng khoảng tìm kiếm số giải thuật SAD truyền thống để giảm bớt độ phức tạp giải thuật, nhiên có hướng mở rộng làm tăng thêm độ xác cách dùng khoảng tìm kiếm thay đổi, nghĩa khoảng tìm kiếm disparity cho pixel tính tốn thay đổi liên tục tùy theo biên superpixel mà phụ thuộc Khi hồn tất bước ta có đồ chênh lệch (disparity map) Disparity map ảnh có pixel tương ứng với ảnh trái, nhiên dạng grayscale mà cường độ pixel disparity tương ứng Tuy nhiên, lưu ý disparity thay đổi cho nhiều tình ảnh khác dẫn đến disparity map không tương đồng cảnh, vậy, ta cần tiến hành chuẩn hóa.Với ảnh grayscale, bit depth cho pixel bit tương ứng cường độ thay đổ khoảng [0,255] Ta duyệt hết disparity disparity map để tìm 41 Luận văn thạc sĩ Đỗ Ngọc Bình Phương giá trị disparity max (kí hiệu disp_max disp_min) Từ đó, ta map khoảng [disp_in, disp_max] khoảng [0,255] Ngồi ra, số ứng dụng matlab có hỗ trợ thể disparity map không gian màu RGB, nhiên nguyên lý tương tự Cuối cùng, để depth map, ta ứng dụng công thức 1.3, với đại lượng b (khoảng cách tâm hai camera), f (tiêu cự hai camera) d (disparity pixel ảnh), ta dễ dàng tính độ sâu z pixel ảnh trái Độ sâu tính từ tâm camera trái tới điểm nằm vật không gian (được thể pixel ảnh) 42 Luận văn thạc sĩ Đỗ Ngọc Bình Phương CHƯƠNG KẾT QUẢ THỰC NGHIỆM, ĐÁNH GIÁ 4.1 Phần cứng máy tính Chương trình thử nghiệm hệ thống phần cứng máy tính sau: - Intel® Core™ i7-8550U CPU @ 1.80GHz 1.99 GHz - Internal memory (RAM) 8.00 GB - GPU NVIDIA GeForce MX110 4.2 Phần mềm Chương trình viết ngôn ngữ: - C++ - Các thư viện hỗ trợ OpenCV - Ngồi ra, thuật tốn HED, ta sử dụng ngôn ngữ python sử dụng tảng deep learning, tập liệu Berkely BSDS500 NYU Depth có sẵn để train mạng neuron 4.3 Kết thực nghiệm cách đánh giá Ta sử dụng ảnh stereo mẫu 2006 datasets từ tảng middleburry với kích thước third size Ưu điểm tập dataset ngồi việc cho ta ảnh stereo cịn cung cấp cho ta ảnh ground truth (chứ thông tin disparity thực sự) để thuận tiện cho viêc đánh giá giải thuật Ngoài ra, tập liệu cho ta biết thông số stereo camera khoảng cách hai camera (b) tiêu cự (f) để tính độ sâu, nhiên quan hệ disparity độ sâu quan hệ tuyến tính theo cơng thức 1.3, nên ta cần tiến hành đánh giá disparity 43 Luận văn thạc sĩ Đỗ Ngọc Bình Phương Để đánh giá hiệu phương án giải thuật SAD truyền thống, ta cần lập trình giải thuật Trong OpenCV có hỗ trợ thư viện SAD, ta khơng sử dụng cho việc đánh giá thư viện SAD được cải tiến sử dụng GPU để tăng tốc tính tốn Cách đánh giá: Đầu vào: disparity map từ phương án đề xuất, disparity map từ SAD, disparity map từ ảnh ground truth Đầu ra: phần trăm số pixel xác so với ảnh ground truth Việc đánh giá phương pháp để kiểm chứng phát biểu: giải thuật đề xuất luận văn cải thiện độ xác phương pháp SAD hoặc, tình xấu giống với kết SAD không Đối với ảnh mẫu từ dataset, ta kiểm chứng theo hàng, lưu ý rằng, tượng che khuất (Nghĩa số pixel thấy ảnh trái thấy ảnh phải ngược lại, ta bỏ qua pixel quan tâm pixel nhìn thấy hai ảnh (tạm gọi pixel hiệu dụng) Ta kiểm tra disparity pixel so với disparity ground truth, độ xác chấp nhận +- 1, nằm khoảng ta xem disparity khơng khớp xác Cơng thức tổng qt là: GoodMatchRatio  Pixels _ Similar _ to _ GroundTruth Pixels _ On _ Epipolar (4.1) Cụ thể, ta sử dụng chương trình viết C++, với input disparity map từ phương pháp đề xuất ( I proposed ), disparity map từ phương pháp SAD ( ISAD ) disparity map từ ground truth( IGroundTruth ) Ta tạo vòng lặp cho hàng epipolar Các pixel khả dụng pixel có giá trị khác Ta tạo hai biến count_1 (để đếm số pixel 44 Luận văn thạc sĩ Đỗ Ngọc Bình Phương xác phương án đề xuất), count_2 (để đếm số pixel xác phương án SAD) If ( I proposed == IGroundTruth ) count_1 ++; If ( ISAD == IGroundTruth ) count_2 ++; Cuối cùng, với biến count_total = (tổng số pixel hàng epipolar đó), ta có: GoodMatchRatio _Pr oposed  count _1 count _ total GoodMatchRatio _ SAD  count _2 count _ total Ta tiến hành kiểm tra hết hàng (chính epipolar line), đây, luận văn thể ngẫu nhiên số hàng liệu đánh giá để minh họa cải thiện phương pháp: Hàng epipolar (Toạ độ y) Phương pháp đề xuất Phương pháp SAD (GoodMatchRatio_Proposed) (GoodMatchRatio_SAD) 11.26% 11.26% 10 12.27% 12.27% 20 5.63% 5.63% 57 14.50% 14.50% 100 42.79% 42.30% 150 33.50% 29.58% 200 28.26% 28.26% Bảng 4.1 So sánh kết phương án đề xuất với SAD truyền thống tập ảnh Flowerpot Kết cho thấy, xét pixel hiệu dụng, thực kết từ phương án đề xuất có cải thiện so với SAD truyền thống SAD truyền thống Về thời gian xử lý, phần cứng nêu, thuật toán SAD truyền thống tốn 45 Luận văn thạc sĩ Đỗ Ngọc Bình Phương khoảng trung bình phút cho cặp ảnh stereo kích thước 437x370 ảnh Cịn phương pháp đề xuất tốn khoảng trung bình phút cho tồn q trình, đó, xét giai đoạn matching SAD tốn phút Nên, bỏ qua bước tiền xử lý, so sánh giai đoạn matching phương pháp đề xuất nhanh giải thuật SAD truyền thống Ta chọn mẫu flowerpot làm minh hoạ đặc trưng bề mặt thấp So sánh disparity map SAD truyền thống phương pháp đề xuất luận văn, ta dễ dàng thấy phương pháp SAD truyền thống (Hình 4.1a) cho chi tiết không đầy đủ thiếu đặc trưng bề mặt, nhiên disparity map cải thiện nhiều với thuật tốn đề xuất (Hình 4.1b) hình 4.1c disparity map ground truth cung cấp với dataset để dùng cho việc đánh giá kết (a) (b) (c) Hình 4.1 Disparity map từ (a) SAD truyền thống, (b) phương pháp đề xuất, (c) ground truth 46 Luận văn thạc sĩ Đỗ Ngọc Bình Phương Các đoạn chương trình viết ngơn ngữ C++ chạy chế độ debug Visual Studio 2017 để thuận tiện cho việc phát triển module sửa chữa lỗi lúc lập trình Sau screenshot số module chương trình (a) (b) Hình 4.2 Minh hoạ chương trình C++ cho phương pháp đề xuất lập trình test qua Visual Studio 2017 47 Luận văn thạc sĩ Đỗ Ngọc Bình Phương CHƯƠNG KẾT LUẬN 5.1 Kết đạt - Ta thấy rằng, độ xác phương pháp đề xuất thật tốt so với phương pháp SAD truyền thống - Nếu không xét đến bước tiền xử lý so sánh giai đoạn matching phương pháp đề xuất giảm trung bình 1/3 so với phương pháp SAD khoảng tìm kiếm giảm khoảng 1/3 Điều hoàn toàn trùng khớp với kết dự đoán trước tiến hành kiểm tra thực nghiệm 5.2 Mặt hạn chế - Hiện phương pháp đề xuất chưa ứng dụng GPU xử lý song song để tăng tốc tính tốn (mặc dù khả thi cho thuật toán đề xuất) Nếu ứng dụng xử lý song song giúp cải thiện thời gian tính tốn - Mặc dù kết kiểm tra thực nghiệm cho thấy phương án đề xuất cho kết cải thiện so với SAD truyền thống mức độ cải thiện đánh giá thay đổi tùy vào thông số giai đoạn tiền xử lý - Chưa tiến hành giai đoạn tinh chỉnh từ liệu che khuất (occlusion) 5.3 Hướng mở rộng - Ứng dụng xử lý song song để cải thiện thời gian xử lý tồn q trình - Viết ứng dụng trực quan (user interface) cho phép người dùng thay đổi thông số bước tiền xử lý để xem kết lựa chọn thông số phù hợp - Tiến hành giai đoạn tinh chỉnh cross-checking (sử dụng ảnh phải làm ảnh gốc trùng khớp ảnh trái), hay lọc bỏ occlusion để giảm nhiễu trình trùng khớp 48 Luận văn thạc sĩ Đỗ Ngọc Bình Phương TÀI LIỆU THAM KHẢO [1] P N Binh Do, Q Chi Nguyen, "A Review of Stereo-Photogrammetry Method for 3-D Reconstruction in Computer Vision," in 19th International Symposium on Communications and Information Technologies (ISCIT), HCMC, Vietnam, pp 138143, 2019 [2] A Ivanavičius, H Simonavičius, J Gelšvartas, A Lauraitis, R Maskeliūnas, P Cimmperman and P Serafinavičius, “Real-time CUDA-based stereo matching using Cyclops2 algorithm,”in EURASIP Journal on Image and Video Processing, 2018 [3] R Khilar, S Chitrakala and S SelvamParvathy, "3D Image Reconstruction: Techniques, Applications and Challenges," in International Conference on Optical Imaging Sensor and Security (ICOSS), Coimbatore, pp 1–6, 2013 [4] B Julius, G Iñigo, G C Luis and F E Carlos, “3D Reconstruction Methods, a Survey,” in Proceedings of the First International Conference on Computer Vision Theory and Applications, pp 457–463, 2006 [5] S Lee, "Depth Camera Image Processing and Applications," in 19th IEEE International Conference on Image Processing, Orlando, FL, USA, pp 545–548, 2012 [6] Middlebury Stereo platform [Online] Available: https://vision.middlebury.edu/stereo [Accessed 20 January 2020] [7] S Lee, W Jang and C Kim, "Temporal Superpixels Based on ProximityWeighted Patch Matching," 2017 IEEE International Conference on Computer Vision (ICCV), Venice, pp 3630-3638, 2017 [8] Xie, Saining & Tu, Zhuowen, “Holistically-Nested Edge Detection,” 2015 [9] Achanta, Radhakrishna & Shaji, Appu & Smith, Kevin & Lucchi, Aurélien & Fua, Pascal & Süsstrunk, Sabine, “SLIC superpixels,” Technical report, EPFL, 2010 [10] R Jain, R Kasturi, and B G Schunck, “Introduction,” in Machine Vision New York, USA: McGraw-Hill, 1995 49 Luận văn thạc sĩ Đỗ Ngọc Bình Phương [11] H Hirschmuller, "Stereo Processing by Semiglobal Matching and Mutual Information," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 30, no 2, pp 328–341, 2008 [12] V Nozick, “Multiple View Image Rectification,” in 1st IEEE-International Symposium on Access Spaces (IEEE-ISAS’11), Japan, pp.277–282, 2011 [13] L Robert, C Zeller, O Faugeras, and M Hebert, “Applications of Non-Metric Vision to some Visually Guided Robotics Tasks,” in INRIA, Tech Rep RR-2584, 1995 [14] R.I Hartley, “Theory and Practice of Projective Rectification,” in International Journal of Computer Vision, vol 35, pp 115–127, 1999 [15] C Loop and Z Zhang, “Computing Rectifying Homographies for Stereo Vision,” in Computer Vision and Pattern Recognition, vol 1, pp 1125–1131, 1999 [16] G Fuhr, G P Fickel, L P Dal’Aqua, C R Jung, T Malzbender, and R Samadani, “An Evaluation of Stereo Matching Methods for View Interpolation,” in IEEE International Conference on Image Processing, pp 403–407, 2013 [17] D Scharstein, R Szeliski, & R Zabih, “A Taxonomy and Evaluation of Dense Two-Frame Stereo Correspondence Algorithms,” in Proceedings IEEE Workshop on Stereo and Multi-Baseline Vision (SMBV 2001), pp 131–140 [18] Tri Priyambodo, “Grid-Edge-Depth Map Building Employing SAD with Sobel Edge Detector,” in International Journal on Smart Sensing and Intelligent System, vol 10, no 13, pp 551–566, 2017 [19] C.-H Kim, H.-K Lee, and Y.-H Ha, "Disparity Space Image-Based Stereo Matching Using Optimal Path Searching," in Proc SPIE 5022, Image and Video Communications and Processing, pp 752–760, 2003 [20] M Bleyer and M Gelautz, “A Layered Stereo Matching Algorithm Using Image Segmentation and Global Visibility Constraints,” in ISPRS J Photogrammetry and Remote Sensing, vol 59, no 3, pp 128–150, 2005 [21] V Kolmogorov and R Zabih, “Computing Visual Correspondence with Occlusions Using Graph Cuts,” in Proc Int’l Conf Computer Vision, vol 2, pp 508–515, 2001 50 Luận văn thạc sĩ Đỗ Ngọc Bình Phương [22] Q Yang, L Wang, R Yang, H Stewenius, and D Nister, “Stereo Matching with Color-Weighted Correlation, Hierarchical Belief Propagation and Occlusion Handling,” in Proc IEEE Conf Computer Vision and Pattern Recognition, pp 492– 504, 2006 [23] C Lei, J Selzer, and Y.-H Yang, “Region-Tree Based Stereo Using Dynamic Programming Optimization,” in Proc IEEE Conf Computer Vision and Pattern Recognition, 2006 [24] J Sun, Y Li, S Kang, and H.-Y Shum, “Symmetric Stereo Matching for Occlusion Handling,” in Proc IEEE Conf Computer Vision and Pattern Recognition, vol 2, pp 399–406, 2005 [25] C L Zitnick, S B Kang, M Uyttendaele, S Winder, and R Szeliski, “HighQuality Video View Interpolation Using a Layered Representation,” in Proc ACM SIGGRAPH ’04, vol 23, no 3, pp 600–608, 2004 [26] A Blake and A Zisserman, Visual Reconstruction London, England: The MIT Press, 1987 [27] S T Barnard, “Stochastic Stereo Matching over Scale,” in IJCV, vol 3, no 1, pp 17–32, 1989 [28] S Geman and D Geman, “Stochastic relaxation, Gibbs distribution, and the Bayesian restoration of images,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol PAMI-6, no 6, pp 721–741, 1984 [29] J Marroquin, S Mitter, and T Poggio, “Probabilistic Solution of Ill-Posed Problems in Computational Vision,” in J Am Stat Assoc., vol 82, no 397, pp 76– 89, 1987 [30] P B Chou and C M Brown, “The Theory and Practice of Bayesian Image Labeling,” in International Journal of Computer Vision, vol 4, no 3, pp 185–210, 1990 [31] D Geiger and F Girosi, “Mean Field Theory for Surface Reconstruction,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 13, no 5, pp 617–630, 1991 51 Luận văn thạc sĩ Đỗ Ngọc Bình Phương [32] Y Boykov, O Veksler, and R Zabih, “Fast Approximate Energy Minimization via Graph Cuts,” in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 23, no 11, pp 1222–1239, 2001 [33] H Ishika and D Geiger, “Occlusions, Discontinuities, and Epipolar Lines in Stereo,” in Burkhardt H., Neumann B (eds) Computer Vision — ECCV'98, Springer, Berlin, Heidelberg, vol 1406, pp 232–248, 1998 [34] V Kolmogorov and R Zabih, “Computing Visual Correspondence with Occlusions Using Graph Cuts,” in Proceedings Eighth IEEE International Conference on Computer Vision ICCV 2001, vol 2, pp 508–515, 2001 [35] S Roy and I J Cox, “A Maximum-Flow Formulation of the N-Camera Stereo Correspondence Problem,” in Sixth International Conference on Computer Vision (IEEE Cat No.98CH36271), pp 492–499, 1998 [36] O Veksler, “Efficient Graph-based Energy Minimization Methods in Computer Vision,” PhD thesis, Cornell University, USA, 1999 [37] J Kim, V Kolmogorov and R Zabih, "Visual Correspondence Using Energy Minimization and Mutual Information," in Proceedings Ninth IEEE International Conference on Computer Vision, Nice, France, vol.2, pp 1033–1040, 2003 [38] Z Zhang Determining the epipolar geometry and its uncertainty: A review International Journal of Computer Vision, 27(2):161-1195, 1998 [39] K He, J Sun and X Tang, "Guided Image Filtering," in IEEE Transactions on Pattern Analysis and Machine Intelligence, vol 35, no 6, pp 1397-1409, 2013 [40] N Draper and H Smith, Applied Regression Analysis, second ed John Wiley, 1981 [41] T Hastie, R Tibshirani, and J.H Friedman,The Elements of Statistical Learning Springer, 2003 [42] K Simonyan and A Zisserman “Very deep convolutional networks for largescale image recognition,” in ICLR, 2015 52 Luận văn thạc sĩ Đỗ Ngọc Bình Phương LÝ LỊCH TRÍCH NGANG Họ tên: Đỗ Ngọc Bình Phương Ngày, tháng, năm sinh: 22/10/1987 Nơi sinh: Tp Hồ Chí Minh Địa liên lạc: 685/78/36i Xơ Viết Nghệ Tĩnh, F26, Bình Thạnh, TP HCM Email: binhphuong.dongoc@gmail.com QUÁ TRÌNH ĐÀO TẠO 2018-2020: Thạc sĩ tai Khoa Cơ khí, Trường ĐH Bách Khoa TP HCM Chuyên ngành: Kỹ thuật Cơ điện tử 2011-2013: Thạc sĩ MBA, Trường ĐH Edith Cowan, Perth, Tây Úc Chuyên ngành: Quản lý dự án 2005-2010: Kĩ sư Khoa Cơ khí, Trường ĐH Bách Khoa TP HCM Chuyên ngành: Kỹ thuật Cơ điện tử Q TRÌNH CƠNG TÁC 2020 – Nay: Quản lý dự án, Công ty Robert Bosch Việt Nam 2017 – 2019: Giảng viên, Trường Saigon Institute of Technology 2015 – 2017: Quản lý dự án, Công ty CST Industries 2015 – 2015: Giảng viên, Trường Saigon Institute of Technology 2014 – 2014: Trợ lý giám đốc, Công ty Trung Thuỷ 2010 – 2011: Kĩ sư phần cứng, Công ty Renesas Design Vietnam 53 ... Minh Chuyên ngành: Kỹ thuật Cơ điện tử Mã số : 8520114 I TÊN ĐỀ TÀI: Cải tiến giải thuật phát triển chiều sâu điểm ảnh cho stereo camera Improve the depth algorithm for stereo camera by temporal... (ii) từ đề xuất phương án cải tiến cách kết hợp thuật toán chuyển dịch ảnh, học sâu, phân tách mảng giới hạn biên; (iii) cuối tiến hành đánh giá kết hướng phát triển cho thuật toán ABSTRACT Computer... thơng tin vị trí khơng gian camera chụp ảnh mà nội suy độ sâu điểm đặc trưng, ưu điểm phương pháp cho độ xác cao, nhiên nhược điểm số lượng điểm chiết xuất chiều sâu không dày đặc tốn thời gian