Mục tiêu nghiên cứu chính của đề tài là nghiên cứu các kỹ thuật tái tạo cấu trúc ba chiều từ vật thể trên từng thiết bị như Kinect, time of light, structure light, hệ thống ste
Trang 1Bộ Giáo dục và Đào tạo
Trường Đại Học Sư Phạm Tp.HCM
Khoa Công Nghệ Thông Tin
Bộ môn Kĩ thuật dạy học
0B
BÁO CÁO KẾT QUẢ NGHIÊN CỨU
Ngày thực hiện báo cáo:
LĨNH VỰC CHUYÊN
SINH VIÊN THỰC HIỆN 1 Nguyễn Võ Cao Huy K35.104.024
SINH VIÊN THỰC HIỆN 2 Dương Thùy Vinh K35.104.084
GIỚI THIỆU
CÂU HỎI GỢI Y
Lĩnh vực và nghiên cứu liên quan đã và đang phát triển như thế nào?
Các vấn đề, và bài toán đặt ra cần giải quyết là gì?
HƯỚNG DẪN Giới thiệu tổng quan về đề tài – những vấn đề và lĩnh vực liên quan đến đề tài
- Trong vài thập niên gần đây, chúng ta đã chứng kiến những thay đổi vượt bậc từ những phát minh vĩ đại Sự phát triển của kỹ thuật điện tử, sự ra đời của máy điện toán đã phần nào giải phóng con người khỏi những phép toán phức tạp Đời sống ngày càng được nâng cao và con người luôn tìm ra những cái mới, những cái tiến bộ hơn nhằm hoàn thiện đời sống của mình
- Sự phát triển của công nghệ máy tính đã hình thành nên một lĩnh vực nghiên cứu đầy tiềm năng, đó là thị giác máy tính Thị giác máy tính là một phần của trí tuệ nhân tạo Mục đích của thị giác máy tính là cung cấp cho máy tính khả năng nhìn thấy như ở con người Và đây là cách phản ánh thế giới một cách trực quan và sinh động.Chính vì lí do này mà thị giác máy tính đã và đang được ứng dụng rộng rãi trong nhiều lĩnh vực của đời sống như công nghiệp, y học, quân sự, an ninh, công nghệ giải trí… Và hiện nay, có nhiều thiết bị hỗ trợ, giúp cho lĩnh vực thị giác ngày càng phát triển Hình ảnh có thể được truyền vào dưới nhiều
Trang 2dạng: video, các góc nhìn của nhiều camera, dữ liệu nhiều chiều từ máy chụp…
- Nghiên cứu các phương pháp tái tạo ảnh cấu trúc 3D của các vật thể thực, đặc biệt là tái tạo vật thể theo thời gian thực là một lĩnh vực mới, đã và đang thu hút rất nhiều sự quan tâm sâu sắc của giới công nghệ thông tin và điện tử thế giới Động lực thúc đẩy lĩnh vực này phát triển là con người luôn mong muốn tạo ra một hệ thống giống như cơ quan thị giác của con người, đặc biệt là khả năng cảm nhận về độ sâu
GHI CHU
(1 trang)
MỤC TIÊU NGHIÊN CỨU CỦA ĐỀ TÀI
CÂU HỎI GỢI Y Mục tiêu nghiên cứu chính của đề tài là gì?
Bài toán chính cần phải giải quyết là gì?
HƯỚNG DẪN Đặt bài toán giải quyết và trình bày mục tiêu nghiên cứu chính của đề tài.
Cần phải làm rõ bài toán chính của đề tài – cũng có thể giới thiệu sơ lược các bài toán con (nếu có)
Trang 3Mục tiêu nghiên cứu chính của đề tài là nghiên cứu các kỹ thuật tái tạo cấu trúc ba chiều từ vật thể trên từng thiết bị như Kinect, time of light, structure light, hệ thống stereo Chúng ta đang sống trong thế giới ba chiều, bất cứ điểm nào cũng được xác định trong mặt phẳng tạo độ X, Y, Z nhưng kết quả ghi nhận qua các thiết bị thu hình (video, ảnh chụp) chiếu lên mặt phẳng thì chỉ còn lại hai chiều Nhiệm vụ của các thuật toán trong kỹ thuật tái tạo ảnh ba chiều là phục hồi lại chiều đã mất Hầu hết các thuật toán hiện có đều dựa trên hai cơ sở toán học là hiệu chỉnh camera (camera calibration, camera rectification) và hình học epipolar (epipolar geometry) Nguyên tắc chung để tạo ảnh 3 chiều từ các hình chiếu là chúng ta tìm cách xác định tọa độ của điểm trong cảnh 3 chiều từ những hình chiếu của điểm đó lên các
mặt phẳng ảnh Như đã giới thiệu ở trên, một hệ thống stereo reconstruction bao
gồm vật thể thực, các camera, các mặt phẳng chiếu Để có thể tái tạo lại cấu trúc 3 chiều của vật thể ta phải tìm được mối quan hệ giữa những đối tượng này Tùy thuộc
giả thiết, các bài toán tìm mối quan hệ này có thể được chia thành: correspondence
problem, reconstruction problem và calibration problem Giả sử ta có P và P’ là các
mặt phẳng ảnh thì :
- Với mỗi điểm m trên mặt phẳng P ta xác định một điểm m’ trên P’ tương ứng với nó (correspond) Khái niệm correspond có nghĩa là hai điểm m và m’ là ảnh của
một điểm thực M nào đó lần lượt trên mặt phẳng P và P’ Bài toán xác định m’
tương ứng với m gọi là correspondence problem (hay matching problem ) Quá
trình matching là một quá trình phức tạp Vì vậy để giảm bớt sai sót trong matching người ta đặt ra những ràng buộc (constrain) như: sự tương thích, tính duy nhất, tính liên tục, thứ tự, epipolar, relaxion, sự tương ứng qua lại (mutual correspondence)… Các phương pháp thường được sử dụng là dựa trên cường độ (intensity-based) và dựa trên đặc trưng (feature-based)
- Nếu ta biết trước hai điểm m và m’ thì bài toán xác định tọa độ 3 chiều của M trong một hệ tọa độ nào đó gọi là reconstruction problem Khi xét mô hình đơn giản nhất
gồm hai camera cùng tiêu cự f dịch chuyển ngang trên một mặt phẳng, B là khoảng cách giữa hai camera, d = x1 – x2 là độ khác biệt (disparity) về hoành độ giữa hai điểm tương ứng m và m’ trên hai ảnh thu từ hai camera Khi đó tọa độ z của điểm M
Trang 4được xác định theo phương pháp đạc tam giác (triangulation) là z(x,y) = f.B/d Tập hợp các giá trị z ứng với mọi điểm trên ảnh gọi là bản đồ độ sâu (depth map)
- Từ các hình chiếu ta tìm cách xác định vị trí, hướng và các thông số của camera
gọi là calibration problem
GHI CHU
(1 trang)
TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC
CÂU HỎI GỢI Y Lĩnh vực và nghiên cứu liên quan đã và đang phát triển như thế nào?
Các vấn đề, và bài toán đặt ra cần giải quyết là gì?
HƯỚNG DẪN
Tìm hiểu các nghiên cứu đã công bố gần nhất (5 năm trở lại) về lĩnh vực liên quan trong và ngoài nước.
Phân tích các kết quả đóng góp, nhận xét các hạn chế còn tồn tại.
- Nghiên cứu: A Region Based Stereo Matching Algorithm Using Cooperative
Optimization - Zeng-Fu Wang, Zhi-Gang Zheng (2010): Bài viết trình bày
thuật toán khớp stereo mới dựa trên sự tối ưu hóa kết hợp giữa các vùng Thuật toán được đề xuất sử dụng các khu vực như là điểm so sánh cơ bản và xác định sư tương ứng của vùng bằng cách lợi dụng các thống kê màu sắc của các vùng và sự hạn chế về độ mịn và sự lẫn vào nhau giữa các khu vực liền kề Để có được bản đồ chênh lệch hợp lý thì một thủ tục tối ưu hóa được sử dụng để làm giảm thiểu chi phí kết hợp giữa tất cả các vùng Thứ nhất, một
Trang 5phương pháp phân đoạn dựa trên màu sắc được sử dụng để phân đoạn hình ảnh tham chiếu giữa các vùng với màu sắc đồng nhất Thứ hai, phương pháp khớp được sử dụng để xác đinh sự chênh lệch ban đầu của mỗi điểm ảnh Sau
đó, kỹ thuật mặt phẳng phù hợp voting base được áp dụng để có được các thông số của sự chênh lệch giữa các mặt phẳng tương ứng với từng khu vực hình ảnh Cuối cùng, sự khác biệt về thống số giữa các mặt phẳng của tất cả các vùng được tối ưu hóa bởi quy trình tối ưu hóa giữa sự hợp tác của các vùng cho đến khi thu được một bản đồ chênh lêch Kết quả thử nghiệm trên các bài kiểm tra của Middlebury và những cặp hình ảnh thực tế đã cho thấy phương pháp này là một trong những phương pháp xây dựng tương ứng ảnh tốt nhất và bản đồ chênh lệch thu được rất gần với dữ liệu trong thực tế Các thuật toán cho phép ta có thể thu thập được bản đồ chênh lệch chất lượng cao hơn so với ước tính chênh lệch ban đầu Điểm tốt của thuật toán này là nó có khả năng mạnh mẽ trong việc hạn chế và sửa lỗi chính xác Tuy nhiên, thuật toán này khá mất thời gian và làm thế nào để tìm được một thuật toán nhanh hơn cũng như mạnh mẽ hơn trong thời gian thực là một thách thức rất lớn
- Nghiên cứu: 3D RECONSTRUCTION BASED ON STEREOVISION AND
TEXTURE MAPPING (Institute of Information Science, Beijing Jiaotong
University, 100044, Beijing, China - (08120416)@bjtu.edu.cn) - Jingchao Li*,
Zhenjiang Miao, Xiangqian Liu, Yanli Wan (September 1 – 3, 2010): Tái tạo cấu trúc 3D là một trong những lĩnh vực nghiên cứu trong tầm nhìn máy tính và đồ họa máy tính, nó được áp dụng trong nhiều lĩnh vực như trò chơi video, sản xuất phim hoạt họa, thư viện kỹ thuật số, truyền thông, thực tế ảo…, nó tạo được mô hình 3D dựa trên các hình ảnh 2D Với công nghệ này, chúng ta
có thể thực hiện các cảnh lặp lại, quan sát mô hình từ bất cứ điểm nhìn ba chiều nào và cảm nhận thế giới tốt hơn Trong bài báo cáo này, các công nghệ được sử dụng giống như xây dựng đám mây điểm, tái tạo cấu trúc bề mặt để
có được khung ba chiều của vật thể Để khung ba chiều của vật thể sống động và tự nhiên thì ta cần thêm kết cấu của vật hoặc cảnh Nghiên cứu này chứng minh rằng phương pháp của kế hoạch này có một số lợi thế như tính khả thi,
Trang 6tái tạo cấu trúc dễ dàng hơn… Trên cơ sở của nhiều nhà nghiên cứu trong lĩnh vực này, họ sử dụng các công nghệ như bản vá dựa trên nhiều tầm nhìn stereo, tái tạo cấu trúc bề mặt Possion nhưng công việc này chỉ thực hiện trên mặt đất và trong tương lai, có thể thực hiện được dưới đại dương hay trong không gian Mặc dù nhiều nhà nghiên cứu đã đạt được nhiều thành tựu trong lĩnh vực này nhưng nó vẫn có khoảng cách giữa nghiên cứu lý thuyết và ứng dụng thực tế
- Nghiên cứu: 3D Scene Reconstruction Using Partial RGB+Depth Map
-Matej Kopernick Supervised by: Ing Radoslav Gargalik, Mgr Tomas Kovacovsky (2013): Nghiên cứu này trình bày và tái tạo cấu trúc cảnh ba chiều sử dụng ảnh RGB và ảnh độ sâu được cung cấp bởi các cảm biến Microsoft Kinect Chuỗi của khung được thu bằng cách duy chuyển tự do camera, được điều khiển hoàn toàn bởi con người, để có thể thu thập các đám mây điểm đại diện của cảnh ghi lại Phương pháp ICP được sử dụng để sắp xếp đám mây điểm của khung hình tiếp theo, sử dụng phương pháp tương ứng ảnh SURF chiết xuất những mô tả từ hình ảnh RGB như ước tính liên kết ban đầu Tìm kiếm điểm ảnh hàng xóm bằng phương pháp ICP được tăng tốc bằng bởi một kd - tree Sự liên kết của các khung hình tiếp theo cho phép tái tạo lại chuyển động của camera trong không gian 3D một cách đầy đủ và do
đó, có thể tạo ra những mô hình đám mây điểm màu phức tạp của cảnh ghi lại hoặc đối tượng Do cảm biến Kinect chỉ cho phép thu lại dữ liệu độ sâu trong khoảng 0,8m đến 4m, phương pháp này chủ yếu được kiểm tra chủ yếu ở môi trường nội thất, ta có thể tái tảo lại nội thát phòng, các vật dụng, vật thể vừa và nhỏ Nếu không có cài đặt ban đầu, ICP cần từ 20 đến 50 bước lập để sắp xếp hai đám mấy điểm, nếu có cài đặt ban đầu con số này giảm xuống còn 6 đến 20, nó cung cấp những liên kết tốt hơn trong một số trườn hợp Hạn chế của nghiên cứu là sử dụng phần cứng rẻ tiền nên chỉ có thể tái tạo các cấu trúc ảnh đơn giản theo hướng dễ tiếp cận
GHI CHU
(2-3 trang)
Trang 7NỘI DUNG VÀ PHẠM VI NGHIÊN CỨU
CÂU HỎI GỢI Y Nội dung nghiên cứu là gì?
Phạm vi nghiên cứu là gì?
HƯỚNG DẪN
Nêu nội dung nghiên cứu, bao gồm về mặt lý thuyết, phương pháp luận, công nghệ/kĩ thuật/phương tiện để nghiên cứu.
Nêu phạm vi nghiên cứu của đề tài, bao gồm việc giới hạn phạm vi nghiên cứu và triển khai, các giả định ban đầu đối với nghiên cứu.
- Nội dung nghiên cứu:
• Nghiên cứu các phương pháp tái tạo độ sâu từ camera stereo và các thiết bị quét chủ động
• Tái tạo thông tin độ sâu là bước ước lượng độ sâu ở từng vị trí trên ảnh dựa trên ảnh 2 chiều đầu vào Việc tái tạo có thể dựa trên một hoặc nhiều ảnh chụp ở nhiều góc độ khác nhau làm đầu vào
- Phạm vi nghiên cứu: tìm hiểu hệ thống Stereo gồm hai camera và nguyên lý hoạt động của thiết bị như Kinect, Structure Light, Time of Light
GHI CHU
(1 trang)
CÁC GIẢ THUYẾT VÀ CÁCH TIẾP CẬN GIẢI QUYẾT CÁC BÀI TOÁN
CÂU HỎI GỢI Y
Các giả thuyết đặt ra để giải quyết bài toán chính?
Các cách tiếp cận để giải quyết bài toán đặt ra?
Phương pháp, cách thức cụ thể để giải quyết các bài toán đặt ra là gì?
Trang 8HƯỚNG DẪN
Đặt ra những giả thuyết, hay vấn đề-bài toán con cần phải giải quyết để đạt được mục tiêu nghiên cứu đề tài.
Các cách tiếp cận (dự kiến) để giải quyết các giả thuyết, bài toán con đã đặt.
Trình bày phương pháp, cách thức giải quyết các bài toán con.
Phương pháp Stereo Vision:
- Cơ sở lý thuyết của lĩnh vực tái tạo cấu trúc 3D đã được một số nhà nguyên cứu đưa ra từ những năm đầu của thập kỉ 1980 như Poggio (1979) và Marr (1982) Thế giới chúng ta đang sống là thế giới ba chiều, nghĩa là một điểm
được xác định bởi 3 tọa độ (X, Y, Z), khi chiếu lên măt phẳng thì chỉ còn hai
chiều Nhiệm vụ của các thuật toán tái tạo cấu trúc 3D là phục hồi lại chiều đã mất Hầu hết các thuật toán đều dựa trên hai cơ sở toán học là hiệu chỉnh camera (camera calibration, camera retification) và hình học Epipolar (epipolar geometry)
- Nguyên tắc chung để tạo ảnh 3 chiều từ các hình chiếu là chúng ta tìm cách xác định tọa độ của điểm trong cảnh 3 chiều từ những hình chiếu của điểm đó lên các mặt phẳng ảnh Một hệ thống Stereo Vision bao gồm vật thể thực, các camera, các mặt phẳng chiếu Để có thể tái tạo lại cấu trúc 3 chiều của vật thể
ta phải tìm được mối quan hệ giữa những đối tượng này
- Việc tái tạo cấu trúc 3D có thể minh họa đơn giản qua các bước sau:
- Quá trình tái tạo bắt đầu với bước thu thập dữ liệu, trong đó, một người di chuyển xung quanh và chụp cảnh tĩnh bằng cách sử dụng một máy ảnh cầm tay
• Phát hiện và so khớp các đặc trưng: mục tiêu của bước này là tìm hiểu các đặc trưng tương tự giữa các hình ảnh khác nhau và so khớp chúng
• Phục hồi cấu trúc và chuyển động của cảnh: tức là tọa độ 3D của các đặc trưng được phát hiện, vị trí, hướng và các thông số của máy ảnh tại
vị trí chụp Với các đặc trưng phù hợp, các ràng buộc hình học giữa các
Trang 9điểm có thể được thành lập Sử dụng hình học Epipolar và kỹ thuật so khớp để có được các cặp tính năng tương ứng
• Bản đồ Stereo: bước này tạo ra bản đồ kết hợp dày đặc Tìm một phương trình toán học mô tả bề mặt cong của đối tượng một cách chính xác và chặt chẽ Kết hợp với cấu trúc ở bước trên có thể xây dựng một bản đồ độ sâu dày đặc
• Mô hình hóa: gồm các thủ tục để làm mô hình thực tế cho ảnh (xây dựng mô hình lưới, lập bản đồ kết cấu)
Phương pháp tái tạo cấu trúc 3D thông qua thiết bị Kinect:
Để hiện thực hóa 1 đối tượng 3D chúng ta cần biết ít nhất các thông tin về màu sắc độ sâu từ nhiều điểm trên đối tượng ở nhiều góc nhìn khác nhau Phần này trình bày cách thức hoạt động của Kinect, những thông tin thu nhận được, để
có thể trả ra các thông tin về ảnh và độ sâu như mong muốn
Để thu nhận hình ảnh, sử dụng thiết bị thu nhận hình ảnh là một webcam bình thường Cặp cảm biến IR camera và IR projector sẽ phối hợp với nhau để cho ra giá trị độ sâu ảnh bằng công nghệ Light Coding của PrimeSense Công nghệ Light Coding hoạt động dựa trên việc phát ra chùm tia hồng ngoại đặc trưng riêng từng tia (không nhìn thấy được dưới mắt thường)
Trang 10Minh họa quy trình thu cảnh và xuất ra bản đồ độ sâu của Kinect
Kinect dùng một bộ cảm biến CMOS chuẩn để ghi nhận lại các tia hồng ngoại
bị phản xạ lại khi tiếp xúc với môi trường, dựa vào các đặc trưng mà xác định cụ thể vị trí tia hồng ngoại trong chùm tia và độ sâu của tia đo được Projector sẽ chiếu một chùm sáng hồng ngoại, tạo nên những đốm sáng ở không gian phía trước Kinect, tập hợp đốm sáng được phát ra này là cố định Những đốm sáng này được tạo ra nhờ một nguồn sáng truyền qua lưới nhiễu xạ (diffraction gratings) Tập hợp các đốm sáng này được IR camera chụp lại, thông qua giải thuật đặc biệt được tích hợp trong PS1080 SoC cho ra bản đồ độ sâu Bản chất của giải thuật này là các phép toán hình học dựa trên quan hệ giữa hai cảm biến
IR Camera và Projector mà ta sẽ đề cập sau.Công việc tính toán này được thực hiện bên trong Kinect bằng chip PS1080 SoC của PrimeSense Sử dụng chip PS1080 SoC tính toán song song để các xác định độ sâu của toàn bộ chùm tia phản xạ và xuất ra độ sâu của tất cả điểm ảnh Công nghệ mới này được cho là đáp ứng chính xác hơn, giá cả rẻ hơn cho việc sử dụng ở môi trường trong nhà