Mau - Bao cao ket qua nghien cuu potx

Mục tiêu nghiên cứu chính của đề tài là nghiên cứu các kỹ thuật tái tạo cấu trúc ba chiều từ vật thể trên từng thiết bị như Kinect, time of light, structure light, hệ thống ste

Trang 1

Bộ Giáo dục và Đào tạo

Trường Đại Học Sư Phạm Tp.HCM

Khoa Công Nghệ Thông Tin

Bộ môn Kĩ thuật dạy học

0B

BÁO CÁO KẾT QUẢ NGHIÊN CỨU

Ngày thực hiện báo cáo:

LĨNH VỰC CHUYÊN

SINH VIÊN THỰC HIỆN 1 Nguyễn Võ Cao Huy K35.104.024

SINH VIÊN THỰC HIỆN 2 Dương Thùy Vinh K35.104.084

GIỚI THIỆU

CÂU HỎI GỢI Y

Lĩnh vực và nghiên cứu liên quan đã và đang phát triển như thế nào?

Các vấn đề, và bài toán đặt ra cần giải quyết là gì?

HƯỚNG DẪN Giới thiệu tổng quan về đề tài – những vấn đề và lĩnh vực liên quan đến đề tài

- Trong vài thập niên gần đây, chúng ta đã chứng kiến những thay đổi vượt bậc từ những phát minh vĩ đại Sự phát triển của kỹ thuật điện tử, sự ra đời của máy điện toán đã phần nào giải phóng con người khỏi những phép toán phức tạp Đời sống ngày càng được nâng cao và con người luôn tìm ra những cái mới, những cái tiến bộ hơn nhằm hoàn thiện đời sống của mình

- Sự phát triển của công nghệ máy tính đã hình thành nên một lĩnh vực nghiên cứu đầy tiềm năng, đó là thị giác máy tính Thị giác máy tính là một phần của trí tuệ nhân tạo Mục đích của thị giác máy tính là cung cấp cho máy tính khả năng nhìn thấy như ở con người Và đây là cách phản ánh thế giới một cách trực quan và sinh động.Chính vì lí do này mà thị giác máy tính đã và đang được ứng dụng rộng rãi trong nhiều lĩnh vực của đời sống như công nghiệp, y học, quân sự, an ninh, công nghệ giải trí… Và hiện nay, có nhiều thiết bị hỗ trợ, giúp cho lĩnh vực thị giác ngày càng phát triển Hình ảnh có thể được truyền vào dưới nhiều

Trang 2

dạng: video, các góc nhìn của nhiều camera, dữ liệu nhiều chiều từ máy chụp…

- Nghiên cứu các phương pháp tái tạo ảnh cấu trúc 3D của các vật thể thực, đặc biệt là tái tạo vật thể theo thời gian thực là một lĩnh vực mới, đã và đang thu hút rất nhiều sự quan tâm sâu sắc của giới công nghệ thông tin và điện tử thế giới Động lực thúc đẩy lĩnh vực này phát triển là con người luôn mong muốn tạo ra một hệ thống giống như cơ quan thị giác của con người, đặc biệt là khả năng cảm nhận về độ sâu

GHI CHU

(1 trang)

MỤC TIÊU NGHIÊN CỨU CỦA ĐỀ TÀI

CÂU HỎI GỢI Y Mục tiêu nghiên cứu chính của đề tài là gì?

Bài toán chính cần phải giải quyết là gì?

HƯỚNG DẪN Đặt bài toán giải quyết và trình bày mục tiêu nghiên cứu chính của đề tài.

Cần phải làm rõ bài toán chính của đề tài – cũng có thể giới thiệu sơ lược các bài toán con (nếu có)

Trang 3

Mục tiêu nghiên cứu chính của đề tài là nghiên cứu các kỹ thuật tái tạo cấu trúc ba chiều từ vật thể trên từng thiết bị như Kinect, time of light, structure light, hệ thống stereo Chúng ta đang sống trong thế giới ba chiều, bất cứ điểm nào cũng được xác định trong mặt phẳng tạo độ X, Y, Z nhưng kết quả ghi nhận qua các thiết bị thu hình (video, ảnh chụp) chiếu lên mặt phẳng thì chỉ còn lại hai chiều Nhiệm vụ của các thuật toán trong kỹ thuật tái tạo ảnh ba chiều là phục hồi lại chiều đã mất Hầu hết các thuật toán hiện có đều dựa trên hai cơ sở toán học là hiệu chỉnh camera (camera calibration, camera rectification) và hình học epipolar (epipolar geometry) Nguyên tắc chung để tạo ảnh 3 chiều từ các hình chiếu là chúng ta tìm cách xác định tọa độ của điểm trong cảnh 3 chiều từ những hình chiếu của điểm đó lên các

mặt phẳng ảnh Như đã giới thiệu ở trên, một hệ thống stereo reconstruction bao

gồm vật thể thực, các camera, các mặt phẳng chiếu Để có thể tái tạo lại cấu trúc 3 chiều của vật thể ta phải tìm được mối quan hệ giữa những đối tượng này Tùy thuộc

giả thiết, các bài toán tìm mối quan hệ này có thể được chia thành: correspondence

problem, reconstruction problem và calibration problem Giả sử ta có P và P’ là các

mặt phẳng ảnh thì :

- Với mỗi điểm m trên mặt phẳng P ta xác định một điểm m’ trên P’ tương ứng với nó (correspond) Khái niệm correspond có nghĩa là hai điểm m và m’ là ảnh của

một điểm thực M nào đó lần lượt trên mặt phẳng P và P’ Bài toán xác định m’

tương ứng với m gọi là correspondence problem (hay matching problem ) Quá

trình matching là một quá trình phức tạp Vì vậy để giảm bớt sai sót trong matching người ta đặt ra những ràng buộc (constrain) như: sự tương thích, tính duy nhất, tính liên tục, thứ tự, epipolar, relaxion, sự tương ứng qua lại (mutual correspondence)… Các phương pháp thường được sử dụng là dựa trên cường độ (intensity-based) và dựa trên đặc trưng (feature-based)

- Nếu ta biết trước hai điểm m và m’ thì bài toán xác định tọa độ 3 chiều của M trong một hệ tọa độ nào đó gọi là reconstruction problem Khi xét mô hình đơn giản nhất

gồm hai camera cùng tiêu cự f dịch chuyển ngang trên một mặt phẳng, B là khoảng cách giữa hai camera, d = x1 – x2 là độ khác biệt (disparity) về hoành độ giữa hai điểm tương ứng m và m’ trên hai ảnh thu từ hai camera Khi đó tọa độ z của điểm M

Trang 4

được xác định theo phương pháp đạc tam giác (triangulation) là z(x,y) = f.B/d Tập hợp các giá trị z ứng với mọi điểm trên ảnh gọi là bản đồ độ sâu (depth map)

- Từ các hình chiếu ta tìm cách xác định vị trí, hướng và các thông số của camera

gọi là calibration problem

GHI CHU

(1 trang)

TÌNH HÌNH NGHIÊN CỨU TRONG VÀ NGOÀI NƯỚC

CÂU HỎI GỢI Y Lĩnh vực và nghiên cứu liên quan đã và đang phát triển như thế nào?

Các vấn đề, và bài toán đặt ra cần giải quyết là gì?

HƯỚNG DẪN

Tìm hiểu các nghiên cứu đã công bố gần nhất (5 năm trở lại) về lĩnh vực liên quan trong và ngoài nước.

Phân tích các kết quả đóng góp, nhận xét các hạn chế còn tồn tại.

- Nghiên cứu: A Region Based Stereo Matching Algorithm Using Cooperative

Optimization - Zeng-Fu Wang, Zhi-Gang Zheng (2010): Bài viết trình bày

thuật toán khớp stereo mới dựa trên sự tối ưu hóa kết hợp giữa các vùng Thuật toán được đề xuất sử dụng các khu vực như là điểm so sánh cơ bản và xác định sư tương ứng của vùng bằng cách lợi dụng các thống kê màu sắc của các vùng và sự hạn chế về độ mịn và sự lẫn vào nhau giữa các khu vực liền kề Để có được bản đồ chênh lệch hợp lý thì một thủ tục tối ưu hóa được sử dụng để làm giảm thiểu chi phí kết hợp giữa tất cả các vùng Thứ nhất, một

Trang 5

phương pháp phân đoạn dựa trên màu sắc được sử dụng để phân đoạn hình ảnh tham chiếu giữa các vùng với màu sắc đồng nhất Thứ hai, phương pháp khớp được sử dụng để xác đinh sự chênh lệch ban đầu của mỗi điểm ảnh Sau

đó, kỹ thuật mặt phẳng phù hợp voting base được áp dụng để có được các thông số của sự chênh lệch giữa các mặt phẳng tương ứng với từng khu vực hình ảnh Cuối cùng, sự khác biệt về thống số giữa các mặt phẳng của tất cả các vùng được tối ưu hóa bởi quy trình tối ưu hóa giữa sự hợp tác của các vùng cho đến khi thu được một bản đồ chênh lêch Kết quả thử nghiệm trên các bài kiểm tra của Middlebury và những cặp hình ảnh thực tế đã cho thấy phương pháp này là một trong những phương pháp xây dựng tương ứng ảnh tốt nhất và bản đồ chênh lệch thu được rất gần với dữ liệu trong thực tế Các thuật toán cho phép ta có thể thu thập được bản đồ chênh lệch chất lượng cao hơn so với ước tính chênh lệch ban đầu Điểm tốt của thuật toán này là nó có khả năng mạnh mẽ trong việc hạn chế và sửa lỗi chính xác Tuy nhiên, thuật toán này khá mất thời gian và làm thế nào để tìm được một thuật toán nhanh hơn cũng như mạnh mẽ hơn trong thời gian thực là một thách thức rất lớn

- Nghiên cứu: 3D RECONSTRUCTION BASED ON STEREOVISION AND

TEXTURE MAPPING (Institute of Information Science, Beijing Jiaotong

University, 100044, Beijing, China - (08120416)@bjtu.edu.cn) - Jingchao Li*,

Zhenjiang Miao, Xiangqian Liu, Yanli Wan (September 1 – 3, 2010): Tái tạo cấu trúc 3D là một trong những lĩnh vực nghiên cứu trong tầm nhìn máy tính và đồ họa máy tính, nó được áp dụng trong nhiều lĩnh vực như trò chơi video, sản xuất phim hoạt họa, thư viện kỹ thuật số, truyền thông, thực tế ảo…, nó tạo được mô hình 3D dựa trên các hình ảnh 2D Với công nghệ này, chúng ta

có thể thực hiện các cảnh lặp lại, quan sát mô hình từ bất cứ điểm nhìn ba chiều nào và cảm nhận thế giới tốt hơn Trong bài báo cáo này, các công nghệ được sử dụng giống như xây dựng đám mây điểm, tái tạo cấu trúc bề mặt để

có được khung ba chiều của vật thể Để khung ba chiều của vật thể sống động và tự nhiên thì ta cần thêm kết cấu của vật hoặc cảnh Nghiên cứu này chứng minh rằng phương pháp của kế hoạch này có một số lợi thế như tính khả thi,

Trang 6

tái tạo cấu trúc dễ dàng hơn… Trên cơ sở của nhiều nhà nghiên cứu trong lĩnh vực này, họ sử dụng các công nghệ như bản vá dựa trên nhiều tầm nhìn stereo, tái tạo cấu trúc bề mặt Possion nhưng công việc này chỉ thực hiện trên mặt đất và trong tương lai, có thể thực hiện được dưới đại dương hay trong không gian Mặc dù nhiều nhà nghiên cứu đã đạt được nhiều thành tựu trong lĩnh vực này nhưng nó vẫn có khoảng cách giữa nghiên cứu lý thuyết và ứng dụng thực tế

- Nghiên cứu: 3D Scene Reconstruction Using Partial RGB+Depth Map

-Matej Kopernick Supervised by: Ing Radoslav Gargalik, Mgr Tomas Kovacovsky (2013): Nghiên cứu này trình bày và tái tạo cấu trúc cảnh ba chiều sử dụng ảnh RGB và ảnh độ sâu được cung cấp bởi các cảm biến Microsoft Kinect Chuỗi của khung được thu bằng cách duy chuyển tự do camera, được điều khiển hoàn toàn bởi con người, để có thể thu thập các đám mây điểm đại diện của cảnh ghi lại Phương pháp ICP được sử dụng để sắp xếp đám mây điểm của khung hình tiếp theo, sử dụng phương pháp tương ứng ảnh SURF chiết xuất những mô tả từ hình ảnh RGB như ước tính liên kết ban đầu Tìm kiếm điểm ảnh hàng xóm bằng phương pháp ICP được tăng tốc bằng bởi một kd - tree Sự liên kết của các khung hình tiếp theo cho phép tái tạo lại chuyển động của camera trong không gian 3D một cách đầy đủ và do

đó, có thể tạo ra những mô hình đám mây điểm màu phức tạp của cảnh ghi lại hoặc đối tượng Do cảm biến Kinect chỉ cho phép thu lại dữ liệu độ sâu trong khoảng 0,8m đến 4m, phương pháp này chủ yếu được kiểm tra chủ yếu ở môi trường nội thất, ta có thể tái tảo lại nội thát phòng, các vật dụng, vật thể vừa và nhỏ Nếu không có cài đặt ban đầu, ICP cần từ 20 đến 50 bước lập để sắp xếp hai đám mấy điểm, nếu có cài đặt ban đầu con số này giảm xuống còn 6 đến 20, nó cung cấp những liên kết tốt hơn trong một số trườn hợp Hạn chế của nghiên cứu là sử dụng phần cứng rẻ tiền nên chỉ có thể tái tạo các cấu trúc ảnh đơn giản theo hướng dễ tiếp cận

GHI CHU

(2-3 trang)

Trang 7

NỘI DUNG VÀ PHẠM VI NGHIÊN CỨU

CÂU HỎI GỢI Y Nội dung nghiên cứu là gì?

Phạm vi nghiên cứu là gì?

Nêu nội dung nghiên cứu, bao gồm về mặt lý thuyết, phương pháp luận, công nghệ/kĩ thuật/phương tiện để nghiên cứu.

Nêu phạm vi nghiên cứu của đề tài, bao gồm việc giới hạn phạm vi nghiên cứu và triển khai, các giả định ban đầu đối với nghiên cứu.

- Nội dung nghiên cứu:

• Nghiên cứu các phương pháp tái tạo độ sâu từ camera stereo và các thiết bị quét chủ động

• Tái tạo thông tin độ sâu là bước ước lượng độ sâu ở từng vị trí trên ảnh dựa trên ảnh 2 chiều đầu vào Việc tái tạo có thể dựa trên một hoặc nhiều ảnh chụp ở nhiều góc độ khác nhau làm đầu vào

- Phạm vi nghiên cứu: tìm hiểu hệ thống Stereo gồm hai camera và nguyên lý hoạt động của thiết bị như Kinect, Structure Light, Time of Light

GHI CHU

(1 trang)

CÁC GIẢ THUYẾT VÀ CÁCH TIẾP CẬN GIẢI QUYẾT CÁC BÀI TOÁN

CÂU HỎI GỢI Y

Các giả thuyết đặt ra để giải quyết bài toán chính?

Các cách tiếp cận để giải quyết bài toán đặt ra?

Phương pháp, cách thức cụ thể để giải quyết các bài toán đặt ra là gì?

Trang 8

Đặt ra những giả thuyết, hay vấn đề-bài toán con cần phải giải quyết để đạt được mục tiêu nghiên cứu đề tài.

Các cách tiếp cận (dự kiến) để giải quyết các giả thuyết, bài toán con đã đặt.

Trình bày phương pháp, cách thức giải quyết các bài toán con.

Phương pháp Stereo Vision:

- Cơ sở lý thuyết của lĩnh vực tái tạo cấu trúc 3D đã được một số nhà nguyên cứu đưa ra từ những năm đầu của thập kỉ 1980 như Poggio (1979) và Marr (1982) Thế giới chúng ta đang sống là thế giới ba chiều, nghĩa là một điểm

được xác định bởi 3 tọa độ (X, Y, Z), khi chiếu lên măt phẳng thì chỉ còn hai

chiều Nhiệm vụ của các thuật toán tái tạo cấu trúc 3D là phục hồi lại chiều đã mất Hầu hết các thuật toán đều dựa trên hai cơ sở toán học là hiệu chỉnh camera (camera calibration, camera retification) và hình học Epipolar (epipolar geometry)

- Nguyên tắc chung để tạo ảnh 3 chiều từ các hình chiếu là chúng ta tìm cách xác định tọa độ của điểm trong cảnh 3 chiều từ những hình chiếu của điểm đó lên các mặt phẳng ảnh Một hệ thống Stereo Vision bao gồm vật thể thực, các camera, các mặt phẳng chiếu Để có thể tái tạo lại cấu trúc 3 chiều của vật thể

ta phải tìm được mối quan hệ giữa những đối tượng này

- Việc tái tạo cấu trúc 3D có thể minh họa đơn giản qua các bước sau:

- Quá trình tái tạo bắt đầu với bước thu thập dữ liệu, trong đó, một người di chuyển xung quanh và chụp cảnh tĩnh bằng cách sử dụng một máy ảnh cầm tay

• Phát hiện và so khớp các đặc trưng: mục tiêu của bước này là tìm hiểu các đặc trưng tương tự giữa các hình ảnh khác nhau và so khớp chúng

• Phục hồi cấu trúc và chuyển động của cảnh: tức là tọa độ 3D của các đặc trưng được phát hiện, vị trí, hướng và các thông số của máy ảnh tại

vị trí chụp Với các đặc trưng phù hợp, các ràng buộc hình học giữa các

Trang 9

điểm có thể được thành lập Sử dụng hình học Epipolar và kỹ thuật so khớp để có được các cặp tính năng tương ứng

• Bản đồ Stereo: bước này tạo ra bản đồ kết hợp dày đặc Tìm một phương trình toán học mô tả bề mặt cong của đối tượng một cách chính xác và chặt chẽ Kết hợp với cấu trúc ở bước trên có thể xây dựng một bản đồ độ sâu dày đặc

• Mô hình hóa: gồm các thủ tục để làm mô hình thực tế cho ảnh (xây dựng mô hình lưới, lập bản đồ kết cấu)

Phương pháp tái tạo cấu trúc 3D thông qua thiết bị Kinect:

Để hiện thực hóa 1 đối tượng 3D chúng ta cần biết ít nhất các thông tin về màu sắc độ sâu từ nhiều điểm trên đối tượng ở nhiều góc nhìn khác nhau Phần này trình bày cách thức hoạt động của Kinect, những thông tin thu nhận được, để

có thể trả ra các thông tin về ảnh và độ sâu như mong muốn

Để thu nhận hình ảnh, sử dụng thiết bị thu nhận hình ảnh là một webcam bình thường Cặp cảm biến IR camera và IR projector sẽ phối hợp với nhau để cho ra giá trị độ sâu ảnh bằng công nghệ Light Coding của PrimeSense Công nghệ Light Coding hoạt động dựa trên việc phát ra chùm tia hồng ngoại đặc trưng riêng từng tia (không nhìn thấy được dưới mắt thường)

Trang 10

Minh họa quy trình thu cảnh và xuất ra bản đồ độ sâu của Kinect

Kinect dùng một bộ cảm biến CMOS chuẩn để ghi nhận lại các tia hồng ngoại

bị phản xạ lại khi tiếp xúc với môi trường, dựa vào các đặc trưng mà xác định cụ thể vị trí tia hồng ngoại trong chùm tia và độ sâu của tia đo được Projector sẽ chiếu một chùm sáng hồng ngoại, tạo nên những đốm sáng ở không gian phía trước Kinect, tập hợp đốm sáng được phát ra này là cố định Những đốm sáng này được tạo ra nhờ một nguồn sáng truyền qua lưới nhiễu xạ (diffraction gratings) Tập hợp các đốm sáng này được IR camera chụp lại, thông qua giải thuật đặc biệt được tích hợp trong PS1080 SoC cho ra bản đồ độ sâu Bản chất của giải thuật này là các phép toán hình học dựa trên quan hệ giữa hai cảm biến

IR Camera và Projector mà ta sẽ đề cập sau.Công việc tính toán này được thực hiện bên trong Kinect bằng chip PS1080 SoC của PrimeSense Sử dụng chip PS1080 SoC tính toán song song để các xác định độ sâu của toàn bộ chùm tia phản xạ và xuất ra độ sâu của tất cả điểm ảnh Công nghệ mới này được cho là đáp ứng chính xác hơn, giá cả rẻ hơn cho việc sử dụng ở môi trường trong nhà

Định dạng
Số trang	16
Dung lượng	459,7 KB