1.3.1. Nguyên lý xác định độ sâu trong thiết bị ToF
2.2.337 Kỹ thuật đo độ sâu của thiết bị ToF dựa trên nguyên lý thời gian truyền sóng
nổi tiếng và được minh họa trong hình 1.5. Thời gian truyền sóng Td là thời gian mà sóng ánh sáng truyền từ bộ phát đến đối tượng và quay trở lại bộ thu trong thiết bị ToF. Theo tài liệu [21], thời gian truyền sóng Td được tính toán theo công thức
2.2.338 2d
2.2.339 Td = 2^,(1.3)
2.2.340 trong đó c là tốc độ ánh sáng (c =3 X 108[m/s]) và d là khoảng cách (hay còn
gọi là độ sâu) từ cảm biến của thiết bị tới đối tượng.
2.2.341
2.2.342 Hình 1.5: Nguyên lý thời gian truyền sóng 2.2.343
2.2.344 Thông thường, quá trình chiếu sáng từ nguồn laser trạng thái rắn hoặc đèn
LED hoạt động trong vùng IR (infra-red - hồng ngoại), bước sóng khoảng 850nm không thể quan sát được bằng mắt người. Một cảm biến hình ảnh được thiết kế để thu nhận ánh sáng và chuyển đổi năng lượng quang tử thành dòng điện. Cần chú ý rằng ánh sáng đi vào cảm biến có một phần là ánh sáng nền và một phần là ánh sáng phản xạ từ đối tượng. Thông tin độ sâu chỉ được nhúng trong ánh sáng phản xạ. Do đó, khi ánh sáng nền ở mức cao sẽ làm giảm tỷ lệ tín hiệu có ích và làm tăng tỷ lệ nhiễu.
2.2.345 Phiên bản đơn giản nhất là các camera ToF xung, thiết bị trực tiếp ước lượng
Td bằng cách sử dụng xung ánh sáng rời rạc phát ra từ một nguồn sáng và bị tán xạ bởi đối tượng. Trong các thiết bị này, mỗi pixel có một đồng hồ độc lập, được sử dụng để đo thời gian phát xung laser. Thiết bị ToF xung có thể được thực hiện bởi các mảng của đi ốt thác photon đơn hoặc công nghệ màn trập quang. Độ nhạy cao của đi ốt thác photon đơn cho phép cảm biến phát hiện mức ánh sáng phản xạ thấp, do đó, nguồn laser rẻ tiền với công suất ở mức miliwatt có thể được sử dụng cho khoảng cách vài mét. Ưu điểm của việc sử dụng ánh sáng xung là khả năng truyền một lượng năng lượng cao trong một thời gian rất ngắn. Vì vậy, ảnh hưởng của chiếu sáng nền có thể giảm. Hạn chế chung của các thiết bị này là khả năng tạo ra xung ánh sáng rất ngắn với thời gian tăng và giảm nhanh để đảm bảo phát hiện chính xác xung ánh sáng tới, vì để đạt được độ chính xác 1mm yêu cầu thời gian phát xung khoảng 6,6 X 10-12s. Mức độ chính xác này gần như không thể đạt được trong môi trường vật liệu silicon ở nhiệt độ phòng.
2.2.346 Với các hạn chế là thời gian truyền sóng rất ngắn và tín hiệu phản xạ
rất yếu,
việc đo trực tiếp như phương pháp ToF xung rất khó khăn. Các phương pháp gián tiếp sử dụng điều chế ánh sáng được sử dụng, trong đó độ sâu được xác định bằng cách đo sự dịch pha giữa tín hiệu quang phát ra và tín hiệu quang thu được. Như đã minh họa trong hình 1.5, ánh sáng phát ra được phản chiếu bởi các đối tượng trong thị trường của thiết bị và quay trở lại thiết bị. Ở đây tín hiệu có tần số được điều chế quay trở lại và được giải mã theo từng điểmảnh trên cảm biến hình ảnh, tạo ra phép đo cường độ và khoảng cách trên điểm ảnh. Trong phần tiếp theo của luận án, một phương pháp gián tiếp điển hình, kỹ thuật ToF sóng liên tục, kỹ thuật nền tảng của hầu hết các sản phẩm thương mại hiện đang có mặt trên thị trường, sẽ được trình bày chi tiết.
1.3.2. Kỹ thuật ToF sóng liên tục trong thiết bị ToF
2.2.347 Đây là kỹ thuật liên quan tới vấn đề gỡ pha, đã được áp dụng để chế tạo
Microsoft Kinect v2, thiết bị sẽ được nghiên cứu và ứng dụng trong các chương tiếp theo, vì vậy một mô tả đầy đủ hơn về kỹ thuật ToF sóng liên tục sẽ được giới thiệu trong phần này. Thay vì đo trực tiếp thời gian khứ hồi của một xung ánh sáng, kỹ thuật điều chế sóng liên tục dựa trên việc đo độ lệch pha của tín hiệu phát và thu. Ánh sáng được điều chế bằng cách thay đổi dòng điện đầu vào thành nguồn sáng, tạo ra tín hiệu dạng sóng. Các hình dạng khác nhau của tín hiệu điều chế có thể được sử dụng, nhưng thông dụng nhất là sóng dạng vuông hoặc dạng sin [17]. Kỹ thuật điều chế sóng liên tục làm giảm các yêu cầu đối với nguồn sáng, do đó độ phân giải độ sâu đạt được khi đo sẽ tốt hơn so với kỹ thuật ToF xung đã nêu ở trên.
2.2.348 Có nhiều kiểu khác nhau để gỡ tín hiệu thu được và trích xuất thông
tin biên
độ và pha từ tín hiệu đó. Một cách truyền thống là tính toán hàm tương quan chéo của tín hiệu điều chế ban đầu và tín hiệu quay lại [17]. Tương quan chéo có thể được tính bằng cách đo tín hiệu trả về tại các pha đã chọn, có thể được thực hiện bằng cách sử dụng bộ trộn và bộ lọc thông thấp trong bộ dò. Tuy nhiên điều này đòi hỏi mạch rất phức tạp, chi tiết xem trong tài liệu [9].
2.2.349 Một cách tiếp cận khác hiệu quả hơn là lấy mẫu ánh sáng được điều
chế động
bộ bằng cấu trúc điểm ảnh đặc biệt. Ánh sáng đã điều chế nhận lại được trộn đồng thời với tín hiệu tham chiếu và được lấy mẫu ở bốn pha khác nhau (0°, 90°, 180°, 270°) [17], như minh họa trong hình 1.6. Ưu điểm của kỹ thuật lấy mẫu đồng bộ này là thiết kế đơn giản hơn và kích thước điểm ảnh nhỏ hơn, cho phép đặt nhiều điểm ảnh hơn vào cảm biến, dẫn đến độ phân giải cao hơn. Theo công bố lý thuyết, loại kiến trúc điểm ảnh này được gọi là thiết bị trộn photon [18, 19] hoặc lock-in-pixel [9, 20]. Do vậy, kỹ thuật ToF này sẽ được nghiên cứu chi tiết ngay sau đây.
2.2.350 Theo nguyên lý của kỹ thuật ToF sóng liên tục trong tài liệu [21], các
thiết
bị gửi tới đối tượng một sóng IR sE(t) có biên độ AE được điều chế bởi hàm sin có tần số fmod, được biểu diễn bởi công thức
2.2.351 sE (t) = AE [1 + sin(2nf mod t)].
(1.4) 2.2.352 Tín hiệu sE(t) được phản xạ trở lại bởi bề mặt đối tượng và truyền về
bộ thu
được đặt cùng vị trí với bộ phát. Tín hiệu truyền đến bộ thu, do sự hấp thụ năng lượng thường liên quan đến sự phản xạ, do sự suy giảm lan truyền đường tự do (tỷ lệ với bình phương khoảng cách) và do sự lan truyền không tức thời
2.2.353
Tín hiệu điều khiển 4 pha
2.2.354 Hình 1.6: Nguyên lý gỡ pha của kỹ thuật ToF sóng liên tục (nguồn:
[10])
2.2.355 của tín hiệu IR dẫn đến trễ pha A^, có thể viết thành
2.2.356 sR(t) — AR [1 + sin (2nfmod t +
A^)] + BR, (1-5)
2.2.357 trong đó AR là biên độ suy giảm của tín hiệu thu được và BR là bức xạ gây
nhiễu ở bước sóng IR của tín hiệu phát ra tói bộ thu.
Thời gian tích hợp Tín hiệu
IR bức xạ Tín hiệu IR phản xạ
2.2.358 Hình 1.7 minh họa một ví dụ về tín hiệu phát ra và tín hiệu thu được.
Độ
lớn AR, sau đây viết tắt là A, được gọi là biên độ của tín hiệu hữu ích. Độ lớn AR + BR được gọi là cường độ và là trung bình của tín hiệu thu được (với thành phần AR do sóng điều chế mang tới và thành phần BR, sau đây viết tắt là B, do quá trình chiếu sáng nền). Theo ký hiệu này, phương trình 1.5 có thể viết lạithành
2.2.359 SR (t) = A [1 + sin (2nf mod t +
A^)] + B. (1.6)
2.2.360 Các ẩn số trong phương trình 1.6 là A, B, và A^, trong đó A và B là
biên độ
bức xạ IR được đo theo đơn vị Vôn (V) và Ag đại diện giá trị pha là một số thuần túy. Ân số quan trọng nhất là A^, vì các camera ToF sóng liên tục suy ra giá trị độ sâu d từ Ag và được tính theo công thức
2.2.361 Ag = 2nf mod Td. (1.7)
2.2.362 Thay biểu thức 1.3 vào biểu thức 1.7 và
biến đổi ta được
c
2.2.363 d =
MÙT ■ (1'8)
2.2.364 Sử dụng 4 lần lấy mẫu cách đều nhau theo thời gian từ Q1 đến Q4 bởi
tín hiệu
tham chiếu, như mô tả trong hình 1.6, tín hiệu thu nhận được lấy mẫu ở các pha khác nhau trong khoảng thời gian tích hợp. Giả sử tín hiệu điều chế không có sóng hài, các phương trình biến đổi Fourier rời rạc có thể được sử dụng để
Hình 1.7: Ví dụ về tín hiệu phát ra sE (t) (màu xanh) và tín hiệu thu được sR (t) (màu đỏ) (nguồn: [21])
ước tính các ẩn số A, B và Aự theo các công thức như sau (nguồn: [10]) 2.2.365 A \Ị(Q1 - Q2)2+ (Q3 - Q4)2
2.2.366 A=
2.2.367 2
2.2.368 A _ Q1 + Q2 + Q3 + Q4
2.2.369----B =----Ị^
2.2.370 í Q3 - Q4^
2.2.371---A(/7 = arctan -A- A- 2.2.372 Q1- Q2
2.2.373 Độ sâu ước lượng d thu được khi thay thế thông tin độ lệch pha ước lượng
Aíp đo được theo biểu thức 1.11 vào biểu thức 1.8
2.2.374 ầ=7T^ A^, (1.12)
2.2.375 4nJ mod
2.2.376 Cường độ, hay còn được gọi là biên độ, A của ánh sáng giảm tỷ lệ
thuận với
khoảng cách di chuyển theo một cách xác định trước. Do đó, giá trị biên độ nhận được từ biểu thức 1.9 có thể được sử dụng như là một thước đo đáng tin cậy cho các phép đo độ sâu. Ngoài ra, tín hiệu phản xạ thường đặt chồng lên ánh sáng nền là một nguyên nhân gây ra sai số cho phép đo. Do đó, phần bù trong biểu thức 1.10 được sử dụng để phân biệt thành phần ánh sáng được điều chế với ánh sáng nền.
(1.9) (1.10) (1.11)
2.2.377 Khi ước lượng giá trị độ sâu d từ độ lệch pha A<p như trong biểu thức 1.12,
điều quan trọng sau đây phải được xem xét. Tín hiệu điều chế theo chu kỳ nên pha của nó chỉ thay đổi theo giá trị 2n. Điều này có nghĩa là giá trị độ sâu d cũng có thể chỉ được đo rõ ràng trong một phạm vi nhất định và giá trị lớn nhấtcủa độ sâu L chỉ phụ thuộc vào tần số điều chế f mod theo công thức dưới đây
2.2.378 L = 2V~. (1.13)
2.2.379 2f mod 1.3.3. Cấu tạo và đặc tính kỹ thuật của Kinect v2
2.2.380 Microsoft Kinect được thiết kế và giới thiệu ra thị trường vào tháng 11 năm
2010. Sự thành công về mặt thương mại của Microsoft Kinect, tính đến 2013 họ đã bán được 24 triệu chiếc [22], là một nguồn động lực to lớn cho rất nhiều nghiên cứu quan trọng trong lĩnh vực thị giác máy tính. Với mục tiêu ban đầu, Kinect là thiết bị thu nhận chuyển động cho bộ trò chơi mô phỏng Microsoft XBOX 360 qua hình thức bám theo hành động của người chơi. Phiên bản thứ hai của Microsoft Kinect được ra mắt trong năm 2014 kèm theo trong bộ trò chơi Xbox mới. Không giống như phiên bản trước đó, Kinect v2 được chế tạo dựa trên kỹ thuật ToF sóng liên tục với cảm biến IR có độ phân giải 512pixel X 424pixel, lớn hơn đáng kể so với bất kỳ mẫu thiết bị ToF nào trước đây. Hơn nữa, giá của Kinect v2 thấp hơn hẳn so với các mẫu thiết bị ToF đã có mặt trên thị trường.
Giá bán lẻ của Kinect v2 chỉ khoảng gần năm triệu đồng, trong khi giá của các thiết bị ToF khác, như SR4000 và D-Imager, khoảng hơn một trăm triệu đồng tại thời điểm phát hành.
2.2.381 Kinect v2 có ba nguồn ánh sáng IR, mỗi nguồn tạo ra một sóng điều
chế với
biên độ khác nhau. Vị trí của nguồn sáng và cảm biến được thể hiện trong hình 1.8. Cảm biến IR trong Kinect v2 là cảm biến CMOS hiện đại 512pixel X 424pixel. Sự thu thập toàn thể có thể được thực hiện với khung hình lên tới 30Hz. Mỗi điểm ảnh có hai đi ốt ảnh (A, B) được điều khiển bởi cùng một tín hiệu đồng hồ là thiết bị dùng để điều khiển điều chế sóng quang học. Đi ốt ảnh chuyển
2.2.382
2.2.3832.2.384 Cảm biến ảnh màu Cảm biến IR Nguồn sáng
2.2.385 Hình 1.8: Vị trí cảm biến và nguồn sáng của Kinect v2 (nguồn:
[23])đổi ánh sáng thu thập được thành dòng điện có thể đo được. Các đi ốt được điều khiển bởi tín hiệu đồng hồ sao cho nếu A = [ữ^] được bật, B = [bi] bị tắt và ngược lại. Theo nghiên cứu ở tài liệu [24]
• ([ai] — [bi]) cho thấy mối tương quan giữa ánh sáng thu được và tín hiệu đồng hồ và có thể được sử dụng để thu thập thông tin pha (“hình ảnh độ sâu”);
• ([ai] + [bi]) cho hình ảnh màu xám thường xuyên được chiếu sáng bởi ánh sáng môi trường xung quanh bình thường (“hình ảnh môi trường xung quanh”);
• ự([ai] — [bi])2 cho hình ảnh thang độ xám độc lập với ánh sáng môi trường xung quanh (“hình ảnh hoạt động”).
2.2.386 Bộ lọc băng hẹp được sử dụng để chặn tất cả ánh sáng trừ dải bước sóng
860nm tương ứng với bước sóng của ánh sáng IR. Thiết bị Kinect v2 cũng sử dụng kỹ thuật đa màn trập kết hợp dữ liệu từ nhiều cửa chớp và chọn giá trị cửa trập tốt nhất cho mỗi pixel. Thời gian cửa trập dài nhất không gây bão hòa được sử dụng. Mô tơ cũng chuẩn hóa tất cả các giá trị liên quan đến thời gian cửa trập dài nhất.
2.2.387 Một số thông số kỹ thuật của Kinect v2 được mô tả trong bảng 1.4.
Kinect v2
cũng có một máy ảnh RGB chụp ảnh màu với độ phân giải 1920pixel X 1080pixel, micro và hệ thống quạt làm mát. Máy ảnh màu cho phép dễ dàng kết hợp ảnh màu và ảnh độ sâu thành các đám mây điểm màu, điều này có thể có lợi thế
2.2.388 Bảng 1.4: Các thông số kỹ thuật của Kinect v2 (chỉnh sửa theo nguồn:
[25])
2.2.389 Độ phân giải cảm
biến IR 2.2.390 512'pixel X 424pixel
2.2.391 Độ phân giải cảm
biến ảnh màu 2.2.392 1920pixel X 1080pixel
2.2.393 FOV cảm biến IR 2.2.394 70° X 60°
2.2.395 FOV cảm biến ảnh
màu 2.2.396 84° X 54°
2.2.397 Tỷ lệ khung hình 2.2.398 30Hz
2.2.399 Phạm vi làm việc 2.2.400 0, 5 — 4, 5m 2.2.401 Kích thước điểm
ảnh vật thể
2.2.402 1,4mm ở khoảng cách 2.2.403 Bước sóng nguồn 0,5m
sáng 2.2.404 860nm
2.2.405 Kích thước 2.2.406 250mm X 66mm X
67mm
2.2.407 Trọng lượng 2.2.408 970g
2.2.409 Dạng kết nối 2.2.410 USB3.0
2.2.411 Công suất tiêu thụ 2.2.412 15W
2.2.413 Điện áp 2.2.414 12V (một chiều) 2.2.415
2.2.416 trong một số ứng dụng cụ thể. Tuy nhiên, sự hiện diện của các thành
phần bổ
sung đó làm cho Kinect v2 trở lên cồng kềnh hơn và yêu cầu xử lý lâu hơn do nhiều luồng dữ liệu. Thiết bị này yêu cầu cổng USB 3.0 của máy vi tính cá nhân, điều này gây ra hạn chế rất lớn trong sử dụng, đặc biệt là với các máy tính cũ thường chưa được trang bị cổng USB 3.0.
2.2.417 Theo công bố của Microsoft, Kinect v2 hoạt động trong phạm vi từ
0,5m đến
4,5m, nhưng thực tế nó có khả năng xác định khoảng cách lớn hơn đáng kể.
Breuer và cộng sự [26] đã sử dụng ba mẫu với tần số điều chế khác nhau khoảng 16,80MHz đến 120MHz để đánh giá khoảng cách xác định lớn nhất mà Kinect v2 có thể thu nhận rõ ràng, kết quả của nghiên cứu đó là khoảng cách lớn nhất đạt 9, 37m.
1.3.4. Mô hình của cảm biến IR trong Kinect v2
2.2.418 Mô hình máy ảnh lỗ nhỏ là mô hình phổ biến nhất thể hiện mối quan
hệ hình
học giữa ảnh và đối tượng được chụp, đây là một mô hình tuyến tính đơn giản của phép chiếu phối cảnh [27]. Hình 1.9 mô tả mối liên hệ hình học của ảnh độ sâu và đối tượng được chụp. ở đây, chúng ta thiết lập bốn hệ tọa độ để xác định mối quan hệ hình học giữa đối tượng và ảnh độ sâu. Đầu tiên hệ tọa độ ảnh độ sâu trong đơn vị pixel có gốc tọa độ là đỉnh trên bên trái I, trục nằm ngang u và trục thẳng đứng v. Thứ hai là hệ tọa độ ảnh độ sâu trong đơn vị milimet có
2.2.419
Hình 1.9: Mô hình máy ảnh lỗ nhỏ (nguồn: [27])
w
2.2.1
2.2.420 gốc tọa độ là điểm cơ sở O, giao điểm của trục quang học của cảm biến
IR và
mặt phẳng ảnh, các trục X và Y lần lượt song song với các trục u và v. Tiếp theo là hệ tọa độ máy ảnh là hệ tọa độ gắn với cảm biến IR được hình thành bởi gốc tọa độ là điểm C trùng với tiêu điểm của cảm biến IR; trục z là trục quang học cảm biến IR và vuông góc với mặt phẳng ảnh; cả hai trục x và trục y đều tương ứng song song với trục X và trục Y. Cuối cùng là hệ tọa độ thực:
I'w=(xw ,yô,Zw)Tgắn với đối tượng.
2.2.421 Giả sử một điểm bất kỳ trên đối tượng cần chụp có tọa độ là P(x, y, z) trong
hệ trục tọa độ máy ảnh, khi đó điểm tương ứng p(X, Y) trong hệ trục tọa độ ảnh độ sâu trong đơn vị milimet. Theo tính chất tam giác đồng dạng, tọa độ của điểm p(X, Y) có thể được xác định như sau
2.2.422 X = f x,(1.14)
2.2.423 Y = f y (1.15)
2.2.424 trong đó f là tiêu cự của cảm biến IR.
2.2.425 Bây giờ X và Y được mô tả theo tọa độ trong đơn vị milimet, tuy nhiên trong
hệ tọa độ ảnh độ sâu thường dùng là pixel. Việc chuyển đổi tọa độ đòi hỏi phải biết mật độ cột và hàng của các điểm ảnh (tức là tỷ lệ pixel trên milimet), vì vậy đặt lần lượt là ku và kv. Tọa độ của điểm I trong hệ tọa độ ảnh độ sâu đơn vị milimet là I(-Xo, — Yo). Do đó, tọa độ điểm p trong hệ tọa độ ảnh độ sâu đơn vị pixel có thể được biểu diễn như sau
2.2.426 u = ku(X + Xo), (1.16)
2.2.427 v = kv (Y + Yo). (1.17)
2.2.428 Thay các giá trị X ở phương trình 1.14 vào phương trình 1.16 và giá trị
Y ở
phương trình 1.15 vào phương trình 1.17, rồi biến đổi ta có
2.2.429 u = kuf z + kuXo, (1.18)
2.2.430 v = kv f % + kv Yo. (1.19)
2.2.431 Thực hiện quá trình chuẩn hóa tọa độ điểm P bằng cách chia các tọa độ của
nó cho tọa độ z ta được P'(x',y') với x' = x/z; y' = y/z. Hai phương trình 1.18 và 1.19 có thể thể hiện theo dạng ma trận
2.2.432
u 2.2.4332.2.434
kuf
2.2.435 0 2.2.436
kuXo
2.2.4372.2.438
x' 2.2.439 2.2.440
v 2.2.441
= 2.2.442
0 2.2.443
kv f
2.2.444
kv Yo
2.2.4452.2.446
y’ 2.2.447 (1.20) 2.2.448
1
2.2.4492.2.450 0
2.2.451 0
2.2.452 1
2.2.4532.2.454 1
2.2.455 2.2.456
2.2.457 Bốn giá trị trong ma trận vuông được gọi là các tham số nội máy ảnh
và được
ký hiệu fu = kuf, fv = kvf,uo = kuXo,vo = kuYo, trong đó fu, fv lần lượt là hình