Trang 1 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THƠNG TIN VÀ TRUYỀN THƠNG HỒNG DANH TUN NGHIÊN CỨU SỬ DỤNG DEEP LEARNING ĐỂ ƯỚC LƯỢNG TƯ THẾ BÀN TAY 3D TỪ DỮ LIỆU CỦA CẢM BIẾN MANG TRÊN NGƯỜI LUẬN VĂN
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
HOÀNG DANH TUYÊN
NGHIÊN CỨU SỬ DỤNG DEEP LEARNING
ĐỂ ƯỚC LƯỢNG TƯ THẾ BÀN TAY 3D TỪ
DỮ LIỆU CỦA CẢM BIẾN MANG TRÊN NGƯỜI
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên – 2023
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
HOÀNG DANH TUYÊN
NGHIÊN CỨU SỬ DỤNG DEEP LEARNING
ĐỂ ƯỚC LƯỢNG TƯ THẾ BÀN TAY 3D TỪ
DỮ LIỆU CỦA CẢM BIẾN MANG TRÊN NGƯỜI
Ngành: Khoa học máy tính
Mã số: 8 48 0101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
Thái Nguyên - 2023
Trang 3LỜI CAM ĐOANTôi xin cam đoan luận văn Thạc Sỹ với tiêu đề "Nghiên cứu sử dụng Deep Learning
để ước lượng tư thế bàn tay 3D từ dữ liệu của cảm biến mang trên người" là kết quảnghiên cứu của tôi dưới sự hướng dẫn khoa học của TS Lê Văn Hùng Tất cả các sốliệu, hình ảnh, bảng biểu, các bài báo được trình bày trong luận văn đều được tríchdẫn nguồn trung thực và đầy đủ
Thái Nguyên, tháng 07 năm 2023
Hoàng Danh Tuyên
Trang 4LỜI CẢM ƠNLời cảm ơn đầu tiên, em xin bày tỏ lời cảm ơn sâu sắc tới Thầy TS Lê Văn Hùng
đã tận tình hướng dẫn và giúp đỡ trong quá trình tìm hiểu, nghiên cứu và thực hiệnluận văn Luận văn này không thể hoàn thành nếu thiếu đi những góp ý chân thành
và sự hướng dẫn tỉ mỉ từ Thầy Hùng Dù thầy rất bận rộn với công việc giảng dạy,nghiên cứu khoa học nhưng Thầy luôn lắng nghe những vấn đề mà tôi gặp phải, luônđộng viên kịp thời và đưa ra những định hướng để tôi hoàn thiện kết quả nghiên cứu.Tôi muốn bày tỏ lòng biết ơn đến Thầy và chúc Thầy sẽ đạt được nhiều thành cônghơn nữa trong công việc, cũng như trong cuộc sống Trong quá trình học Thạc sỹ tạitrường Đại học Công nghệ thông tin và Truyền thông - Đại học Thái Nguyên, tôi cũng
đã được hỗ trợ và tạo điều kiện từ các thầy, cô trong trường Quãng thời gian vừa qua
là nhiều ngày vừa học, vừa làm, hàng ngày trong tuần tôi đều có mặt ở cơ quan, cuốituần tôi phải có mặt ở trường Hoàn thành cả hai công việc một lúc là rất nhiều nỗ lựccủa bản thân, nhưng sẽ không thể thành công nếu thiếu đi sự ủng hộ của mọi người.Cuối cùng, tôi xin dành lời cảm ơn tới gia đình tôi, điểm tựa để tôi vượt qua nhữnggiai đoạn khó khăn trong công việc và cuộc sống Kết quả ngày hôm nay là lời tri ânchân thành nhất mà tôi có thể gửi tới gia đình mình Cuối cùng tôi xin bày tỏ lời cảm
ơn tới các đồng nghiệp, gia đình, bạn bè đã luôn động viên, chia sẻ, ủng hộ và giúp đỡtôi vượt qua khó khăn để đạt được những kết quả nghiên cứu trong Luận văn này
Học viên
Hoàng Danh Tuyên
Trang 5Mục lục
MỞ ĐẦU 1
Chương 1 TỔNG QUAN ƯỚC LƯỢNG TƯ THẾ BÀN TAY 3D 7
1.1 Học sâu và mạng nơ ron tích chập 7
1.1.1 Định nghĩa học sâu 7
1.2 Ước lượng tư thế bàn tay 3D 10
1.2.1 Ước lượng tư thế bàn tay 3D từ ảnh màu 12
1.2.2 Ước lượng tư thế bàn tay 3D từ ảnh độ sâu 13
1.2.3 Ước lượng tư thế bàn tay 3D từ dữ liệu RGB-D và các loại dữ liệu khác 17
1.3 Cơ sở dữ liệu đánh giá ước lượng tư thế bàn tay 3D 17
1.3.1 Cơ sở dữ liệu thu từ góc nhìn thứ ba 18
1.3.2 Cơ sở dữ liệu thu từ góc nhìn thứ nhất 19
1.4 Kết quả ước lượng tư thế bàn tay 3D 23
1.5 Đánh giá những tồn tại 24
1.6 Kết luận Chương 1 24
Chương 2 MÔ HÌNH ƯỚC LƯỢNG TƯ THẾ BÀN TAY 3D 26
2.1 Bài toán ước lượng tự động tư thế bàn tay 3D 26
2.2 Phát hiện bàn tay trên ảnh màu 30
2.3 Xây dựng dữ liệu đám mây điểm của vùng dữ liệu bàn tay 32
2.4 Mạng HandFoldingNet cho ước lượng tư thế bàn tay 3D 34
2.5 Kết luận Chương 2 36
Chương 3 THỬ NGHIỆM MÔ HÌNH ƯỚC LƯỢNG TƯ THẾ BÀN TAY 3D 37
3.1 Ước lượng tư thế bàn tay 3D trên cơ sở dữ liệu HOI4D 37
3.1.1 Cơ sở dữ liệu HOI4D 37
3.1.2 Chuẩn bị dữ liệu và thiết bị 38
3.1.3 Độ đo đánh giá 40
Trang 63.1.4 Kết quả phát hiện bàn tay và ước lượng tư thế bàn tay 3D trên cơ sở dữ liệu HOI4D 42
3.2 Minh họa kết quả ước lượng tư thế bàn tay 3D và xây dựng video demo 47 3.3 Kết luận chương 3 52
KẾT LUẬN VÀ NGHIÊN CỨU TIẾP THEO 54 PHỤ LỤC - MỘT SỐ MÃ NGUỒN CHƯƠNG TRÌNH 60
Trang 7DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
VR Virtual Reality
AR Augmented Reality
HOI4D Human-Object Interaction 4D
CNN, CNNs Convolutional Neural Networks
GCN Graph Convolutional Network
DNN Deep Neural Network
DL, ML Deep Learning, Machine Learning
ICVL Institute of Computing and Informatics, Slovak University of TechnologyNYU New York University (Đại học New York)
MSRA Microsoft Research Asia (Trung tâm Nghiên cứu Microsoft ở châu Á)MSRC Microsoft Research Cambridge
PSO Particle swarm optimization
ICP Iterative closest point
HCRNN Hierarchical Convolutional Recurrent Neural Network
SE Special Euclidean (Euclide đặc biệt)
VAE Variational Autoencoder
GAN Generative Adversarial Network
RGB Red Green Blue
RGB-D Red Green Blue - Depth
JMFC Joint matrix factorization and completion
PEL Permutation equivariant layer
A2J Anchor-to-Joint
FC Kiểu lớp (layer) Fully Connected
AUC Area Under the Curve
PCK Percentage of Correct Keypoints
STB Stereo Hand Pose Tracking Benchmark
MS Kinect v1 Microsoft Kinect version 1
RDF Randomized Decision Forest
DOF Degrees of Freedom (số bậc tự do)
FPHAB First-Person Hand Action Benchmark
WCVS Wearable Computer Vision Systems
ELAN Ensemble Learning Aggregation Network
E-ELAN Efficient Extended Learning Aggregation Network
LFB Local Feature-based
IOU Intersection Over Union
Trang 8Danh sách hình vẽ
1 Minh họa cách thức cầm nắm đối tượng 1
2 Minh họa điều khiển tivi trong nhà thông minh [8] 2
3 Minh họa sử dụng cử chỉ tay để chơi game (thực hiện tương tác với máy tính) 2
4 Minh họa cánh tay robot thực hiện cầm nắm, lấy đồ vật trên bàn 3
5 Minh họa phân loại thiết lập camera 3
1.1 Mối quan hệ giữa học sâu, học máy và trí tuệ nhân tạo 8
1.2 Một mạng thần kinh điển hình 8
1.3 Minh họa sự khác biệt về quá trình trích chọn đặc trưng để huấn luyện mô hình của ML và DL 9
1.4 Minh họa sự khác biệt về quá trình trích chọn đặc trưng để huấn luyện mô hình của ML và DL 10
1.5 Minh họa phát hiện bàn tay bằng YOLOv5 11
1.6 Minh họa cấu trúc xương của bàn tay người [14] 11
1.7 Mô hình ước lượng tư thế bàn tay 3D từ ảnh màu [11] 13
1.8 Hai nhánh ước lượng tư thế bàn tay 3D từ ảnh độ sâu [11] 15
1.9 (a) 2D CNN lấy hình ảnh độ sâu làm bản đồ nhiệt đầu vào và đầu ra (b) Các 2D CNN với nhiều hướng nhìn lấy các phép chiếu nhiều hướng nhìn làm đầu vào và tạo ra bản đồ nhiệt tương ứng với nhiều hướng nhìn (c) 2D CNN lấy ảnh độ sâu làm đầu vào và hồi quy trực tiếp các vị trí khớp 3D (d) sử dụng 3D CNN lấy biểu diễn thể tích làm đầu vào và hồi quy các vị trí khớp 3D [6] 16
1.10 Minh họa quá trình ước lượng tư thế bàn tay 3D từ ảnh độ sâu [11] từ bộ thư viện tư thế bàn tay 3D 16
Trang 91.11 Cấu trúc thư mục của cơ sở dữ liệu HOI4D [16] 21
1.12 Minh họa nhãn của các hoạt động của cơ sở dữ liệu HOI4D 22
2.1 Minh họa dữ liệu của các ngón tay bị che khuất trong cơ sở dữ liệu HOI4D 27 2.3 Mô hình ước lượng khung xương/tư thế bàn tay 3D trên cơ sở dữ liệu HOI4D.28 2.2 Minh họa kết quả phát hiện bàn tay trên cơ sở dữ liệu FPHAB 28
2.4 Minh họa tọa độ (x,y,z) của một khung xương bàn tay trên cơ sở dữ liệu HOI4D 29
2.5 Kiến trúc của E-ELAN [20] 31
2.6 Minh họa phương pháp này sử dụng dự đoán đầu khách hàng tiềm năng làm hướng dẫn để tạo nhãn phân cấp từ thô đến tinh [20] 32
2.7 Minh họa các lớp của Darknet-53 32
2.8 Minh họa các cảm biến hình ảnh trên MS Kinect v2 33
2.9 Quá trình chuyển và tiền xử lý đám mây điểm từ ảnh độ sâu 34
2.10 Kiến trúc HandFoldingNet 34
2.11 Kiến trúc của LFB của mạng HandFoldingNet 35
3.1 Minh họa thư mục dữ liệu của 16 loại hành động của cơ sở dữ liệu HOI4D 38 3.2 Minh họa dữ liệu của 16 loại hành động của cơ sở dữ liệu HOI4D 38
3.3 Minh họa xác định đường bao bàn tay gốc cho đánh giá phát hiện bàn tay 39
3.4 Minh họa cấu hình mạng HandFoldingNet và cơ sở dữ liệu HOI4D trên máy chủ có GPU 42
3.5 Minh họa một số trường hợp không phát hiện được bàn tay 43
3.6 Minh họa khung xương bàn tay 3D gốc (khung xương màu xanh) và khung xương bàn tay 3D ước lượng được (khung xương màu đỏ) 44
3.7 Minh họa kết quả ước lượng tư thế bàn tay 3D trên một số hành động của cơ sở dữ liệu HOI4D 45
3.8 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động cầm ô tô đồ chơi 47
3.9 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động cầm cốc 47
3.11 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động kéo ngăn tủ 48 3.10 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động cầm labtop 48
Trang 103.12 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động cầm cái chai 483.14 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động cầm cái bát 493.13 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động cầm hộp
an toàn 493.15 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động sách xô nước 493.16 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động cầm cái kéo 503.17 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động cầm cái kìm 503.18 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động cầm ấm
đun nước 503.19 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động cầm con dao 513.20 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động cầm thùng
rác 513.21 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động cầm cái đèn 513.22 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động cầm cái
ghim giấy 523.23 Kết quả ước lượng tư thế bàn tay 3D khi thực hiện hành động cầm cái cái ghế.52
Trang 11Danh sách bảng
1.1 Kết quả ước lượng tư thế bàn tay 3D trên cơ sở dữ liệu thu từ góc nhìn
thứ hai và thứ ba 231.2 Kết quả ước lượng tư thế bàn tay 3D trên cơ sở dữ liệu FPHAB 231.3 Kết quả so sánh sai sót ước lượng vị trí các khớp của bàn tay 3D khi sử
dụng HandFoldingNet (Erra) với các mô hình học sâu tiên tiến nhất [10] 243.1 Kết quả phát hiện bàn tay bằng YOLOv7 trên cơ sở dữ liệu HOI4D
423.2 Kết quả ước lượng tư thế bàn tay 3D trên cơ sở dữ liệu HOI4D của ban
tay trái khi sử dụng mạng HandFoldingNet
443.3 Kết quả ước lượng tư thế bàn tay 3D trên cơ sở dữ liệu HOI4D của ban
tay phải khi sử dụng mạng HandFoldingNet 46
Trang 12MỞ ĐẦU
Lý do chọn đề tài
Ngày nay, thực tế ảo (Virtual Reality - VR) và thực tế tăng cường (AugmentedReality - AR) trở thành những công nghệ đầy hứa hẹn trong đời sống con người Bàntay con người mang các thông tin rất quan trọng trong cuộc sống như đối với nhữngngười câm, điếc có thể sử dụng bàn tay làm ngôn ngữ cử chỉ để giao tiếp, đặc biệt bàntay với sự hỗ trợ của máy tính sẽ giúp người mù, người khiếm thị cầm nắm, lấy các đồvật trong môi trường một cách chính xác Hình 1 minh họa cách cầm nắm đối tượngcủa bàn tay người
Hình 1: Minh họa cách thức cầm nắm đối tượng.
Hay trong ngôi nhà thông minh, bạn có thể sử dụng cử chỉ bàn tay để điều khiển
Trang 13các thiết bị thông minh trong nhà một cách hiệu quả, như minh họa trong Hình 2.
Hình 2: Minh họa điều khiển tivi trong nhà thông minh [8].
Hay trong giải trí, cử chỉ bàn tay là một công cụ hữu hiệu để chơi game tương tácvới máy tính, như thể hiện trong Hình 3 [15] Hay trong công nghệ robot, bàn tayngười là một hình mẫu có nhiều hành động phức tạp mà các nhà khoa học đang cốgắng xây dựng các cánh tay robot có khả năng thực hiện các hoạt động phức tạp nhưcầm nắm, lấy các đồ vật trên bàn, như thể hiện trong Hình 4
Hình 3: Minh họa sử dụng cử chỉ tay để chơi game (thực hiện tương tác với máy tính).
Để xây dựng được các ứng dụng trên thì bàn tay trong ảnh cần được phát hiện vàước lượng tư thế (hand pose), trong đó tư thế bàn tay 3D (3D hand pose) mang lạicác thông tin quan trọng và hữu ích hơn cả, do thông tin tư thế bàn tay 3D ước lượngđược mang lại sự trực quan, giống với thế giới thực Hiện nay có hai kiểu thiết lập
tư thế của các camera để thu thập dữ liệu từ môi trường là: camera từ góc nhìn thứnhất hay camera mang (egocentric vision camera); camera từ góc nhìn thứ hai, thứ ba
là các camera được lắp cố định tại các vị trí trong môi trường để thu dữ liệu từ môitrường (Surveillance camera) Hình 5 là phân biệt giữa camera góc nhìn thứ nhất vớicamera thứ hai và thứ ba
Trang 14Hình 4: Minh họa cánh tay robot thực hiện cầm nắm, lấy đồ vật trên bàn.
Hình 5: Minh họa phân loại thiết lập camera.
Ngày nay với sự phát triển mạnh mẽ của trí tuệ nhân tạo, khoa học máy tính, phầncứng máy tính, đặc biệt là sự ra đời của các mạng học sâu (deep learning) đã mang lạicác kết quả rất thuyết phục cho các bài toán của thị giác máy tính (Computer Vision)như: Phát hiện, nhận dạng, ước lượng, định vị trong ảnh và trong môi trường khônggian 3D
Chính vì các ứng dụng thực tế thiết thực và xu thế nghiên cứu như vậy đã thôi thúc
em lựa chọn để tài "Nghiên cứu sử dụng Deep Learning để ước lượng tư thếbàn tay 3D từ dữ liệu của cảm biến mang trên người" để nghiên cứu trongluận văn Thạc sỹ của mình Luận văn tập trung nghiên cứu và thử nghiệm mạng họcsâu để ước lượng tư thế bàn tay 3D trên cơ sở dữ liệu thu từ cảm biến mang trên ngườiHOI4D
Trang 15Mục tiêu của đề tài
Trong đề tài của luận văn, thực hiện các mục tiêu cụ thể như sau:
• Nghiên cứu khảo sát về các hướng tiếp cận ước lượng tư thế bàn tay 3D dựa trêncác mạng CNNs và các kết quả ước lượng
• Nghiên cứu và thực hiện ước lượng tư thế bàn tay 3D trên cơ sở dữ liệu HOI4Ddựa trên mạng một mạng CNN tốt được chọn So sánh các kết quả ước lượng tưthế bàn tay 3D
• Xây dựng các video demo về ước lượng tư thế bàn tay 3D dựa trên một mạngCNN trên cơ sở dữ liệu HOI4D
Đối tượng và phạm vi nghiên cứu
• Đề tài nghiên cứu về các đối tượng:
– Cơ sở dữ liệu về tư thế hoạt động của bàn tay người thu được từ cảm biếnmang; Trong đó bao gồm các loại dữ liệu như ảnh màu (RGB image), ảnh
độ sâu (depth image), dữ liệu gốc khung xương bàn tay 3D (3D hand poseannotation/ground truth)
– Khung xương bàn tay người trong không gian 2D (2D hand pose) và 3D (3Dhand pose);
– Các mô hình học sâu (deep learing (DL)/deep neural network (DNN));– Các mô hình mạng nơ ron tích chập (Convolutional Neural Networks)
• Phạm vi nghiên cứu của đề tài:
– Đề tài thực hiện nghiên cứu trong phạm vi là phát hiện bàn tay người trênảnh màu, ước lượng khung xương 3D của bàn tay người từ vùng ảnh pháthiện bàn tay từ dữ liệu ảnh màu hoặc ảnh độ sâu thu được từ môi trườngbằng cảm biến mang Trong đó cơ sở dữ liệu sử dụng cho việc huấn luyện,đánh giá mô hình ước lượng là HOI4D
Trang 16– Các mô hình sửa dụng để phát hiện vùng dữ liệu bàn tay trên ảnh màu vàước lượng tư thế bàn tay 3D là các mô hình mạng học sâu Trong đó đặttrọng tâm vào các mạng nơ ron tích chập.
Ý nghĩa khoa học và thực tiễn của đề tài
• Đối với lĩnh vực giáo dục và đào tạo:
– Giới thiệu một ứng dụng của toán học trong kỹ thuật (phép nhân, nhân chập
ma trận) Luận văn nhắc lại các kiến thức về khoa học máy tính, trí tuệ nhântạo, thị giác máy tính, xử lý ảnh và thực nghiệm các phương thức thống kê,đánh giá các mô hình học máy, mô hình học sâu, mô hình mạng nơ ron tíchchập
– Giới thiệu các mô hình học máy truyền thống và tiên tiến trong lĩnh vực thịgiác máy tính Thí nghiệm các mô hình học sâu, mạng nơ ron tích chập vàobài toán phát hiện đối tượng trên ảnh, ước lượng vị trí trong không gian 3D
Từ đó hệ thống hóa lại các phương pháp về hồi quy
• Đối với lĩnh vực khoa học và công nghệ có liên quan:
– Phát triển các mô hình ước lượng trong thị giác máy tính, trong định vị.– Cung cấp cài đặt của mạng nơ ron tích chập, áp dụng mô hình mới vào cáccông trình nghiên cứu mở rộng cũng như các sản phẩm thương mại hóa
• Đối với phát triển kinh tế - xã hội:
– Mô hình do đề tài giới thiệu hoàn toàn có thể áp dụng trong các phần mềmthương mại như (1) Phần mềm ước lượng và nhận dạng hoạt động cử chỉ bàntay trong điều khiển thiết bị, (2) Mô phỏng các hoạt động phức tạp của bàntay, v.v
– Các phần mềm đó sẽ hỗ trợ người dùng, từ đó giúp xây dựng được các cánhtay robot có thể thực hiện các hoạt động phức tạp
Trang 17Phương pháp nghiên cứu
• Phương pháp nghiên cứu mô hình hóa: Dựa trên các giả thiết thực tế và cácnghiên cứu đã có, thực nghiệm lại mô hình học sâu trên bộ cơ sở dữ liệu đã công
bố HOI4D cho bài toán ước lượng tư thế bàn tay 3D
• Phương pháp nghiên cứu thực nghiệm: Cài đặt thực tế các mô hình, phương thứcđược đề xuất được sử dụng cho bài toán ước lượng tư thế bàn tay 3D từ video
• Phương pháp nghiên cứu tham khảo ý kiến chuyên gia:
– Đánh giá tính khả thi của các mô hình mạng học sâu cho bài toán ước lượng
tư thế bàn tay 3D
– Triển khai ý tưởng, cài đặt thực nghiệm trên bộ cơ sở dữ liệu HOI4D, phântích, đánh giá kết quả và hoàn thiện công bố khoa học
Trang 18Chương 1
TỔNG QUAN ƯỚC LƯỢNG TƯ THẾ BÀN TAY 3D
Chương này trình bày tổng quan về vấn đề ước lượng tư thế bàn tay 3D Trong đó
ba hướng tiếp cận về ước lượng tư thế bàn tay 3D cũng được trình bày: ước lượng tưthế bàn tay 3D từ ảnh màu; ước lượng tư thế bàn tay 3D từ ảnh màu và ảnh độ sâu;ước lượng tư thế bàn tay 3D từ dữ liệu đám mây điểm Đặc biệt với mỗi hướng tiếpcận, kết quả ước lượng tư thế bàn tay 3D được khảo sát và thể hiện một cách chi tiết
1.1.1 Định nghĩa học sâu
Học sâu (Deep Learning - DL) là một trong những phương pháp học máy có sửdụng nhiều lớp biến đổi phi tuyến trên dữ liệu đầu vào từ đó trích xuất được các đặctrưng của dữ liệu Trong khi học, dữ liệu được xử lý qua nhiều lớp với các mức độ khácnhau Dữ liệu có gán nhãn và đủ lớn thường được sử dụng để huấn luyện trong DL.Deep Learning là một tập con của Học máy (Machine Learning - ML), mặt khác
là một lĩnh vực hẹp của trí tuệ nhân tạo (Artificial Intelligence - AI) Thuật ngữ AIthường được dùng để đề cập đến các kỹ thuật sử dụng máy tính "học" các hành vi củacon người trong đó ML lại là ứng cử viên sử dụng một tập các thuật toán dùng dữ liệuđầu vào để huấn luyện và làm cho những yêu cầu trở thành khả thi
Học sâu - Deep Learning (DL) học cách sử dụng giống cấu trúc của bộ não con
Trang 19Hình 1.1: Mối quan hệ giữa học sâu, học máy và trí tuệ nhân tạo.
người Tương tự như cách con người đưa ra quyết định, các thuật toán DL học cáchđưa ra kết luận dựa trên việc phân tích dữ liệu với một cấu trúc logic nhất định
Hình 1.2: Một mạng thần kinh điển hình.
DL làm được điều này bằng cách ứng dụng mạng thần kinh, tức là sử dụng cấutrúc nhiều lớp của các thuật toán Thiết kế của mạng nơron tương đối giống cấu trúccủa bộ não người Chúng ta dùng não để xác định các mẫu và phân tích thông tin thìmạng nơron cũng được dạy để phân tích các tác vụ giống nhau trên dữ liệu tương tựnhư vậy Mỗi khi nhận được thông tin mới, não sẽ cố gắng so sánh nó với các đối tượng
đã biết thì mạng nơron cũng sử dụng các lớp riêng lẻ tương tự như một loại bộ lọc để
Trang 20phân tích từ tổng thể đến chi tiết nhằm nâng cao khả năng phát hiện và đưa ra chínhxác kết quả Ưu điểm đầu tiên của DL so với ML là không cần đến trích xuất tínhnăng Trước khi DL phát triển thì các phương pháp ML truyền thống thường được sửdụng chẳng hạn như Cây quyết định, Support vector Machine (SVM), bộ phân loạiNa¨ıve Bayes Các thuật toán này còn được gọi là thuật toán “phẳng”, có nghĩa là cácthuật toán này thường không thể được áp dụng trực tiếp vào dữ liệu thô như hình ảnh,văn bản, mà cần một bước tiền xử lý gọi là trích xuất tính năng Kết quả của tínhnăng trích xuất là một biểu diễn của dữ liệu thô đã cho ví dụ như việc phân loại dữliệu thành một số loại hoặc một số lớp Đối với các mạng nơron nhân tạo của DL sẽkhông cần trải qua bước trích xuất tính năng Các lớp có thể tự chúng tìm hiểu mộtcách trình bày ngầm của dữ liệu thô một cách trực tiếp Dữ liệu thô ngày càng trừutượng và được nén nhiều hơn để tạo ra trên nhiều lớp của một mạng lưới thần kinhnhân tạo, sau đó biểu diễn nén này của dữ liệu đầu vào được sử dụng để tạo ra kếtquả Ví dụ phân loại dữ liệu đầu vào thành các lớp khác nhau.
Hình 1.3: Minh họa sự khác biệt về quá trình trích chọn đặc trưng để huấn luyện mô hình của ML và DL.
Bước trích xuất đối tượng địa lý đã là một phần của quá trình diễn ra trong mạngnơron nhân tạo Điều này có nghĩa là các mô hình DL đòi hỏi ít hoặc không cần nỗ lựcthủ công để thực hiện và tối ưu hóa toàn bộ quá trình trích xuất đặc trưng
Trang 21Hình 1.4: Minh họa sự khác biệt về quá trình trích chọn đặc trưng để huấn luyện mô hình của ML và DL.
Trong khoảng gần một thập kỷ gần đây, với sự ra đời của các mạng học sâu (DeepLearning - DL) và cụ thể hơn là các mạng nơ ron tích chập (Convolutional NeuralNetworks -CNNs) đã có những kết quả rất ấn tượng trong các bài toán của thị giácmáy tính, đặc biệt là các bài toán của đối tượng bàn tay: Phát hiện bàn tay (handdetection) như minh họa trong Hình 1.5, phân đoạn bàn tay(hand segmentation),nhận dạng bàn tay (hand recognition), ước lượng khung xương bàn tay (hand poseestimation), trong ảnh, video, v.v
Trang 22Hình 1.5: Minh họa phát hiện bàn tay bằng YOLOv5.
Dựa trên kỹ thuật thị giác máy tính, chúng có thể được tìm thấy trong nhiều ứngdụng, bao gồm tương tác người máy; nhận dạng cử chỉ; tương tác trong các trò chơi,ngôn ngữ ký hiệu; nhận dạng hoạt động, ứng dụng trong điều khiển thiết bị trong nhàthông minh; cầm nắm đồ vật; các ứng dụng này đều đã sử dụng các kết quả của ướclượng tư thế bàn tay (hand pose estimation)
Ước lượng tư thế bàn tay 3D (3D hand pose estimation) dựa trên các mạng CNNs
là quá trình dự đoán vị trí của các điểm đại diện (3D keypoint/joints) của bàn tay Bàntay là một khung xương (skeleton) có cấu trúc với khớp (joints) là các điểm xương, vàđược kết nối với nhau theo một cấu trúc xác định Hình 1.6 thể hiện cấu trúc khungxương của bàn tay và số bậc tự do của từng khớp xương
Hình 1.6: Minh họa cấu trúc xương của bàn tay người [14].
Các khớp của bàn tay được nối với nhau theo một cấu hình xác định, từ đó khungxương của bàn tay (3D hand skeleton)/tư thế bàn tay (3D hand pose) được xác định.Gần đây có một số nghiên cứu khảo sát về ước lượng tư thế bàn tay 3D dựa trêncác mạng CNNs Li và các cộng sự [14] đã xây dựng một nghiên cứu khảo sát tổng thểcác vấn đề từ năm 2010 đến năm 2019 về thu thập các cơ sở dữ liệu, các phương thức
Trang 23ước lượng tư thế bàn tay, trong đó có ba hướng tiếp cận chính là (1) ước lượng tư thếbàn tay dựa mô hình khung xương, cấu tạo của bàn tay; (2) ước lượng tư thế bàn taydựa vào huấn luyện mô hình ước lượng tư thế bàn tay từ dữ liệu; (3) hướng tiếp cậnlai giữa hai hướng tiếp cận trên Đặc biệt các cơ sở dữ liệu để đánh giá ước lượng tưthế bàn tay 3D được trình bày và thể hiện rất chi tiết và đầy đủ.
Le và các cộng sự [11] cũng đã xây dựng một khảo sát về sử dụng CNNs cho việcước lượng tư thế bàn tay 3D dựa trên ba hướng tiếp cận dựa trên dữ liệu đầu vào:ước lượng dựa trên dữ liệu RGB, ước lượng từ dữ liệu ảnh depth, ước lượng từ dữ liệuảnh RGB-D và dữ liệu khác Kết quả của các nghiên cứu theo ba hướng tiếp cận đượctrình bày một cách chi tiết trên cơ sở dữ liệu ICVL, NYU, MSRA
Dựa trên các nghiên cứu khảo sát có thể thấy việc ước lượng tư thế/các điểm đạidiện 3D của bàn tay người có thể thực hiện dựa trên ba loại dữ liệu đầu vào chính: (1)
dữ liệu ảnh màu; (2) dữ liệu ảnh độ sâu; (3) dữ liệu đám mây điểm và các loại dữ liệukhác
1.2.1 Ước lượng tư thế bàn tay 3D từ ảnh màu
Ước lượng tư thế bàn tay 3D từ dữ liệu ảnh màu là một vấn đề khó, như hình ảnhthu được chỉ là 2D cần chuyển sang 3D, khoảng cách, xác định tỷ lệ thật trong môitrường của bàn tay Đặc biệt các dữ liệu độ sâu thu ngoài trời có chất lượng thấp và
bị mất dữ liệu do ánh sáng có thể hấp thụ tia hồng ngoại của thiết bị thu dữ liệu Tuynhiên với sự phát triển của các mạng học sâu, cụ thể là các mạng CNNs đã mang lạicác kết quả rất hứa hẹn Để ước lượng được tư thế bàn tay 3D có thể thực hiện dựa
mô hình thể hiện trong Hình 1.7 với ba hướng tiếp cận: (1) hướng tiếp cận dựa trên
dữ liệu; (2) hướng tiếp cận dựa trên mô hình bàn tay; (3) hướng tiếp cận kết hợp giữa
dữ liệu và mô hình của bàn tay
Trong đó hướng tiếp cận dựa trên mô hình của bàn tay để dự đoán vị trí các khớpcủa bàn được thực hiện trong một số nghiên cứu sau Joo và các cộng sự đã sử dụng
mô hình biến dạng 3D của bàn tay để thực hiện ước lượng và theo dõi hoạt động củabàn tay Các mô hình biến dạng 3D của bàn tay là được xây dựng sẵn dựa trên cơ sở
dữ liệu tổng hợp
Zhang và cộng sự đã sử dụng phương pháp hồi quy phân tầng để xác định vị trí
Trang 24Hình 1.7: Mô hình ước lượng tư thế bàn tay 3D từ ảnh màu [11].
thô của các khớp bàn tay và đề xuất một giai đoạn sàng lọc để ước tính lại vị trí khớpcủa các ngón tay duỗi ra Đánh giá bằng bộ dữ liệu MSRA và ICVL, sai số trung bình
để ước tính tất cả các ngón tay lần lượt là 18,02mm và 13,65mm Để ước lượng tất cảcác đầu ngón tay lần lượt có 20,12mm và 14,30mm Dựa trên động học của bàn tay,Wohlke et al đã đề xuất CNN đã nhúng một lớp động học để đào tạo Hình ảnh đầuvào được thay đổi kích thước thành 176 × 176 pixel Đường trục ResNet được sử dụng
để ước tính tư thế bàn tay trên hình ảnh và mô hình động học của bàn tay Bàn tay
có 61 tham số Lỗi tư thế tay 3D của bộ dữ liệu NYU là 11 mm
1.2.2 Ước lượng tư thế bàn tay 3D từ ảnh độ sâu
Các phương thức ước lượng tư thế bàn tay 3D dựa trên dữ liệu vào là ảnh độ sâuđược chia làm hai hướng tiếp cận: hướng tiếp cận dựa trên mô hình, hướng tiếp cậndựa trên huấn luyện
Hướng tiếp cận dựa mô hình là hướng tiếp cận dựa trên mô hình cấu trúc, hình
Trang 25thái học của bàn tay Các tham số của mô hình được khởi tạo bằng cách sử dụng tưthế ở khung hình trước đó của bàn tay Sau đó sử dụng các hàm để tính toán sự khácbiệt của mô hình bàn tay người trong thực tế và mô hình bàn tay được định nghĩa.Các mô hình bàn tay được định nghĩa và bàn tay trực tiếp thường được đặc trưng vềgiá trị độ sâu, cạnh, hình bóng, bóng đổ và luồng quang học Trong quy trình tối ưuhóa tư thế bàn tay, các hàm tối thiểu hóa được lặp đi lặp lại như phương pháp tối ưubầy đàn (Particle swarm optimization - PSO), điểm gần nhất lặp lại (iterative closestpoint - ICP) và các thuật toán tối ưu hóa phi tuyến tính khác Nhược điểm của hướngtiếp cận này là có kết quả không cao khi ước lượng tư thế bàn tay, do đó khó áp dụngvào các bài toán thực tế.
Về hướng tiếp cận dựa trên huấn luyện, các nghiên cứu được chia làm hai nhánhnhư minh họa trong Hình 1.8
Trong hướng tiếp cận này cũng được chia làm hai nhánh là huấn luyện dựa trênđám mây điểm được chuyển từ dữ liệu ảnh độ sâu và nhánh tạo ra 2D Heatmap [11].Với nhánh chuyển dữ liệu sang dữ liệu đám mây điểm có một số nghiên cứu được giớithiệu sau đây
Ge và các cộng sự [6] đã đề xuất một mạng 3D CNN để trích chọn các đặc trưngcho việc huấn luyện mô hình ước lượng tư thế bàn tay 3D Phương pháp dựa trên 3DCNN được đề xuất bằng cách sử dụng biểu diễn thể tích 3D của ảnh độ sâu của bàntay làm đầu vào và trích chọn các đặc trưng 3D từ đầu vào thể tích, có thể chụp cấutrúc không gian 3D của bàn tay và hồi quy chính xác tư thế bàn tay 3D đầy đủ chỉtrong một lần Mô hình thực hiện của nghiên cứu này được thể hiện trong Hình 1.9
Trang 26Hình 1.8: Hai nhánh ước lượng tư thế bàn tay 3D từ ảnh độ sâu [11].
Với nhánh thứ hai là tạo ra 2D Heatmap, dữ liệu đầu vào là ảnh độ sâu và huấnluyện mô hình dựa trên dữ liệu gốc của các tư thế khớp tay trên một tập dữ liệu lớn(dữ liệu tổng hợp) bởi bằng mạng CNN Những bộ dữ liệu đó chứa hầu hết các tư thếtay thực tế Quá trình đánh giá các đặc điểm của tư thế tay trên dữ liệu đầu vào vàtìm ra tư thế phù hợp nhất trong dữ liệu tổng hợp như minh họa trong Hình 1.10.Madadi và cộng sự đã sử dụng CNN mới theo cấu trúc cây, mỗi nhánh được huấnluyện và dùng để xác định lại tập hợp con các khớp tay Được trích xuất từ các nhánhCNN phân cấp, các tính năng tư thế cục bộ được hợp nhất để tìm hiểu các phụ thuộc
Trang 27Hình 1.9: (a) 2D CNN lấy hình ảnh độ sâu làm bản đồ nhiệt đầu vào và đầu ra (b) Các 2D CNN với nhiều hướng nhìn lấy các phép chiếu nhiều hướng nhìn làm đầu vào và tạo ra bản đồ nhiệt tương ứng với nhiều hướng nhìn (c) 2D CNN lấy ảnh độ sâu làm đầu vào và hồi quy trực tiếp các vị trí khớp 3D (d) sử dụng 3D CNN lấy biểu diễn thể tích làm đầu vào và hồi quy các vị trí khớp 3D [6].
Hình 1.10: Minh họa quá trình ước lượng tư thế bàn tay 3D từ ảnh độ sâu [11] từ bộ thư viện tư thế bàn tay 3D.
bậc cao hơn giữa các khớp trong tư thế cuối cùng bằng cách đào tạo từ đầu đến cuối.Đặc biệt, hàm mất mát được sử dụng cũng được xác định để kết hợp các ràng buộc
về ngoại hình và vật lý về chuyển động và biến dạng tay đôi Chức năng này được sửdụng để tối ưu hóa các tham số mạng trong giai đoạn đào tạo và hồi quy Sai số trungbình của các khớp 3D trên bộ dữ liệu NYU và MSRA là 11,0 mm và 9,7 mm
Trang 281.2.3 Ước lượng tư thế bàn tay 3D từ dữ liệu RGB-D và các loại dữ liệu
sử dụng HALNet và sau đó cắt được vùng bàn tay trong ảnh Tiếp theo các tác giả
sử dụng mạng JORNet để dự đoán vị trí của các khớp 3D của bàn tay Cả hai mạngHALNet và JORNet đều được huấn luyện trên cơ sở dữ liệu tổng hợp (SynthHands).Khi sử dụng tư thế 2D từ các mô hình được đào tạo trước khác làm đầu vào kéotheo hiệu suất của mô hình 3D không được tối ưu Các thành phần tương ứng nhưlòng bàn tay, ngón cái, bốn ngón tay không được đánh số thứ tự để xác định mà thựchiện phân tách thủ công dẫn đến việc khó khăn khi đưa mô hình vào thực tế để hoạtđộng Do mạng học sâu sử dụng nhiều tầng tích chập và kết nối, nó đòi hỏi phần cứngtính toán mạnh mẽ để đảm bảo tốc độ xử lý nhanh để ứng dụng thực tế Ngoài ra dođược huấn luyện trên tệp dữ liệu có điều kiện rất đặc biệt nên khi áp dụng vào các môitrường khác nhau như ánh sáng yếu, hoặc trang thiết bị khác nhau có thể cho hiệuxuất giảm đi khá nhiều
Để đánh giá được kết quả của các mô hình mạng nơ ron tích chập cho việc ướclượng tư thế bàn tay 3D thì các mô hình này cần được đánh giá trên các cơ sở dữ liệuchuẩn (Benchmark Dataset) với các độ đo thống nhất Các cơ sở dữ liệu đánh giá ướclượng tư thế bàn tay 3D thường được thu thập từ các cảm biến có dữ liệu 3D Dữ liệu
để tạo ra dữ liệu 3D thường được thu thập từ các cảm biến độ sâu dựa trên công nghệcủa tia hồng ngoại để đo khoảng cách từ cảm biến đến đối tượng
Các cơ dữ liệu thường được chia làm hai loại là cơ sở dữ liệu thu từ góc nhìn thứ hai,thứ ba và cơ sở dữ liệu thu từ góc nhìn thứ nhất Hình 5 là phân biệt giữa camera gócnhìn thứ nhất và camera góc nhìn thứ hai, thứ ba Có thể thấy camera góc nhìn thứnhất là camera được gắn trên người hay mang trên người (egocentric vision), camera
Trang 29góc nhìn thứ hai và thứ ba là camera được gắn ở các bị trí khác khác nhau trong môitrường để thu thập dữ liệu.
Hai loại cơ sở dữ liệu này sẽ được trình sau đây
1.3.1 Cơ sở dữ liệu thu từ góc nhìn thứ ba
Bộ dữ liệu NYU bao gồm 72757 ảnh cho huấn luyện và 8252 cho kiểm tra Mỗikhung hình bao gồm một cặp ảnh RGB và ảnh độ sâu từ ba MS Kinect v1, tức là
dữ liệu thu từ MS Kinect v1 ở hướng nhìn trực diện và hai góc nhìn Các khung hìnhđược đánh dấu (annotation) dựa trên ground-truth hand-pose Các tác giả đã sử dụngRandomized Decision Forest (RDF) để huấn luyện mô hình phân loại nhị phân cho bộ
dữ liệu này Sau đó phân loại này phân đoạn từng pixel thuộc về một bàn tay hoặcnền trong ảnh độ sâu Với dữ liệu gốc 3D (3D ground truth/3D annotation) bao gồm
42 DOF của 25 khớp
Cơ sở dữ liệu MSRA bao gồm 76k ảnh độ sâu của bàn tay phải của 9 đối tượngđược chụp bằng cách sử dụng Intel’s Creative Interactive Gesture Camera Mỗi đốitượng có 17 cử chỉ được chụp Có khoảng 500 khung hình và 21 khớp tay 3D gốc trênmỗi khung Độ phân giải của ảnh là 320 × 240 pixel Các tham số trong của cameracũng được cung cấp, tâm ảnh (principal point) là (160, 120) và tiêu cự (focal length)
là 241,42
Cơ sở dữ liệu ICVL bao gồm 22K khung hình để huấn luyện và 1,6K thử nghiệm,các khung hình được thu thập bởi Intel’s Creative Interactive Gesture Cameral Mỗikhung hình được cung cấp dữ liệu gốc 3D với 16 khớp tay, bao gồm lòng bàn tay, gốcngón cái, giữa ngón cái, đầu ngón cái, gốc ngón trỏ, ngón trỏ giữa, đầu nhọn, gốc giữa,giữa giữa, đầu giữa, gốc vòng, vòng giữa, đầu mút, gốc ngón út, giữa ngón út và đầungón út
Cơ sở dữ liệu Stereo Hand Pose Tracking Benchmark (STB) bao gồm 18.000ảnh âm thanh nổi và độ sâu với dữ liệu gốc 3D của 21 khớp của bàn tay Trong đó tâmcủa dữ liệu gốc là trung tâm lòng bàn tay (không phải cổ tay hay bàn tay trung tâm).Ảnh độ sâu được chụp từ một cảm biến hình ảnh độ sâu hoạt động Intel Real SenseF200 Bộ dữ liệu này cũng cung cấp các thông số trong của camera
Bộ dữ liệu Rendered Hand Pose Dataset (RHD) cung cấp 41258 ảnh cho huấn
Trang 30luyện và 2728 ảnh kiểm tra có độ phân giải là 320 × 320 điểm ảnh Mỗi khung hìnhbao gồm một cặp ảnh RGB và độ sâu Bộ dữ liệu này cũng cung cấp sự thật mặt đất3D với 21 khớp điểm.
Cơ sở dữ liệu HandNet bao gồm 214971 ảnh độ sâu được chuẩn bị dữ liệu gốc củabàn tay, bộ dữ liệu được chia thành ba nhóm: dữ liệu huấn luyện bao gồm 202198 ảnh,
dữ liệu kiểm tra chứa 10000 ảnh, dữ liệu xác thực bao gồm 2773 ảnh Cảm biến được
sử dụng để thu thập dữ liệu là RealSense RGB-D Dữ liệu gốc tư thế bàn tay trên mỗilớp pixel, đầu ngón tay 6D tư thế và bản đồ nhiệt
Cơ sở dữ liệu MSRC bao gồm 102.000 ảnh độ sâu của một đối tượng trong đó 100k
là dữ liệu huấn luyện Độ phân giải là 512 × 424 điểm ảnh và số lượng góc nhìn là 3
Bộ dữ liệu này cũng cung cấp dữ liệu gốc với 22 điểm đại diện
1.3.2 Cơ sở dữ liệu thu từ góc nhìn thứ nhất
Cơ sở dữ liệu UCI-EGO được thu thập từ Intel Creative camera gắn trên ngựccủa người, bộ dữ liệu này cung cấp 400 khung hình Dữ liệu gốc 3D là các điểm đạidiện với 26 khớp cũng được cung cấp Để chuẩn bị dữ liệu gốc cho tập dữ liệu này chođánh giá ước lượng tư thế bàn tay 3D và theo dõi bàn tay, các tác giả đã phát triểnmột công cụ ghi nhãn bán tự động cho phép đánh dấu chính xác bàn tay và ngón tay
bị che khuất một phần trong không gian 3D bằng cách sử dụng kỹ thuật: Một số khớp2D được dán nhãn thủ công đầu tiên trong ảnh và được sử dụng để chọn các mẫu tổnghợp gần nhất trong tập huấn luyện; Sau đó, một tư thế tay đầy đủ được tạo ra bằngcách kết hợp ghi nhãn thủ công và mẫu 3D đã chọn; Tư thế này được tinh chỉnh thủcông, dẫn đến việc lựa chọn một mẫu mới và tạo ra một tư thế mới; Quy trình lặp đilặp lại được thực hiện cho đến khi đạt được việc ghi nhãn chấp nhận được
Cơ sở dữ liệu Graz16 có hơn 2000 khung hình độ sâu của một số chuỗi tự nhiênvới sáu đối tượng Dữ liệu gốc 3D được thực hiện với 21 khớp Kích thước của hìnhảnh là 320 × 240 điểm ảnh Các tác giả đã đề xuất một ứng dụng bán tự động để dễdàng chuẩn bị các chuỗi tư thế khớp nối trong không gian 3D Ứng dụng này yêu cầumột đánh dấu của người cung cấp ước lượng về các hình chiếu lại 2D của các khớp cóthể nhìn thấy trong các khung hình, chúng được gọi là các khung hình tham chiếu Kỹthuật này đề xuất một phương pháp để tự động chọn những khung hình tham chiếu để
Trang 31giảm thiểu lỗi 3D, dựa trên sự xuất hiện của các khung hình trên toàn bộ chuỗi Sau
đó sử dụng thông tin để tự động suy ra vị trí 3D của các khớp cho tất cả các khunghình, bằng cách khai thác diện mạo, thời gian và khoảng cách hạn chế
Cơ sở dữ liệu Dexter+Object bao gồm 3014 khung hình với dữ liệu gốc Cáckhung hình được thu thập theo cặp: ảnh RGB được thu từ camera màu CreativeSenz3D; Các ảnh độ sâu được chụp từ TOF cự ly gần của Creative Senz3D Nó baogồm 6 hoạt động của một bàn tay điều khiển một hình khối (2 kích cỡ khác nhau)trong các cấu hình đối tượng bàn tay có các cấu hình cầm nắm khác nhau Dữ liệu gốccủa các khớp tay được đánh dấu thủ công trên pixel ảnh chiều sâu để đánh dấu 5 vịtrí trên đầu ngón tay và 3 góc hình khối
Đặc biệt, cơ sở dữ liệu BigHand2.2M cung cấp 2,2 triệu bản đồ độ sâu của mườingười (7 nam, 3 nữ) với độ chính xác dữ liệu gốc ở mức trung bình Để xác định dữ liệugốc 3D, các tác giả sử dụng hai phần cứng theo dõi điện từ được đồng bộ hóa các đơn
vị, bao gồm sáu cảm biến từ 6D và một máy phát tầm trung Thiết bị thu hình ảnh
là Intel RealSense SR300 camera có tốc độ tối đa là 60fps Độ phân giải là 640 × 480điểm ảnh và số bậc tự do (DOF) là 31 Bộ dữ liệu này được chia thành ba phần, baogồm 1,534 triệu ảnh của phiên bản trước tư thế bàn tay được xác định trước, 375Kảnh của tư thế ngẫu nhiên và ảnh 290K của tư thế vị kỷ
Cơ sở dữ liệu FPHAB [5] (First-Person Hand Action Benchmark) là sử dụng các
tư thế tay 3D để nhận ra các hành động động của tay từ dữ liệu thu được từ góc nhìnthứ nhất của người với các đối tượng 3D FPHAB bao gồm chuỗi video ảnh màu, ảnh
độ sâu (RGB-D) với hơn 100K khung hình thuộc 45 loại hành động tay hàng ngày,liên quan đến 26 đối tượng khác nhau trong một số cấu hình tay Để có được dữ liệugốc (annotation/ground truth) về tư thế tay, FPHAB đã sử dụng hệ thống theo vết
và đánh dấu dữ liệu gốc (Mocap) của riêng mình để tự động suy ra vị trí 3D của từngkhớp trong số 21 khớp của mô hình bàn tay thông qua 6 cảm biến từ tính và chuyểnđộng học nghịch đảo
Cơ sở dữ liệu WCVS (Wearable Computer Vision Systems) [18] tập dữ liệu đượcchụp bởi máy ảnh RGB-D gắn trên trên mũ bảo hiểm có ba cấp độ nhận dạng hànhđộng Cấp độ 1 bao gồm hai loại hành động, thao tác và không thao tác Cấp độ 2 chianhỏ hai hành động thành 4 và 6 phân loại tương ứng Mặc dù cấp độ 3 chứa các hành
Trang 32động chi tiết, tần suất ghi quá thấp để huấn luyện một bộ phân loại Các tác giả ápdụng cấp độ 2 với 4 lớp hành động để đánh giá phương pháp của họ Các tập dữ liệuđược thực hiện bởi 4 đối tượng trong 2 kịch bản.
Cơ sở dữ liệu HOI4D [16] được thu thập và đồng bộ hóa dựa trên cảm biến Kinectv2 RGB-D và cảm biến Intel RealSense D455 RGB-D Đây là bộ dữ liệu 4D với dữliệu gốc phong phú dành cho đánh giá tương tác giữa đối tượng và người HOI4D baogồm 2,4M khung hình RGB-D dựa trên hướng nhìn của cảm biến mang với hơn 4000chuỗi hình ảnh Cơ sở dữ liệu này được thu thập từ 9 người tham gia tương tác với
800 trường hợp đối tượng khác nhau từ 16 danh mục trong 610 phòng khác nhau Bộ
dữ liệu này cung cấp các loại dữ liệu gốc cơ bản sau: dữ liệu gốc theo khung cho phânđoạn toàn cảnh, phân đoạn chuyển động, tư thế tay 3D, nhận dạng hành động tay,cùng với các lưới đối tượng được tái tạo và các đám mây điểm cảnh Các dữ liệu gốccũng được chuẩn bị theo từng khung hình để phân đoạn toàn cảnh, phân đoạn chuyểnđộng, tư thế tay 3D, đối tượng cấp danh mục tư thế và hành động tay cũng đã đượccung cấp cùng nhau với các lưới đối tượng được tái tạo và các đám mây điểm của cảnh
Cơ sở dữ liệu HOI4D được thu thập từ 4 camera được đánh tên theo ký hiệu
"ZY20210800001", "ZY20210800002", "ZY20210800003", "ZY20210800004" Cấu trúccây thư mục của cơ sở dữ liệu HOI4D được thể hiện như trong Hình 1.11
Hình 1.11: Cấu trúc thư mục của cơ sở dữ liệu HOI4D [16].
Trang 33Trong Hình 3, có "align_rgb" sử dụng để lưu trữ các video ảnh màu, "align_depth"chứa các video ảnh độ sâu, "objpose" lưu tư thế của các đối tượng, "action" lưu trữhành động của bàn tay, "3Dseg" lưu trữ dữ liệu phân đoạn 3D của các đối tượng vàbàn tay, "2Dseg" lưu trữ dữ liệu phân đoạn 2D (mask) của các đối tượng và bàn tay.Cấu trúc đặc tên cho các thư mục trong cơ sở dữ liệu HOI4D như sau:
• ZY2021080000* là tham chiếu ID của camera
• H∗ tham chiếu đến ID của người
• C∗ tham chiếu đến lớp đối tượng
• N∗ tham chiếu đến ID của trường hợp đối tượng
• S∗ tham chiếu đến ID của phòng
• s∗ tham chiếu đến ID của trình bày phòng
• T∗ tham chiếu đến ID của nhiệm vụ Trong đó dữ liệu về hoạt động của bàn tayđược chia làm 16 hoạt động với nhãn như Hình
Trong đó dữ liệu về hoạt động của bàn tay được chia làm 16 hoạt động với nhãnnhư Hình 1.12
Hình 1.12: Minh họa nhãn của các hoạt động của cơ sở dữ liệu HOI4D.
Trang 341.4 Kết quả ước lượng tư thế bàn tay 3D
Kết quả ước lượng tư thế bàn tay 3D trên cơ sở dữ liệu thu thập từ camera gócnhìn thứ hai và thứ ba được thể hiện trong Bảng 1.1
Bảng 1.1: Kết quả ước lượng tư thế bàn tay 3D trên cơ sở dữ liệu thu từ góc nhìn thứ hai và thứ ba.
Nghiên cứu Lỗi ước lượng trung bình (mm)
Bảng 1.2 thể hiện kết quả ước lượng tư thế bàn tay trên cơ sở dữ liệu FPHAB [10]
Bảng 1.2: Kết quả ước lượng tư thế bàn tay 3D trên cơ sở dữ liệu FPHAB.
Giao thứcPhương thức (1:3) (1:1) (3:1 Dữ liệu đã chuẩn hóaLSTM 3D-GT 58.75 78.73 84.82 _
PA-ResGCN 76.57 82.59 90.37 82.78DDNet 88.40 92.22 96.29 90.00mn-DDNet 92.4 94.99 97.04 93.22tn-DDNe 92.33 95.18 97.00 93.22
Các kết quả khi sử dụng HandFoldingNet cho việc ước lượng tư thế bàn tay 3D trên
cơ sở dữ liệu FPHAB khi so sánh với một số mạng CNN khác được thể hiện trongBảng 1.3
Trang 35Bảng 1.3: Kết quả so sánh sai sót ước lượng vị trí các khớp của bàn tay 3D khi sử dụng HandFoldingNet (Err a ) với các mô hình học sâu tiên tiến nhất [10].
#123
Cấuhình
#213
Cấuhình
#321
Cấuhình
#312HopeNet (ResNet-10
dữ liệu độ sâu, dữ liệu gốc được chuẩn bị bởi hệ thống MOcap vẫn tồn tại những saisót, v.v Chính vì những lý do như trên làm cho kết quả ước lượng tư thế bàn tay trên
cơ sở dữ liệu thu từ cảm biến mang còn có lỗi lớn Hiện nay mới có một số nghiên cứuthực hiện ước lượng trên cơ sở dữ liệu FPHAB, cơ sở dữ liệu HOI4D là một cơ sở dữliệu mới được đề xuất và công bố nên các nghiên cứu trên bộ cơ sở dữ liệu này còn rất
ít Do đó trong luận văn này tôi thực nghiệm ước lượng tư thế bàn tay 3D trên cơ sở
dữ liệu HOI4D
Ước lượng tư thế bàn tay có thể thực hiện dựa trên ba hướng tiếp cận theo dữ liệuđầu vào: ước lượng từ ảnh màu, ước lượng từ ảnh độ sâu, ước lượng từ dữ liệu RGB-D
Trang 36hoặc dữ liệu khác Trong chương này, em đã thực hiện một khảo sát tổng quan về cácphương thức ước lượng, tổng quan về các cơ sở dữ liệu để đánh giá mô hình ước lượng
tư thế bàn tay 3D Đồng thời các cơ sở dữ liệu thu được từ góc nhìn thứ hai và thứ bacũng được giới thiệu để đánh giá các mô hình mạng CNNs để ước lượng tư thế bàn tay3D Đặc biệt một số cơ sở dữ liệu thu từ camera góc nhìn thứ nhất cũng được trìnhbày và kết quả ước lượng trước đây của cơ sơ dữ liệu FPHAB Trong chương này tôicũng chỉ ra những tồn tại và khoảng trống trong nghiên cứu của luận văn
Trang 37là chuyển vùng dữ liệu bàn tay từ ảnh sang dữ liệu đám mây điểm Các nội dung chitiết của quá trình trên được trình bày ngay sau đây.
Ước lượng tư thế bàn tay 3D là một nghiên cứu được áp dụng mạnh mẽ cho tươngtác giữa người và máy Kết quả tương tác chính xác và trực quan phụ thuộc nhiều vàokết quả ước lượng tư thế bàn tay 3D Hướng nghiên cứu này đã nhận được sự quantâm lớn của cộng đồng nghiên cứu về thị giác máy tính và robot, đặc biệt khi ứngdụng mạng nơ-ron sâu (DNNs) mang lại nhiều kết quả ấn tượng Điều đó cho thấyrằng trong những năm gần đây, nhiều khảo sát và nghiên cứu có giá trị đã được xuấtbản trên số này [12], [4]
Kết quả tương tác chính xác và trực quan phụ thuộc nhiều vào kết quả ước lượng
tư thế bàn tay 3D Hướng nghiên cứu này đã nhận được sự quan tâm lớn của cộngđồng nghiên cứu về thị giác máy tính và robot, đặc biệt khi ứng dụng mạng nơ-ron
Trang 38sâu (DNNs) mang lại nhiều kết quả ấn tượng Điều đó cho thấy rằng trong những nămgần đây, nhiều khảo sát và nghiên cứu có giá trị đã được công bố [12], [4] Đặc biệt làphương pháp sử dụng kết hợp hình ảnh độ sâu và đám mây điểm mang lại kết quả tốt.Tuy nhiên, khi thực hiện ước lượng tư thế bàn tay 3D trên bộ dữ liệu góc nhìn thứnhất, có nhiều trường hợp bàn tay bị che khuất, thiếu thông tin, thiếu ngón tay, nhưminh họa trong Hình 2.1.
Hình 2.1: Minh họa dữ liệu của các ngón tay bị che khuất trong cơ sở dữ liệu HOI4D.
Phát hiện bàn tay là một bước tiền xử lý quan trọng trong ước lượng tư thế bàntay 3D Kết quả phát hiện bàn tay sẽ xác định vùng dữ liệu được sử dụng để ước lượng
tư thế bàn tay 3D Nếu khu vực dữ liệu bàn tay được phát hiện phù hợp nhất với bàntay, kết quả ước lượng tốt nhất sẽ thu được Bài toán phát hiện bàn tay trên ảnh màu
sử dụng CNN đã cho kết quả ấn tượng
Với dữ liệu thu được từ camera tầm nhìn vị kỷ (góc nhìn thứ nhất), có rất nhiềungón tay ẩn và trong bộ dữ liệu FPHAB [5], bàn tay mà tôi quan tâm (bàn tay thựchiện hoạt động), cũng được đính kèm với điểm đánh dấu để đánh dấu chú thích tư thếtay 3D Việc phát hiện tay khi được sử dụng với các mô hình được đào tạo trước có kếtquả rất thấp Hình 2.2 hiển thị kết quả phát hiện bàn tay bằng cách sử dụng mô hìnhđược đào tạo trước của YOLOv5 và mô hình được đào tạo trước của YOLOv4 trên
bộ dữ liệu FPHAB Do đó, tôi không sử dụng kết quả phát hiện bàn tay dựa trên môhình đã được huấn luyện của các phương pháp YOLOv5, YOLOv4 để giới hạn khônggian ước lượng tư thế bàn tay 3D