.57 Trang 7 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮTAI Artificial Intelligent trí tuệ nhân tạo3D-HPE 3D Human Pose Estimation3DPCK 3D Percentage of correct keypointsA2J Anchor-to-JointCAD
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LƯƠNG THỊ THANH MINH
NGHIÊN CỨU SỬ DỤNG DEEP LEARNING ĐỂ ƯỚC LƯỢNG TƯ THẾ NGƯỜI 3D ÁP DỤNG TRONG
PHÂN TÍCH, ĐÁNH GIÁ THỂ THAO
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
LƯƠNG THỊ THANH MINH
NGHIÊN CỨU SỬ DỤNG DEEP LEARNING ĐỂ ƯỚC LƯỢNG TƯ THẾ NGƯỜI 3D ÁP DỤNG TRONG
PHÂN TÍCH, ĐÁNH GIÁ THỂ THAO
Ngành: Khoa học máy tính
Mã số: 8 48 0101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
Thái Nguyên - 2023
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn Thạc Sỹ với tiêu đề "NGHIÊN CỨU SỬ DỤNG DEEPLEARNING ĐỂ ƯỚC LƯỢNG TƯ THẾ NGƯỜI 3D ÁP DỤNG TRONG PHÂN TÍCH,ĐÁNH GIÁ THỂ THAO" là kết quả nghiên cứu của tôi dưới sự hướng dẫn khoa học của TS
Lê Văn Hùng Tất cả các số liệu, hình ảnh, bảng biểu, các bài báo được trình bày trong luậnvăn đều được trích dẫn nguồn trung thực và đầy đủ
Thái Nguyên, tháng 08 năm 2023
Lương Thị Thanh Minh
Trang 4LỜI CẢM ƠN
Lời cảm ơn đầu tiên, em xin bày tỏ lời cảm ơn xâu sắc tới Thầy TS Lê Văn Hùng đã tậntình hướng dẫn và giúp đỡ trong quá trình tìm hiểu, nghiên cứu và thực hiện luận văn Luậnvăn này không thể hoàn thành nếu thiếu đi những góp ý chân thành và sự hướng dẫn tỉ mỉ từThầy Hùng Dù thầy rất bận rộn với công việc giảng dạy, nghiên cứu khoa học nhưng Thầyluôn lắng nghe những vấn đề mà tôi gặp phải, luôn động viên kịp thời và đưa ra những địnhhướng để tôi hoàn thiện kết quả nghiên cứu Tôi muốn bày tỏ lòng biết ơn đến Thầy và chúcThầy sẽ đạt được nhiều thành công hơn nữa trong công việc, cũng như trong cuộc sống.Trong quá trình học Thạc sỹ tại trường Đại học Công nghệ thông tin và Truyền thông -Đại học Thái Nguyên, tôi cũng đã được hỗ trợ và tạo điều kiện từ các thầy, cô trong trường.Quãng thời gian vừa qua là nhiều ngày vừa học, vừa làm, hàng ngày trong tuần tôi đều cómặt ở cơ quan, cuối tuần tôi phải có mặt ở trường Hoàn thành cả hai công việc một lúc là rấtnhiều nỗ lực của bản thân, nhưng sẽ không thể thành công nếu thiếu đi sự ủng hộ của mọingười Tôi xin dành lời cảm ơn tới gia đình tôi, điểm tựa để tôi vượt qua những giai đoạn khókhăn trong công việc và cuộc sống Kết quả ngày hôm nay là lời tri ân chân thành nhất màtôi có thể gửi tới gia đình mình
Cuối cùng Học viên bày tỏ lời cảm ơn tới các đồng nghiệp, gia đình, bạn bè đã luôn độngviên, chia sẻ, ủng hộ và giúp đỡ tôi vượt qua khó khăn để đạt được những kết quả nghiên cứutrong Luận văn này
Học viên
Lương Thị Thanh Minh
Trang 5Mục lục
MỞ ĐẦU 1
1 TỔNG QUAN 10 1.1 Tổng quan về học sâu 10
1.1.1 Định nghĩa 10
1.1.2 Công dụng của mô hình học sâu 10
1.1.3 Mạng nơ ron tích chập 11
1.2 Tổng quan về ước lượng tư thế người 3D 12
1.3 Cơ sở dữ liệu đánh giá ước lượng tư thế người 3D 16
1.4 Khảo sát ước lượng tư thế người 3D 17
1.5 Thảo luận 18
1.6 Kết luận chương 1 19
2 MÔ HÌNH ƯỚC LƯỢNG TƯ THẾ NGƯỜI 3D 20 2.1 Phương pháp tiếp cận 20
2.1.1 Mediapipe Pose 20
2.1.2 Mô hình Robot người 22
2.1.3 Hiệu ứng phản chiếu của máy ảnh 24
2.1.4 Phương pháp tối ưu hóa toàn cục nhanh 25
2.2 Ước lượng tư thế người trên cơ sở dữ liệu MADS 28
2.2.1 Cơ sở dữ liệu MADS 28
2.2.2 Thí nghiệm và độ đo đánh giá 30
2.2.3 Kết quả ước lượng tư thế người 3D 31
Trang 62.3 Kết luận chương 2 38
3 PHÂN TÍCH, ĐÁNH GIÁ THỂ THAO 39 3.1 Một số ứng dụng thể thao dựa trên tư thế người 39
3.2 Ứng dụng chấm điểm thể thao dựa trên khung xương người 3D 41
3.3 Phân tích thể thao dựa trên tư thế người 45
3.4 Kết luận chương 3 50
KẾT LUẬN VÀ NGHIÊN CỨU TIẾP THEO 51 A MỘT SỐ MÃ NGUỒN CHƯƠNG TRÌNH 57 A.1.Mã nguồn vẽ khung xương người 57
A.2.Mã nguồn của mediapipe cho việc ước lượng tư thế người 2D 57
A.3.Mã nguồn của mediapipe cho việc ước lượng tư thế người 3D 58
Trang 7DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
AI Artificial Intelligent (trí tuệ nhân tạo)
3D-HPE 3D Human Pose Estimation
3DPCK 3D Percentage of correct keypoints
A2J Anchor-to-Joint
CAD Computer-Aided Design (Thiết kế hỗ trợ bởi máy tính)
BSS Bisectional Search
CAD Computer-Aided Design (Thiết kế hỗ trợ bởi máy tính)
CNN Convolutional Neural Network
CV Computer Vision (thị giác máy tính)
DH Denavit-Hartenberg
DL Deep Learning
FC Kiểu lớp (layer) Fully Connected
FPHAB First-Person Hand Action Benchmark
GA Genetic Algorithm
GAN Generative Adversarial Network (Mạng đối thủ chung)
GCN Graph Convolutional Network
GT Game Theory (lý thuyết các trò chơi)
HOI4D Human-Object Interaction 4D
ICVL Institute of Computing and Informatics, Slovak University of Technology
LFB Local Feature-based
MADS Martial Arts, Dancing, and Sports dataset
MPJPE Mean Per Joint Position Error
MPP MediaPipe Pose
MSRA Microsoft Research Asia (Trung tâm Nghiên cứu Microsoft ở châu Á)
NYU New York University (Đại học New York)
RGB-D Red Green Blue – Depth
RNN Recurrent Neural Network
SE Special Euclidean (Euclid đặc biệt)
SMPL Skinned Multi-Person Linear
ST-GCN Spatial Temporal Graph Convolutional Network
TOF Time-of-Flight
uDEAS Phương pháp tối ưu hóa toàn cầu kết hợp các phương pháp tìm kiếm cục bộ và toàn cụcUDS Unidirectional Search
UV Vị trí các khớp 2D trong không gian ảnh độ sâu, trục hoành (U) trục tung (V)
VAE Variational Autoencoder (Bộ mã hóa tự động biến thể)
VARs Video Assistant Referee system
WCVS Wearable Computer Vision Systems
Trang 8Danh sách hình vẽ
kê và lý thuyết trò chơi. 2
và 3D Bên trái là kết quả lượng tư thế người trên ảnh/không gian 2D, bên
ảnh (a) kết quả bản đồ nhiệt khi độ lệch chuẩn của hàm Gaussian được đặt
là 1 (b) kết quả bản đồ nhiệt khi độ lệch chuẩn của hàm Gaussian được đặt
Trang 92.1 Minh họa kết quả ước lượng 33 khớp/điểm đại diện của mediapipe pose. 21
màu [4] 21
khung hình của máy ảnh xcyczc 25
điểm dựa trên mặt nạ con người từ hình ảnh Bộ xương người màu đỏ là kết
ảnh mặt nạ của người Dữ liệu độ sâu của người được phân định bằng đường
viền màu vàng Giá trị độ sâu của pixel người lớn hơn 0 (là khoảng cách từ
máy ảnh đến bề mặt cơ thể) và có màu xám, các pixel khác là nền và có màu
đen Hình ảnh độ sâu là kết quả của việc ánh xạ từ mặt nạ người sang hình
2.10 Minh họa đánh dấu các điểm chính 2D trên ảnh màu 29 2.11 Minh họa khung xương người 3D của dữ liệu gốc (khung xương màu xanh)
2.12 Minh họa tọa độ của các điểm trong khung xương 3D là kết quả ước lượng
2.13 Minh họa kết quả ước lượng trên video nhảy Hiphop của cơ sở dữ liệu MADS 35 2.14 Minh họa kết quả ước lượng trên video khiêu vũ trên nền nhạc Jazz của cơ
2.15 Minh họa kết quả ước lượng trên video biểu diễn võ thuật Kata (karate kata)
Trang 102.16 Minh họa kết quả ước lượng trên video hoạt động thể thao (môn cầu lông
2.17 Minh họa kết quả ước lượng trên video biểu diễn võ thuật Taichi của cơ sở
và 3D Bên phải minh họa kết quả tính góc lệch của các khớp xương quan
cách của các khớp trên khung xương người 3D ước lượng được của hoạt
cách của các khớp trên khung xương người 3D ước lượng được của hoạt
cách của các khớp trên khung xương người 3D ước lượng được của hoạt
cách của các khớp trên khung xương người 3D ước lượng được của hoạt
3.10 Minh họa kết quả ước lượng tư thế người 3D và quá trình tính tổng khoảng
cách của các khớp trên khung xương người 3D ước lượng được của hoạt
3.11 Minh họa nghiên cứu của VinIF về nghiên cứu dựa trên khung xương người
Trang 11Danh sách bảng
Human3.6M cho 3D-HPE. 18
2.1 Kết quả ước lượng tư thế người 3D trên cơ sở dữ liệu MADS. 35
3.1 Một số kỹ thuật đánh cầu lông và tư thế người. 43
3.2 Kết quả góc lệch trung bình của các đoạn khớp với trục tọa độ (độ). 46
Trang 12MỞ ĐẦU
Lý do chọn đề tài
Ngày nay, công nghệ video (Video Assistant RefereeS - VARs) được áp dụng rất nhiềutrong thống kê, phân tích thể thao, đặc biệt là trong các trận đấu bóng đá Công nghệ nàygiúp giám sát các trận đấu được chính xác hơn và công bằng hơn Như thể hiện như trongHình 1, trọng tài đang xem lại màn hình VARs để xác định xem cầu thủ có bị việt vị haykhông
Hình 1: Minh họa ứng dụng tư thế và vị trí người để thổi phạt của công nghệ VARs trong
bóng đá.
Đồng thời, Trí tuệ nhân tạo (Artificial Intelligent - AI), thị giác máy tính (ComputerVision - CV) và lý thuyết các trò chơi (Game Theory - GT) đã được áp dụng nhiều trong
Trang 13phân tích thể thao, từ đó đưa ra các giám sát, quản lý thể thao tốt hơn, đặc biệt là xây dựngđược các trò chơi hấp dẫn hơn, sát với thực tế hơn Hình 2 thể hiện mối quan hệ của các ứngdụng trong trí tuệ nhân tạo: thị giác máy tính, phân tích học và lý thuyết trò chơi.
Hình 2: Minh họa mối quan hệ các ứng dụng của thị giác máy tính trong học thống kê và lý
thuyết trò chơi.
Hiện nay, học sâu (Deep Learning - DL) được sử dụng rất nhiều vào các nghiên cứu đểphát hiện, ước lượng, nhận dạng các đối tượng và đã có rất nhiều kết quả ấn tượng Để xâydựng được các ứng dụng trong thể thao như chấm điểm động tác, phân tích động tác, khôiphục các tư thế thể thao, thế võ cổ truyền, bảo tồn các tư thế võ cổ truyền thì tư thế ngườicần được ước lượng một cách chính xác trong các video Đồng thời, để tăng tính trực quan
và gần với môi trường thực tế thì tư thế người 3D cần được ước lượng
Mạng học sâu tiên tiến là các mạng dựa trên việc huấn luyện các đặc trưng ở cấp sâu haycòn gọi là học sâu (DL), các đặc trưng này được tạo ra dựa trên việc nhân chập các ma trậnđiểm ảnh với các mặt nạ Mô hình của những mạng này được huấn luyện với tập dữ liệu đủlớn (ví dụ: cơ sở dữ liệu Human 3.6M [9] với 3.6 triệu ảnh được thu thập trong phòng từ 16hoạt động của người) Cơ sở dữ liệu Human 3.6M là một trong các cơ sở dữ liệu được sử
Trang 14dụng nhiều nhất cho việc đánh giá các mô hình ước lượng tư thế người 3D từ dữ liệu ảnh độsâu hoặc ảnh màu Những kết quả này mở ra hướng nghiên cứu sâu hơn về ước lượng tư thếngười 3D và nhận dạng tư thế người từ dữ liệu tư thế người ước lượng được.
Với dữ liệu hình ảnh màu thu được từ camera và dữ liệu gốc (3D human pose annotation)được xây dựng từ các cảm biến thu thập dữ liệu Việc ước lượng tư thế người từ mô hình huấnluyện dựa trên dữ liệu gốc 3D của các khớp bằng các mạng DL được thực hiện trong nghiêncứu [23] Dữ liệu gốc các khớp 3D là dữ liệu phức tạp, cơ sở dữ liệu gốc 3D là một tập dữliệu lớn Việc học vị trí của các điểm đại diện (keypoint) trên khung xương của người trongtập dữ liệu lớn các điểm đại diện gặp rất nhiều khó khăn Vì kích thước của tập dữ liệu nàybằng = Số lượng khung xương x Số lượng khớp trên cơ thể người (có thể là 16 hoặc 17 hoặc
21 điểm) x 3(tọa độ x,y,z) Cơ sở dữ liệu này được minh họa trong Hình 3
Hình 3: Minh họa không gian các khung xương 3D của cơ sở dữ liệu Human 3.6M [9].
Đồng thời, các nghiên cứu về ước lượng tư thế người 3D được áp dụng nhiều trong phântích, đánh giá thể thao; bảo tồn và giảng dạy võ thuật, thể thao Như trong Hình 4 minh họa
tư thế người 3D của vận động viên trượt băng được ước lượng dựa trong không gian 3D [23]
Từ kết quả ước lượng khung xương người 3D trên có thể giúp ban giám khảo chấm điểm cácđộng tác biểu diễn của vận động viên
Hình 5 thể hiện ứng dụng ước lượng và tính góc lệch của các bộ phận của cơ thể so vớikhung chuẩn Hình bên trái là dữ liệu ảnh màu đầu vào, hình ở giữa là tư thế người 2D ướclượng được, hình bên phải là tư thế người 3D ước lượng được Từ kết quả ước lượng tư thếngười 3D ước lượng được có thể đánh giá và điều chỉnh tư thế, đặc biệt tư thế của chân và taytrong cử tạ là rất quan trọng Đồng thời từ tư thế có thể tính được năng lượng tiêu thụ trong
Trang 15Hình 4: Minh họa vận động viên trượt băng và kết quả ước lượng tư thế 2D, 3D của người
[23].
một khoảng thời gian để có chế độ ăn, uống và luyện tập theo đúng giáo án đề ra
Hình 5: Minh họa kết quả ước lượng tư thế người 2D, 3D trong video cử tạ.
Hình 6 thể hiện một số hình ảnh về các tư thế trong võ thuật cổ truyền như Taichi, Karatehay một số môn thể thao và khiêu vũ như Jazz, Hiphop, Basketball, Volleyball Cơ sở dữ liệunày được gọi là MADS (Martial Arts, Dancing, and Sports dataset) [24] Trong Hình 9 dữliệu khung xương 2D của người được ước lượng Tuy nhiên, để xây dựng các phần mềm, ứngdụng bảo tồn và giảng dạy võ thuật hay khiêu vũ, nhảy thì tư thế của người làm mẫu cần được
Trang 16Hình 6: Minh họa một số hình ảnh của cơ cở dữ liệu MADS [24].
Hình 7 thể hiện một số kết quả ước lượng các tư thế võ Bình Định, Việt Nam từ dữ liệuthu được của cảm biến MS Kinect V1 [16] Từ các tư thế võ ước lượng một cách chính xácgiúp xây dựng các video thế võ cho việc bảo tồn và giảng dạy võ thuật truyền thống của ViệtNam
Mặc dù, vấn đề ước lượng tư thế 3D của người trong các video đã được quan tâm nghiêncứu Tuy nhiên, hướng tiếp cận này vẫn còn chứa đựng rất nhiều thách thức như: độ phức tạptính toán của vấn đề ước lượng tư thế người 3D là cao nên yêu cầu một không gian tính toánlớn; hoạt động của người trong các video là nhanh nên dữ liệu ảnh thu được thường bị mờhoặc bị thiếu; hoạt động của người trong không gian 3D có nhiều khung hình dữ liệu bị chekhuất, bị mất, đặc biệt là dữ liệu các chi của người, như minh họa trong Hình 7 Như vậy cóthể thấy vấn đề ước lượng tư thế người đặc biệt là ước lượng tư thế người 3D được quan tâmnghiên cứu nhiều trong thời gian vừa qua Đồng thời, vấn đề này cũng được áp dụng nhiềutrong phân tích, chấm điểm thi đấu thể thao; phát triển phần mềm các trò chơi Việc áp dụngcác kết quả nghiên cứu về ước lượng tư thế 3D của người trên các cơ sở dữ liệu về thể thao,
võ thuật còn rất hạn chế Do đó, tôi lựa chọn thực hiện đề tài với tiêu đề “Nghiên cứu sử dụng
Trang 17Hình 7: Minh họa một số kết quả ước lượng tư thế người 3D trong video võ thuật Bình Định,
Việt Nam.
Deep learning để ước lượng tư thế người 3D áp dụng trong phân tích, đánh giá thể thao” đểthực hiện nghiên cứu và áp dụng các kết quả của sử dụng Deep Learning vào ước lượng tưthế người trong không gian 3D, áp dụng vào cơ sở dữ liệu MADS cho việc đánh giá và phântích một vài khía cạnh trong thể thao
Mục tiêu của đề tài
Trong đề tài của luận văn, thực hiện các mục tiêu cụ thể như sau:
Trang 18• Nghiên cứu các kết quả đạt được về sử dụng mạng nơ ron tích chập cho bài toàn pháthiện người trong ảnh, ước lượng tư thế người trong 2D và 3D Từ đó, chỉ ra những tồntại, lựa chọn mô hình DL tốt cho bài toán phát hiện người trên ảnh, ước lượng tư thếngười 3D và xây dựng cơ sở lý luận cho việc thực hiện đề tài.
• Thực nghiệm mô hình DL để ước lượng tư thế người 3D dựa trên lựa chọn ở nội dungtrước trên cơ sở dữ liệu MADS
• Thực nghiệm, đánh giá, phân tích các kết quả ước lượng tư thế người 3D trên cơ sở dữliệu MADS cho ứng dụng chấm điểm động tác võ thuật
Đối tượng và phạm vi nghiên cứu
• Đề tài nghiên cứu về các đối tượng:
– Cơ sở dữ liệu về tư thế/khung xương hoạt động của người;
– Khung xương người trong không gian 2D và 3D;
– Các mô hình học sâu;
– Các mô hình mạng nơ ron tích chập.
• Phạm vi nghiên cứu của đề tài:
– Đề tài thực hiện nghiên cứu trong phạm vi là phát hiện người trên ảnh, ước lượng
khung xương 3D của người từ dữ liệu ảnh màu hoặc ảnh độ sâu thu được từ môitrường Trong đó cơ sở dữ liệu sử dụng cho việc huấn luyện, đánh giá mô hìnhước lượng là MADS Đồng thời, cơ sở dữ liệu này cũng được áp dụng để phântích ứng dụng trong thể thao, võ thuật của đề tài
Ý nghĩa khoa học và thực tiễn của đề tài
• Đối với lĩnh vực giáo dục và đào tạo:
Trang 19– Giới thiệu một ứng dụng của toán học trong kỹ thuật (phép nhân, nhân chập ma
trận)
– Giới thiệu các mô hình học máy truyền thống và tiên tiến trong lĩnh vực thị giác
máy tính
• Đối với lĩnh vực khoa học và công nghệ có liên quan:
– Phát triển các mô hình ước lượng trong thị giác máy tính Trong đó tập trung chủ
yếu vào các thuật toán/mô hình hồi quy
– Cung cấp cài đặt của mạng nơ ron tích chập, áp dụng mô hình mới vào các công
trình nghiên cứu mở rộng cũng như các sản phẩm thương mại hóa
• Đối với phát triển kinh tế - xã hội:
– Thuật toán do đề tài giới thiệu hoàn toàn có thể áp dụng trong các phần mềm
thương mại như: (1) Phần mềm ước lượng và nhận dạng hoạt động người trongđiều khiển thiết bị, (2) Phần mềm phát hiện các hoạt động bất thường của bệnhnhân, v.v Các phần mềm đó sẽ hỗ trợ người dùng, từ đó đem lại lợi ích về: (a)Tiết kiệm chi phí so với thực hiện công việc bằng công cụ khác (bằng tay, bằnggiấy tờ, v.v ) và (b) Giảm bớt chi phí do các sai sót
Phương pháp nghiên cứu
• Phương pháp nghiên cứu mô hình hóa: Dựa trên các giả thiết thực tế và nghiên cứu đã
có, thực nghiệm lại mô hình DL trên bộ cơ sở dữ liệu đã công bố MADS cho bài toánước lượng tư thế người 3D
• Phương pháp nghiên cứu thực nghiệm: Cài đặt thực tế các mô hình, phương thức được
đề xuất được sử dụng cho bài toán ước lượng tư thế người 3D từ video
• Phương pháp nghiên cứu tham khảo ý kiến chuyên gia:
– Đánh giá tính khả thi của các mô hình DL cho bài toán ước lượng tư thế người
Trang 20– Triển khai ý tưởng, cài đặt thực nghiệm trên bộ cơ sở dữ liệu MADS, phân tích,
đánh giá kết quả và hoàn thiện công bố khoa học
• Phương pháp nghiên cứu điều tra, khảo sát: Điều tra, khảo sát các nghiên cứu đã có vềước lượng tư thế người 3D từ video
Trang 211.1.2 Công dụng của mô hình học sâu
Mô hình học sâu có một số trường hợp sử dụng trong lĩnh vực ô tô, hàng không vũ trụ,sản xuất, điện tử, nghiên cứu y học và nhiều lĩnh vực khác Sau đây là một vài ví dụ về họcsâu:
• Xe tự lái sử dụng các mô hình học sâu để tự động phát hiện biển báo giao thông vàngười đi bộ
• Hệ thống quốc phòng sử dụng mô hình học sâu để tự động gắn cờ các khu vực đượcquan tâm trong ảnh vệ tinh
Trang 22Hình 1.1: Minh họa mô hình học sâu dựa trên ý tưởng giống cách tính toán của não người.
• Phân tích hình ảnh y khoa sử dụng học sâu để tự động phát hiện các tế bào ung thưtrong chẩn đoán y tế
• Các nhà máy sử dụng ứng dụng học sâu để tự động phát hiện con người hoặc vật thểkhi những đối tượng này đang nằm trong khoảng cách không an toàn của máy móc
1.1.3 Mạng nơ ron tích chập
Mạng nơron tích chập (còn gọi là ConvNet/CNN) là một thuật toán Deep Learning có thểlấy hình ảnh đầu vào, gán độ quan trọng (các trọng số - weights và độ lệch - bias có thể họcđược) cho các đặc trưng/đối tượng khác nhau trong hình ảnh và có thể phân biệt được từngđặc trưng/đối tượng này với nhau Công việc tiền xử lý được yêu cầu cho mạng nơron tíchchập thì ít hơn nhiều so với các thuật toán phân loại khác Trong các phương thức sơ khai,các bộ lọc được thiết kế bằng tay (hand - engineered), với một quá trình huấn luyện để chọn
ra các bộ lọc/đặc trưng phù hợp thì mạng nơron tích chập lại có khả năng tự học để chọn racác bộ lọc/đặc trưng tối ưu nhất
Kiến trúc của nơron tích chập tương tự như mô hình kết nối của các nơron trong bộ nãocon người và được lấy cảm hứng từ hệ thống vỏ thị giác trong bộ não (visual cortex) Các
Trang 23Hình 1.2: Một trình tự CNN để phân loại các chữ số viết tay.
nơ-ron riêng lẻ chỉ phản ứng với các kích thích trong một khu vực hạn chế của trường thịgiác được gọi là Trường tiếp nhận (Receptive Field) Một tập hợp các trường như vậy chồnglên nhau để bao phủ toàn bộ khu vực thị giác Hình 1.2 minh họa kiến trúc của mạng CNN
để nhận dạng các ký tự số viết tay
1.2 Tổng quan về ước lượng tư thế người 3D
Ước lượng tư thế người trong không gian 3D là mối quan tâm nghiên cứu lớn trong khoahọc máy tính, trí tuệ nhân tạo, thị giác máy tính Kết quả của nó được áp dụng trong nhiềulĩnh vực như an ninh, giám sát, bảo vệ sức khỏe, đặc biệt là trong thể thao Trong luận vănnày, tôi quan tâm đến vấn đề ước lượng tư thế người trong không gian 3D Ước lượng tưthế người trong không gian 2D là ước lượng tư thế người trong hình ảnh màu thu được từhình ảnh và video RGB bằng một camera Quá trình ước lượng là quá trình dự đoán vị trí(x, y) của các khớp xương của khung xương người trong không gian 2D, như minh họa trongHình 1.3(bên trái) Ước lượng tư thế người 3D xác định vị trí của các khớp trên khung xươngngười, với mỗi khớp có tọa độ (x, y, z), như minh họa trong Hình 1.3(bên phải)
Trang 24Hình 1.3: Minh họa kết quả ước lượng tư thế/khung xương người trong không gian 2D và
3D Bên trái là kết quả lượng tư thế người trên ảnh/không gian 2D, bên phải là kết quả ước lượng tư thế người trong không gian 3D.
Việc ước lượng tư thế người 2D của một người có thể được chia thành phương pháp hồiquy trực tiếp và phương pháp dựa trên bản đồ nhiệt Các phương pháp hồi quy trực tiếp làviệc sử dụng mạng CNN từ đầu đến cuối (end-to-end) để tìm hiểu ánh xạ từ hình ảnh đầuvào để ước lượng các khớp/điểm chính 2D hoặc tham số của mô hình khung xương người.Các phương pháp dựa trên bản đồ nhiệt dự đoán vị trí của các bộ phận cơ thể và khớp/điểmchính 2D từ xác suất bản đồ nhiệt Các phương pháp dựa trên bản đồ nhiệt là dự đoán vị trícủa các bộ phận cơ thể và các khớp/điểm chính 2D, trong đó phương pháp bản đồ nhiệt được
sử dụng rộng rãi nhất hiện nay Hình 1.4 minh họa kết quả của phương pháp sử dụng bản đồnhiệt để dự đoán các khớp xương 2D trên ảnh
Ngoài ra, hai nghiên cứu khảo sát này đã trình bày chi tiết kết quả ước tính tư thế người2D từ một camera theo một hướng nhìn Ước lượng tư thế nhiều người hai chiều được thựchiện bằng phương pháp từ trên xuống hoặc phương pháp từ dưới lên Các phương pháp từtrên xuống là phát hiện và phân loại từng người trong ảnh, giới hạn họ bằng các hộp giới hạn(bounding box), sau đó ước lượng tư thế của từng người được phát hiện thông qua hộp giớihạn Phương pháp từ dưới lên bao gồm hai bước chính: trích xuất các đặc trưng cục bộ bằngcách dự đoán các ứng cử viên khớp xương và các ứng cử viên khớp xương lắp ráp theo môhình khung xương người cho các cơ thể riêng lẻ
Ước lượng tư thế người 3D cũng đã nhận được rất nhiều sự quan tâm nghiên cứu trongthập kỷ qua Ước lượng tư thế người 3D thường được thực hiện dựa trên hai phương pháp
Trang 25Hình 1.4: Minh họa sử dụng bản đồ nhiệt để dự đoán các khớp khung xương người trên ảnh.
(a) kết quả bản đồ nhiệt khi độ lệch chuẩn của hàm Gaussian được đặt là 1 (b) kết quả bản
đồ nhiệt khi độ lệch chuẩn của hàm Gaussian được đặt là 2 (c) kết quả bản đồ nhiệt khi độ lệch chuẩn của hàm Gaussian được đặt là 5.
[20]: phương pháp thứ nhất là sử dụng mạng DL và phương pháp thứ hai là sử dụng phươngpháp máy biến áp (TranS) Về các phương pháp dựa trên DL, việc ước lượng tư thế người3D của một người từ hình ảnh/video RGB bằng một mắt có thể được thực hiện dựa trên baphương pháp [5], được minh họa trong Hình 1.5: Phương pháp đầu tiên là sử dụng mạng kết
thúc đến kết thúc (End-to- end) CNN để ước lượng tư thế người 3D (M1 trong Hình 1.5); Thứ hai là sử dụng CNN để nâng tư thế người 2D thành tư thế người 3D (M2 trong Hình 1.5); Thứ ba là sử dụng CNN để hồi quy tư thế người 3D từ tư thế người 2D (M3 trong Hình.
1.5)
Trang 26End-to-End CNN
CNN
3D human pose Input
2D human pose
Mapping to 3D human pose library
pose
CNN-Based Regression from kinematic model
Theo nghiên cứu của Song và các cộng sự, vấn đề về tư thế người 3D từ hình ảnh vàvideo RGB thu được từ một camera được giải quyết bằng hai nhóm phương pháp: ước lượng
tư thế người 3D trực tiếp và chuyển tư thế người 2D sang không gian 3D Tuy nhiên, nghiêncứu của Wang và các cộng sự [22] giải quyết vấn đề ước lượng tư thế người 3D từ hình ảnh
và video RGB thu được từ một camera bằng ba phương pháp: ước lượng tư thế người 3Dtrực tiếp, phương pháp chuyển tư thế người 2D sang không gian 3D và phương pháp dựa trênSMPL (Skinned Multi-Person Linear) Ước lượng tư thế người 3D trực tiếp là thiết kế mộtCNN đầu cuối để dự đoán tọa độ 3D của các khớp của tư thế người 3D từ hình ảnh Phươngpháp này bao gồm hai lớp: dựa trên phương pháp phát hiện và phương pháp dựa trên hồi quy
Ở đây tôi giới thiệu một số nghiên cứu điển hình về ước lượng tư thế người 3D
Pavlakos và các cộng sự đã đề xuất mô hình CNN từ đầu đến cuối để huấn luyện mô hìnhước lượng, bao gồm hai bước chính: Mạng kết hợp (ConvNet) để dự đoán vị trí khớp 2D vàbước tối ưu hóa tiếp theo để khôi phục các khớp tọa độ 3D của tư thế người 3D MPJE (MeanPer Joint Error - Lỗi trung bình trên mỗi khớp) (mm) trên Bộ dữ liệu Human 3.6M [9] là
Trang 2751,9 mm và trên bộ dữ liệu HumanEva-I là 24,3 mm.
Các ứng dụng của ước lượng tư thế người bao gồm một số lĩnh vực như nhận dạng hoạtđộng, ghi lại chuyển động và thực tế tăng cường, huấn luyện rô-bốt và theo dõi chuyển độngcho bảng điều khiển Stenum và các cộng sự [17] đã phát triển một ứng dụng đánh giá hoạtđộng của cơ thể người theo tuổi thọ dựa trên ước lượng tư thế của con người Đồng thời, cáctác giả cũng phân tích những thách thức và hạn chế của các ứng dụng dựa trên tư thế ngườinhư vấn đề ẩn các bộ phận cơ thể, dữ liệu huấn luyện hạn chế, lỗi do quá trình chụp hạn chế,lỗi vị trí hạn chế và hạn chế về thiết bị ghi
1.3 Cơ sở dữ liệu đánh giá ước lượng tư thế người 3D
Tập dữ liệu Human3.6M [9] là tập dữ liệu trong nhà được sử dụng rộng rãi nhất cho ước
lượng tư thế người 3D (3D Human Pose Estimation - 3D-HPE) từ dữ liệu thu thập từ mộthướng nhìn hoặc thu thập từ nhiều hướng nhìn (4 hướng nhìn khác nhau trong cảnh phòngthí nghiệm trong nhà) của camera Bộ dữ liệu này được thu thập từ 11 đối tượng/người (6nam và 5 nữ), những người này thực hiện 6 kiểu hành động (chuyển động hướng phần thântrên, các biến thể toàn thân đứng thẳng, các biến thể đi bộ, các biến thể khi ngồi trên ghế,ngồi trên sàn, các động tác khác nhau) bao gồm 16 hoạt động hàng ngày (chỉ đường, thảoluận, chào hỏi, tạo dáng, mua hàng, chụp ảnh, chờ đợi, đi bộ, dắt chó đi dạo, dắt cặp, ănuống, nói chuyện điện thoại, ngồi, hút thuốc, ngồi xuống, linh tinh) Các khung hình đượcchụp từ camera TOF (Time-of-Flight) và tốc độ khung hình dữ liệu của camera là từ 25 đến
50 Hz Bộ dữ liệu này chứa khoảng 3,6 triệu hình ảnh/khung hình (1.464.216 khung hình
để đào tạo - 5 người (2 nữ và 3 nam), 646.180 khung hình để xác thực - 2 người (1 nữ và 1nam), 1.467.684 khung hình để thử nghiệm - 4 người ( 2 nữ và 2 nam)), 3,6 triệu chú thích(ground truth/annotation) tư thế người 3D được hệ thống MoCap (Motion Capture Systems)dựa trên điểm đánh dấu được ghi lại Chú thích tư thế người 3D của bộ dữ liệu Human 3.6Mbao gồm 17 điểm chính (keypoints/joints) Nhóm tác giả đã chia bộ dữ liệu Human 3.6Mthành 3 giao thức (protocol) để huấn luyện và kiểm tra các mô hình ước lượng Giao thức #1
sử dụng các đối tượng S1, S5, S6 và S7 để huấn luyện và các đối tượng S9 và S11 để kiểmtra/ thử nghiệm Giao thức #2 được chia thành đào tạo/thử nghiệm tương tự như Giao thức
Trang 28#1, nhưng các dự đoán được xử lý hậu kỳ thêm bằng một phép chuyển đổi trước khi so sánhvới dữ liệu gốc Giao thức #3 sử dụng các đối tượng S1, S5, S6, S7 và S9 cho huấn luyện vàcác môn học S11 để kiểm tra/ thử nghiệm Tập dữ liệu này được lưu trong đường dẫn1.
Mehta và các cộng sự [14] đã đề xuất bộ dữ liệu chuẩn MPI-INF-3DHP để đánh giá mô
hình ước lượng tư thế người 2D (2D-HPE) và 3D-HPE Bộ dữ liệu được chụp từ một studiovới nhiều camera (14 camera) và được hệ thống MoCap được sử dụng chú thích/đánh dấu dữliệu gốc cho việc đánh giá Bộ dữ liệu này bao gồm hơn 1,3 triệu khung hình của 8 diễn viên(4 nam và 4 nữ) thực hiện một số hoạt động của con người (ví dụ: đứng, đi, ngồi, cúi) Sốkhung hình của động tác đứng/đi, ngồi, cúi lần lượt là 67%, 25% và 8% Bộ dữ liệu cung cấpchú thích tư thế con người 2D và 3D với 17 điểm chính Đường dẫn của tập dữ liệu này đượchiển thị trong liên kết2 Kết quả của 3D-HPE được hiển thị trong liên kết3
1.4 Khảo sát ước lượng tư thế người 3D
Để đánh giá 3D-HPE thường sử dụng một số độ đo đánh giá như sau: M P J P E (Lỗitrung bình trên mỗi vị trí khớp), là khoảng cách Euclide trung bình giữa các vị trí khớp được
dự đoán và độ chính xác vị trí chung; 3DP CK (3D Percentage of correct keypoints - 3Dcủa Tỷ lệ phần trăm điểm chính chính xác), được sử dụng để xem xét hiệu chỉnh nếu khoảngcách giữa khớp được dự đoán và khớp thực sự nằm trong một ngưỡng nhất định
Trong những năm gần đây, 3D-HPE đã có nhiều kết quả tốt, đặc biệt khi sử dụng cácmạng CNN để ước lượng Tôi đã thực hiện một cuộc khảo sát, kết quả của 3D-HPE trên bộ
dữ liệu Human 3.6M dựa trên độ đo M P J P E, được hiển thị trong Bảng 1.1
Bảng 1.1 đã thể hiện kết quả 3D-HPE khi được đánh giá trên cơ sở dữ liệu Human 3.6Mtrong 5 năm qua (2017-2022) Cách tiếp cận này đã nhận được sự quan tâm lớn từ các nhànghiên cứu trong lĩnh vực thị giác máy tính Trong đó nghiên cứu có độ chính xác cao nhất,sai số ước lượng là 44,3mm với (Giao thức #1) và 34,6mm với (Giao thức #2)
1 http://vision.imar.ro/human3.6m/[truycòểắp25thÕáng12nỎẢm2022]
2 http://gvv.mpi-inf.mpg.de/3dhp-dataset/[truycòểắp26thÕáng12nỎẢm2022] 3
https://paperswithcode.com/sota/3d-human-pose-estimation-on-mpi\
-inf-3dhp[truycòểắp26thÕáng12nỎẢm2022]
Trang 29Bảng 1.1: Thống kê kết quả nghiên cứu dựa trên phép đo MPJPE(mm) trên bộ dữ liệu
Hu-man3.6M cho 3D-HPE.
Method
Kết quả lỗi trung bình (MPJPE) (mm)
Pavllo et al Protocol #1: 51.8; Protocol #2: 40.0Nibali et al Protocol #1: 57.0
Veges et al Protocol #1: 61.1Pavlakos et al Protocol #1: 51.9Wang et al Protocol#1: 40.8Hossain et al Protocol #1: 39.2
Li et al Protocol #1: 52.7; Protocol #2: 42.6Karim et al Protocol 1: 49.9
Pavllo et al Protocol #2: 36Bastian et al Protocol #1: 50.9Kocabas et al Protocol #1: 51.83Rhodin et al Protocol #1: 131.7Zhou et al Protocol #1: 64.9Lee et al Protocol #1: 52.8; Protocol #2: 43.4
1.5 Thảo luận
Ước lượng tư thế người là một lĩnh vực nghiên cứu có ứng dụng rất cao trong thực tế Cáckết quả nó có thể được áp dụng và xây dựng các ứng dung trong thực tế như, hệ thống cảnhbáo người già ngã trong các trại dưỡng lão, bệnh viện, v.v Hay áp dụng vào các ứng dụngtrong phân tích thể thao, trong luyện tập và truyền dạy võ thuật Hiện nay với sự phát triểncủa phần cứng máy tính, các GPU có khả năng thực hiện các tính toán lớn do đó các nghiêncứu về ước lượng tư thế người 3D trong khoảng thời gian 5 năm trở lại đây chủ yếu tập trung
Trang 30vào cải tiến các mô hình học sâu để nâng cao độ chính xác của ước lượng tư thế người 3D.Các nghiên nghiên cứu gần đây chủ yếu được đánh giá trên cơ sở dữ liệu Human 3.6M Mặc
dụ là có tính ứng dụng rất lớn trong phân tích thể thao nhưng các nghiên cứu về công bố các
bộ cơ sở dữ liệu về thể thao, luyện tập trong phòng Gym, Yoga là còn rất hạn chế Đặc biệt
là các nghiên cứu về ước lượng tư thế người 3D thực hiện tính toán trên CPU còn tương đốihạn chế Do đó tôi lựa chọn hướng nghiên cứu thực hiện các tính toán ước lượng trên CPU
và trên cơ sở dữ liệu liên quan đến phân tích thể thao để thực hiện trong luận văn này
1.6 Kết luận chương 1
Vậy trong chương này, tôi đã được một nghiên cứu tổng quan về các vấn đề của ước lượng
tư thế người 3D Trong đó một nghiên cứu khảo sát được thực hiện về các nghiên cứu đã có
về ước lượng tư thế người 3D Một số cơ sở dữ liệu để đánh giá ước lượng tư thế người 3D.Đặc biệt trong chương này, tôi đã đưa ra các kết quả ước lượng tư thế người 3D với một cácnghiên cứu sử dụng công nghệ học sâu (DL) nổi bật gần đây cho việc ước lượng tư thế người3D trên cơ sở dữ liệu Human 3.6m, đây là cơ sở dữ liệu được đánh giá nhiều nhiều nhất chohướng nghiên cứu này
Trang 312.1.1 Mediapipe Pose
MediaPipe Pose (MPP), một khung (framework) mã nguồn mở đa nền tảng được cungcấp bởi Google Trước đây để ước lượng tọa độ khớp xương người 2D trong mỗi khung hìnhảnh MediaPipe Pose xây dựng các mô hình và xử lý dữ liệu dưới dạng video bằng cách sửdụng học máy (ML - machine learning) MPP sử dụng BlazePose [4] để trích xuất 33 điểmđại diện/khớp 2D trên cơ thể con người như được thể hiện trong Hình 2.1 Thành phần củaBlazePose gồm hai bước chính là phát hiện người và ước lượng các điểm đại diện (keypoints)trên vùng ảnh của người phát hiện được Bước thứ nhất của BlazePose là sử dụng một bộ phát
Trang 32định nhờ việc quay tâm là điểm giữa hông, bán kính là điểm giữa hông lên khuôn mặt pháthiện được, như minh họa trong Hình 2 của [4] Bước thứ hai là ước lượng các điểm đại diện/các khớp xương người 2D bằng cách sử dụng kỹ thuật SHN (Stacked Hourglass Networks),trong đó kiến trúc của mạng để ước lượng tư thế người 2D được minh họa trong Hình 2.2.
Hình 2.1: Minh họa kết quả ước lượng 33 khớp/điểm đại diện của mediapipe pose.
Hình 2.2: Kiến trúc mạng ước lượng các điểm đại diện/khớp của tư thế người trên ảnh màu
[4]
BlazePose là một kiến trúc học máy nhẹ, đạt được hiệu suất thời gian thực trên điện thoại
di động và máy tính cá nhân với khả năng suy luận tính toán trên CPU Khi sử dụng tọa độchuẩn hóa để ước lượng tư thế, tỉ lệ nghịch đảo phải được nhân với giá trị pixel trục y Trong
Trang 33số các đặc trưng MPP được ước lượng, chúng tôi sử dụng 12 đặc trưng để ước lượng các tưthế và chuyển động tùy ý, các chỉ số này là 11, 12, 13, 14, 15, 16, 23, 24, 25, 26, 27 và 28,như được thể hiện trong Hình 2.1 Kết quả ước lượng tư thế người 2D trên ảnh được thể hiệntrong Hình 2.3.
Hình 2.3: Minh họa kết quả ước tư thế người 2D sử dụng MPP từ dữ liệu video.
2.1.2 Mô hình Robot người
Thân của người phải được biểu thị bằng một mô hình robot người giống như các khớp
và liên kết giống người để tái tạo các tư thế người 3D từ dữ liệu khớp xương 2D ước lượngđược từ hệ thống MPP Do đó, các tư thế người 3D tùy ý có thể được tái tạo từ các hình ảnh2D được chụp ở các góc nhìn và khoảng cách khác nhau từ máy ảnh bằng cách đo chiều dàiliên kết bằng pixel và ước lượng góc khớp của mô hình robot người sử dụng phương pháptối ưu hóa Mô hình robot người được mô tả bằng các liên kết và khớp dựa trên phương phápDenavit-Hartenberg (DH), trong đó một khung tọa độ tham chiếu được đặt trên chân đỡ Vìmục tiêu của phương pháp hiện tại là tạo ra và ước lượng các tư thế của robot người giốngnhư người thật càng tốt, Kim và các cộng sự đã cải tiến mô hình robot người trước đó [10]
để tạo ra các tư thế tùy ý như sau:
Trang 34- center hip), tức là khớp gốc, để tạo ra các tư thế tùy ý.
• Thêm ba khớp cột sống lưng với mỗi khớp là 3 bậc tự do (DoF) tại trung tâm xươngchậu để tạo ra các tư thế chỉ có thân trên di chuyển riêng lẻ
• Định nghĩa lại chiều xoay của tất cả các biến số khớp để phù hợp với hệ thống thu thậpkhớp Vicon để dễ dàng trao đổi dữ liệu khớp đo bằng hệ thống
Hình 2.4: Mô hình Robot người 3D.
Như được hiển thị trong Hình 2.4, mô hình robot người được đề xuất được bao gồm tổngcộng 23 biến số khớp, bao gồm 12 góc khớp có trục xoay vuông góc với mặt phẳng sagittal(mặt phẳng đứng dọc, mặt cắt chia cơ thể ra thành hai bên: phải và trái) ( Θhd, Θl,rsh, Θl,rel, Θtr,
Θl,rhp, Θl,rkn, Θl,r
an) và 7 góc khớp có trục xoay vuông góc với mặt phẳng phía trước (frontal)(Φl,rsh, Φtr, Φl,rhp, Φl,ran) và 4 góc khớp có trục quay vuông góc với mặt phẳng trước của cơ thể(ψhd, ψtr, ψhpl,r) Ở đây, chỉ số dưới hd, sh, el, tr, hp, kn, và an chỉ tên các khớp của đầu, vai,khuỷu tay, thân trên, hông, đầu gối và mắt cá chân, tương ứng, và các chỉ số trên l và r đềcập đến các phần bên trái và bên phải, tương ứng
Trang 352.1.3 Hiệu ứng phản chiếu của máy ảnh
Khi quyết định tạo dáng toàn thân, vị trí và góc nhìn của máy ảnh đối với đối tượng cũng
là những yếu tố quan trọng Vị trí máy ảnh tương đối xác định kích thước cơ thể tổng thể, cóthể được phản ánh với mô hình hình dạng người bằng cách nhân kích thước thực tế γ với tất
cả các độ dài liên kết được hiển thị trong Hình 2.4 Nghĩa là, khi máy ảnh di chuyển ra xa,kích thước cơ thể giảm, tức là, γ < 1 và ngược lại, tức là γ > 1 Ngoài ra, hướng nhìn của máyảnh tương đối làm cho cùng một tư thế đứng trông khác nhau, như thể hiện trong Hình 2.5.Hình 2.5a cho thấy trường hợp máy ảnh chụp một đối tượng từ trên xuống dưới Hình 2.5bcho thấy một tình huống trong đó máy ảnh được xoay 90 độ theo chiều kim đồng hồ Hình2.5c, máy ảnh ở hướng nhìn đối tượng từ phía trước bên trái Những khác biệt về tư thế dogóc xem máy ảnh này có thể được mô tả bằng toán học bằng mối quan hệ giữa khung tọa độ
cơ thể và khung tọa độ dựa trên máy ảnh, được thể hiện trong Hình 2.6 Góc dọc cơ thể θbd,góc vành nhật hoa ϕbd, và góc ngang cơ thể ψbdtương ứng với ba thay đổi tư thế trong Hình2.5 Độ phân cực của các tham số góc cơ thể này được xác định để phù hợp với quy ước vềdấu hiệu của Vicon, chẳng hạn như θbd > 0 để nghiêng về phía trước, ϕbd > 0 để nghiêngtrái và ψbd> 0 để xoay trái [6] và ngược lại
Hình 2.5: Các tư thế thể hiện sự khác nhau tùy theo góc nhìn của máy ảnh (a) từ trên xuống
phía dưới, (b) xoay 90 độ theo chiều kim đồng hồ, (c) từ phía trước bên trái.
Trang 36Hình 2.6: Mối quan hệ giữa tọa độ cơ thể theo khung hình xhyhzh và tọa độ dựa trên khung hình của máy ảnh xcyczc.
2.1.4 Phương pháp tối ưu hóa toàn cục nhanh
Để ước lượng các góc khớp trong mô hình người máy phù hợp với mô hình khung xươngMPP cho khung hình hiện tại, cơ chế nghịch đảo là cần thiết Tuy nhiên, việc giải quyết cơchế nghịch đảo dựa trên công thức của người máy có cấu trúc phức tạp như trong Hình 2.4tốn nhiều thời gian uDEAS được phát triển để giải quyết các vấn đề kỹ thuật phi tuyến và
đa chế độ trong ngành công nghệ thông tin uDEAS xác thực hiệu suất tối ưu toàn cầu nhanhnhất và đáng tin cậy nhất trên bảy hàm kiểm tra tiêu chuẩn có số chiều thấp (từ hai đến sáu),
ba hàm kiểm tra có số chiều cao (lên đến 30) , các thiết kế tối ưu của bộ lọc Gabor và sinh racác đường đi chung cho việc đi lên và đi xuống cầu thang của một robot người [7] Ngoài ra,một phiên bản đã được sửa đổi của uDEAS cũng có thể tìm kiếm các biến số nguyên, đượcgọi là cDEAS (DEAS tổ hợp), đã được phát triển gần đây và được áp dụng vào tối ưu hóacủa hệ thống năng lượng hỗn hợp [12]
uDEAS là một phương pháp tối ưu hóa toàn cầu kết hợp các phương pháp tìm kiếm cục
bộ và toàn cục Đối với phương pháp tìm kiếm cục bộ trong uDEAS, tất cả các biến tối
ưu hóa được đại diện bằng chuỗi nhị phân, giống như thuật toán di truyền (GA - GeneticAlgorithm) Đơn vị cơ bản của tìm kiếm cục bộ là một phiên được tạo thành bởi một phéptìm kiếm chia đôi đơn lẻ (BSS - Bisectional Search) và nhiều phép tìm kiếm một chiều (UDS
- Unidirectional Search) với một chuỗi nhị phân cho mỗi biến số BSS gắn thêm 0 và 1 vàocuối chuỗi được chọn dưới dạng bit có ý nghĩa thấp nhất mới (LSB), ví dụ: 0102 ← 012 →
0112, trong đó việc chèn 0 (1) vào vị trí LSB mới của chuỗi nhị phân tương ứng với việc giảm(tăng) giá trị thực tế được giải mã của nó so với chuỗi cha Ví dụ, giả sử chuỗi nhị phân 0102được giải mã bởi hàm giải mã thành giá trị thực 0,3 và giá trị chi phí là 0,7, tức là J(d(0102))
= J(0,3) = 0,7 Trong khi đó, chuỗi nhị phân 0112được giải mã thành 0.1 và giá trị chi phí