3.3 Cơ sở lý thuyết để nhận diện động tác tấn công và chấm điểm động tác võ
3.3.2 Mô hình chấm điểm động tác võ cổ truyền
3.3.2.1 Mô tả động tác người
Việc xác định động tác người không phải là vấn đề đơn giản trong nhận dạng đối
tượng. Chúng ta phải chọn một bộ cơ sở dữ liệu thích hợp để cho một hành động đại
diện chính xác duy nhất. Khi đó cử chỉ mô tả cần chứa đầy đủ các đặc trưng của hành
động để có thể phân biệt sự khác nhau của chúng và các mô tả phải bất biến khi vị trí đứng của người hay tầm vóc của người thay đổi khác.
a.Vị trí các khớp Camera Kinect cho kết quả tọa độ của 20 khớp xương xác định
trong thời gian thực tạo thành một bản đồ khung xương của người biểu diễn [97] (Hình.
3.6). Các tọa độ của 20 khớp là duy nhất và hoàn toàn có thể đại diện cho một động
tác, và các thiết lập dữ liệu là tương đối nhỏ cho máy tính. Nhưng việc mô tả thay
đổi dựa trên thay đổi hình học các điểm ảnh là rất khó để xác định các số liệu khoảng cách.
b.Véc tơ chi
Camera Kinect thu nhận và cho chúng ta tọa độ các khớp xương nên chúng ta
sử dụng các vector chi để biểu diễn hình ảnh khung xương của người biểu diễn. Một
vector chi được định nghĩa là các đoạn đường nối giữa 2 khớp xương với nhau (Hình
3.7). Như các vector hình học, vector mô tả đại diện cho duy nhất một cử chỉ mà không
dịch chuyển hay thay đổi tỷ lệ. Chuyển động cơ thể cũng có thể được mô phỏng hoàn hảo bằng chuyển động quay của mỗi vector xung quanh khớp ban đầu của nó. Xem
xét các đặc điểm của chuyển động của con người và cấu trúc cơ thể, chúng ta có thể 1
Hình 3.6 Vị trí các khớp xương mà camera Kinect cung cấp.
giảm dữ liệu dư thừa bằng cách phân tích các vectơ chi trong các nhóm khác nhau.
1) Véc tơ đầu mình: Véc tơ đầu mình bao gồm các đoạn bên trong đầu, vai và hông
(Hình 3.7, với điểm đầu cuối màu đỏ)...vv, véc tơ này ít khi thể hiện chuyển động
riêng lẻ và mạnh. Xoay và uốn cong của phần thân thể này gắn chung với tứ chi.
Do đó, nghiên cứu loại bỏ các véc tơ này khỏi nhóm đại diện.
2) Véc tơ cấp độ 1: Véc tơ cấp độ 1 bao gồm khuỷu tay và đùi (Hình 3.7, với điểm
đầu cuối màu cam)...vv, véc tơ cấp độ 1 chứa rất nhiều thông tin của những
chuyển động và cử chỉ. Do đó, nghiên cứu sắp xếp chúng trong nhóm đại diện.
3) Véc tơ cấp độ 2: Véc tơ cấp độ 2 bao gồm cánh tay và cẳng chân(Hình 3.7, với
điểm đầu cuối màu xanh)...vv, véc tơ cấp độ hai được kéo dài ra hơn so với vector
cấp độ 1, và chúng tạo ấn tượng thị giác đáng kể. Do đó, nghiên cứu xếp chúng trong nhóm đại diện.
4) Bàn tay và bàn chân: Kinect có thể theo dõi bàn tay và bàn chân nút (hình 3.7,
các nút màu đen), nhưng trong quá trình thu nhận thường không ổn định...vv.
Hình 3.7 Dữ liệu khung xương Kinect và véc tơ chân tay.
Bảng 3.1 Thể hiện tám véc tơ chi1 Khủy tay trái 5 Cánh tay trái 1 Khủy tay trái 5 Cánh tay trái 2 Khủy tay phải 6 Cánh tay phải
3 Đùi trái 7 Bắp chân trái
4 Đùi phải 8 Bắp chân phải
thường không đáng kể. Do đó trong giai đoạn ban đầu này, nghiên cứu loại bỏ
bàn tay và bàn chân ra khỏi nhóm đại diện để đảm bảo sự vững mạnh của mô tả.
Tóm lại, nhóm đại diện bao gồm tám vectơ chi (Bảng 3.1). Như chúng ta có thể
thấy, kích thước dữ liệu được giảm đáng kể trong khi các thông tin cần thiết của động
tác vẫn được giữ lại tốt. c.Đánh giá động tác:
Sau khi chọn động tác biểu diễn thích hợp, chúng ta có thể tính toán góc nằm
giữa vectơ chi tương ứng thu được thực tế và các động tác chuẩn sử dụng công thức
tập dữ liệu động tác chuẩn từ thư viện trước khi bắt đầu. Các động tác chuẩn sẽ lần
lượt được hiển thị trên màn hình dưới dạng hình ảnh của khung xương (Hình 3.8, bên tay phải)...vv.
Hình 3.8 Chương trình thu nhận dữ liệu chuẩn từ võ sư. 3.3.2.2 Công thức chấm điểm
Xem xét thực tế, nghiên cứu quan sát được từ các thí nghiệm, nghiên cứu gán
trọng số khác nhau cho từng thành viên trong mảng khoảng cách và sử dụng tổng
trọng số để bù đắp cho sự sai lệch thị giác. Nghiên cứu đề xuất một công thức chấm điểm như công thức (3.10).
Trước tiên là tham số khoảng cách D:
D= [f 1(α1+ α 2) + f 2(α3+ α 4) + f 3(α5+ α 6) + f 4(α7+ α 8)] (3.6)
Trong đó αi là biểu thị góc một thành viên của AngleDif f, D biểu thị các tham
số khoảng cách duy nhất tính từ mảng, f 1, f2, f3, f4, biểu thị các giá trị trọng số của
các chi ước lượng được sử dụng công thức (3.7).
cosα = xstxre + ystyre + zstzre p x2st + y 2 st + z2 stp x2re + y2 re + z 2 re (3.7) Trong đó (xst, yst, zst) biểu thị tọa độ của một vectơ chi của các cử chỉ chuẩn, (xre, yre, zre) biểu thị tọa độ của một vectơ chân tay của động tác trong thời gian thực.
Nghiên cứu xác định tập hợp bao gồm tám góc như là mảng khoảng cách AngleDiff = α1, α2, α3, α4, α5, α6, α7, α8 ( xem Bảng 3.1), nó chứa hầu hết các thông tin về khoảng
cách giữa động tác trong thời gian thực và động tác chuẩn.
Để tính toán các giá trị trọng số, hệ thống sẽ tự động thu thập 10 cặp cử chỉ gần
đây nhất được xếp loại từ cơ sở dữ liệu mà có số điểm trong khoảng ± 15% và tham khảo trung bình cộng của mỗi α i. Giá trị trọng số được tính như công thức (3.8)
fi = 1
AvgiP i=14 Avg1 i
(3.8) Trong đó Avg1, Avg2, Avg3, Avg4 biểu thị trung bình cộng của khuỷu tay (α 1 + α 2), đùi (α3 + α 4), cánh tay α( 5+ α 6) và cẳng chân (α 7+ α8). Thao tác này sẽ gán trọng số lớn hơn tới các chi mà được đánh giá chặt chẽ hơn theo người chấm.
Sau khi nghiên cứu đã nhận giá trị D, mục tiêu của nghiên cứu là để D vào chia
phần trăm điểm. Nhiệm vụ là tương đối đơn giản bằng cách sử dụng biến đổi tuyến
tính. Nghiên cứu cho phép người dùng nhập vào một giá trị chuẩn D st và số điểm tham
chiếu của nó Sst.
Trong trường hợp phán đoán cử chỉ một người biểu diễn thường không được phép đi chệch khỏi những cử chỉ chuẩn quá nhiều. Nghiên cứu xác định một hàm giới hạn
độ lệch cho phép người dùng nhập vào một giá trị ngưỡng M (độ) để hạn chế độ lệch
không thể chấp nhận những cử chỉ như trong công thức (3.9).
f α( max) = 1− 0 4. M2α2
max (3.9)
Trong đó α max biểu thị tối đa trong AngleDiff. Hàm có một số tính năng:
f(0) = 1. Khi cử chỉ thời gian thực giống hệt với những cử chỉ tiêu chuẩn, giá trị
hàm là 1.
f0(αmax) 0< , f ”(αmax ) 0< , khi bao gồm góc tăng tối đa, giá trị hàm giảm mạnh.
f M( ) = 0, khi tối đa bao gồm cách tiếp cận góc hoặc vượt quá giá trị ngưỡng,
Khi đó ta có công thức chấm điểm sẽ là:
Score f α= ( max ) [(. Dst −D)× 100−Sst
Dst + Sst (3.10)
Trong đó f α( max) biểu thị hàm giới hạn độ lệch. D st có thể tự thiết lập bởi người sử dụng theo nhu cầu của họ, D st nhỏ hơn chỉ ra tiêu chuẩn cao hơn về phân loại S st
cung cấp cho người dùng một tùy chọn để kiểm soát các điểm trong phạm vi mong muốn.
Với các tính năng trên, điểm số sẽ được hạn chế một cách hợp lý khi độ lệch giữa
thời gian thực cử chỉ và điệu bộ tiêu chuẩn, tức là số điểm cao đòi hỏi phải thực hiện
trơn tru của tất cả chân tay.
3.4 Thực nghiệm
3.4.1 Nhận diện động tác tấn công
3.4.1.1 Nhận diện động tác tấn công bằng cây phân loại
1. Thử nghiệm với bộ dữ liệu K3HI [50] được công bố trên mạng: Thuật toán được thử nghiệm với bộ dữ liệu K3HI [50] được công bố trên mạng chứa các dữ liệu
tọa độ 3D của bộ xương người. Trong đó, các khớp nối cho mỗi người đã được trích xuất bằng phần mềm OpenNI (Open Natural Interaction) với NITE do PrimeSense
cung cấp. Một bộ xương được thể hiện bằng các vị trí 3D của 15 khớp, bao gồm đầu, cổ, vai trái, vai phải, khuỷu tay trái, khuỷu tay phải, tay trái, tay phải, thân, hông
trái, hông phải, đầu gối trái, đầu gối phải, trái chân và bàn chân phải. Bộ K3HI đã
được xây dựng với một số hành vi cụ thể. Từ tập các khung xương, nghiên cứu tiến
hành gán nhãn trạng thái cho từng khung xương để làm dữ liệu thử nghiệm. Cụ thể,
với hành vi kicking của bộ K3HI, sau khi gán nhãn ta thu được bộ dữ liệu 3752 mẫu khung xương.
Thử nghiệm được tiến hành theo cách kiểm chứng chéo 10-fold, tức là chia bộ
dữ liệu làm 10 phần, tiến hành 10 lần thử, lần lượt mỗi lần lấy 9 phần để học và thử
nghiệm 1 phần còn lại, tổng kết lại kết quả chính xác 3423/3752 ∼ 91.231343% Với
một số lựa chọn khác nhau về chiều cao của cây quyết định được xây dựng, biểu đồ
cho thấy khi chiều cao của cây tăng, tức là nhiều đặc trưng được kết hợp hơn, độ chính xác cũng tăng theo như Hình 3.9. Từ đó cũng chứng minh tính hiệu quả của những
đặc trưng không gian được sử dụng và cách kết hợp.
2. Thử nghiệm với bộ dữ liệu 36 thế võ thu bằng Kinect trong đó :
Bộ cơ sở dữ liệu sau khi ước lượng ở chương 2 với khung xương 20 điểm, 15083
Hình 3.9 Thể hiện chiều cao của cây và số đặc trưng.
nghiệm tương tự với bộ dữ liệu K3HI
Cách thức kiểm chứng chéo (cross validation) 5 lượt (folds).Lựa chọn khác nhau
về chiều cao của cây.Biểu đồ cho thấy khi chiều cao của cây tăng, tức là nhiều đặc
trưng được kết hợp hơn, độ chính xác cũng tăng theo, từ đó cũng chứng minh tính
hiệu quả của những đặc trưng không gian được sử dụng và cách kết hợp như trong Hình 3.9.