Mô hình chấm điểm động tác võ cổ truyền

3.3 Cơ sở lý thuyết để nhận diện động tác tấn công và chấm điểm động tác võ

3.3.2 Mô hình chấm điểm động tác võ cổ truyền

3.3.2.1 Mô tả động tác người

Việc xác định động tác người không phải là vấn đề đơn giản trong nhận dạng đối

tượng. Chúng ta phải chọn một bộ cơ sở dữ liệu thích hợp để cho một hành động đại

diện chính xác duy nhất. Khi đó cử chỉ mô tả cần chứa đầy đủ các đặc trưng của hành

động để có thể phân biệt sự khác nhau của chúng và các mô tả phải bất biến khi vị trí đứng của người hay tầm vóc của người thay đổi khác.

a.Vị trí các khớp Camera Kinect cho kết quả tọa độ của 20 khớp xương xác định

trong thời gian thực tạo thành một bản đồ khung xương của người biểu diễn [97] (Hình.

3.6). Các tọa độ của 20 khớp là duy nhất và hoàn toàn có thể đại diện cho một động

tác, và các thiết lập dữ liệu là tương đối nhỏ cho máy tính. Nhưng việc mô tả thay

đổi dựa trên thay đổi hình học các điểm ảnh là rất khó để xác định các số liệu khoảng cách.

b.Véc tơ chi

Camera Kinect thu nhận và cho chúng ta tọa độ các khớp xương nên chúng ta

sử dụng các vector chi để biểu diễn hình ảnh khung xương của người biểu diễn. Một

vector chi được định nghĩa là các đoạn đường nối giữa 2 khớp xương với nhau (Hình

3.7). Như các vector hình học, vector mô tả đại diện cho duy nhất một cử chỉ mà không

dịch chuyển hay thay đổi tỷ lệ. Chuyển động cơ thể cũng có thể được mô phỏng hoàn hảo bằng chuyển động quay của mỗi vector xung quanh khớp ban đầu của nó. Xem

xét các đặc điểm của chuyển động của con người và cấu trúc cơ thể, chúng ta có thể 1

Hình 3.6 Vị trí các khớp xương mà camera Kinect cung cấp.

giảm dữ liệu dư thừa bằng cách phân tích các vectơ chi trong các nhóm khác nhau.

1) Véc tơ đầu mình: Véc tơ đầu mình bao gồm các đoạn bên trong đầu, vai và hông

(Hình 3.7, với điểm đầu cuối màu đỏ)...vv, véc tơ này ít khi thể hiện chuyển động

riêng lẻ và mạnh. Xoay và uốn cong của phần thân thể này gắn chung với tứ chi.

Do đó, nghiên cứu loại bỏ các véc tơ này khỏi nhóm đại diện.

2) Véc tơ cấp độ 1: Véc tơ cấp độ 1 bao gồm khuỷu tay và đùi (Hình 3.7, với điểm

đầu cuối màu cam)...vv, véc tơ cấp độ 1 chứa rất nhiều thông tin của những

chuyển động và cử chỉ. Do đó, nghiên cứu sắp xếp chúng trong nhóm đại diện.

3) Véc tơ cấp độ 2: Véc tơ cấp độ 2 bao gồm cánh tay và cẳng chân(Hình 3.7, với

điểm đầu cuối màu xanh)...vv, véc tơ cấp độ hai được kéo dài ra hơn so với vector

cấp độ 1, và chúng tạo ấn tượng thị giác đáng kể. Do đó, nghiên cứu xếp chúng trong nhóm đại diện.

4) Bàn tay và bàn chân: Kinect có thể theo dõi bàn tay và bàn chân nút (hình 3.7,

các nút màu đen), nhưng trong quá trình thu nhận thường không ổn định...vv.

Hình 3.7 Dữ liệu khung xương Kinect và véc tơ chân tay.

Bảng 3.1 Thể hiện tám véc tơ chi1 Khủy tay trái 5 Cánh tay trái 1 Khủy tay trái 5 Cánh tay trái 2 Khủy tay phải 6 Cánh tay phải

3 Đùi trái 7 Bắp chân trái

4 Đùi phải 8 Bắp chân phải

thường không đáng kể. Do đó trong giai đoạn ban đầu này, nghiên cứu loại bỏ

bàn tay và bàn chân ra khỏi nhóm đại diện để đảm bảo sự vững mạnh của mô tả.

Tóm lại, nhóm đại diện bao gồm tám vectơ chi (Bảng 3.1). Như chúng ta có thể

thấy, kích thước dữ liệu được giảm đáng kể trong khi các thông tin cần thiết của động

tác vẫn được giữ lại tốt. c.Đánh giá động tác:

Sau khi chọn động tác biểu diễn thích hợp, chúng ta có thể tính toán góc nằm

giữa vectơ chi tương ứng thu được thực tế và các động tác chuẩn sử dụng công thức

tập dữ liệu động tác chuẩn từ thư viện trước khi bắt đầu. Các động tác chuẩn sẽ lần

lượt được hiển thị trên màn hình dưới dạng hình ảnh của khung xương (Hình 3.8, bên tay phải)...vv.

Hình 3.8 Chương trình thu nhận dữ liệu chuẩn từ võ sư. 3.3.2.2 Công thức chấm điểm

Xem xét thực tế, nghiên cứu quan sát được từ các thí nghiệm, nghiên cứu gán

trọng số khác nhau cho từng thành viên trong mảng khoảng cách và sử dụng tổng

trọng số để bù đắp cho sự sai lệch thị giác. Nghiên cứu đề xuất một công thức chấm điểm như công thức (3.10).

Trước tiên là tham số khoảng cách D:

D= [f 1(α1+ α 2) + f 2(α3+ α 4) + f 3(α5+ α 6) + f 4(α7+ α 8)] (3.6)

Trong đó αi là biểu thị góc một thành viên của AngleDif f, D biểu thị các tham

số khoảng cách duy nhất tính từ mảng, f 1, f2, f3, f4, biểu thị các giá trị trọng số của

các chi ước lượng được sử dụng công thức (3.7).

cosα = xstxre + ystyre + zstzre p x2st + y 2 st + z2 stp x2re + y2 re + z 2 re (3.7) Trong đó (xst, yst, zst) biểu thị tọa độ của một vectơ chi của các cử chỉ chuẩn, (xre, yre, zre) biểu thị tọa độ của một vectơ chân tay của động tác trong thời gian thực.

Nghiên cứu xác định tập hợp bao gồm tám góc như là mảng khoảng cách AngleDiff = α1, α2, α3, α4, α5, α6, α7, α8 ( xem Bảng 3.1), nó chứa hầu hết các thông tin về khoảng

cách giữa động tác trong thời gian thực và động tác chuẩn.

Để tính toán các giá trị trọng số, hệ thống sẽ tự động thu thập 10 cặp cử chỉ gần

đây nhất được xếp loại từ cơ sở dữ liệu mà có số điểm trong khoảng ± 15% và tham khảo trung bình cộng của mỗi α i. Giá trị trọng số được tính như công thức (3.8)

fi = 1

AvgiP i=14 Avg1 i

(3.8) Trong đó Avg1, Avg2, Avg3, Avg4 biểu thị trung bình cộng của khuỷu tay (α 1 + α 2), đùi (α3 + α 4), cánh tay α( 5+ α 6) và cẳng chân (α 7+ α8). Thao tác này sẽ gán trọng số lớn hơn tới các chi mà được đánh giá chặt chẽ hơn theo người chấm.

Sau khi nghiên cứu đã nhận giá trị D, mục tiêu của nghiên cứu là để D vào chia

phần trăm điểm. Nhiệm vụ là tương đối đơn giản bằng cách sử dụng biến đổi tuyến

tính. Nghiên cứu cho phép người dùng nhập vào một giá trị chuẩn D st và số điểm tham

chiếu của nó Sst.

Trong trường hợp phán đoán cử chỉ một người biểu diễn thường không được phép đi chệch khỏi những cử chỉ chuẩn quá nhiều. Nghiên cứu xác định một hàm giới hạn

độ lệch cho phép người dùng nhập vào một giá trị ngưỡng M (độ) để hạn chế độ lệch

không thể chấp nhận những cử chỉ như trong công thức (3.9).

f α( max) = 1− 0 4. M2α2

max (3.9)

Trong đó α max biểu thị tối đa trong AngleDiff. Hàm có một số tính năng:

f(0) = 1. Khi cử chỉ thời gian thực giống hệt với những cử chỉ tiêu chuẩn, giá trị

hàm là 1.

f0(αmax) 0< , f ”(αmax ) 0< , khi bao gồm góc tăng tối đa, giá trị hàm giảm mạnh.

f M( ) = 0, khi tối đa bao gồm cách tiếp cận góc hoặc vượt quá giá trị ngưỡng,

Khi đó ta có công thức chấm điểm sẽ là:

Score f α= ( max ) [(. Dst −D)× 100−Sst

Dst + Sst (3.10)

Trong đó f α( max) biểu thị hàm giới hạn độ lệch. D st có thể tự thiết lập bởi người sử dụng theo nhu cầu của họ, D st nhỏ hơn chỉ ra tiêu chuẩn cao hơn về phân loại S st

cung cấp cho người dùng một tùy chọn để kiểm soát các điểm trong phạm vi mong muốn.

Với các tính năng trên, điểm số sẽ được hạn chế một cách hợp lý khi độ lệch giữa

thời gian thực cử chỉ và điệu bộ tiêu chuẩn, tức là số điểm cao đòi hỏi phải thực hiện

trơn tru của tất cả chân tay.

3.4 Thực nghiệm

3.4.1 Nhận diện động tác tấn công

3.4.1.1 Nhận diện động tác tấn công bằng cây phân loại

1. Thử nghiệm với bộ dữ liệu K3HI [50] được công bố trên mạng: Thuật toán được thử nghiệm với bộ dữ liệu K3HI [50] được công bố trên mạng chứa các dữ liệu

tọa độ 3D của bộ xương người. Trong đó, các khớp nối cho mỗi người đã được trích xuất bằng phần mềm OpenNI (Open Natural Interaction) với NITE do PrimeSense

cung cấp. Một bộ xương được thể hiện bằng các vị trí 3D của 15 khớp, bao gồm đầu, cổ, vai trái, vai phải, khuỷu tay trái, khuỷu tay phải, tay trái, tay phải, thân, hông

trái, hông phải, đầu gối trái, đầu gối phải, trái chân và bàn chân phải. Bộ K3HI đã

được xây dựng với một số hành vi cụ thể. Từ tập các khung xương, nghiên cứu tiến

hành gán nhãn trạng thái cho từng khung xương để làm dữ liệu thử nghiệm. Cụ thể,

với hành vi kicking của bộ K3HI, sau khi gán nhãn ta thu được bộ dữ liệu 3752 mẫu khung xương.

Thử nghiệm được tiến hành theo cách kiểm chứng chéo 10-fold, tức là chia bộ

dữ liệu làm 10 phần, tiến hành 10 lần thử, lần lượt mỗi lần lấy 9 phần để học và thử

nghiệm 1 phần còn lại, tổng kết lại kết quả chính xác 3423/3752 ∼ 91.231343% Với

một số lựa chọn khác nhau về chiều cao của cây quyết định được xây dựng, biểu đồ

cho thấy khi chiều cao của cây tăng, tức là nhiều đặc trưng được kết hợp hơn, độ chính xác cũng tăng theo như Hình 3.9. Từ đó cũng chứng minh tính hiệu quả của những

đặc trưng không gian được sử dụng và cách kết hợp.

2. Thử nghiệm với bộ dữ liệu 36 thế võ thu bằng Kinect trong đó :

Bộ cơ sở dữ liệu sau khi ước lượng ở chương 2 với khung xương 20 điểm, 15083

Hình 3.9 Thể hiện chiều cao của cây và số đặc trưng.

nghiệm tương tự với bộ dữ liệu K3HI

Cách thức kiểm chứng chéo (cross validation) 5 lượt (folds).Lựa chọn khác nhau

về chiều cao của cây.Biểu đồ cho thấy khi chiều cao của cây tăng, tức là nhiều đặc

trưng được kết hợp hơn, độ chính xác cũng tăng theo, từ đó cũng chứng minh tính

hiệu quả của những đặc trưng không gian được sử dụng và cách kết hợp như trong Hình 3.9.

Mô hình chấm điểm động tác võ cổ truyền

Ước lượng khung xương trên ảnh màu

.8 Minh họa cảm biến Kinect phiên bản 1