vision), cây quyết định (decision tree) là một kiểu mô hình dự báo (predictive model),
nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá
trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong (internal node) tương ứng với
một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến
đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của
các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng
trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn
gọn là cây quyết định. Mô hình cây quyết định được thể hiện như trong Hình 3.1.
Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá
dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại
đó [99]. Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các
tập con dựa theo một kiểm tra giá trị thuộc tính [99]. Quá trình này được lặp lại một
cách đệ quy cho mỗi tập con dẫn xuất. Quá trình đệ quy hoàn thành khi không thể
tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng
cho từng phần tử của tập con dẫn xuất. Một bộ phân loại rừng ngẫu nhiên (random
forest) [100] sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại. Mô hình của bộ phân loại rừng ngẫu nhiên được thể hiện như trong Hình 3.2.
Cây quyết định cũng là một phương tiện có tính mô tả dành cho việc tính toán
các xác suất có điều kiện. Cây quyết định có thể được mô tả như là sự kết hợp của các
Hình 3.2 Minh họa mô hình của thuật toán rừng ngẫu nhiên cho việc phân loại. Trong
đó thuật toán này được áp dụng cho một rừng bao gồm nhiều cây quyết định.
một tập dữ liệu cho trước. Dữ liệu được cho dưới dạng các bản ghi có dạng:
(x, y) = ( 1 2 3x , x , x , ..., xk, y) (3.1)
Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân
loại hay tổng quát hóa. ( 1 2 3x , x , x , ...) là các biến sẽ giúp ta thực hiện công việc đó.
Các kiểu cây quyết, Cây hồi quy (Regression tree) ước lượng các hàm giá có giá trị là
số thực thay vì được sử dụng cho các nhiệm vụ phân loại. (ví dụ: ước tính giá một ngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện)
Nhận dạng tư thế người là phân lớp một tư thế thu được từ camera vào một trong
các tư thế đã được định nghĩa trước đó ví dụ như: đứng, ngồi, nằm. Người mô tả tư
thế sẽ biểu diễn trước camera và hệ thống sẽ nhận dạng tư thế đó là tư thế gì. Trong
nghiên cứu này trình bày về khả năng nhận dạng tư thế tấn công trong bài võ 36 tư
thế với dữ liệu thu được từ camera Kinect đã qua ước lượng khung xương 3D, cùng với
bộ dữ liệu công bố có sẵn trên mạng. Lợi thế của việc sử dụng dữ liệu khung xương
thu từ camera Kinect là không bị ảnh hưởng bởi sự thay đổi của ánh sáng hay độ
nhiễu của hình ảnh. Nghiên cứu cũng sẽ đưa ra phương pháp trích đặc trưng từ dữ
liệu khung xương thu thập được từ camera Kinect. Sau đó, bộ dữ liệu sẽ được đem
đi huấn luyện bằng mô hình cây phân loại. Qua thực nghiệm cho thấy độ chính xác
trong những phần quan trọng trong các ứng dụng tương tác giữa Người- Máy. Trong
đó xác định thành công hình dáng người chắc chắn có thể giúp một máy tính có thể
kiểm soát các động tác khác nhau trên cơ sở của sự tương tác với cùng một mẫu thu
nhận trước đó. Trong vài thập kỷ qua, đã có nhiều nghiên cứu sâu rộng đã được thực
hiện trên cơ sở nhận dạng sinh trắc học, sử dụng các mẫu hành vi khác nhau như dáng
đi, gõ bàn phím, biểu diễn múa ba lê hay nhận dạng biểu hiện tâm lý người thông qua
các biểu hiện môi, cơ mặt, giọng nói. . . là một trong những cách thức phổ biến của
nhận dạng người [94], [95]. Nhận dạng dáng đi của con người có lợi thế rất lớn trong
sự nhận dạng từ các hình ảnh độ phân giải thấp, nơi các kỹ thuật sinh trắc học khác
là không phù hợp vì không đủ thông tin điểm ảnh [96]. Võ cổ truyền Việt Nam là một đặc trưng của dân tộc Việt Nam hình thành qua quá trình đấu tranh giải phóng dân
tộc. Có một đặc điểm cho đến nay là chưa có tính thống nhất cao giữa các môn phái
nên vẫn chưa có hệ thống bài mẫu chuẩn hóa toàn thế giới giống các môn võ khác như karatedo hay taewondo...vv.
3.2 Các nghiên cứu liên quan
Đã có rất nhiều nghiên cứu về đề tài nhận dạng tư thế người tuy nhiên hầu hết sử
dụng các thông tin có được từ ảnh màu được chụp bởi camera thường [99], [37], [41].
Trở ngại chính của các phương pháp giải quyết truyền thống là việc trích xuất đặc
trưng từ hình ảnh thu được bởi camera thông thường còn nhiều khó khăn do nhiễu,
góc chụp, ánh sáng, ảnh hưởng của môi trường. Trong khi đó, Microsoft đã phát triển
thiết bị Kinect, thiết bị này ngoài khả năng thu được ảnh màu còn có thể cung cấp dữ
liệu về độ sâu và theo dõi khung xương của người đứng trước camera. Hiện nay, có một
số đề tài nhận dạng tư thế người dựa trên dữ liệu cung cấp từ camera Kinect như: TS.
Lê Thị Lan thực hiện 7 thực nghiệm với 4 cách trích xuất dữ liệu từ khung xương được
cung cấp bởi thiết bị Kinect [42], kết quả của đề tài cho thấy độ chính xác cao khi nhận
dạng 4 tư thế đứng, ngồi, nằm và cúi người. Đề tài “Human gesture recognition using
Kinect camera” [43] của Orasa Patsadu, Chakarida Nukoolkit và Bunthit Watanapa,
đề tài này đưa ra sự so sánh giữa 4 phương pháp phân loại là mạng nơron lan truyền
ngược, SVM, cây quyết định và Bayes thơ ngây hay "Gesture recognition from Indian classical dance using Kinect" [44] của Sripara Saha, Shreya Ghosh, Amit Konar, Atulya
K. Nagar sử dụng tọa độ của 11 khớp xương ở phần thân trên để nhận dạng 5 cử chỉ
khác nhau. Những đề tài trên đều đạt được độ chính xác cao khi sử dụng dữ liệu khung
xương từ camera Kinect, tuy nhiên số lượng tư thế của các đề tài này khá ít (3-5 tư
thế). Trong bài nghiên cứu này sẽ trình bày khả năng nhận dạng 36 tư thế khác nhau
với dữ liệu thu được từ camera Kinect. Phần còn lại của nghiên cứu sẽ được trình bày
như sau: phần hai trình bày cụ thể về cách thu thập dữ liệu, phương pháp trích xuất
và tiếp theo là kết luận và hướng phát triển. Trong biểu diễn võ thuật của các môn thể
thao cũng như đào tạo võ thuật cổ truyền, vấn đề biểu diễn hoặc thực hiện đúng và
chính xác các hành động trong võ thuật là điều rất quan trọng. Biểu diễn đúng giúp có
điểm cao trong các cuộc thi. Thực hiện đúng các động tác giúp các thế võ có một hiệu
năng về lực lớn (nhiều sức mạnh). Võ thuật có vai trò rất lớn trong cuộc sống hàng
ngày của con người, võ thuật không chỉ giúp con người rèn luyện sức khỏe và tự vệ mà
nó còn giúp con người nâng cao nhận thức. Như trong nghiên cứu [98], đã phân tích và
đánh giá việc đào tạo võ thuật truyền thống ảnh hưởng đến nhận thức của người lớn.
Để làm như vậy, bài báo đã sử dụng bài kiểm tra mạng chú ý (ANT) để kiểm tra hai
nhóm người tham gia khác nhau: có ít nhất 2 năm kinh nghiệm về Võ thuật và không có kinh nghiệm với môn thể thao này. Kết quả được thể hiện cho thấy rằng số năm
kinh nghiệm võ thuật một người tham gia môn thể thao này càng lâu thì càng tốt.
Hiện nay hầu như trên thế giới việc đánh giá và chấm điểm các động tác võ thuật cổ truyền hay các các môn thể thao võ thuật thường do con người (ban giám khảo)
nhìn nhận và đánh giá bằng cảm nhận. Chứ chưa có một hệ thống máy móc nào thực
hiện việc đánh giá các động tác trong các bài biểu diễn võ thuật cổ truyền hay trong
đào tạo võ thuật.
3.3 Cơ sở lý thuyết để nhận diện động tác tấn công và chấm
điểm động tác võ 3.3.1 Nhận diện động tác tấn công 3.3.1.1 Xử lý dữ liệu
Chuẩn bị tập mẫu như đã giới thiệu trong chương 1, camera Kinect cho phép theo
dõi khung xương của người đứng trước camera, cụ thể là với mỗi khung hình camera
Kinect thu được 20 khớp xương tương ứng với 20 tọa độ (x, y, z). Mỗi khớp có mỗi ID
khác nhau và có gốc với ID là giữa hông. Dữ liệu thu được sau khi lấy tọa độ của 20
điểm trên cơ thể sẽ được xử lý ở chương 2 sau mỗi đó động tác được ghi vào file text,
sau đó gán nhãn cho từng động tác: động tác công gán nhãn là 1, thủ được gán nhãn
là 0. Tập dữ liệu được chia thành tập training bao gồm 289 động tác và tập test bao
gồm 66 động tác. Mỗi tư thế được thu ở khoảng cách 2.5 m ± 0.2 m và 3.3 m ± 0.2 m, được thể hiện trong Hình 3.3.
3.3.1.2 Trích xuất đặc trưng cơ thể người với camera Kinect
Trong nghiên cứu này đề xuất phương pháp dựa trên tọa độ của 20 khớp xương
để trích đặc trưng tư thế người từ dữ liệu thu được từ camera Kinect sử dụng vị trí
tương đối (Relative Position). Phương pháp sử dụng tọa độ với 3 giá trị (x, y, z) của