.1 Minh họa cây quyết định có đi chơi không

Một phần của tài liệu Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu758 (Trang 108 - 112)

vision), cây quyết định (decision tree) là một kiểu mô hình dự báo (predictive model),

nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá

trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong (internal node) tương ứng với

một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến

đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của

các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó. Kỹ thuật học máy dùng

trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn

gọn là cây quyết định. Mô hình cây quyết định được thể hiện như trong Hình 3.1.

Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá

dữ liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại

đó [99]. Một cây quyết định có thể được học bằng cách chia tập hợp nguồn thành các

tập con dựa theo một kiểm tra giá trị thuộc tính [99]. Quá trình này được lặp lại một

cách đệ quy cho mỗi tập con dẫn xuất. Quá trình đệ quy hoàn thành khi không thể

tiếp tục thực hiện việc chia tách được nữa, hay khi một phân loại đơn có thể áp dụng

cho từng phần tử của tập con dẫn xuất. Một bộ phân loại rừng ngẫu nhiên (random

forest) [100] sử dụng một số cây quyết định để có thể cải thiện tỉ lệ phân loại. Mô hình của bộ phân loại rừng ngẫu nhiên được thể hiện như trong Hình 3.2.

Cây quyết định cũng là một phương tiện có tính mô tả dành cho việc tính toán

các xác suất có điều kiện. Cây quyết định có thể được mô tả như là sự kết hợp của các

Hình 3.2 Minh họa mô hình của thuật toán rừng ngẫu nhiên cho việc phân loại. Trong

đó thuật toán này được áp dụng cho một rừng bao gồm nhiều cây quyết định.

một tập dữ liệu cho trước. Dữ liệu được cho dưới dạng các bản ghi có dạng:

(x, y) = ( 1 2 3x , x , x , ..., xk, y) (3.1)

Biến phụ thuộc (dependant variable) y là biến mà chúng ta cần tìm hiểu, phân

loại hay tổng quát hóa. ( 1 2 3x , x , x , ...) là các biến sẽ giúp ta thực hiện công việc đó.

Các kiểu cây quyết, Cây hồi quy (Regression tree) ước lượng các hàm giá có giá trị là

số thực thay vì được sử dụng cho các nhiệm vụ phân loại. (ví dụ: ước tính giá một ngôi nhà hoặc khoảng thời gian một bệnh nhân nằm viện)

Nhận dạng tư thế người là phân lớp một tư thế thu được từ camera vào một trong

các tư thế đã được định nghĩa trước đó ví dụ như: đứng, ngồi, nằm. Người mô tả tư

thế sẽ biểu diễn trước camera và hệ thống sẽ nhận dạng tư thế đó là tư thế gì. Trong

nghiên cứu này trình bày về khả năng nhận dạng tư thế tấn công trong bài võ 36 tư

thế với dữ liệu thu được từ camera Kinect đã qua ước lượng khung xương 3D, cùng với

bộ dữ liệu công bố có sẵn trên mạng. Lợi thế của việc sử dụng dữ liệu khung xương

thu từ camera Kinect là không bị ảnh hưởng bởi sự thay đổi của ánh sáng hay độ

nhiễu của hình ảnh. Nghiên cứu cũng sẽ đưa ra phương pháp trích đặc trưng từ dữ

liệu khung xương thu thập được từ camera Kinect. Sau đó, bộ dữ liệu sẽ được đem

đi huấn luyện bằng mô hình cây phân loại. Qua thực nghiệm cho thấy độ chính xác

trong những phần quan trọng trong các ứng dụng tương tác giữa Người- Máy. Trong

đó xác định thành công hình dáng người chắc chắn có thể giúp một máy tính có thể

kiểm soát các động tác khác nhau trên cơ sở của sự tương tác với cùng một mẫu thu

nhận trước đó. Trong vài thập kỷ qua, đã có nhiều nghiên cứu sâu rộng đã được thực

hiện trên cơ sở nhận dạng sinh trắc học, sử dụng các mẫu hành vi khác nhau như dáng

đi, gõ bàn phím, biểu diễn múa ba lê hay nhận dạng biểu hiện tâm lý người thông qua

các biểu hiện môi, cơ mặt, giọng nói. . . là một trong những cách thức phổ biến của

nhận dạng người [94], [95]. Nhận dạng dáng đi của con người có lợi thế rất lớn trong

sự nhận dạng từ các hình ảnh độ phân giải thấp, nơi các kỹ thuật sinh trắc học khác

là không phù hợp vì không đủ thông tin điểm ảnh [96]. Võ cổ truyền Việt Nam là một đặc trưng của dân tộc Việt Nam hình thành qua quá trình đấu tranh giải phóng dân

tộc. Có một đặc điểm cho đến nay là chưa có tính thống nhất cao giữa các môn phái

nên vẫn chưa có hệ thống bài mẫu chuẩn hóa toàn thế giới giống các môn võ khác như karatedo hay taewondo...vv.

3.2 Các nghiên cứu liên quan

Đã có rất nhiều nghiên cứu về đề tài nhận dạng tư thế người tuy nhiên hầu hết sử

dụng các thông tin có được từ ảnh màu được chụp bởi camera thường [99], [37], [41].

Trở ngại chính của các phương pháp giải quyết truyền thống là việc trích xuất đặc

trưng từ hình ảnh thu được bởi camera thông thường còn nhiều khó khăn do nhiễu,

góc chụp, ánh sáng, ảnh hưởng của môi trường. Trong khi đó, Microsoft đã phát triển

thiết bị Kinect, thiết bị này ngoài khả năng thu được ảnh màu còn có thể cung cấp dữ

liệu về độ sâu và theo dõi khung xương của người đứng trước camera. Hiện nay, có một

số đề tài nhận dạng tư thế người dựa trên dữ liệu cung cấp từ camera Kinect như: TS.

Lê Thị Lan thực hiện 7 thực nghiệm với 4 cách trích xuất dữ liệu từ khung xương được

cung cấp bởi thiết bị Kinect [42], kết quả của đề tài cho thấy độ chính xác cao khi nhận

dạng 4 tư thế đứng, ngồi, nằm và cúi người. Đề tài “Human gesture recognition using

Kinect camera” [43] của Orasa Patsadu, Chakarida Nukoolkit và Bunthit Watanapa,

đề tài này đưa ra sự so sánh giữa 4 phương pháp phân loại là mạng nơron lan truyền

ngược, SVM, cây quyết định và Bayes thơ ngây hay "Gesture recognition from Indian classical dance using Kinect" [44] của Sripara Saha, Shreya Ghosh, Amit Konar, Atulya

K. Nagar sử dụng tọa độ của 11 khớp xương ở phần thân trên để nhận dạng 5 cử chỉ

khác nhau. Những đề tài trên đều đạt được độ chính xác cao khi sử dụng dữ liệu khung

xương từ camera Kinect, tuy nhiên số lượng tư thế của các đề tài này khá ít (3-5 tư

thế). Trong bài nghiên cứu này sẽ trình bày khả năng nhận dạng 36 tư thế khác nhau

với dữ liệu thu được từ camera Kinect. Phần còn lại của nghiên cứu sẽ được trình bày

như sau: phần hai trình bày cụ thể về cách thu thập dữ liệu, phương pháp trích xuất

và tiếp theo là kết luận và hướng phát triển. Trong biểu diễn võ thuật của các môn thể

thao cũng như đào tạo võ thuật cổ truyền, vấn đề biểu diễn hoặc thực hiện đúng và

chính xác các hành động trong võ thuật là điều rất quan trọng. Biểu diễn đúng giúp có

điểm cao trong các cuộc thi. Thực hiện đúng các động tác giúp các thế võ có một hiệu

năng về lực lớn (nhiều sức mạnh). Võ thuật có vai trò rất lớn trong cuộc sống hàng

ngày của con người, võ thuật không chỉ giúp con người rèn luyện sức khỏe và tự vệ mà

nó còn giúp con người nâng cao nhận thức. Như trong nghiên cứu [98], đã phân tích và

đánh giá việc đào tạo võ thuật truyền thống ảnh hưởng đến nhận thức của người lớn.

Để làm như vậy, bài báo đã sử dụng bài kiểm tra mạng chú ý (ANT) để kiểm tra hai

nhóm người tham gia khác nhau: có ít nhất 2 năm kinh nghiệm về Võ thuật và không có kinh nghiệm với môn thể thao này. Kết quả được thể hiện cho thấy rằng số năm

kinh nghiệm võ thuật một người tham gia môn thể thao này càng lâu thì càng tốt.

Hiện nay hầu như trên thế giới việc đánh giá và chấm điểm các động tác võ thuật cổ truyền hay các các môn thể thao võ thuật thường do con người (ban giám khảo)

nhìn nhận và đánh giá bằng cảm nhận. Chứ chưa có một hệ thống máy móc nào thực

hiện việc đánh giá các động tác trong các bài biểu diễn võ thuật cổ truyền hay trong

đào tạo võ thuật.

3.3 Cơ sở lý thuyết để nhận diện động tác tấn công và chấm

điểm động tác võ 3.3.1 Nhận diện động tác tấn công 3.3.1.1 Xử lý dữ liệu

Chuẩn bị tập mẫu như đã giới thiệu trong chương 1, camera Kinect cho phép theo

dõi khung xương của người đứng trước camera, cụ thể là với mỗi khung hình camera

Kinect thu được 20 khớp xương tương ứng với 20 tọa độ (x, y, z). Mỗi khớp có mỗi ID

khác nhau và có gốc với ID là giữa hông. Dữ liệu thu được sau khi lấy tọa độ của 20

điểm trên cơ thể sẽ được xử lý ở chương 2 sau mỗi đó động tác được ghi vào file text,

sau đó gán nhãn cho từng động tác: động tác công gán nhãn là 1, thủ được gán nhãn

là 0. Tập dữ liệu được chia thành tập training bao gồm 289 động tác và tập test bao

gồm 66 động tác. Mỗi tư thế được thu ở khoảng cách 2.5 m ± 0.2 m và 3.3 m ± 0.2 m, được thể hiện trong Hình 3.3.

3.3.1.2 Trích xuất đặc trưng cơ thể người với camera Kinect

Trong nghiên cứu này đề xuất phương pháp dựa trên tọa độ của 20 khớp xương

để trích đặc trưng tư thế người từ dữ liệu thu được từ camera Kinect sử dụng vị trí

tương đối (Relative Position). Phương pháp sử dụng tọa độ với 3 giá trị (x, y, z) của

Một phần của tài liệu Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu758 (Trang 108 - 112)

Tải bản đầy đủ (PDF)

(148 trang)