Nhận diện động tác tấn công bằng mạng nơron

Một phần của tài liệu Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu758 (Trang 122 - 124)

Đồng thời với việc nhận dạng động tác tấn công bằng phương pháp cây phân loại

thì nghiên cứu cũng thực hiện trên phương pháp mới hơn là sử dụng mạng trí nhớ ngắn

định hướng dài hạn (Long Short term memory) còn được viết tắt là LSTM. LSTM là

một kiến trúc đặc biệt của RNN có khả năng học được sự phụ thuộc trong dài hạn

(long-term dependencies) được giới thiệu bởi Hochreiter và Schmidhuber (1997). Kiến

trúc này đã được phổ biến và sử dụng rộng rãi cho tới ngày nay. LSTM đã tỏ ra khắc

phục được rất nhiều những hạn chế của RNN trước đây về triệt tiêu đạo hàm. Tuy

nhiên cấu trúc của chúng có phần phức tạp hơn mặc dù vẫn giữ được tư tưởng chính

của RNN là sự sao chép các kiến trúc theo dạng chuỗi. Một mạng RNN tiêu chuẩn sẽ có kiến trúc rất đơn giản chẳng hạn như đối với kiến trúc gồm một tầng ẩn là hàm

tanh như hình 3.10 bên dưới . LSTM cũng có một chuỗi dạng như thế nhưng phần

kiến trúc lặp lại có cấu trúc khác biệt hơn. Thay vì chỉ có một tầng đơn, chúng có tới

4 tầng ẩn (3 sigmoid và 1 tanh) tương tác với nhau theo một cấu trúc đặc biệt. Các kí

hiệu có thể diễn giải như sau:

Trong sở đồ tính toán trên, mỗi một phép tính sẽ triển khai trên một véc tơ. Trong

đó hình tròn màu hồng biểu diễn một toán tử đối với véc tơ như phép cộng véc tơ, phép nhân vô hướng các véc tơ. Màu vàng thể hiện hàm activation mà mạng nơ ron

sử dụng để học trong tầng ẩn, thông thường là các hàm phi tuyến sigmoid và tanh. Kí

Hình 3.10 Sự lặp lại kiến trúc module trong mạng RNN chứa một tầng ẩn

thẳng rẽ nhánh thể hiện cho nội dung véc tơ trước đó được sao chép để đi tới một phần

khác của mạng nơ ron.

Cũng sử dụng bộ cơ sở dữ liệu của camera Kinect ở chương trước, sau khi được

ước lượng trong không gian 3D để có các tọa độ chuẩn hơn thì lựa chọn ra 14 điểm

key có khả năng mô tả đăc trưng của thế võ nhằm làm giảm kích thước đầu vào của

mạng nơ-ron. Tại frame đầu tiên của mỗi video, chọn đường thẳng đi qua đầu và bụng

làm trục tham chiêu cho sự thay đổi vị trí của các điểm trên cơ thể, từ đó ta tính đươc

vị trí của mỗi điểm cơ thể tại các frame khác nhau. Như vây mỗi frame được quy đổi

thành một vector 14 chiều ;tương ứng với 14 vị trí của các điểm trên cơ thể. Mỗi video

sẽ được chuẩn hóa thành một ma trận có kích thước 50x14 (Mỗi video có 50 frame).

Ta tiến hành xây dựng mô hình LSTM sử dụng thư viện: Tensorflow.

Số lượng hidenlayer : 32

window size (số lượng frame đưa vào mỗi lần để dự đoán đầu ra): 50.

learning rate : 0,005. Thuật toán tối ưu: Adam. batch size: 100.

Kết quả: khi test trên tập test thế võ công như hình 3.13

Hình 3.11 Sự lặp lại kiến trúc module trong mạng LSTM chứa 4 tầng ẩn (3 sigmoid

và 1 tanh) tương tác

Hình 3.12 Diễn giải các kí hiệu trong đồ thị mạng nơ ron

Kết quả cho thấy hiệu quả nhận dạng động tác tấn công khi chạy trên mạng nơ

ron LSTM có hiệu quả cao, nhất là khi số liệu tọa độ của các điểm đã được ước lượng

thì có hiệu quả cao hơn về độ chính xác phát hiện động tác.

Một phần của tài liệu Về mô hình nhận dạng tư thế võ dựa trên ảnh chiều sâu758 (Trang 122 - 124)

Tải bản đầy đủ (PDF)

(148 trang)