Bài viết Tối ưu bài toàn phân loại hành động dựa vào đặc trưng mới trình bày việc đề xuất giải pháp phân loại hành động dựa vào sự kết hợp giữa OpenPose và LSTM. Tác giả đề xuất giải pháp tối ưu bằng cách thêm các đặc trưng mới để nâng cao hiệu quả của mô hình.
Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 TỐI ƯU BÀI TOÀN PHÂN LOẠI HÀNH ĐỘNG DỰA VÀO ĐẶC TRƯNG MỚI Phạm Trí Cơng Trường Đại học Thủy lợi, email: phtcong@tlu.edu.vn GIỚI THIỆU Phân loại hành động người toán nghiên cứu từ lâu Với đầu vào video, dựa vào đặc trưng frame liên tiếp nhau, giải pháp phải phân loại thành hành động Một vấn đề gặp phải tốn có số hành động hay bị phân loại nhầm sang hành động khác tương tự tư Ví dụ hành động đứng yên hay bị nhầm với hành động Trong nghiên cứu này, tác giả đề xuất giải pháp phân loại hành động dựa vào kết hợp OpenPose LSTM Tác giả đề xuất giải pháp tối ưu cách thêm đặc trưng để nâng cao hiệu mơ hình Nghiên cứu sử dụng liệu gồm 2022 video để huấn luyện đánh giá mơ hình đề xuất Kết là, giải pháp tối ưu đề xuất giúp tăng 7.2% độ xác mean recall Bước 2: Các frame riêng lẻ trích chọn 18 điểm quan trọng thể dựa vào thư viện OpenPose Đến bước 3, 18 điểm thể sử dụng để tạo đặc trưng tùy theo kịch Cuối cùng, đặc trưng đặc trưng 18 điểm sử dụng để huấn luyện module LSTM trình training Ở giai đoạn phân loại, mơ hình LSTM huấn luyện, sử dụng đầu vào đặc trưng, để phân loại hành động thành năm hành động Hình Kiến trúc hệ thống phân loại hành động người video PHƯƠNG PHÁP NGHIÊN CỨU Phân loại hành động video nhiều nhà nghiên cứu thực với nhiều kỹ thuật khác Có nhiều giải pháp sử dụng kỹ thuật học sâu để phân loại [1], [2] Có kỹ thuật kết hợp học sau LSTM để phân loại [3], [4] Có kỹ thuật sử dụng kết hợp OpenPose để trích xuất điểm quan trọng thể, sau dùng LSTM để phân loại hành động [5], [6] Trong nghiên cứu này, tác giả đề xuất giải pháp kết hợp OpenPose LSTM để phân loại năm loại hành động thơng dụng Mơ hình hệ thống mơ tả Hình gồm bước Bước 1: Video đầu vào chuyển thành frame riêng lẻ để xử lý Sau đó, Trong nghiên cứu này, bước ba, Transform, tác giả dựa vào phân tích đặc trưng tư để tạo đặc trưng như: khoảng cách bàn tay, bàn chân, đầu gối, đầu gối với cổ, vai, bàn chân với cổ vai Để đánh giá hiệu quả giải pháp, nghiên cứu thực so sánh hiệu giải pháp đề xuất với base-line model liệu thu thập từ nguồn khác CHI TIẾT THỰC NGHIỆM 3.1 Bộ liệu Bộ liệu sử dụng nghiên cứu thu thập từ Youtube, Facebook, 119 Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 Tự quay Việc thu thập xử lý liệu công đoạn nhiều thời gian công sức Các video chỉnh sửa phần mềm để loại bỏ phần không liên quan video Sau xử lý xong liệu bao gồm 2022 video ngắn gồm hành động khác (Eat, Sit, Sleep, Stand, Walk) Trong đó, 80% liệu sử dụng cho huấn luyện mơ hình (dữ liệu train), 10% dành cho tập validation 10% cho tập kiểm thử Số lượng phân bổ video cho tập thể Bảng bên Bảng Dữ liệu năm loại hành động tập Train, Val, Test Eat Train 326 Val 41 Test 41 Sit 326 43 42 Sleep Stand Walk 345 316 297 45 40 37 45 40 38 Total 1610 206 206 Bộ liệu bao gồm 2022 video, 1610 video sử dụng để huấn luyện, 206 video sử dụng cho tập validation, lại 206 video sử dụng để đánh giá mơ hình 3.2 Thiết lập thơng số thực nghiệm Với phương pháp này, tác giả chuẩn bị liệu đầu vào cho model LSTM Các video train xử lý qua model Openpose để trích xuất 18 điểm thể Cứ 24 khung hình liên tiếp sử dụng để xác định hành động người video Dữ liệu 24 khung hình sử dụng đầu vào cho LSTM để học phân loại hành động Thông số chi tiết mô tả Bảng Bảng Thông số thực nghiệm STT Thông số Số lần huấn luyện Số frames/hành động Giá trị 50 24 Trong nghiên cứu này, mơ hình LSTM huấn luyện 50 epoch Sau hoàn thành train epoch, model lưu lại Sau toàn trình training, 50 model lưu lại với số loss accuracy, số Accuracy tăng mức cao 84% Model có Accuracy tốt liệu validation lựa chọn để đánh giá độ xác cuối phương pháp tập liệu kiểm thử KẾT QUẢ THỰC NGHIỆM Trong nghiên cứu này, tác giả thực hai kịch để đánh giá hiệu giải pháp đề xuất: 1) Base-line model thực với đầu vào cho LSTM 18 đặc trưng đầu OpenPose; 2) Tối ưu model cách thêm đặc trưng Với hai kịch này, tác giả huấn luyện LSTM với 50 epoch, lựa chọn model có độ xác tốt tập liệu validation, sau đánh giá liệu test gồm 206 video Kết hai kịch thể Hình Hình 3.3 Base-line model Trong phần này, tác giả đánh giá hiệu base - line model Mô hình thực với đầu vào cho LSTM 18 đặc trưng, đầu OpenPose Mười tám đặc trưng sử dụng trực tiếp làm đầu vào LSTM Kết giải pháp thể Hình Hình Độ xác toán phân loại hành động sử dụng OpenPose kết hợp với LSTM Độ xác tính trung bình đường chéo ma trận (mean recall) Hình 86.4% Kết tương đối cao, nhìn vào hình thấy hành động Eat có recall lớn 100%, Stand có recall thấp đạt 70% Đặc biệt hành động Stand bị đoán nhầm nhiều vào hai lớp Walk Sleep Số kết Stand bị đoán nhầm thành Walk nhiều với 20% Sau Stand bị đoán nhầm thành Sleep 10% Tương tự vậy, hành động Sleep có độ xác 90%, đứng thứ 120 Tuyển tập Hội nghị Khoa học thường niên năm 2021 ISBN: 978-604-82-5957-0 hành động Tuy nhiên, Sleep bị đoán sai thành Stand 3.4 Tối ưu giải pháp đặc trưng Nguyên nhân nhầm lẫn ba hành động Stand, Walk, Sleep số video Openpose chưa nhận hết điểm khớp thể Về mặt logic tư giống ba hành động Nghĩa tư Sleep, Stand, Walk có tương đồng chúng có dạng tư người, tay, chân Trong hai hành động Stand Walk vị trí 18 điểm thể gần như Hai hành động quay 90% giống với tư ngủ Nhưng ta thêm số thuộc tính khác để phân biệt hành động Tác giả đưa giải pháp để giải vấn đề việc kết hợp 18 điểm thể với đặc trưng khác nêu giải pháp hai Phân tích hành động thấy khoảng cách chân thay đổi, cịn hành động đứng khơng Vì ta cho thêm thuộc tính khoảng cách bàn chân, khoảng cách đầu gối Các hành động ngồi, ngủ hay bị nhầm với đứng, ta cho thêm số thuộc tính khoảng cách bàn tay đầu gối, khoảng cách bàn tay vai Một số thuộc tính khác thêm vào khoảng cách khủy tay đầu gối, khoảng cách khủy tay, khoảng bàn tay Kết sau huấn luyện lại mô hình với thuộc tính thêm biểu diễn Hình Hình Độ xác toán phân loại hành động sử dụng OpenPose kết hợp với LSTM sử dụng thêm đặc trưng Độ xác hành động Stand thấp tăng 10% từ 70% lên 80% Hơn nữa, giải pháp tăng mean recall 7.2% (từ 86.4% lên 93.6%) Với kết này, giải pháp triển khai dự án thực tế KẾT LUẬN Trong nghiên cứu này, đề xuất giải pháp sử dụng OpenPose LSTM cho toán phân loại hành động người sử dụng video Nghiên cứu đánh giá giải pháp với đặc trưng đề xuất giải pháp để nâng cao hiệu hệ thống cách sử dụng đặc trưng thêm Giải pháp đề xuất nâng cao độ xác mean recall 7.2% mà cịn tăng độ xác lớp stand, lớp có hiệu thấp với base line model Kết có ý nghĩa lớn thêm đặc trưng gần gũi với logic người để tăng hiệu mơ hình học máy cách nhanh chóng Do thời gian có hạn nên nghiên cứu đánh giá với liệu thu thập 2022 video với hành động Trong tương lai, tác giả thực đánh giá nhiều liệu nhiều hành động Khơng vậy, ý tưởng cịn sử dụng cho toán khác tương tự toán TÀI LIỆU THAM KHẢO [1] Y Lecun, Y Bengio, and G Hinton, “Deep learning,” Nature, vol 521, no 7553, pp 436–444, 2015, doi: 10.1038/nature14539 [2] C.-F Chen et al., “Deep Analysis of CNNbased Spatio-temporal Representations for Action Recognition,” Oct 2020, [Online] Available: http://arxiv.org/abs/2010.11757 [3] N Kojovic, S Natraj, S P Mohanty, T Maillart, and M Schaer, “Using 2D Videobased Pose Estimation forAutomated Prediction of Autism Spectrum Disordersin Preschoolers,” medRxiv, 2021, doi: 10.1101/2021.04.01.21254463 [4] C I Orozco, M E Buemi, and J J Berlles, “CNN-LSTM Architecture for Action Recognition in Videos,” 2019 [5] C Sawant, “Human activity recognition with openpose and Long Short-Term Memory on real time images,” 2020 [6] F M Noori, B Wallace, M Z Uddin, and J Torresen, “A Robust Human Activity Recognition Approach Using OpenPose, Motion Features, and Deep Recurrent Neural Network,” 2019, pp 299–310 121 ... Mơ hình thực với đầu vào cho LSTM 18 đặc trưng, đầu OpenPose Mười tám đặc trưng sử dụng trực tiếp làm đầu vào LSTM Kết giải pháp thể Hình Hình Độ xác tốn phân loại hành động sử dụng OpenPose... với đặc trưng khác nêu giải pháp hai Phân tích hành động thấy khoảng cách chân thay đổi, cịn hành động đứng khơng Vì ta cho thêm thuộc tính khoảng cách bàn chân, khoảng cách đầu gối Các hành động. .. sai thành Stand 3.4 Tối ưu giải pháp đặc trưng Nguyên nhân nhầm lẫn ba hành động Stand, Walk, Sleep số video Openpose chưa nhận hết điểm khớp thể Về mặt logic tư giống ba hành động Nghĩa tư Sleep,