VIỆT, HO TRỢ HIỂU NGON NGỮ CUA NGƯỜI KHIEM THÍNH BANG PHƯƠNG PHAP HOC SAU
3.2.3. Trích xuất đặc trưng khung xương
Chúng tôi đã sử dụng thư viện MediaPipe Holistic dé trích xuất dữ liệu về các tư
thé cơ thé từ video. Quá trình này tạo ra một tập hợp các điểm mốc cơ thẻ, tông cộng 66 điểm mốc trên mỗi khung hình. Trong số nay, chúng tôi xác định được 11 điểm mốc
trên đầu, 21 điểm mốc trên mỗi ban tay, còn lại là các điểm mốc trên cơ thé. Mỗi điểm mốc được biểu thị bằng một cặp tọa độ (x, y) tương ứng với vị trí của nó trong ảnh. Tat cả các điểm mốc được tô chức thành một vecto có kích thước 112, trong đó mỗi cặp tọa độ (x, y) góp phần thẻ hiện tư thế cụ thé của khung. Trong trường hợp không có người biêu diễn trong khung hoặc MediaPipe không thẻ xác định được các điểm mốc nhất định, chúng tôi quyết định điền tọa độ với giá trị 0 cho các điểm chưa xác định. Điều nay đảm bảo rằng tat ca các điểm được thé hiện day du trong vectơ và tạo ra dit liệu
thông nhất có thê được sử dụng đề huấn luyện các mô hình nhận dạng tư thể hoặc các ứng dụng liên quan đến thị giác máy tính khác.
40
|
~ơ
|
[7
~^
_-
“I
Hình 3-3: Lay đặc trưng khung xương tir MediaPipe.
|
Đề giảm thiêu việc trang bị quá mức và nâng cao khả năng học tập của mô hình, chúng tôi áp dụng kỹ thuật xoay ngẫu nhiên cho tọa độ khớp trong quá trình xử lý dữ liệu huấn luyện. Cụ thé, chúng tôi thực hiện các biến đôi ngẫu nhiên về góc quay của
khớp, dao động từ 0 độ đến 13 độ.
Quá trình này được thực hiện với mục đích tạo ra sự đa dạng trong dữ liệu huấn
luyện, giúp người mẫu không chỉ học từ các tư thế đúng mà còn trở nên chủ động và linh hoạt trong việc nhận biết các tư thể từ các góc độ khác nhau. mức độ khác nhau.
Bằng cách nay, mô hình có thé tự tin hơn khi đối mặt với những thay đổi trong môi
trường và góc nhìn.
Kỹ thuật xoay ngẫu nhiên đóng vai trò quan trọng trong việc nâng cao khả năng
khái quát hóa của mô hình. Điều này giúp mô hình thích ứng tốt hơn với các tình huỗng thực tế nơi có thé xảy ra nhiễu và dao động trong góc nhìn. Sự đa dang ngày cảng tăng
41
nay cũng giúp mô hình tránh được việc học quá mức từ các đặc điểm cụ thể của tập huan
luyện. đảm bảo tính ồn định va chính xác khi áp dụng mô hình cho dữ liệu mới.
Cụ thé, phép quay tọa độ khớp ngẫu nhiên được thực hiện từ 0° đến 13° và được dp dụng theo một công thức cụ thé dé đảm bảo tính ngẫu nhiên và phân tập trong quá trình huấn luyện. Điều nay góp phan nâng cao tính linh hoạt của mô hình và giúp cải
thiện khả năng nhận dang trong các điều kiện thực tế da dang.
frotare(x, Ơ) = (Ce — 0.5) cos ỉ — (y — 0.5) sin ỉ + 0.5,
(y — 0.5) cos ỉ + (x — 0.5) sin + 0.5) a)
Trong quá trình xử lý dir liệu, chúng tôi thực hiện nén theo chiều ngang tat cả các khung từ cá hai phía, sử dụng hai tỷ lệ ngẫu nhiên cho chiều rộng, ký hiệu là w1 cho bên
trái và w2 cho bên phải. Điều này nhằm tạo ra sự đồng nhất và thống nhất giữa các
khung, giúp cải thiện khả năng học hỏi của mô hình.
Quá trình nén các khung này còn bao gồm việc tính toán lại các giá trị x của tọa độ khớp. Cụ thẻ, chúng tôi sử dụng công thức tính toán đặc biệt dé điều chỉnh giá trị x, dam bảo tính chính xác và ngẫu nhiên trong quá trình tiền xử lý dữ liệu. Bằng cách nay, chúng tôi hy vọng sẽ tôi ưu hóa tính đồng nhất và linh hoạt của đữ liệu huan luyện, giúp mô hình học hỏi từ nhiều góc độ va tư thé khác nhau, nâng cao khả năng khái quát hóa khi áp dung mô hình. đến dit liệu thực tế.
x—-W,
(2)
Chúng tôi triển khai kỹ thuật xoay khớp trong quá trình tiền xử lý dữ liệu, trong đó tọa độ của các khớp và điểm trải qua một quá trình xoay nhỏ. Tỷ lệ xoay được áp dụng là 3/10, nghĩa là mỗi khớp và điểm sẽ được quay với góc quay khoảng +4°. Mặc dù những thay đôi này có vẻ nhỏ và không đáng ké nhưng chúng đóng vai trò quan trọng
trong việc nâng cao quá trình học của mô hình và giảm nguy cơ học quá mức từ các tính
năng cụ thé của tập huấn luyện.
Quá trình xoay vòng này có tác dụng làm da dang hóa dit liệu huấn luyện, giúp người mẫu học hỏi từ nhiều góc độ, tư thế khác nhau. Điều này đặc biệt quan trọng đề hạn chế việc trang bị quá mức, trong đó mô hình có thé trở nên quá tinh chỉnh theo các đặc điểm cụ thé của tập dit liệu huấn luyện và không thé khái quát hóa tốt cho dit liệu
mới. . Kỳ thuật xoay khớp này giúp đảm bảo tính lĩnh hoạt và chính xác của mô hình
khi gặp các điều kiện và góc nhìn đa dang.
3.2.4. Mô hình dự đoán trên đặc trưng không gian
Chúng tôi tiền hành cho video đầu vào được tách ra các frame sau đó sử đụng mô hình pretrain ResNet50 mà tiền hành dé huấn luyện mô hình trích xuất đặc trưng không
gian này.
Mô hình được sử dung la một biển thé của mạng ResNet (Residual Network).
một trong những mô hình neural sâu phô biến được sử dụng trong thị giác máy tính.
Dưới đây là mô tả chỉ tiết về kiến trúc của mô hình:
Tầng Convolutional đầu tiên:
Tầng này nhận đầu vào là ảnh với số lượng kênh được chỉ định.
Sử dung convolutional layer với kernel size là 7x7, stride là 2, va padding lả 3
để giảm kích thước của ảnh đầu vào.
Tầng Batch Normalization đầu tiên:
BatchNorm được áp dụng sau tang convolutional để chuẩn hóa đầu vào và giúp tăng tốc quá trình huấn luyện.
Tầng kích hoạt ReLU:
Kích hoạt phi tuyến tính ReLU được áp dụng sau BatchNorm đề tăng tính phi
tuyến tính của mô hình
Tầng MaxPooling:
Tang MaxPooling với kernel size là 3x3, stride là 2 va padding 1a 1 được sử dung dé giảm kích thước của feature map.
Các tầng Residual Blocks:
Mạng ResNet được xây dựng từ một loạt các Residual Blocks.
43
Mỗi Residual Block có thể là khối cơ bản (BasicBlock) hoặc khói nâng cao
(Bottleneck).
Mỗi khối bao gồm một chuỗi các lớp convolutional va normalization, cùng với
kích hoạt ReLU.
Các Residual Blocks giúp tránh tình trạng biến mat gradient trong quá trình lan truyền ngược, làm cho việc huấn luyện mô hình trở nên hiệu quả hơn.
Tầng Global Average Pooling:
Tang này được sử dụng để chuyên đôi feature map cudi cùng thành một vector
đặc trưng băng cách tính trung bình cộng của mỗi kênh.
Tang Fully Connected (FC):
Một tang fully connected với số lượng đầu ra tương ứng với số lớp phan loại
được áp dụng dé dự đoán nhãn của ảnh dau vào.
3.2.5. Mô hình dự đoán trên đặc trưng khung xương
Ban dau, chúng tôi để tập dữ liệu là một video đi qua MediaPipe đề trích xuất các điểm chính (x, y). Sau đó chuẩn hóa các điểm chính và chuyên chúng qua mô hình mạng
lưới thần kinh sâu với các lớp sau:
Lớp dày đặc: Lớp mạng thân kinh được kết nỗi đầy đủ với kích thước 256. Lớp này được sử dụng dé tìm hiểu các cách biểu dién phức tap của đầu vào.
Lớp chuẩn hóa: Lớp này được sử dụng đề chuân hóa đầu ra. Giúp giám thiêu độ đốc biến mất và ôn định trong quá trình luyện tập.
Lớp học: Được sử dụng dé loại bỏ ngẫu nhiên một phần đơn vị thần kinh trong
quá trình huấn luyện, giúp tránh trang bị quá mức.
Sau đó, nó được chuyền qua Lớp dày đặc dé giảm kích thước dit liệu và xác định
các hành động.
Key Point Skeleton
Feature
Hình 3-4: Nhận diện qua đặc trưng khung xương với mô hình Neural Network.