Xây dựng mô hình Đánh giá tư thế thể dục sử dụng mediapipe

đề tài “Xây dựng mô hình đánh giá tư thế thể dục sử dụng MediaPipe”. Nghiên cứu này tập trung vào việc xây dựng một mô hình đánh giá tư thế thể dục sử dụng công nghệ MediaPipe, với phạm vi giới hạn trong việc đánh giá và phân loại tư thế thể dục đối với động tác squat. Động tác squat được chọn làm điểm tập trung vì tính phổ biến và tính quan trọng của nó trong các chương trình tập luyện và thể dục cá nhân. Mục tiêu của nghiên cứu này là xây dựng một mô hình máy học có khả năng nhận diện, đánh giá và phân loại chính xác các tư thế thể dục liên quan đến động tác squat từ dữ liệu hình ảnh hoặc video. Qua đó, mô hình sẽ đánh giá chất lượng và hiệu suất của việc thực hiện động tác squat, bao gồm các yếu tố như độ sâu, độ thẳng của lưng, vị trí của đầu gối và cân bằng của cơ thể.

TỔNG QUAN VỀ BÀI TOÁN

Bài toán ước tính tư thế con người

Tư thế con người là hình dáng của cơ thể con người khi thực hiện các hoạt động như đi, nằm, ngồi, … Chính xác hơn khi nói đến tư thế, là người ta nói tới sự sắp xếp của tất cả vị trí các khớp trên cơ thể vào một thời điểm Để đánh giá tư thế, người ta chọn ra một tư thế đứng thẳng lý tưởng làm tiêu chuẩn để so sánh và nhận diện các sai lệch về tư thế. ix

Nhận diện con người là bài toán xác định sự có mặt của con người trong một tầm nhìn bất kỳ như ảnh, video hay sự kiện phát trực tiếp Hiện nay, trên thế giới, việc giải quyết bài toán này đã đạt được những thành tựu rất lớn Các mô hình hiện đại ngày nay đã và đang ngày càng hoàn thiện hơn trong việc xác định chính xác với hiệu suất tốt con người trong những khung hình cụ thể. Nhận diện cũng có thể coi là bước đầu tiên trong việc ước tính và xác định tư thế của con người.

Bài toán ước tính tư thế (HPE) là quá trình ước tính hoặc dự đoán vị trí và cách đối tượng di chuyển hoặc đứng trong không gian Trong trường hợp nhận diện tư thế, sau khi đã xác định các đối tượng (ví dụ: con người), mục tiêu là ước tính các thông số liên quan đến tư thế của họ Các thông số liên quan này có thể bao gồm vị trí thực tế, vị trí các điểm khớp chính xác trên cơ thể, góc độ, hướng di chuyển và những thông tin tương tự khác.

Tư thế con người đóng vai trò thiết yếu trong nhiều lĩnh vực, từ y học,thể thao đến công nghệ Nó thể hiện hình dáng của cơ thể khi thực hiện các hoạt động như đi, nằm, ngồi, và được xác định bởi sự sắp xếp của tất cả vị trí các khớp trên cơ thể tại một thời điểm Việc đánh giá tư thế thường dựa trên so sánh với tư thế đứng thẳng lý tưởng, giúp nhận diện các sai lệch và vấn đề tiềm ẩn.

Hình 1 1 Khung xương người (Nguồn: https://www.unite.ai/ai-pose-estimation-in-fitness-application/)

Nhận diện con người là lĩnh vực đã đạt được những thành tựu to lớn trong những năm gần đây Các mô hình hiện đại có thể xác định chính xác vị trí và phạm vi của con người trong hình ảnh hoặc video Nhận diện đóng vai trò như bước đầu tiên quan trọng trong việc ước tính và xác định tư thế Nhận diện con người là nền tảng cho việc ước tính tư thế Các mô hình nhận diện xác định vị trí và phạm vi của con người trong hình ảnh, cung cấp thông tin đầu vào cho các thuật toán ước tính tư thế Có hai phương pháp chính để ước tính tư thế con người:

 Phương pháp dựa trên mô hình: sử dụng mô hình thống kê hoặc học máy để dự đoán vị trí các khớp cơ thể dựa trên thông tin hình ảnh.

 Phương pháp dựa trên điểm ảnh: sử dụng các thuật toán học máy để trực tiếp dự đoán vị trí các điểm chính (keypoints) trên cơ thể con người từ hình ảnh. xi

Nhận diện và ước tính tư thế con người là một lĩnh vực nghiên cứu đầy tiềm năng với nhiều ứng dụng thực tế Việc phát triển các công nghệ mới trong lĩnh vực này sẽ góp phần nâng cao chất lượng cuộc sống và thúc đẩy sự phát triển của khoa học kỹ thuật.

Phương pháp nhận diện và ước tính tư thế con người đã đạt được hiệu quả lớn cả về mặt lý thuyết và ứng dụng thực tế Tuy nhiên, vẫn còn một số thách thức dành cho bài toán này Thứ nhất, dữ liệu đầu vào chính là một rào cản lớn Dữ liệu ảnh và video trong bài toán này vô cùng đa dạng, với góc nhìn và khung hình khác nhau Ảnh hoặc video có thể bị mờ, nhòe, ảnh hưởng đến độ chính xác dự đoán Các yếu tố nhiễu như ánh sáng, trang phục, điều kiện môi trường cũng tác động đáng kể đến chất lượng ảnh, video và độ chính xác của mô hình Thứ hai, bài toán đòi hỏi sự cân bằng giữa độ chính xác và hiệu suất Việc áp dụng bài toán vào thực tế cần đảm bảo cả hai yếu tố này.

Mô hình cần xử lý và tiền xử lý lượng hình ảnh khổng lồ trong thời gian ngắn, đồng thời vẫn giữ được độ chính xác cao trong việc xác định tư thế của từng đối tượng trong từng khung hình Đây là một thách thức lớn đối với các nhà nghiên cứu và kỹ sư.

Bên cạnh những khó khăn đó, bài toán còn gặp phải một số thách thức khác như:

● Thiếu hụt tập dữ liệu chuẩn: Việc phát triển mô hình hiệu quả cần có tập dữ liệu lớn và đa dạng, được gắn nhãn chính xác Tuy nhiên, hiện nay, các tập dữ liệu công khai cho bài toán này còn hạn chế.

● Tính toán phức tạp: Việc xử lý và phân tích dữ liệu hình ảnh, video đòi hỏi lượng tính toán lớn, ảnh hưởng đến hiệu suất và khả năng áp dụng thực tế của mô hình.

● Yếu tố môi trường: Ánh sáng, điều kiện thời tiết, và các yếu tố môi trường khác có thể ảnh hưởng đến chất lượng dữ liệu và độ chính xác của mô hình.

● Để giải quyết những khó khăn và thách thức này, các nhà nghiên cứu đang tập trung vào:

● Phát triển các mô hình học máy mạnh mẽ hơn: Các mô hình mới cần có khả năng xử lý dữ liệu phức tạp, đa dạng và chống nhiễu tốt hơn.

● Tăng cường tập dữ liệu: Việc thu thập và xây dựng tập dữ liệu lớn, đa dạng và được gắn nhãn chính xác là vô cùng cần thiết.

● Tối ưu hóa thuật toán: Nâng cao hiệu quả xử lý và giảm thiểu lượng tính toán để áp dụng mô hình vào thực tế.

Với sự nỗ lực của các nhà nghiên cứu, những khó khăn và thách thức trong bài toán nhận diện và ước tính tư thế con người sẽ dần được giải quyết. Bài toán này hứa hẹn sẽ mang đến nhiều ứng dụng thực tế hữu ích trong các lĩnh vực như giáo dục, thể thao, an ninh, y học, và công nghệ.Bài toán nhận diện và ước tính tư thế con người được áp dụng vào rất nhiều lĩnh vực khác nhau, có thể ứng dụng trong giáo dục, thể thao, an ninh, (v.v) Trong giáo dục, nó có thể giúp xây dựng ứng dụng phát hiện gian lận thi cử Đối với thể thao, đó là các ứng dụng hỗ trợ tập luyện Và trong an ninh, đó là những ứng dụng kiểm soát từng hành động của người.

CƠ SỞ LÝ THUYẾT VÀ MÔ HÌNH

Phương hướng tiếp cận bài toán

Xây dựng mô hình đánh giá thể dục là một quá trình quan trọng trong việc đánh giá và đo lường sự tương tác của con người với hoạt động thể chất.

Mô hình này không chỉ giúp chúng ta hiểu rõ hơn về những lợi ích về sức khỏe mà việc tập thể dục mang lại mà còn giúp chúng ta phát triển các chiến lược và chính sách để thúc đẩy hành vi vận động và thể dục trong cộng đồng. Trong đề tài này, mô hình được em xây dựng để đánh giá thông qua các bước chính Mô hình cần được xác định mục tiêu và tiêu chí đánh giá.

Mô hình trong bài toán này nhắm đến mục tiêu hỗ trợ, chỉnh sửa động tác Squat cho những người tập và sử dụng Các chỉ tiêu đánh giá bao gồm hướng đứng của một người, góc giữa các bộ phận cơ thể của người đó theo từng giai đoạn Phương pháp đo lường để đánh giá tính chính xác của một động tác được sử dụng là phương pháp đánh giá góc bộ phận Cụ thể, trong từng giai đoạn của động tác Squat, góc giữa các bộ phận quan trọng sẽ được tính toán và so sánh để đánh giá, dựa trên các video, các nguồn hướng dẫn đã được xác định trước của các giáo viên, hay huấn luyện viên Kết hợp với việc tính góc, mô hình sẽ yêu cầu người dùng trước khi bắt đầu phải hướng về góc so với vị trí đặt camera một góc 90 độ.

Quy trình xử lý của mô hình sẽ được diễn ra theo các giai đoạn sau:

● Xử lý dữ liệu đầu vào: góc quay hợp lý, tư thế hợp lý.

● Giám sát từng giai đoạn trong động tác squat: Động tác chia làm 3 giai đoạn chính, mỗi giai đoạn được đánh giá một lần xv

● Kết thúc động tác, đưa ra lời khuyên và đánh giá đúng sai: đưa ra lời khuyên cho lỗi của mỗi động tác và đánh giá động tác squat vừa thực hiện là đúng hay sai.

Các nghiên cứu giải quyết bài toán tiêu biểu

Trên thế giới, trí tuệ nhân tạo đã được ứng dụng ngày càng phổ biến vào hỗ trợ đánh giá rất nhiều các động tác thể dục Việc đánh giá tư thế thể dục sử dụng trí tuệ nhân tạo không phải là một khái niệm mới Các nghiên cứu đã được tìm thấy ở những năm 2000 Tuy nhiên, sự phát triển vượt trội nhất đến từ thập kỷ gần đây Các nhà nghiên cứu đã xây dựng một ý tưởng vượt trội cho việc đánh giá tư thế bằng việc sử dụng khung xương người Sự tiến bộ việc xử lý hình ảnh và các mô hình học sâu từ những năm 2010 đến nay đã giúp cải thiện đáng kể độ chính xác và hiệu suất của ứng dụng Việc xử lý bài toán này qua phương pháp xác định khung xương người được thực hiện bằng cách xác định các điểm chính của một người trên từng khung hình Tuy nhiên, điều này chỉ hợp lý đối với từng ảnh đơn lẻ bởi vì đối với một video, một giây được chia làm rất nhiều khung hình Việc nhận diện tất cả từng khung hình đó một các liên tục chỉ trong một giây là việc rất khó, và còn làm giảm hiệu suất hệ thống Để tránh được điều này xảy ra, các thuật toán theo dõi đã được ứng dụng thêm để theo dõi chính xác các điểm trên cơ thể ngay khi nó được nhận diện.

Cốt lõi chính của phương pháp đánh giá tư thế dựa trên khung xương nằm ở việc xác định khung xương của cơ thể người Khung xương người là tập hợp các điểm chính trên cơ thể được nối với nhau để tạo ra một bộ khung hoàn chỉnh Bài toán nhận diện và ước tính khung xương người là HPE Bằng việc tận dụng thế mạnh của các mô hình học sâu cả truyền thống lẫn hiện tại,các nghiên cứu đã trích xuất được các đặc trưng chính để xác định các điểm với độ chính xác cao Mô hình ước tính tư thế cũng được nghiên cứu ứng dụng thành công trong các lĩnh vực như y tế, thể thao, giáo dục, …

Các công trình nghiên cứu được công bố bởi các chuyên gia đã thể hiện những kết quả thực nghiệm tốt Đó cũng là nguồn tài liệu đáng tin cậy để em cũng như các nhà nghiên cứu khác tham khảo để xây dựng nền tảng phương pháp cho việc xử lý bài toán của mình Sau đây là một số công trình nghiên cứu giải quyết bài toán ước tính tư thế tiêu biểu:

● Nghiên cứu OpenPose [ CITATION se \l 1033 ] là một nghiên cứu ứng dụng nhận diện và ước tính con người theo thời gian thực được công bố vào năm 2018 tại Hội nghị European Conference on Computer Vision (ECCV) với tiêu đề “OpenPose: Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields” [ CITATION Cao \l 1033 ] Mục đích của nghiên cứu là tìm kiếm các keypoints hay parts, tức là các điểm khớp trên cơ thể hay gọi là các phần cơ thể, trong một ảnh hay một video có chứa nhiều người OpenPose là tiền đề và tiêu biểu nhất cho phương pháp xác định tư thế con người theo hướng tiếp cận từ dưới lên Phương pháp tiếp cận này mang tính sáng tạo rất cao Nó loại bỏ đi suy nghĩ thông thường về cách giải quyết bài toán Bài toán sẽ được giải quyết bằng việc xác định tất cả các bộ phận cơ thể trước, sau đó mới ghép cho con người, thay vì xác định con người đầu tiên như các phương pháp khác đã làm Thách thức trong nghiên cứu chính là việc quá nhiều người gần nhau trong một khung hình hay những trường hợp xảy ra sự chen lấn và bài toán phải giải quyết chúng

● MediaPipe [ CITATION Kim \l 1033 ] là một framework do Google dựa trênBlazePose được công bố vào năm 2020 với tiêu đề “MediaPipe: AFramework for Building Perception Pipelines” [ CITATION Lug \l 1033 ].MediaPipe được thiết kế cho các công việc như nghiên cứu, học tập và phát triển phần mềm MediaPipe được tích hợp nhiều mô hình nhận diện và trích xuất, trong đó có ước tính tư thế (MediaPipe Pose) Mục đích của MediaPipe Pose cũng tương tự OpenPose, xác định các phần trong cơ thể người, từ đó đưa ra dự đoán và ước tính tư thế MediaPipe xvii là tiêu biểu cho phương pháp ước tính tư thế bằng phương pháp tiếp cận từ trên xuống, ngược lại với OpenPose MediaPipe hướng đến xác định chính xác phạm vi con người trước, sau đó mới dùng các thuật toán để xác định các bộ phận và tư thế con người Thách thức của framework này là độ chính xác không phải lúc nào cũng cao, đặc biệt là trong các điều kiện ánh sáng kém hoặc các góc quay phức tạp Ngoài ra, cơ thể con người có sự đa dạng về kích thước, hình dáng và cử động, làm cho việc phát hiện và theo dõi cử động trở nên phức tạp hơn. Điều này đặc biệt đúng khi đối mặt với các điều kiện không lý tưởng như việc che mặt, mặc quần áo che khuất, cũng như sự che khuất bởi các vật thể hoặc đối tượng khác trong hình ảnh.

● Ngoài ra, cùng với sự phát triển của công nghệ, YOLOv8-Pose

[ CITATION Maj \l 1033 ] cũng đã nổi lên như một giải pháp tiên tiến trong việc nhận diện và ước tính tư thế YOLOv8-Pose kết hợp giữa mạng YOLO (You Only Look Once) và các thuật toán nhận diện tư thế, tạo ra một phương pháp mạnh mẽ để xác định tư thế con người trong thời gian thực Cùng với việc giảm thiểu thời gian tính toán, YOLOv8-Pose cũng đạt được độ chính xác cao, thậm chí trong các tình huống khó khăn như đối mặt với ánh sáng yếu hoặc các góc quay phức tạp Ngoài ra, hiệu suất trong thời gian thực của YOLO còn hạn chế Tuy nhiên, mặc dù đã có sự tiến bộ đáng kể, việc phát triển các giải pháp nhận diện và ước tính tư thế vẫn đối mặt với những thách thức như đa dạng về kích thước và hình dáng của cơ thể con người, cũng như việc giảm thiểu sai số trong môi trường ứng dụng thực tế.

THỰC NGHIỆM

Bộ dữ liệu thực nghiệm

MPII Human Pose dataset là một tập dữ liệu lớn và đa dạng, chứa các hình ảnh và video của con người trong nhiều tư thế và hoạt động khác nhau.

Bộ dữ liệu này được phát triển bởi Max Planck Institute for Informatics và là một nguồn tài nguyên quan trọng trong lĩnh vực ước lượng tư thế của con người MPII bao gồm một bộ sưu tập đa dạng của hình ảnh và video chứa con người trong các hoạt động hàng ngày và tình huống khác nhau Tập dữ liệu này cung cấp một loạt các hình ảnh chất lượng cao, chụp từ nhiều góc độ và môi trường, đảm bảo tính đa dạng và tổng quát trong việc đào tạo và đánh giá các mô hình ước lượng tư thế của con người. xxxiii

MPII chứa hơn 25,000 hình ảnh, với mỗi hình ảnh thường chứa một hoặc nhiều người trong nhiều tư thế và góc độ khác nhau Mỗi hình ảnh được gắn nhãn với các keypoint trên cơ thể của con người, bao gồm vai, cổ, khuỷu tay, mắt, mũi, v.v, được gắn nhãn một cách chính xác và tự động Thông tin về các keypoint này cung cấp một cơ sở dữ liệu quý giá cho việc huấn luyện và đánh giá các mô hình ước lượng tư thế của con người, từ việc nhận diện tư thế đến theo dõi chuyển động.

Hình 3 1 MPII Dataset (Nguồn: https://paperswithcode.com/dataset/mpii)

COCO-Pose dataset, một sản phẩm của Microsoft, được công bố vào năm 2017 tại ICCV cũng là một trong những bộ dữ liệu lớn nhất và đa dạng nhất trong lĩnh vực nhận diện đối tượng và ước lượng tư thế của con người. Với hơn 200,000 hình ảnh và gần 1.5 triệu nhãn được gắn kèm, COCO dataset cung cấp một nguồn tài nguyên phong phú và toàn diện cho các nghiên cứu về trí tuệ nhân tạo Phần lớn mọi người ở trong bộ dữ liệu COCO- Pose ở quy mô vừa và lớn

COCO chứa hàng ngàn hình ảnh chất lượng cao, chụp từ nhiều góc độ và môi trường khác nhau Mỗi hình ảnh thường chứa một hoặc nhiều đối tượng, với các đối tượng được gắn nhãn và định vị một cách chính xác và chi tiết Bộ dữ liệu này cũng cung cấp các nhãn cho các điểm trên cơ thể tương tự MPII, cung cấp thông tin về vị trí và hình dáng của các cơ thể trong các bức ảnh Bộ dữ liệu hỗ trợ 17 điểm chính cho hình người, tạo điều kiện ước tính tư thế chi tiết Giống như COCO, nó cung cấp các số liệu đánh giá được tiêu chuẩn hóa, bao gồm Tương tự điểm chính đối tượng (OKS) cho các nhiệm vụ ước tính tư thế, làm cho nó phù hợp để so sánh hiệu suất mô hình.

Tập dữ liệu COCO-Pose được chia thành ba tập hợp con:

Train2017: Tập hợp con này chứa một phần của 118K hình ảnh từ tập dữ liệu COCO, được chú thích cho các mô hình ước tính tư thế đào tạo.

Val2017: Tập hợp con này có một lựa chọn hình ảnh được sử dụng cho mục đích xác thực trong quá trình đào tạo mô hình.

Test2017: Tập hợp con này bao gồm các hình ảnh được sử dụng để kiểm tra và đo điểm chuẩn cho các mô hình được đào tạo Chú thích sự thật cơ bản cho tập hợp con này không có sẵn công khai và kết quả được gửi đến máy chủ đánh giá COCO để đánh giá hiệu suất.

Bộ dữ liệu COCO-Pose được sử dụng đặc biệt để đào tạo và đánh giá các mô hình học sâu trong các nhiệm vụ phát hiện điểm chính và ước tính đặt ra,chẳng hạn như OpenPose Số lượng lớn các hình ảnh được chú thích và các số liệu đánh giá được tiêu chuẩn hóa của bộ dữ liệu làm cho nó trở thành một xxxv nguồn tài nguyên thiết yếu cho các nhà nghiên cứu thị giác máy tính và các học viên tập trung vào ước tính tư thế.

Hình 3 2 COCO-Pose Dataset (Nguồn: https://gts.ai/services/image-and-video-annotation/)

Như vậy, sự kết hợp giữa MPII Human Pose dataset và COCO dataset giúp làm phong phú thêm thông tin và kiến thức về ước lượng tư thế của con người, từ việc nhận diện tư thế đến theo dõi chuyển động, đồng thời cung cấp một cơ sở dữ liệu toàn diện và đa dạng cho các nghiên cứu và ứng dụng trong lĩnh vực thị giác máy tính và trí tuệ nhân tạo.

Các tham số và môi trường thử nghiệm

3.2.1 Môi trường Visual Studio Code:

Visual Studio Code (VS Code) của Microsoft đã trở thành một trong những trình soạn thảo mã phổ biến nhất trong cộng đồng lập trình viên Thành công này phần lớn đến từ sự linh hoạt và tính năng mạnh mẽ mà nó mang lại.

Là một ứng dụng đa nền tảng, VS Code có thể chạy trên Windows, macOS vàLinux, giúp đảm bảo sự tiện lợi cho người dùng từ mọi hệ điều hành Đặc điểm này khiến VS Code trở thành lựa chọn hàng đầu cho các lập trình viên cần một công cụ đáng tin cậy và dễ sử dụng trên nhiều nền tảng khác nhau.

Giao diện người dùng của VS Code đơn giản và trực quan, giúp người dùng dễ dàng tùy chỉnh môi trường làm việc của mình theo sở thích cá nhân.

Từ giao diện đến các phím tắt, mọi thứ đều có thể được điều chỉnh để phù hợp với nhu cầu cụ thể của từng lập trình viên Điều này giúp tối ưu hóa trải nghiệm người dùng, tạo ra một không gian làm việc thân thiện và hiệu quả.

Một trong những điểm mạnh nổi bật của VS Code là khả năng tích hợp nhiều tính năng hữu ích như gỡ lỗi tích hợp, kiểm tra mã và quản lý phiên bản Gỡ lỗi tích hợp cho phép người dùng dễ dàng phát hiện và sửa lỗi trong quá trình phát triển, mà không cần phải chuyển đổi giữa các công cụ khác nhau Tính năng kiểm tra mã giúp đảm bảo chất lượng mã nguồn, bằng cách cung cấp các gợi ý và cảnh báo về những lỗi tiềm ẩn hoặc các vấn đề về phong cách mã Quản lý phiên bản, với sự hỗ trợ mạnh mẽ cho Git, giúp người dùng theo dõi và kiểm soát các thay đổi trong mã nguồn của họ, tạo điều kiện cho sự hợp tác hiệu quả trong các dự án nhóm. xxxvii

Ngoài ra, một trong những yếu tố làm nên sự thành công của VS Code chính là khả năng mở rộng thông qua các tiện ích và phần mở rộng từ cộng đồng lập trình Kho phần mở rộng phong phú của VS Code cho phép người dùng thêm vào những tính năng mới, từ hỗ trợ ngôn ngữ lập trình như Python, JavaScript, và C++, đến tích hợp với các công cụ và framework phổ biến như Docker, Kubernetes, và React Việc cài đặt các phần mở rộng này rất đơn giản và có thể được thực hiện trực tiếp từ bên trong ứng dụng VS Code, giúp người dùng nhanh chóng tùy chỉnh môi trường làm việc của mình mà không gặp nhiều khó khăn.

Hơn nữa, cộng đồng phát triển xung quanh VS Code rất lớn và năng động, liên tục cung cấp các tài nguyên và hỗ trợ cho người dùng mới Từ các tài liệu hướng dẫn chi tiết, video tutorial, đến các diễn đàn thảo luận và sự kiện trực tuyến, người dùng có thể dễ dàng tìm kiếm sự trợ giúp và học hỏi từ những người khác Cộng đồng này cũng đóng góp vào sự phát triển liên tục của VS Code, với nhiều phần mở rộng và cập nhật được tạo ra dựa trên phản hồi và nhu cầu của người dùng.

Một điểm đặc biệt khác của VS Code là khả năng tùy chỉnh giao diện làm việc bằng cách sử dụng các theme và icon pack khác nhau Người dùng có thể lựa chọn giữa hàng trăm theme từ cộng đồng hoặc tự tạo ra theme riêng của mình Tính năng này không chỉ giúp cá nhân hóa môi trường làm việc, mà còn giúp giảm căng thẳng thị giác khi làm việc trong thời gian dài, bằng cách chọn các màu sắc và phong cách hiển thị phù hợp.

VS Code cũng hỗ trợ nhiều công cụ phát triển tiên tiến như IntelliSense,cung cấp tính năng tự động hoàn thành mã thông minh và gợi ý mã dựa trên ngữ cảnh Điều này không chỉ tăng tốc quá trình viết mã mà còn giúp người dùng tránh được những lỗi cú pháp thông thường Khả năng tích hợp terminal bên trong VS Code cũng là một tính năng đáng chú ý, cho phép người dùng thực hiện các lệnh hệ thống và quản lý các tiến trình mà không cần rời khỏi môi trường phát triển.

Tóm lại, Visual Studio Code không chỉ là một trình soạn thảo mã mạnh mẽ và linh hoạt, mà còn là một công cụ hỗ trợ phát triển toàn diện, giúp nâng cao hiệu suất làm việc và chất lượng mã nguồn của người dùng Với sự hỗ trợ đa nền tảng, giao diện tùy chỉnh, tích hợp gỡ lỗi, kiểm tra mã, quản lý phiên bản, cùng khả năng mở rộng thông qua các phần mở rộng và một cộng đồng phát triển sôi động, VS Code đã và đang khẳng định vị thế của mình như một trong những công cụ phát triển phần mềm hàng đầu hiện nay.

Google Colaboratory, thường được gọi là Colab, là một môi trường lập trình trực tuyến mạnh mẽ được phát triển bởi Google Được xây dựng trên nền tảng của Jupyter Notebook, Colab mang đến một cách tiếp cận linh hoạt và dễ dàng cho việc lập trình và thực thi mã trên web Sự tiện lợi và hiệu quả của Colab đã khiến nó trở thành một công cụ phổ biến trong cộng đồng học máy (machine learning) và khoa học dữ liệu (data science).

Một trong những ưu điểm nổi bật của Colab là khả năng sử dụng các tài nguyên tính toán mạnh mẽ từ Google Người dùng có thể truy cập và sử dụng miễn phí GPU (Graphics Processing Unit) và TPU (Tensor Processing Unit),hai loại phần cứng chuyên dụng giúp tăng tốc quá trình huấn luyện mô hình xxxix máy học Điều này đặc biệt hữu ích đối với các nhà nghiên cứu và lập trình viên cần thực hiện các tác vụ tính toán phức tạp và yêu cầu thời gian xử lý nhanh chóng Sự hỗ trợ từ các tài nguyên tính toán này không chỉ giúp tiết kiệm chi phí mà còn nâng cao hiệu suất và hiệu quả công việc.

Colab cũng tích hợp tốt với các dịch vụ lưu trữ của Google như Google Drive, giúp người dùng dễ dàng quản lý và chia sẻ các dự án của mình Khả năng lưu trữ trực tiếp trên Google Drive cho phép người dùng truy cập các notebook của họ từ bất kỳ thiết bị nào có kết nối internet Điều này không chỉ tiện lợi mà còn đảm bảo an toàn cho dữ liệu, vì tất cả các tệp tin được lưu trữ trên đám mây Hơn nữa, việc chia sẻ notebook với đồng nghiệp hoặc cộng đồng trở nên dễ dàng hơn, giúp tăng cường sự hợp tác và trao đổi kiến thức.

Một tính năng quan trọng khác của Colab là khả năng hỗ trợ nhiều ngôn ngữ lập trình và thư viện phổ biến Người dùng có thể dễ dàng viết và thực thi mã Python, ngôn ngữ lập trình phổ biến nhất trong lĩnh vực khoa học dữ liệu và học máy Ngoài ra, Colab cũng hỗ trợ các thư viện máy học như TensorFlow, Keras, PyTorch và nhiều thư viện khác Sự hỗ trợ này giúp người dùng dễ dàng tiếp cận và sử dụng các công cụ và framework mạnh mẽ để phát triển và huấn luyện mô hình.

Colab còn cung cấp một giao diện người dùng thân thiện và dễ sử dụng, ngay cả đối với những người mới bắt đầu Giao diện này cho phép người dùng dễ dàng tạo và quản lý các notebook, thêm và chỉnh sửa mã, cũng như chạy và kiểm tra kết quả Ngoài ra, Colab cung cấp các tính năng tiện ích như tự động lưu trữ (autosave) và khôi phục phiên làm việc, giúp người dùng tránh mất dữ liệu và tiếp tục công việc một cách liền mạch.

XÂY DỰNG VÀ THIẾT KẾ MÔ HÌNH

Tổng quan về mô hình

Trong đề tài này, quy trình hoạt động của hệ thống đánh giá tư thế tập thể dục Squat [ CITATION Kun \l 1033 ] có thể được mô tả như sau: xlvii

Hình 4 2 Tổng quan mô hình

Quy trình hoạt động của hệ thống có thể được mô tả tổng quát bao gồm:

 Hình ảnh đầu vào từ video: Dữ liệu âm thanh sẽ được lấy từ video mà người dùng tải lên để sử dụng làm đầu vào.

 Tìm các điểm chính trên cơ thể: Sử dụng MediaPipe để xác định các điểm chính, hay các keypoints Tuy nhiên, hệ thống sẽ không lấy hết

33 điểm chính như đầu ra của MediaPipe, mà chỉ chọn những điểm đặc trưng và cần thiết để sử dụng.

 Đánh giá từng giai đoạn của động tác: Chia động tác Squat thành ba giai đoạn chính, đánh giá từng giai đoạn thông qua góc giữa các điểm chính

 Đưa ra feedback và đếm số lần đúng: Chỉ ra lỗi nếu người dùng tập sai và đếm số lần đúng sai của người thực hiện.

Dữ liệu đầu vào được lấy từ các video tập thể dục với động tác Squat bất kì trên Internet, hoặc các video tự quay chụp Sau đó, dữ liệu đầu vào sẽ được tiền xử lý bằng cách tách ra thành từng khung hình riêng lẻ Mỗi khung hình sẽ được chuyển đổi sang định dạng ảnh RGB, đảm bảo rằng tất cả các thông tin màu sắc và chi tiết cần thiết được giữ nguyên Quá trình này giúp chuẩn bị dữ liệu cho các bước xử lý tiếp theo, như phát hiện tư thế và tính toán góc giữa các điểm chính trên cơ thể người thực hiện động tác Squat.

Cụ thể, quá trình chuyển đổi này giúp tạo ra một tập hợp các hình ảnh tĩnh mà từ đó có thể áp dụng các kỹ thuật xử lý ảnh và nhận diện hình ảnh.Định dạng RGB là cần thiết vì nó duy trì chất lượng và màu sắc của hình ảnh, điều này rất quan trọng cho việc phát hiện và phân tích các điểm mốc trên cơ thể Sau khi có được các khung hình đã tiền xử lý, các thuật toán sẽ được áp dụng để phát hiện các tư thế khác nhau của người tập Điều này bao gồm việc sử dụng các mô hình học máy và thị giác máy tính để nhận diện và theo dõi các điểm khớp quan trọng như đầu gối, hông và mắt cá chân trong suốt quá trình thực hiện động tác Squat Những dữ liệu này sau đó sẽ được sử dụng để đánh giá kỹ thuật và đưa ra phản hồi nhằm cải thiện hiệu suất tập luyện.

4.1.2 Tìm các điểm chính của cơ thể

Có rất nhiều mô hình đánh giá tu thế thể dục đã và đang được nghiên cứu trên khắp thế giới, đặc biệt là trong việc ước tính tư thế con người, điều này đặt ra thách thức lớn cho việc xây dựng công nghệ đánh giá chất lượng cao Việc đánh giá cần phải đạt được với một tiêu chuẩn nhất định được đề ra. Framework Mediapipe được đánh giá là một công cụ nhanh, chính xác, và nhẹ trong việc áp dụng vào xử lý ước tính tư thế con người.

Hình 4 3 Các điểm chính trong tư thế Squat

Các điểm chính trong cơ thể dựa trên framework MediaPipe của Google được xác định hình ảnh sau Các điểm được phân bố chi tiết từ điểm mũi cho tới điểm ngón chân Tuy nhiên, với tư thế thể dục Squat, ta không cần làm xlix nhiều như vậy Những điểm chính sẽ được lấy để xây dựng mô hình bao gồm các điểm ở tay và chân của người cần đánh giá.

4.1.3 Đánh giá các giai đoạn Động tác thể dục Squat là một bài tập phổ biến trong các chương trình rèn luyện thể lực và phát triển cơ bắp, giúp cải thiện sức mạnh, độ dẻo dai và sự cân bằng của cơ thể Động tác này bao gồm nhiều giai đoạn khác nhau, mỗi giai đoạn đều có vai trò quan trọng trong việc đảm bảo hiệu quả và an toàn cho người tập Ba giai đoạn chính thường được đề cập trong động tác Squat bao gồm: giai đoạn bắt đầu, giai đoạn hạ người và giai đoạn nâng người. Ở giai đoạn bắt đầu, người tập đứng thẳng với chân mở rộng bằng vai, đây là tư thế chuẩn bị trước khi thực hiện động tác Tư thế này rất quan trọng vì nó giúp duy trì cân bằng và ổn định cơ thể trước khi bắt đầu bất kỳ chuyển động nào Tiếp theo là giai đoạn hạ người, người tập sẽ gập gối và hạ mông xuống như đang ngồi trên một chiếc ghế vô hình Trong giai đoạn này, người tập cần chú ý giữ lưng thẳng và đầu gối không vượt quá mũi chân để tránh gây áp lực lên khớp gối Cuối cùng là giai đoạn nâng người, người tập duỗi thẳng chân để trở về vị trí ban đầu Đây là giai đoạn hoàn tất một chu kỳ squat, giúp phát triển sức mạnh và độ bền của cơ đùi và cơ mông Việc thực hiện đúng kỹ thuật ở mỗi giai đoạn sẽ giúp tối ưu hóa hiệu quả tập luyện và giảm nguy cơ chấn thương.

Trong giai đoạn thứ nhất, góc giữa đầu gối và phương thẳng đứng sẽ dao động trong khoảng 32 độ Đây là trạng thái khởi động và cũng là trạng thái dùng để đếm số lần thực hiện động tác đúng và không đúng Nếu góc giữa đầu gối so với phương thẳng đứng nằm trong khoảng 35 độ đến 65 độ, hệ thống sẽ chuyển sang giai đoạn thứ hai Giai đoạn này là lúc người tập đang hạ người xuống, tạo áp lực lên các cơ đùi và cơ mông, giúp phát triển sức mạnh và sự linh hoạt của các cơ này.

Giai đoạn thứ hai là lúc cơ thể hạ xuống thấp hơn, với góc giữa đầu gối và phương thẳng đứng nằm trong khoảng từ 35 độ đến 65 độ Trong giai đoạn này, người tập cần giữ thăng bằng tốt, đảm bảo lưng vẫn thẳng và đầu gối không vượt quá mũi chân Điều này giúp cơ bắp đùi và mông làm việc hiệu quả hơn, đồng thời giảm áp lực lên khớp gối và cột sống.Ở giai đoạn thứ ba, nếu góc giữa đầu gối và phương thẳng đứng nằm trong khoảng 70 độ đến 95 độ, thì động tác đang ở giai đoạn cuối cùng và chuẩn bị chuyển về giai đoạn thứ hai. Ở giai đoạn thứ ba, nếu góc giữa đầu gối và phương thẳng đứng nằm trong khoảng 70 độ đến 95 độ, thì động tác đang ở giai đoạn cuối cùng và chuẩn bị chuyển về giai đoạn thứ hai Đây là lúc người tập sẵn sàng để duỗi thẳng chân và trở về vị trí ban đầu, hoàn tất một chu kỳ squat Các trạng thái này sẽ được luân phiên, tuần tự với nhau, tạo nên một bài tập liên tục và hiệu quả.

Hình 4 4 Ba trạng thái trong một động tác Squat (Nguồn: https://learnopencv.com/ai-fitness-trainer-using-mediapipe/)

Các trạng thái trong động tác Squat sẽ được luân phiên, tuần tự với nhau một cách liên tục và nhịp nhàng, đảm bảo sự phối hợp chặt chẽ giữa các giai đoạn li

4.1.4 Đưa ra lời khuyên và đếm số lần đúng sai

Trong khi người thực hiện đang thực hiện động tác Squat, hệ thống sẽ đưa ra các đánh giá về độ chính xác và các lời khuyên giành cho từng giai đoạn của động tác [ CITATION Kun \l 1033 ] Hệ thống sẽ bao gồm 5 lời khuyên khi một người thực hiện động tác, bao gồm:

 Bend Forward (Cúi về trước)

 Bend Backwards (Ngửa quá về sau)

 Lower one’s hips (Hạ hông)

 Knee falling over toe (Đầu gối qua ngón chân)

 Deep Squats (Ngồi quá sâu)

Lời khuyên thứ nhất được đưa ra khi khi góc hông-dọc (tức là góc giữa đường vai - hông theo phương thẳng đứng) giảm xuống dưới ngưỡng 20°, như minh họa trong hình sau.

Lời khuyên thứ hai được hiển thị khi góc dọc hông vượt quá ngưỡng, chẳng hạn như 45°.

Lời khuyên thứ ba được đưa ra khi góc giữa đường hông - đầu gối với phương thẳng đứng nằm trong ngưỡng, chẳng hạn từ 50° đến 80°

Lời khuyên thứ tư chỉ được đưa ra khi góc giữa đường đầu gối-mắt cá chân với đường thẳng đứng nằm trên ngưỡng, ví dụ: 30°.

Lời khuyên thứ năm được hiển thị khi góc giữa đường hông-đầu gối với phương thẳng đứng; chuyển qua trạng thái s3 và vượt quá ngưỡng, ví dụ: 95°.

Các tham số mô hình

Mô hình đưa ra các tham số [ CITATION Kun \l 1033 ] để kiểm soát trạng thái của từng giai đoạn trong động tác Squat

Bảng 4 1 Bảng tham số ngưỡng

STATE_THRESH Ngưỡng xác định trạng thái mỗi khung hình

Ngưỡng để xác định các thông tin lời khuyênOFFSET_THRESH Ngưỡng để xác định xem người đó có hướng thẳng về phía camera hay không INACTIVE_THRESH Ngưỡng đặt lại từ đầu nếu không có hoạt động OFFSET_THRESH là ngưỡng để xác định xem người có hướng thẳng về phía camera Đây là góc được tính cho toạ độ của các điểm mũi và vai. Nếu góc này vượt quá ngưỡng, cảnh báo hiện thị thích hợp sẽ được bật và sẽ tính thời gian không hoạt động để khởi động lại mô hình Khi góc nằm trong OFFSET_THRESH, chúng ta tiếp tục tính toán như sau: Các góc của vai- hông, hông-đầu gối và đầu gối-mắt cá chân với đường thẳng đứng. Current_state của khung được tính toán dựa trên STATE_THRESH.

Hình 4 5 Góc giữa mũi và hai vai nhằm xác định ngưỡng dừng

(Nguồn: https://learnopencv.com/ai-fitness-trainer-using-mediapipe/)

Một số hình ảnh mô hình

Hình 4 6 Giao diện mô hình

Giao diện mô hình [ CITATION Kun \l 1033 ] khi khởi động Streamlit bao gồm tiêu đề, phần “Chọn chế độ trình chiếu” và phần “Chọn chế độ tập luyện” Để sử dụng mô hình này, đầu tiên, người dùng sẽ cân nhắc lựa chọn chế độ trình chiếu tập luyện phù hợp đối với bản thân Chế độ “Video” cho phép người dùng tải các video trực tiếp từ thiết bị để đánh giá Chế bị “Trực tiếp” cho phép người dùng thực hiện và mô hình xử lý một cách đồng thời.Tiếp đó, người dùng sẽ chọn chế độ tập luyện Đối với những người mới bắt đầu, họ sẽ nên chọn chế độ “Mới bắt đầu” Chế độ “Đã thành thạo” sẽ có yêu cầu cao hơn về đánh giá giành cho những người tập đã có kinh nghiệm

Hình 4 7 Chế độ Video Đối với chế độ video, sau khi nhấn “Upload”, video đầu vào sẽ được xử lý thông qua mô hình Quá trình xử lý của mô hình sẽ kéo dài tuỳ theo tốc độ phần cứng của bạn và kích thước video, từ vài giây cho đến vài phút theo dung lượng

Hình 4 8 Chế độ trực tiếp lv Đối với chế độ “Trực tiếp”, trước khi thực hiện tập luyện, người dùng cần chọn “Select Device” để chọn thiết bị camera sẽ sử dụng để ghi hình. Nhấn “Done” sau khi đã chọn xong thiết bị và “Start” để bắt đầu khởi chạy ghi hình

Hình 4 9 Download sau khi hoàn thành Ở cả hai chế độ, khi mô hình đã kết thúc quá trình xử lý, màn hình giao diện sẽ hiện lên nút “Download Video”, người dùng sẽ nhấn vào nút này để tiến hành tải video đánh giá động tác của họ về máy tính Tên đầu ra của tệp kết quả và định dạng tệp tin sẽ do người dùng lựa chọn và đặt tên.

Như vậy, trong chương này, ta đã đi xây dựng một mô hình đánh giá tư thế thể dục qua các giai đoạn Một giai đoạn bao gồm việc ước tính tư thế thông qua sử dụng MediaPipe Giai đoạn còn lại thực hiện việc xác định góc giữa các điểm cần thiết thông qua việc biết toạ độ của các điểm đó Một hệ thống thử nghiệm đơn giản cũng đã được xây dựng dựa trên Streamlit cho cái nhìn tổng quan hơn về mô hình.

Định dạng
Số trang	61
Dung lượng	4,39 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Osokin, D. (2018). Real-time 2d multi-person pose estimation on cpu:Lightweight openpose	Khác
[2] "Cao, Z., Simon, T., Wei, S. E., & Sheikh, Y. (2017). Realtime multi- person 2d pose estimation using part affinity fields. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7291- 7299).&#34	Khác
[3] "Kim, J. W., Choi, J. Y., Ha, E. J., & Choi, J. H. (2023). Human pose estimation using mediapipe pose and optimization method based on a humanoid model. Applied sciences, 13(4), 2700.&#34	Khác
[4] "Lugaresi, C., Tang, J., Nash, H., McClanahan, C., Uboweja, E., Hays, M., ... & Grundmann, M. (2019). Mediapipe: A framework for building perception pipelines. arXiv preprint arXiv:1906.08172.&#34	Khác
[5] "Maji, D., Nagori, S., Mathew, M., & Poddar, D. (2022). Yolo-pose:Enhancing yolo for multi person pose estimation using object keypoint similarity loss. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 2637-2646).&#34	Khác
[6] "Bulat, A., & Tzimiropoulos, G. (2016). Human pose estimation via convolutional part heatmap regression. In Computer Vision–ECCV 2016: 14th European Conference, Amsterdam, The Netherlands, October 11–14, 2016, Proceedings, Part VII 14 (pp. 717-732). Spring&#34	Khác
[7] "Qu, H., Xu, L., Cai, Y., Foo, L. G., & Liu, J. (2022). Heatmap distribution matching for human pose estimation. Advances in Neural Information Processing Systems, 35, 24327-24339.&#34	Khác
[8] "Schluchter, M. D. (2005). Mean square error. Encyclopedia of Biostatistics, 5.&#34	Khác