Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hoạt động của con người dựa trên khung xương bằng kỹ thuật học sâu

Trongnhững năm trở lại đây, sự phát triển mạnh mẽ của các mô hình học sâu đã đạt được những thànhtựu to lớn trong nhiều tác vụ của lĩnh vực Thị giác máy tính nói chung, và bài toán nhận

Trang 2

Cán bộ hướng dẫn khoa học :TS Nguyễn Đức Dũng

Cán bộ chấm nhận xét 1 :PGS.TS Nguyễn Văn Sinh

Cán bộ chấm nhận xét 2 :TS Lê Thành Sách

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQGTp HCM ngày 12 tháng 06 năm 2024.

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận vănthạc sĩ)

1 Chủ tịch: PGS.TS Thoại Nam

2 Thư ký: TS Nguyễn Quang Hùng

3 Phản biện 1: PGS.TS Nguyễn Văn Sinh4 Phản biện 2:TS Lê Thành Sách

5 Uỷ viên: PGS.TS Lê Hoàng TháiXác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lýchuyên ngành sau khi luận văn đã được sửa chữa (nếu có).

CHỦ TỊCH HỘI ĐỒNGTRƯỞNG KHOA KHOA HỌC VÀ

KỸ THUẬT MÁY TÍNH

PGS TS Thoại Nam

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: TRẦN HOÀNG NGUYÊNMSHV: 2270012Ngày, tháng, năm sinh: 13/12/1999Nơi sinh: Khánh HoàChuyên ngành: Khoa học Máy tínhMã số: 8480101

I TÊN ĐỀ TÀI: NHẬN DẠNG HOẠT ĐỘNG CỦA CON NGƯỜI DỰA

TRÊN KHUNG XƯƠNG BẰNG KỸ THUẬT HỌC SÂU(SKELETON-BASED HUMAN ACTION RECOGNITION USING DEEPLEARNING)

II NHIỆM VỤ VÀ NỘI DUNG:

- Xây dựng hệ thống nhận dạng hành động của con người dựa trênkhung xương và sử dụng cơ chế học sâu.

- Nghiên cứu và đề xuất các phương pháp nhằm cải thiện độ chínhxác của mô hình.

- Thực nghiệm và đánh giá kết quả của các phương pháp đề xuất.

III.NGÀY GIAO NHIỆM VỤ : 15/01/2024IV.NGÀY HOÀN THÀNH NHIỆM VỤ: 20/05/2024V.CÁN BỘ HƯỚNG DẪN: TS Nguyễn Đức Dũng.

(Họ tên và chữ ký)

Trang 4

LỜI CẢM ƠNHọc viên muốn gửi lời cảm ơn sâu sắc đến cán bộ hướng dẫn của mình, Tiến sĩ Nguyễn ĐứcDũng Thầy đã cung cấp cho học viên những lời khuyên, lời tư vấn bổ ích để khắc phục nhữngkhó khăn mà em gặp phải Thầy cũng đã có những lời phản hồi, đóng góp thiết thực cho họcviên trong suốt quá trình em làm luận văn, và hỗ trợ theo dõi tiến trình học viên thực hiện đềtài.

Học viên cũng biết ơn gia đình, người thân và bạn bè đã quan tâm, động viên và hỗ trợ, cả vềmặt thể chất lẫn tinh thần, giúp em có đủ nghị lực và sức khỏe để hoàn thành bài luận văn tốtnghiệp tại trường Đại học Bách Khoa, Đại Học Quốc Gia Thành phố Hồ Chí Minh

Thành phố Hồ Chí Minh, ngày 20 tháng 05, năm 2024

Trần Hoàng Nguyên,

Trang 5

TÓM TẮT LUẬN VĂNBài toán nhận dạng hành động của con người dựa trên khung xương là một nhánh của Bài toánnhận dạng hành động nói chung, đã được nghiên cứu và ứng dụng trong thực tiễn từ nhiều nămtrước Việc sử dụng thông tin từ khung xương để nhận dạng hành vi của con người đã thu hút sựquan tâm từ các nhà nghiên cứu So với dữ liệu dựa trên hình ảnh RGB, dữ liệu dựa trên khungxương mang lại lợi ích về chi phí tính toán và tính nhất quán trước sự thay đổi bởi các nhân tốbên ngoài bao, chẳng hạn như độ sáng, góc quan sát của camera, yếu tố con người, v.v Trongnhững năm trở lại đây, sự phát triển mạnh mẽ của các mô hình học sâu đã đạt được những thànhtựu to lớn trong nhiều tác vụ của lĩnh vực Thị giác máy tính nói chung, và bài toán nhận dạnghành động của con người dựa trên khung xương nói riêng Một trong những hướng tiếp cận tốtnhất cho đến hiện tại là sử dụng mô hình mạng nơ-ron đồ thị, bằng việc biểu diễn chuỗi khungxương dưới dạng đồ thị và áp dụng cơ chế học sâu, đã mang lại những kết quả rất ấn tượng cholớp bài toán này Tuy nhiên, hầu hết các nghiên cứu trước đó bỏ qua yếu tố xem xét mức độ quantrọng trong việc đóng góp thông tin giữa các khung xương trong chuỗi cho việc phân loại lớphành động Do đó trong luận văn tốt nghiệp này, dựa trên cơ sở của mô hình mạng nơ-ron đồthị, học viên tập trung khai thác yếu tố mức độ quan trọng của mỗi đặc trưng được trích xuất từmỗi khung xương trong chuỗi Học viên xem đây như là bước chắt lọc thông tin, loại bỏ nhữngthông tin nhiễu trước khi để mô hình đưa ra dự đoán, giúp cải thiện chất lượng của mô hìnhnhận dạng hành động một cách hiệu quả.

Abstract:

Human action recognition is becoming increasingly vital in the realm of video surveillance, asunderstanding human behavior plays a key role in interpersonal interactions A human actionrecognition system can automatically identify individual activities using raw data gathered fromcameras or sensors Compared to RGB image-based data, using information from the skeletalframework to recognize human behavior has attracted researchers’ attention It presents advan-tages over RGB image-based data, including reductions in computational costs and enhancedrobustness to variations in body sizes, background changes, environmental noise, and cameraangles In recent years, the robust development of deep learning models has achieved signifi-cant breakthroughs in many tasks within the field of computer vision in general, and specificallyfor human action recognition based on skeletal data The advent of deep neural networks hasalso led to substantial applications of Graph Neural Networks to tackle these challenges effi-ciently This method treats the input skeleton as a graph and processes it using graph-basedneural networks, yielding impressive results for this task However, prior studies have ignoredthe importance of assessing the contribution level of information among skeletal frames in thesequence when classifying action classes Therefore, this thesis aims to build upon the GraphNeural Network model by emphasizing the significance of each feature extracted from the indi-vidual skeletal frames This approach is viewed as a means to refine the information by filteringout noise before the model makes predictions, ultimately enhancing the overall quality of theaction recognition model

Trang 6

LỜI CAM ĐOANHọc viên xin cam đoan đề tài luận văn tốt nghiệp: "NHẬN DẠNG HÀNH ĐỘNG CON NGƯỜIDỰA TRÊN KHUNG XƯƠNG BẰNG KỸ THUẬT HỌC SÂU" là công trình nghiên cứu củabản thân Những phần tài liệu được sử dụng trong luận văn đã được nêu rõ trong phần Tài liệutham khảo Các số liệu, kết quả trình bày trong luận văn là hoàn toàn trung thực, nếu có sai sóthọc viên xin chịu hoàn toàn trách nhiệm và chịu mọi kỷ luật của bộ môn và nhà trường đề ra.

Thành phố Hồ Chí Minh, ngày 20 tháng 05, năm 2024

Trang 7

1.1 Giới thiệu chung 2

1.2 Mô tả bài toán nhận dạng hành động của con người theo hướng tiếp cận bằngcác mô hình học sâu 3

1.3 Mục tiêu và nhiệm vụ của luận văn 6

1.3.1 Mục tiêu luận văn 6

1.3.2 Nhiệm vụ luận văn 6

1.4 Giới hạn đề tài 7

1.5 Đóng góp luận văn 7

1.6 Tóm tắt nội dung luận văn 7

Chương 2KIẾN THỨC NỀN TẢNG92.1 Mạng nơ-ron nhân tạo 10

2.1.1 Một số hàm kích hoạt phổ biến 11

2.1.2 Hàm mất mát 13

2.2 Mạng nơ-ron tích chập 14

2.3 Mạng nơ-ron hồi quy 15

2.3.1 LSTM - Long Short Term Memory 16

3.2 Tổng quan về các mạng học sâu dựa trên RNN cho việc nhận dạng hoạt độngcủa người dựa trên khung xương 31

3.3 Tổng quan về các mạng học sâu dựa trên GNN cho việc nhận dạng hoạt độngcủa người dựa trên khung xương 33

Trang 8

Chương 4MÔ HÌNH ĐỀ XUẤT37

4.1 Mô hình tham khảo 38

5.2 Chuẩn bị dữ liệu 74

5.3 Xây dựng mô hình và đánh giá kết quả 76

Chương 6KẾT LUẬN776.1 Kết quả đạt được 78

6.2 Hạn chế và vấn đề tồn đọng 78

6.3 Hướng phát triển 79

Trang 9

1.1 Hệ thống nhận dạng hành động có khả năng phát hiện té ngã và gửi cảnh báo

kịp thời 3

1.2 Hệ thống nhận dạng hành động có khả năng phát hiện những hành vi bất thườngcủa con người, ví dụ: leo rào, từ đó hệ thống gửi cảnh báo nhằm nâng cao mứcđộ an ninh trong khu vực 3

1.3 Mô tả tổng quan một hệ thống nhận dạng hành động 3

2.1 Cấu trúc của một nơ-ron sinh học 10

2.2 Kiến trúc mạng perceptron 11

2.3 ANN với hai tầng ẩn 11

2.4 Các hàm phi tuyến được sử dụng trong ANN 12

2.5 Mô hình hoạt động của CNN 14

2.12 Minh hoạ đồ thị vô hướng 21

2.13 Minh hoạ đồ thị có hướng 21

2.14 Minh hoạ đơn đồ thị 21

2.15 Minh hoạ đa đồ thị 22

2.16 Minh hoạ đồ thị có trọng số 22

2.17 Minh họa mối quan hệ trên đồ thị của mạng xã hội 23

2.18 Minh hoạ biểu diễn đồ thị khung xương 23

2.19 Một ví dụ ma trận liền kề biểu diễn đồ thị khung xương 24

2.20 Kiến trúc tổng quát của mô hình nơ-ron đồ thị 25

2.21 Truyền thông tin nơ-ron 26

2.22 Ví dụ minh họa cách truyền thông tin cập nhật kết quả cho đồ thị với 6 đỉnh, cụthể là A, B, C, D, E, và F, trong k bước Mỗi đỉnh được gán một giá trị ban đầu.Để đơn giản, các giá trị được chọn là các số vô hướng thay vì các vector đặctrưng Trong ví dụ này, các giá trị cho mỗi đỉnh được cập nhật trong mỗi bướctheo quy tắc truyền thông tin 26

3.1 Mạng hai nhánh dựa trên CNN để biểu diễn chuỗi các khung xương cho phânloại hành động 30

3.2 Mô hình mạng neuron tích hợp mô đun adaptive view Nó bao gồm một mạngphân loại chính và một mạng con được gắn mô đun đề xuất adaptive view Mạngnày có mục đích chuẩn hoá khung xương đầu vào để mạng chính phân loại hànhđộng hiệu quả 30

3.3 Mô hình đề xuất adaptive view được hiện thực hoá thành hai dạng: dựa trên môđun RNN (nhánh trên), dựa trên mô đun CNN (nhánh dưới) 31

3.4 Mạng phân cấp dựa trên mô đun RNN cho bài toán nhận dạng hành động 323.5 Mô hình hai nhánh RNN cho bài toán nhận dạng hành động dựa trên khung xương 32

Trang 10

3.6 Đồ thị không gian-thời gian của một chuỗi khung xương được sử dụng làm đầuvào trong công việc này, nơi mà ST-GCN hoạt động Nhiều lớp của ST-GCNđược áp dụng vào đồ thị không gian-thời gian và từ từ tạo ra các bản đồ đặctrưng cấp cao hơn trên đồ thị Sau đó, một bộ phân loại SoftMax được áp dụngđể phân loại hành động 353.7 Mô hình đề xuất Channel-wise topology refinement GCN cho bài toán nhận

dạng hành động 363.8 Kiến trúc tổng quát của mô hình HD-GCN 364.1 Minh hoạ việc nhận dạng hành động vỗ tay (trái) và hành động đọc sách (phải)

dựa trên khung xương Trong tình huống này, thông tin dựa trên các liên kết vậtlý khung xương là chưa đủ, cần phương pháp trích xuất được thông tin mối quanhệ giữa hai bàn tay (gạch đỏ) 384.2 Nút thân thường được chọn làm nút trọng tâm của khung xương (CoM - Center

of Mass) Đây là nút gốc để xây dựng cấu trúc dạng cây 394.3 Giả sử, đồ thị biểu diễn khung xương bao gồm 17 nút và các kết nối vật lý được

biểu diễn thông qua các cạnh Cột bên phải ký hiệu vị trí các nút trong khungxương Nút số 1 (nút thân giữa) có màu đỏ được chọn làm nút gốc để xây dựngcấu trúc cây 404.4 Đồ thị biểu diễn khung xương được biểu diễn thành cấu trúc cây, với nút gốc là

nút số 1 Các kết nối vật lý giữa các nút không thay đổi so với cấu trúc khungxương ban đầu 404.5 Trong ví dụ này, cấu trúc cây phân cấp bao gồm 4 tầng Ở mỗi tầng, ngoài các

kết nối vật lý (cạnh đen), các cạnh liên kết đầy đủ (cạnh đỏ) cũng được thêm vàonhằm làm dày đặc sự liên kết giữa các nút trong khung xương 414.6 Minh hoạ các kết nối giữa các nút trong mỗi khu vực trên khung xương dựa trên

đồ thị cấu trúc cây phân cấp trong hình 4.5 414.7 Biểu diễn ma trận liền kề cho tầng phân cấp thứ nhất, theo hướng từ nút cha đến

nút con 424.8 Biểu diễn ma trận liền kề cho tầng phân cấp thứ nhất, theo hướng từ nút con đến

nút cha 434.9 Biểu diễn ma trận liền kề cho tầng phân cấp thứ nhất, theo hướng từ các nút đến

chính nó 444.10 Kiến trúc khối tích chập HD-Graph Mỗi tầng phân cấp có một khối HD-Graph

Conv hoạt động 454.11 Cơ chế hoạt động của khối EdgeConv, một nhánh trong khối tích chập HD-Graph 454.12 Quá trình tính toán tích chập đồ thị được diễn ra ở mỗi tầng phân cấp, trong

các khối HD-Graph Conv Kết quả được tổng hợp thông qua phép kết nối và sửdụng làm đầu vào cho mô đun AHA Mô đun AHA gồm 2 khối chính là RSAPvà khối EgdeConv hoạt động theo ngữ cảnh là đặc trưng theo tầng phân cấp 464.13 Minh hoạ ý tưởng của mô đun HD-Graph Khối AHA xem xét nhấn mạnh những

tập cạnh phù hợp trong việc trích xuất được những đặc trưng có ích trong việcnhận dạng hành động từ khung xương 474.14 Kiến trúc khối tích chập theo miền thời gian, phép tính tích chập được thực hiện

trên nhiều bộ lọc có kích thước khác nhau Các kết qủa tính toán được tổng hợpthông qua phép kết nối và phép cộng với giá trị đầu vào để cho ra đầu ra cuốicùng 484.15 Thiết bị camera Kinect và mẫu dữ liệu thu được từ camera Kinect 49

Trang 11

4.16 Hình ảnh minh họa các lớp hoạt động của cơ sở dữ liệu NTU-RGB+D60 vàNTU-RGB+D120 504.17 Minh hoạ chi tiết các giá trị trong một mẫu dữ liệu trong bộ NTU-RGB+D.

Khung xương được cấu thành bởi 25 khớp Đối với bài toán nhận dạng hànhđộng dựa trên khung xương, chỉ có giá trị toạ độ camera 3D của các khớp đượcxem xét Nói cách khác, mỗi khớp có giá trị là một véc tơ 3 chiều 514.18 Minh hoạ chuỗi khung xương mô phỏng nhãn hành động "Kicking other person"

trong bộ dữ liệu NTU-RGB+D 514.19 Minh hoạ chuỗi khung xương mô phỏng nhãn hành động "Hugging" trong bộ

dữ liệu NTU-RGB+D 524.20 Các nhãn hành động hàng ngày trong NTU-RGB+D60 và NTU-RGB+D120 524.21 Các nhãn hành động hỗ trợ trong NTU-RGB+D60 và NTU-RGB+D120 524.22 Các nhãn hành động y tế trong NTU-RGB+D60 và NTU-RGB+D120 534.23 Phân bổ số lượng dữ liệu ở từng lớp hành động trong tập huấn luyện của bộ dữ

liệu NTU-RGB+D60 (XSub) 534.24 Phân bổ số lượng dữ liệu ở từng lớp hành động trong tập huấn luyện của bộ dữ

liệu NTU-RGB+D120 (CSet) 544.25 Minh hoạ một mẫu dữ liệu tại một thời điểm được quay bởi 3 góc camera khác

nhau trong bộ dữ liệu NW-UCLA 554.26 Phân bổ số lượng dữ liệu ở từng lớp hành động trong tập huấn luyện của bộ dữ

liệu NW-UCLA 564.27 Tỷ lệ số lượng dữ liệu ở các lớp hành động trong tập kiểm tra của bộ dữ liệu

NTU-RGB+D60 574.28 Tỷ lệ số lượng dữ liệu ở các lớp hành động trong tập kiểm tra của bộ dữ liệu

NTU-RGB+D120 584.29 Tỷ lệ số lượng dữ liệu ở các lớp hành động trong tập kiểm tra của bộ dữ liệu

NW-UCLA 594.30 Minh hoạ ý tưởng của mô đun đề xuất Temporal Attention Khối Temporal At-

tention xem xét nhấn mạnh những khung hình chứa những thông tin hữu íchtrong việc nhận dạng hành động từ khung xương 604.31 Một ví dụ về việc gán trọng số khác nhau cho mỗi đầu vào trong một chuỗi dữ

liệu khung xương Như trong ví dụ này, các khung xương ở các thời điểm đượcgán trọng số cao thể hiện chứa nhiều thông tin quan trọng trong việc nhận dạnghành động, và được chú ý hơn Những khung xương được gán trọng số thấp hơnchứa ít thông tin hơn và không được chú ý bằng 604.32 Kiến trúc của mô hình đề xuất 614.33 Một ví dụ về kết quả đầu ra của khối mô hình đề xuất Temporal Attention Mod-

ule, những khung hình ở những thời điểm chứa nhiều thông tin hữu ích cho việcnhận diện hành động được khối module trả về trọng số mang giá trị cao Vàngược lại, những khung hình ở những thời điểm không có nhiều đóng góp thôngtin trong việc nhận dạng hành động gán trọng số thấp 634.34 Độ chính xác phân loại của mô hình cơ sở trên trên bộ dữ liệu NTU-RGB+D120

XSet Ngưỡng cho độ chính xác tốt được chọn là 70% Các lớp được xem xét cóhiệu suất kém được đánh dấu bằng màu đỏ 654.35 Độ chính xác phân loại của mô hình đề xuất trên trên bộ dữ liệu NTU-RGB+D120

CSet Ngưỡng cho độ chính xác tốt được chọn là 70% Các lớp được xem xét cóhiệu suất kém được đánh dấu bằng màu đỏ 65

Trang 12

4.36 Confusion matrix ở các lớp hành động mà mô hình tham khảo HD-GCN biểudiễn hiệu suất nhận dạng kém 674.37 Độ chính xác phân loại trên một số lớp hành động có độ khó ở mức cao của

mô hình đề xuất so với mô hình cơ sở HD-GCN trên trên bộ dữ liệu RGB+D120 CSet 684.38 Confusion matrix của mô hình tham khảo HD-GCN trên NTU-RGB+D120 CSet 684.39 Confusion matrix của mô hình tham khảo HD-GCN trên NTU-RGB+D120 CSub 694.40 Confusion matrix của mô hình đề xuất trên NTU-RGB+D60 XSubject 694.41 Confusion matrix của mô hình đề xuất trên NTU-RGB+D60 XView 704.42 Confusion matrix của mô hình đề xuất trên NTU-RGB+D120 CSet 714.43 Confusion matrix của mô hình đề xuất trên NTU-RGB+D120 CSubject 714.44 Giá trị hàm mất mát trong giai đoạn huấn luyện mô hình cơ sở (HD-GCN) và

NTU-mô hình đề xuất cho dạng dữ liệu đầu vào dạng khớp trên bộ dataset NW-UCLAtrong 100 epochs 724.45 Giá trị hàm mất mát trong giai đoạn huấn luyện mô hình cơ sở (HD-GCN) và mô

hình đề xuất cho dạng dữ liệu đầu vào dạng xương trên bộ dataset NW-UCLAtrong 100 epochs 725.1 Kiến trúc tổng quát cho bài toán nhận dạng hành động dựa trên đầu vào là video 745.2 Minh hoạ một mẫu dữ liệu trong bộ NTU-RGB+D60 có thông tin đầu vào là

khung xương với toạ độ 2D là kết quả trả về từ HRNET 755.3 Minh hoạ 17 keypoints 755.4 Minh hoạ quá trình inference của hệ thống nhận dạng hành động khi đầu vào là

một chuỗi hình ảnh (video) Đầu tiên hệ thống sử dụng YOLOv3 để phát hiệncon người, sau đó sử dụng HRNET để xác định khung xương Quá trình theodõi sau khi diễn ra và thu thập được chuỗi khung xương sẽ được đưa qua môhình đề xuất dựa trên HDGCN để dự đoán hành động, trong trường hợp này làhành động Hugging 76

Trang 13

4.1 Kết quả thực nghiệm mô hình đề xuất so với mô hình tham khảo (HD-GCN)trong các thực nghiệm sử dụng toạ độ nút (khớp) làm dữ liệu đầu vào 644.2 Kết quả thực nghiệm mô hình đề xuất so với mô hình tham khảo (HD-GCN)

trong các thực nghiệm sử dụng toạ độ cạnh (xương) làm dữ liệu đầu vào 664.3 Độ chính xác phân loại so sánh với các phương pháp tiên tiến trên các tập dữ

liệu NTU-RGB+D60 và NTU-RGB+D120 664.4 Thời gian dự đoán một mẫu dữ liệu (millisecond) giữa mô hình tham khảo

(HD-GCN) và mô hình đề xuất trên ba bộ dữ liệu RGB+D60, RGB+D120, NW-UCLA 675.1 Kết quả thực nghiệm mô hình đề xuất so với mô hình tham khảo (HDGCN)

NTU-trong các thực nghiệm sử dụng toạ độ xương (khớp) làm dữ liệu đầu vào 76

Trang 14

Danh sách dưới đây liệt kê các chữ cái viết tắt sẽ được sử dụng về sau trong nội dung cuốn luậnvăn này.

HD-GCN Hierarchically Decomposed Graph Convolutional Networks

RNN Recurrent Neural NetworksRSAP Representative Spatial Average PoolingST-GCN Spatial-Temporal Graph Convolutional Networks

Trang 15

GIỚI THIỆU ĐỀ TÀI

Trong chương này, học viên xin giới thiệu sơ lược về nội dung đề tài và cấu trúc luận văn.

Trang 16

1.1Giới thiệu chung

Nhận dạng hành động của con người (HAR)[1] là bài toán liên quan đến việc xây dựng một hệthống có khả năng phát hiện và phân loại các hành động của con người từ các nguồn dữ liệuđầu vào, bao gồm các luồng hình ảnh từ camera Bài toán này ngày càng phổ biến trong lĩnhvực thị giác máy tính, nâng cao sự tương tác giữa con người với nhau, giữa con người với môitrường xung quanh, giữa con người với máy tính cũng như các hệ thống giám sát Thông quaviệc ứng dụng các hệ thống giám sát thực tế vào đời sống, chúng ta có thể phân tích hành vi vàhiểu được động cơ, mục đích của một con người Một hệ thống HAR có thể hỗ trợ giảm thiểucác hành vi bất hợp pháp của con người, cũng như ngăn chặn những hậu quả có thể xảy ra trongcộng đồng Nó giúp giám sát, phát hiện và nhận dạng chính xác các hành vi phạm tội của conngười và thậm chí tạo ra các cảnh báo kịp thời Ứng dụng của bài toán nhận dạng hành độngcon người trải rộng trên nhiều lĩnh vực khác nhau, bao gồm quản lý an ninh trong y tế, đô thị;giám sát thông minh trong sản xuất, phân tích thể thao Lấy ví dụ cụ thể như sau, phát hiện téngã là một mối quan tâm lớn đối với sức khỏe cộng đồng Đặc biệt đối với các gia đình có ngườigià thường ở nhà một mình, phát hiện té ngã trở thành một nhiệm vụ quan trọng Với sự già hóaliên tục của xã hội, tỷ lệ người già đã tăng lên, và số lượng người già ở nhà một mình cũng tăng.Những người trẻ và trung niên, thường bận rộn với công việc, có thể gặp khó khăn trong việcchăm sóc người già ở nhà một mình Người già, do sự suy giảm chức năng thể chất hoặc bệnhtật, khả năng bị té ngã là rất cao Các camera thông thường chủ yếu ghi lại hoạt động mà khôngcó khả năng nhận dạng các hành động bất thường Vì vậy rất khó để tránh khỏi sự sơ suất trongviệc chăm sóc từ xa, cũng như không thể phát tín hiệu đối với các sự kiện bất thường một cáchkịp thời Một hệ thống HAR như giám sát hành vi bất thường dựa trên luồng video giúp giảmthiểu và ngăn chặn các hành vi bất thường như té ngã bằng cách phát hiện và gửi cảnh báo mộtcách kịp thời (Hình 1.1

Đảm bảo an ninh trong khu dân cư cũng là một nhiệm vụ quan trọng Một khu đô thị an ninhphải được trang bị các hệ thống giám sát có khả năng phát hiện các đối tượng mờ ám đột nhậpvào nơi cư trú với ý đồ xấu Điều này đòi hỏi cần phải triển khai các biện pháp an ninh mạnhmẽ, chẳng hạn như hàng rào an ninh cao nhằm bảo vệ cả dân cư và tài sản Trong bối cảnh này,hệ thống HAR rất hữu ích trong việc tự động phát hiện và gửi cảnh báo các trường hợp xuấthiện các đối tượng trộm cắp cố gắng leo qua hàng rào (Hình 1.2) Cách tiếp cận chủ động nàynhằm tăng cường an ninh bằng cách ngăn chặn các mối đe dọa tiềm tàng và gửi các cảnh báokịp thời để giảm thiểu rủi ro an ninh

Sự phổ biến rộng rãi của các hệ thống nhận dạng hành động đóng góp đáng kể vào việc nângcao và cải thiện chất lượng cuộc sống của con người

Bài toán nhận dạng hành động yêu cầu phân tích các loại hành động của con người dựa trên nộidung thể hiện trong các luồng hình ảnh Quá trình này dựa trên các mẫu chuyển động, các đặctrưng thực thể theo miền không gian và thời gian để nhận dạng được nhiều loại hành động, từcác động tác đơn giản đến các hành vi phức tạp Như minh hoạ trong hình 1.3, bài toán nhậndạng hành động bao gồm quá trình nhận dữ liệu đầu vào là các luồng hình ảnh thu được từcamera giám sát, cảm biến hoặc các thiết bị chuyên dụng, tiền xử lý dữ liệu và áp dụng các thuậttoán để trích xuất các đặc trưng hữu dụng cho việc nhận dạng những mẫu hành động Các môhình học sâu là một trong những hướng tiếp cận hiệu quả

Trang 17

Hình 1.1: Hệ thống nhận dạng hành động có khả năng phát hiện té ngã và gửi cảnh báo kịp

thời

Hình 1.2: Hệ thống nhận dạng hành động có khả năng phát hiện những hành vi bất thường của

con người, ví dụ: leo rào, từ đó hệ thống gửi cảnh báo nhằm nâng cao mức độ an ninh trong khuvực

Hình 1.3: Mô tả tổng quan một hệ thống nhận dạng hành động.

1.2Mô tả bài toán nhận dạng hành động của con người theo

hướng tiếp cận bằng các mô hình học sâu

Bài toán nhận dạng hành động nhằm ghi nhận và hiểu các hành động mà con người thực hiện.Một hành động là một chuỗi các chuyển động của các bộ phận trên khung cơ thể con người.Từ những chuyển động, ta tập trung đánh dấu các điểm đặc trưng và phân loại chúng dựa trênnhãn của các loại hành động được mô tả trong mô hình huấn luyện Ví dụ, với hành động "ngồixuống", ta tập trung và chuyển động của hông và chân Với hành động "vẫy tay", ta tập trung

Trang 18

vào chuyển động của bàn tay.Như hình 1.3 minh hoạ, bài toán nhận dạng hành động được thực hiện thông qua các giai đoạnsau:

• Thu thập dữ liệu: Tùy thuộc vào ứng dụng mục tiêu, thiết bị HAR (nhận diện hành động

của con người) được lựa chọn để ghi lại hoạt động tín hiệu, thường dưới dạng các chuỗivideo thể hiện các hoạt động của con người Có hai loại chính: HAR dựa trên video vàHAR dựa trên cảm biến Trong các ứng dụng giám sát liên quan đến nhiều người, cácthiết bị dựa trên video đóng vai trò là thiết bị thu thập dữ liệu cho HAR Các ứng dụng sửdụng camera video liên quan đến việc thu thập dữ liệu bằng các camera video Trong cácứng dụng tập trung vào việc giám sát hoạt động hàng ngày của một cá nhân, nguồn thuthập dữ liệu ưa thích là các thiết bị dựa trên cảm biến Trong nghiên cứu này, học viên tậptrung vào dữ liệu video đầu vào được ghi lại bởi camera Các nhà nghiên cứu đã giới thiệunhiều mô hình HAR có khả năng xử lý và đánh giá dữ liệu video hoặc hình ảnh để nhậndiện và nhận biết các hoạt động của con người Trên thực tế, độ chính xác của việc nhậndiện hoạt động từ dữ liệu camera 3D phụ thuộc vào các yếu tố vật lý như ánh sáng và màunền Để vượt qua thách thức này, một loại camera chiều sâu như Kinect[2] được xem xét.Camera Kinect bao gồm các luồng dữ liệu khác nhau như chiều sâu, RGB, và âm thanh.Luồng dữ liệu chiều sâu ghi lại tọa độ khớp cơ thể, và dựa trên tọa độ khớp này, một môhình HAR dựa trên bộ xương có thể được phát triển

• Tiền xử lý dữ liệu: Trong giai đoạn này, dữ liệu hình ảnh thô sẽ được tinh chỉnh và xử lý

để nâng cao chất lượng Có thể bao gồm các tác vụ như sử dụng bộ lọc thông thấp hoặcthông cao để giảm nhiễu, cải thiện hình ảnh, loại bỏ nền và chuẩn hóa dữ liệu

• Xây dựng mô hình học máy nhận dạng hành động: Sau khi dữ liệu được làm sạch, quá

trình huấn luyện mô hình HAR sẽ được thực hiện bằng các kỹ thuật học máy hoặc họcsâu, bao gồm một loạt các kỹ thuật cho phép máy tính xác định và hiểu các hành độngcủa con người trong video

Các kỹ thuật này tận dụng nhiều phương pháp khác nhau, chẳng hạn như trích xuất đặctrưng phục vụ cho nhiệm vụ nhận dạng mẫu Với sự tiến bộ của các kỹ thuật học máy,học sâu - một lĩnh vực con của học máy, đã đạt được kết quả vượt trội trong nhiều ứngdụng về thị giác máy tính Do sự phát triển gần đây của các tập dữ liệu quy mô lớn, cáckỹ thuật học sâu ngày càng cung cấp kết quả tốt hơn và trở thành phương pháp tiên tiếntrong HAR

Phương pháp HAR sử dụng học sâu có thể được chia thành ba nhóm tùy thuộc vào cácdạng mô đun mạng nơ-ron sinh học cấu thành nên chúng: mạng nơ-ron hồi quy (RNN)[3],mạng nơ-ron tích chập (CNN)[4], và mạng nơ-ron đồ thị (GNN)[5] Đây là những khốikiến trúc rất hiệu quả trong lĩnh vực học sâu, dùng để trích xuất nhiều đặc trưng chứanhiều thông tin quan trọng liên quan về mặt ngữ nghĩa, về mặt trực quan theo nhiều miềnkhác nhau: không gian và thời gian nhằm phục vụ hiệu quả cho việc nhận dạng mẫu

• Xây dựng hệ thống quản lý việc nhận dạng hành động: Sau giai đoạn huấn luyện, các

mô hình học máy đã sẵn sàng để sử dụng cho việc dự đoán hành động, và hệ thống HARđược xây dựng Mô hình đã được huấn luyện được tích hợp vào hệ thống HAR Hệ thốngHAR có thể được sử dụng để xử lý dữ liệu hình ảnh theo thời gian thực hoặc theo từng đợtđể nhận dạng các hoạt động của con người Để nâng cao chất lượng hệ thống, ta có thểtriển khai một số kỹ thuật hậu xử lý để tinh chỉnh kết quả và nâng cao độ chính xác tổng

Trang 19

thể của hệ thống nhận dạng hành động Điều này có thể liên quan đến việc lọc nhiễu, làmmịn dự đoán hoặc kết hợp thêm thông tin ngữ cảnh Cuối cùng nhưng không kém phầnquan trọng, ta cần thường xuyên theo dõi hiệu suất của hệ thống trong các tình huốngthực tế và cập nhật mô hình nếu cần Chúng ta có thể xem xét việc huấn luyện lại mô hìnhvới dữ liệu mới để thích ứng với những thay đổi trong môi trường, nâng cao độ chính xácnhận dạng hành động theo thời gian.

Đầu vào của bài toán HAR bao gồm nhiều phương thức dữ liệu được thu thập từ các thiết bị.Một loại phương thức là dữ liệu có cấu trúc, ví dụ như hình ảnh hoặc video Loại thứ hai là dữliệu phi cấu trúc, chẳng hạn như đồ thị khung xương người Các cách tiếp cận trước đây dựa trênchuỗi hình ảnh Một mô hình HAR được coi là hiệu quả nếu hiệu suất của nó ổn định trong cácmôi trường khác nhau Tuy nhiên, các phương pháp dựa trên hình ảnh gặp phải nhiều khó khăn,chẳng hạn như độ sáng thay đổi, điều kiện chiếu sáng, nhiễu môi trường và góc nhìn camera.Những vấn đề này trong HAR có thể được giải quyết bằng cách sử dụng dữ liệu dạng khungxương Cách tiếp cận dựa trên dạng dữ liệu này có thể cho kết quả ổn định khi dữ liệu đầu vàođược thu thập trên nhiều hệ quy chiếu khác nhau Điều này giúp hệ thống HAR đạt được hiệusuất cao trong các điều kiện môi trường, khi đặc điểm cơ thể người khác nhau Ngoài ra, so vớidạng dữ liệu hình ảnh yêu cầu dung lượng lưu trữ tỷ lệ kích thước ảnh, thì dữ liệu dạng khungxương chỉ yêu cầu lưu trữ thông tin về tọa độ 2 chiều hoặc 3 chiều Điều này giúp giảm đáng kểchi phí lưu trữ Dữ liệu khung xương có thể thu được trực tiếp bằng camera độ sâu hoặc giántiếp thông qua việc sử dụng các dự đoán từ mô hình học sâu của bài toán dự đoán tư thế (poseestimation) Dữ liệu dựa trên khung xương trở nên dễ tiếp cận hơn nhờ việc sử dụng camerachiều sâu giá rẻ như Kinect, cũng như các kết qủa từ phương pháp ước tính tư thế hiệu quả khác.Như được hiển thị trong Hình 1.2 và Hình 1.1, bộ xương người có thể được mã hóa thành mộtđồ thị bao gồm các khớp nối và biểu diễn hành động

Bài toán HAR dựa trên khung xương đặt ra nhiều thách thức Thứ nhất, mô hình phải nắm bắthiệu quả cả thông tin không gian và thời gian từ chuỗi dữ liệu khớp dựa trên khung xương Thứhai, toàn bộ quy trình HAR có thể được triển khai trong các hệ thống giám sát theo thời gianthực, đòi hỏi kích thước của các mô hình học sâu phải gọn nhẹ Thách thức thực sự trong HARdựa trên khung xương là hiệu suất tổng quát của mô hình Một hệ thống HAR mạnh mẽ cần thểhiện độ chính xác cao trong cả giai đoạn đào tạo và giai đoạn kiểm thử, nghĩa là đưa ra dự đoánchính xác trên dữ liệu trong nhiều ngữ cảnh khác nhau

Dữ liệu khung xương thường được biểu diễn dưới dạng đồ thị Vì vậy, để làm nổi bật thôngtin cấu trúc dưới dạng các kết nối giữa các khớp, các mạng nơ-ron thần kinh dựa trên đồ thị làhướng tiếp cận hiệu quả khi chúng có khả năng mô hình hóa cấu trúc đồ thị tiềm ẩn của khungxương, nêu bật được tính kết nối và phụ thuộc giữa các khớp Từ đó, cung cấp một biểu diễnkhung xương thích hợp để trích xuất các thông tin theo miền không gian và thời gian trong cáchành động của con người, từ đơn giản đến phức tạp

Trong luận văn này, nghiên cứu của học viên tập trung vào HAR dựa trên khung xương, sử dụngmô hình học sâu dựa trên mạng nơ-ron đồ thị, tức là các biến thể GNN, để trích xuất các đặctrưng từ chuỗi dữ liệu dựa trên khung xương và đưa ra các dự đoán hành động

Trang 20

1.3Mục tiêu và nhiệm vụ của luận văn

1.3.1Mục tiêu luận văn

Mục tiêu của luận văn hướng đến việc nghiên cứu và xây dựng hệ thống nhận dạng hành độngcủa con người dựa trên khung xương bằng cách tiêp cận sử dụng mô hình học sâu, cụ thể là cácmạng nơ-ron đồ thị GNN, và mô hình hóa dữ liệu dưới dạng đồ thị Cụ thể:

• Nắm được lý thuyết đồ thị Hiểu và sử dụng được các mô hình học sâu.• Khảo sát các kỹ thuật HAR hiện đại dựa trên khung xương sử dụng học sâu.• Nắm được lý thuyết về GNN và các biến thể của nó

• Nắm được các phương pháp giải quyết cho nhận dạng hành động của con người, đặc biệtlà các phương pháp sử dụng dữ liệu đầu vào dạng khung xương và có hướng tiếp cận dựatrên các mô hình học sâu và mô hình hóa dưới dạng đồ thị Từ đó chỉ ra được các ưu nhượcđiểm của từng phương pháp

• Đưa ra được đề xuất có thể cải thiện hiệu suất của mô hình dựa trên thực nghiệm

1.3.2Nhiệm vụ luận văn

Từ những mục tiêu trên, học viên đề ra các nhiệm vụ cần thực hiện trong quá trình hoàn thiệnluận văn:

• Tìm hiểu về bài toán nhận dạng hành động của con người, đặc biệt là nhóm bài toánnhận dạng hành động dựa trên khung xương của con người, các công trình liên quan, cácphương pháp giải quyết bài toán, ưu và nhược điểm của các phương pháp

• Nghiên cứu và đề xuất các mô hình học sâu sử dụng GNN giúp cải thiện độ chính xác chobài toán nhận dạng hành động của con người dựa trên khung xương

• Tìm kiếm các tập dữ liệu thực tế đã được công bố và thực hiện xử lý dữ liệu Tập trungvào các tập dữ liệu thường được sử dụng trong các báo cáo khoa học để có được kết quảđánh giá khách quan

• Thực nghiệm, huấn luyện và đánh giá mô hình đề xuất trên các bộ dữ liệu đã được thuthập và xử lý Đồng thời so sánh kết quả với các phương pháp khác bằng các độ đô thíchhợp

• Thiết kế, phát triển một chương trình sử dụng đầu vào là video và trả về kết quả nhận dạnghành động theo thời gian thực Chương trình mô phỏng ứng dụng có thể giúp mọi ngườitheo dõi và cảnh báo các hành vi bất thường cụ thể trong cuộc sống hàng ngày

• Chỉ ra những hạn chế và vấn đề tồn đọng, đề xuất các giải pháp cải tiến và mở rộng củabài toán trong tương lai

Trang 21

• Các phương pháp tiếp cận cho bài toán bao gồm các mô hình học sâu bao gồm GNN, cơchế Attention Mô hình cơ sở được sử dụng là HDGCN [6].

• Khảo sát trên 3 tập dữ liệu mô phỏng khung xương người trong không gian 3D bao gồmNTU-RGB+D60, NTU-RGB+D120, NW-UCLA

• Độ đo được sử dụng là Accuracy

1.5Đóng góp luận văn

Trong luận văn, ngoài việc hệ thống hóa lại các nghiên cứu về nhận dạng hoạt động của ngườidựa trên hướng tiếp cận sử dụng một mạng nơ-ron đồ thị, học viên đề xuất 1 phương án giúpcải thiện hiệu suất của bài toán nhận dạng hành động của con người dựa trên khung xương bằnghướng tiếp cận mô hình học sâu, dựa trên cơ sở là mô hình HDGCN sử dụng các mô hình cảitiến của mô hình GNN

• Bổ sung thông tin về mức độ quan trọng của từng khung xương trong chuỗi khung xươngtrong việc nhận dạng nhãn hành động bằng cách tích hợp thêm mô-đun đề xuất mang tênTemporal Attention vào mô hình cơ sở HDGCN, giúp kết quả đề xuất trở nên chính xáchơn

• Thực nghiệm và đánh giá mô hình đề xuất so với mô hình cơ sở cũng như các công trìnhliên quan đã công bố trước đó trên các bộ dữ liệu để chứng tỏ độ hiệu quả của mô hình đềxuất

Học viên xây dựng một chương trình nhận dạng hành động theo thời gian thực với dữ liệu đầuvào là video với dữ liệu khung xương được mô phỏng trong không gian 2D và áp dụng đượcmô hình đề xuất để phát hiện và phân loại hành động với độ chính xác cao, mô phỏng hệ thốnggiám sát các hành vi bất thường của con người trong đời sống hằng ngày

1.6Tóm tắt nội dung luận văn

Luận văn "Nhận dạng hoạt động của con người dựa trên khung xương bằng kỹ thuật học sâu"bao gồm 5 chương với các nội dung chính sau đây:

Trang 22

• Chương 1: GIỚI THIỆU ĐỀ TÀI: trình bày tổng quan về đề tài, lý do thực hiện đề tài

và ý nghĩa thực tiễn của bài toán, cũng như giới hạn và phạm vi của đề tài Cuối cùng lànhiệm vụ và cấu trúc của luận văn

• Chương 2: KIẾN THỨC NỀN TẢNG: tổng hợp những vấn đề học thuật liên quan nhất

sẽ áp dụng để giải quyết bài toán, tập trung chủ yếu vào nội dung của mô hình học sâu,bao gồm mạng nơ-ron nhân tạo, mạng nơ-ron tích chập (CNN), mạng nơ-ron hồi quy(RNN), mạng nơ-ron đồ thị (GNN) và cơ chế Attention

• Chương 3: CÁC CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN: trình bày một cách

tổng quát về những nghiên cứu liên quan đã và đang được thực hiện, cũng như xu hướngchung hiện nay trong việc giải quyết bài toán Phần này cũng đưa ra những bàn luận vàđánh giá cho các phương pháp kể trên vì đó là cơ sở quan trọng cho những nghiên cứucủa học viên trong quá trình thực hiện luận văn

• Chương 4: MÔ HÌNH ĐỀ XUẤT: giới thiệu mô hình cơ sở cho bài toán nhận dạng hành

động dựa trên khung xương bằng mô hình học sâu dưạ trên cấu trúc đồ thị Đồng thời họcviên, đưa ra các cải tiến và động lực cho các đề xuất đó Cuối cùng, học viên trình bàycác bước tiến hành thí nghiệm trên những tập dữ liệu khác nhau và đánh giá kết quả củanhững cải tiến so với mô hình cơ sở

• Chương 5: HỆ THỐNG NHẬN DẠNG HÀNH ĐỘNG: giới thiệu các mô đun cần thiết

để hiện thực một chương trình nhận dạng hành động dựa trên video theo thời gian thực.Học viên trình bày các bước tiến hành thí nghiệm và đánh giá trên tập dữ liệu mô phỏng,sau đó ứng dụng mô hình học sâu vào chương trình nhận dạng hành động

• Chương 6: KẾT LUẬN: tổng hợp các kết quả đạt được trong quá trình thực hiện luận

văn từ bước nghiên cứu và xây dựng giả thuyết đến triển khai thực nghiệm Phần này cũngtrình bày những hạn chế và vấn đề tồn đọng, cuối cùng đề xuất các giải pháp cải tiến trongtương lai

Trang 23

KIẾN THỨC NỀN TẢNG

Trong chương này, học viên trình bày về các kiến thức nền tảng phục vụ trong nghiên cứu luậnvăn.

Trang 24

2.1Mạng nơ-ron nhân tạo

Mạng nơ-ron nhân tạo (ANN)[7] là một hệ thống tính toán lấy cảm hứng từ sự hoạt động củacác nơ-ron trong hệ thần kinh Một mạng nơ-ron thần kinh được tạo nên từ nhiều nơ-ron sinhhọc kết nối và hoạt động cùng nhau Chúng hoạt động bằng cách tiếp nhận các thông tin đưa vàotừ các đuôi gai (dendrite), tính toán và tổng hợp tại thân nơ-ron (cell body), sau đó lan truyềnkết quả đến các nơ-ron khác thông qua sợi trục (axon)

Hình 2.1: Cấu trúc của một nơ-ron sinh học

Có thể dễ dàng rút ra nhận xét rằng một nơ-ron có thể nhận nhiều đầu vào và thông qua các quátrình xử lý, nó cho ra một kết quả duy nhất Mô hình nơ-ron nhân tạo cũng hoạt động tương tựnhư vậy

Một mô hình ANN đơn giản nhất bao gồm một tầng đầu vào và tầng đầu ra Mô hình nàycòn có tên gọi là perceptron Một mô hình perceptron biểu diễn quá trình tính toán cho dữliệu đầu vào x = [x1, x2] (Hình 2.2) nhằm mô phỏng cho quá trình tính toán hàm số ˆy =σ (w0 + w1∗ x1 + w2∗ x2), hoạt động thông qua hai bước:

• Tính tổng tuyến tính:

z= 1 ∗ w0 + w1∗ x1 + w2∗ x2 Trong đó, x1, x2 lần lượt là các biến đại diện cho dữ liệu đầu vào w0 được gọi là bias,

w1, w2 là các trọng số cần phải học, đóng vai trò tham gia quá trình tính toán và chuyểnđổi các thông tin đầu vào thành thông tin đầu ra z là output của tiến trình, đại diện chodữ liệu đầu ra

• Tổng hợp các thông tin dữ liệu đầu vào và tính giá trị tính toán đầu ra trả về từ hàm kíchhoạt Các hàm kích hoạt phổ biến được sử dụng trong mạng nơ-ron nhân tạo bao gồm

Sigmoid, ReLU, Sigmoid và hàm Tanh được trình bày ở mục 2.1.1.

Cấu trúc ANN bao gồm nhiều tầng perceptron liên kết với nhau Một ví dụ được minh hoạ ởHình 2.3 Mạng ANN bao gồm nhiều perceptron như là các nút mạng tính toán làm tăng tínhphức tạp cũng như khả năng học cho mạng ANN nhiều lớp perceptron bao gồm:

• Tầng đầu vào (input layer): tầng đầu tiên, nơi tiếp nhận các dữ liệu đầu vào của mô hình.• Tầng đầu ra (output layer): tầng cuối cùng thể hiện dữ liệu đầu ra của mạng

Trang 25

Hình 2.2: Kiến trúc mạng perceptron

• Tầng ẩn (hidden layer): tầng ở giữa hai tầng nêu trên, có nhiệm vụ thực hiện các phéptính toán nhằm chuyển đổi dữ liệu đầu vào sang dữ liệu đầu ra Số lượng tầng ẩn trongmô hình ANN là không giới hạn và được xác định tùy thuộc vào bài toán cần giải quyết.Có thể có nhiều hơn một hoặc không có tầng ẩn nào Số lượng tầng ẩn càng lớn, mô hìnhANN càng sâu

Mỗi tầng trong ANN có thể bao gồm một hoặc nhiều đơn vị (node) Mỗi node của tầng sau sẽ

được liên kết với toàn bộ node ở tầng trước (không kể tầng đầu vào) Quá trình tính toán giá trịcho mỗi node ở tầng ẩn và tầng đầu ra được thực hiện thông qua hai bước: tính tổng linear vàáp dụng hàm kích hoạt tương tự các phép tính toán trong mô hình perceptron Điều này giúpcho mô hình tính toán có tính tổng quát hơn, có khả năng giải quyết các bài toán phân tách phituyến ANN được sử dụng phổ biến trong các bài toán phân loại đối tượng, phát hiện ra nhữngquan hệ phức tạp của dữ liệu, làm nền tảng để nghiên cứu và phát minh các kiến trúc mạng họcsâu phức tạp trong lĩnh vực thị giác máy tính hay xử lí ngôn ngữ tự nhiên

Hình 2.3: ANN với hai tầng ẩn

2.1.1Một số hàm kích hoạt phổ biến

Hàm kích hoạt là những hàm phi tuyến được áp dụng vào đầu ra của các perceptron của mộtmô hình mạng thần kinh, và được sử dụng làm dữ liệu đầu vào cho tầng tiếp theo Các hàm

Trang 26

kích hoạt thông dụng trong các kiến trúc mạng học sâu bao gồm hàm Sigmoid, Tanh, ReLU vàLeakyReLU được minh hoạ trong hình 2.4.

Hình 2.4: Các hàm phi tuyến được sử dụng trong ANN

• Sigmoid

Hàm sigmoid là một hàm phi tuyến với đầu vào là các số thực và cho kết quả nằm trongkhoảng (0, 1) và được xem là xác xuất trong một số bài toán Hàm sigmoid thường đượcsử dụng để dự đoán xác suất của một kết quả nhị phân

hθ(x) =

Trang 27

2.1.2Hàm mất mát

Giá trị hàm mất mát là chỉ số dùng để đo lường mức độ hiệu quả của mô hình trên tập dữ liệu.Giai đoạn huấn luyện mô hình học sâu thực chất là quá trình tìm ra tập tham số nhằm tối thiểuhoá giá trị hàm mất mát Trong điều kiện mô hình học sâu cho ra kết quả dự đoán tốt, hàm mấtmát sẽ là một số thực không âm có giá trị nhỏ (ở điều kiện lý tưởng sẽ bằng 0) Ngược lại, khihàm mất mát có giá trị là một số thực không âm có giá trị lớn, mô hình dự đoán được cho là cóhiệu suất kém Công thức tổng quát của hàm mất mát cho mô hình dự đoán fw(x), với các nhãndữ liệu y như sau:

Hàm mất mát Mean Squared Error

Hàm mất mát Mean Squared Error (MSE) là một trong những hàm mất mát cơ bản nhất, biễudiễn trực quan, đơn giản mối quan hệ giữa đầu ra của mô hình và nhãn dự đoán

Trang 28

2.2Mạng nơ-ron tích chập

Mạng nơ-ron tích chập (CNN)[4] là một dạng mạng thần kinh học sâu, thường được áp dụng đểtrích xuất và tổng hợp thông tin các dữ liệu dạng hình ảnh (Hình 2.5)

Hình 2.5: Mô hình hoạt động của CNN

CNN bao gồm các lớp tích chập được xếp chồng lên nhau, sử dụng các hàm kích hoạt phi tuyếnđể kích hoạt trọng số trong các nút Mỗi lớp sau khi áp dụng hàm kích hoạt tạo ra các thông tintrừu tượng hơn cho lớp tiếp theo Khác với các tầng perceptron trong ANN, các lớp được kết nốivới nhau bởi một mạng kết nối đầy đủ, đối với CNN, các lớp được kết nối với nhau thông quacơ chế tích chập, với mỗi lớp được tạo ra từ kết quả tích chập của lớp trước đó, tạo ra các kếtnối cục bộ (Hình 2.6) Mỗi lớp sử dụng nhiều bộ lọc (filter) khác nhau để thực hiện các phéptính toán tích chập nhằm phân tách và lọc dữ liệu, thông tin hình ảnh và chọn ra những vùnghình ảnh giá trị nhất để sử dụng, trích xuất đặc trưng từ dữ liệu đầu vào Ngoài ra, CNN có lớppooling được sử dụng để đơn giản hóa thông tin đầu ra, lọc ra nhiều thông tin hữu ích hơn (loạibỏ thông tin nhiễu)

Hình 2.6: Phép tính tích chập trong CNN

Trong quá trình huấn luyện, CNN tự động học các giá trị của các bộ lọc thông qua việc tối ưuhóa, với mục tiêu tìm ra các bộ lọc phù hợp để nhận dạng, phân loại thông tin hình ảnh, từ cácđặc trưng cơ bản như pixel và cạnh đến các đặc trưng cao cấp như khuôn mặt và hình dạng vậtthể

Hai tính chất nổi bật của CNN bao gồm tính bất biến và tính kết hợp Tính bất biến đảm bảorằng mô hình có thể nhận dạng các đối tượng dù chúng có thể được đặt ở các góc độ khác nhau

Trang 29

Điều này đảm bảo rằng tính chính xác của thuật toán khi đối tượng di chuyển, quay, hoặc thayđổi kích thước Lớp Pooling cung cấp tính bất biến này bằng cách giảm kích thước của đối tượngđầu vào trong khi vẫn giữ nguyên thông tin quan trọng Tính kết hợp của mô hình đảm bảo rằngcác thông tin từ các tầng thấp đến cao được kết hợp để tạo ra các biểu diễn trừu tượng và phứctạp hơn của dữ liệu đầu vào thông qua các phép tính toán tích chập với các bộ lọc Điều này giúpCNN có độ chính xác cao trong các tác vụ nhận dạng thực thể.

2.3Mạng nơ-ron hồi quy

Đối với dữ liệu chuỗi thời gian hoặc ngôn ngữ tự nhiên, thông tin của một đầu vào phụ thuộcvào ngữ cảnh của các đầu vào khác, các thành phần tuần tự tương quan với nhau dựa trên ngữnghĩa phức tạp và quy tắc cú pháp Mạng nơ-ron hồi quy (RNN)[8] đã được thiết kế ra để xửlý và chuyển đổi các dạng dữ liệu này Đầu ra của một RNN được xác định bởi phần tử hiện tạicũng như các tính toán trước đó RNN có một "bộ nhớ" lưu trữ tất cả thông tin mà nó đã thấytrước đó

Hình 2.7: Kiến trúc của mạng thần kinh truy hồi

Dưới đây là kiến trúc tổng quát của mạng RNN, với:• xt là đầu vào tại bước t

• U, V, W là các ma trận tham số cần học• st là trạng thái ẩn tại bước t Đây được xem như bộ nhớ của mạng

st = f (U xt + W st−1)f là hàm kích hoạt như được đề cập ở trên, có thể làm hàm Tanh hoặc ReLU Giá trị s0cóthể được khởi tạo một cách ngẫu nhiên, thông thường được gán bằng 0

• ot là đầu ra tại bước t

ot = g(V st)g là hàm kích hoạt như được đề cập ở trên, có thể làm hàm Tanh hoặc ReLU.Vòng lặp ở thân mạng là điểm mấu chốt trong nguyên lý hoạt động của mạng thần kinh truyhồi Đây là chuỗi sao chép nhiều lần của cùng một kiến trúc nhằm cho phép các thành phần có

Trang 30

thể kết nối liền mạch với nhau theo mô hình chuỗi Đầu ra của vòng lặp trước chính là đầu vàocủa vòng lặp sau.

Trên thực tế, mạng thần kinh hồi quy cho thấy khả năng học trong dài hạn kém, tức là mạngkhông thể nhớ được các thông tin quá dài Nói cách khác, trong các câu quá dài, mạng thầnkinh hồi quy sẽ quên dần các thông tin ở đầu câu khi tính toán cho các từ ở cuối câu Một trongnhững nguyên nhân chính là do sự triệt tiêu đạo hàm của hàm mất mát sẽ diễn ra khi trải quachuỗi dài các tính toán truy hồi Một trong những phiên bản mới của mạng thần kinh truy hồi làmạng LSTM ra đời, nhằm khắc phục hiện tường này

2.3.1LSTM - Long Short Term Memory

LSTM [9] là một biến thể của mạng nơ-ron hồi quy có thể học và xác định các phụ thuộc dàihạn LSTMs sử dụng một cơ chế cổng, bao gồm: cổng quên, cổng đầu vào và cổng đầu ra đểxác định mức độ quan trọng của đầu vào hoặc đầu ra hiện tại mà chúng ta muốn chuyển tiếpđến lớp tiếp theo

Hình 2.8: Kiến trúc của LSTM

Kiến trúc của mạng LSTM[10] phức tạp hơn mặc dù vẫn dữ được tư tưởng chính của RNN làsự sao chép các khối tính toán theo dạng chuỗi

Ở trạng thái thứ t của mạng LSTM:• Đầu vào:

ct−1, ht−1, xt Trong đó:

– xt là dữ liệu đầu vào tại trạng thái t của mạng

– ct−1, ht−1 là đầu ra của khối tính toán trước, ta gọi ký hiệu c là cell state, kí hiệu hlà hidden state.

Cell state là thành phần quan trọng nhất của mạng LSTM, đây chính là bộ nhớ củamạng Cell state và hidden state sẽ lần lượt được cập nhật ở mỗi thời điểm thông quacác cổng trong mạng, bao gồm: cổng quên, cổng đầu vào và cổng đầu ra

• Đầu ra:cell state và hidden state của trạng thái hiện tạiThứ tự các bước tính toán cell state và hidden state trong mạng LSTM diễn ra như sau:

Trang 31

• Cập nhật giá trị tại cổng quên, cổng này giúp tính toán các thông tin cần được loại bỏ,quyết định xem thông tin nào chúng ta sẽ cho phép đi qua ô trạng thái (cell state).

ft = σ (Wf [ht−1, xt] + bf)• Cập nhật giá trị tại cổng đầu vào, cổng này giúp tính toán các thông tin cần được lưu trữ

trong ô trạng thái

it = σ (Wi[ht−1, xt] + bi)• Cập nhật giá trị tại cổng đầu ra, cổng này giúp tính toán thông tin cần được xuất ra tại thời

điểm hiện tại

ot = σ (Wo[ht−1, xt] + bo)• Cập nhật cell state ở thời điểm hiện tại từ các thông tin thu được từ cổng quên và cổng

đầu vào, quyết định xem sẽ lấy bao nhiêu phần trăm lượng thông tin từ cell state ở thờiđiểm trước, và bao nhiêu phần trăm lượng thông tin từ dữ liệu đầu vào cũng như từ trạngthái ẩn của khối tính toán trước đó

Ct = ft ∗ Ct−1 + it ∗ ˆCtˆ

Ct = tanh(WC [ht−1, xt] + bC)• Cập nhật hidden state ở thời điểm hiện tại

Với một chuỗi các phần tử, cơ chế self-attention sẽ ước lượng mức độ liên quan tới nhau củamột phần tử so với tất cả các phần tử còn lại, nói cách khác self-attention dùng để tính trọng sốcho mỗi phần tử trong chuỗi dựa trên thông tin toàn cục của toàn bộ chuỗi đó (Hình 2.9).Đầu vào của cơ chế tập trung bao gồm cặp vector khóa - giá trị được chứa trong ô nhớ của tầngtập trung và vector truy vấn Với mỗi vector truy vấn, tầng tập trung trả về tập các cặp vectorkhóa - giá trị được mã hóa trong tầng tập trung này Để tạo ra được các vector như vậy, mỗivector đặc trưng đầu vào sẽ được nhân với Wq(ma trận tham số cần học để tạo vector truy vấn)để học và tạo ra vector truy vấn Vector truy vấn được mã hóa ở tầng tập trung, chứa ma trận

Trang 32

Hình 2.9: Cơ chế Self-attention

tham số cần học tương ứng Wk(ma trận tham số cần học để tạo vector khóa), Wv(ma trận thamsố cần học để tạo vector giá trị giá trị ứng với từng vector khóa), để học và tạo ra các cặp vectorkhóa - giá trị chứa trong bộ nhớ của tầng tập trung Vector truy vấn và vector khóa có tác dụngtính toán ra phân phối score cho các cặp từ Vector giá trị sẽ dựa trên phân phối score để tính ravector phân phối xác suất đầu ra, hi vọng rằng từ đó thu được những điểm tương đồng giữa cácphần tử trong chuỗi

Để tính toán mức độ tương quan, chúng ta sẽ tính toán tích vô hướng giữa vector truy vấn vớivector khóa, phép tính này nhằm tìm ra mối liên hệ trọng số giữa các cặp phần tử Tuy nhiênđiểm số sau cùng là điểm số chưa được chuẩn hóa Do đó chúng ta chuẩn hóa bằng một hàm

softmaxđể đưa về một phân phối xác xuất mà độ lớn sẽ đại diện cho mức độ tập trung của vectortruy vấn tới vector khóa Trọng số càng lớn, càng chứng tỏ phần tử trả về có một sự chú ý lớn

hơn đối với phần tử được truy vấn Sau đó chúng ta nhân hàm softmax với các vector giá trị để

tìm ra vector đại diện (vector attention) cho đầu vào.Từ các triển khai trên các vector, ta sẽ hình thành cơ chế tính toán tập trung cho ma trận Mộtcách tổng quát, cơ chế Attention có thể phát biểu dưới dạng công thức:

vector truy vấn, vector khóa và vector giá trị giống nhau.Toàn bộ quá trình được mô tả như trên được gọi là một khối Scaled Dot-Product Attention minhhọa ở hình 2.10

Trang 33

Hình 2.10: Các phép tính toán trong khối Scaled Dot-Product Attention

2.3.2.2Cơ chế Multihead - Attention

Cơ chế Multihead - Attention cho phép mô hình cùng lúc học được cách chú ý nhiều thôngtin khác nhau, tại các vị trí khác nhau Hình 2.11 minh hoạ kiến trúc tổng quan của cơ chếMultihead - Attention Một cách tổng quát, cơ chế Multihead - Attention có thể phát biểu dướidạng công thức sau:

MultiHead(q, K,V ) = Concat(head1, head2, headh)WO (2.10)

headi= Attention(qWiQ, KWiK,VWiV) (2.11)Trong đó:

Trang 34

• Đồ thị vô hướng và đồ thị có hướng: Một đồ thị mà tất cả các cạnh của nó là vô hướng

được gọi là đồ thị vô hướng (Hình 2.12), ngược là là đồ thị có hướng (Hình 2.13) Nếu bỏđi hướng trên tất cả các cạnh có hướng, một đồ thị có hướng sẽ trở thành đồ thị vô hướng

• Đơn đồ thị và đa đồ thị: Một đồ thị không có khuyên và giữa hai đỉnh chỉ có nhiều nhất

là một cạnh nối được gọi là một đơn đồ thị (Hình 2.14) Các đồ thị có khuyên hay có nhiềuhơn một cạnh nối giữa hai đỉnh được gọi là các đa đồ thị (Hình 2.15)

• Đồ thị có trọng số: Trong một đồ thị, nếu trên mỗi cạnh được gán cho một số thực nào

đó, ta gọi đó là đồ thị có trọng số (Hình 2.16) Nếu không nói gì thêm, ta xem như đồ thịkhông có trọng số (trọng số trên tất cả các cạnh là bằng nhau)

Đồ thị có thể được sử dụng để biểu diễn thông tin trong các mạng xã hội hoặc trong lĩnh vựchóa học, nơi các đỉnh có thể đại diện cho các phân tử Ví dụ, trong mạng xã hội, các người dùngcó thể được coi là các đỉnh và các mối quan hệ giữa họ được biểu diễn bằng các cạnh Một tậphợp các đối tượng và các kết nối giữa chúng thường được biểu thị dưới dạng đồ thị Hình 2.17minh họa mối quan hệ tự nhiên của mạng xã hội

Trang 35

Hình 2.12: Minh hoạ đồ thị vô hướng

Hình 2.13: Minh hoạ đồ thị có hướng

Hình 2.14: Minh hoạ đơn đồ thị

Trong thời gian gần đây, các nhà nghiên cứu đã và đang phát triển các mạng nơ-ron hoạt độngdựa trên dữ liệu đồ thị, được gọi là mạng nơ-ron đồ thị (GNN) Các phát triển gần đây này đãlàm tăng cường khả năng và hiệu suất của GNNs, và chúng ta bắt đầu thấy các ứng dụng thựctiễn trong nhiều lĩnh vực như nghiên cứu kháng khuẩn, mô phỏng vật lý, phát hiện tin tức giả,hệ thống đề xuất, và dự đoán lưu lượng Trong luận văn này, GNN được ứng dụng trong bài

Trang 36

Hình 2.15: Minh hoạ đa đồ thị

Hình 2.16: Minh hoạ đồ thị có trọng số

toán nhận dạng hành động dựa trên dữ liệu đồ thị khung xương Biểu diễn của một đồ thị khungxương được mô tả trong Hình 2.18 Ở đây, mỗi nút biểu thị một khớp trong đồ thị của con người,trong khi mỗi cạnh biểu thị kết nối giữa các khớp dựa trên động lực học của con người

2.4.2Biểu diễn đồ thị

Có nhiều cách biểu diễn đồ thị, để thuận tiện cho việc lưu trữ và tính toán trên máy tính, ba cáchbiểu diễn thường gặp nhất của đồ thị:

• Ma trận kề: trong cách biểu diễn này, các đỉnh của đồ thị được đánh số lần lượt từ 1 đến

n (với n là số đỉnh của đồ thị) Ta xây dựng ma trận vuông n hàng và n cột thỏa mãn: giátrị ở hàng thứ i và cột thứ j bằng 1 nếu có cạnh nối từ i đến j trong đồ thị có hướng hoặccạnh nối i và j trong đồ thị vô hướng, ngược lại giá trị được điền là 0 Ma trận như vậy gọilà ma trận kề biểu diễn cho đồ thị (Hình 2.19) Có thể thấy rằng, đối với đồ thị vô hướng,ma trận kề là một ma trận đối xứng, điều này không đúng với đồ thị có hướng Trong đồthị có trọng số, tức là các cạnh được gán giá trị, giá trị 1 có thể được thay thế bằng trọngsố của cạnh Cách biểu diễn ma trận kề cho đồ thị là một cách biểu diễn phổ biến, tuynhiên nếu ma trận quá thưa (số lượng giá trị 0 lớn hơn rất nhiều so với giá trị 1), cách biểudiễn này gây ra sự dư thừa về mặt tài nguyên

Trang 37

Hình 2.17: Minh họa mối quan hệ trên đồ thị của mạng xã hội

Hình 2.18: Minh hoạ biểu diễn đồ thị khung xương

• Danh sách cạnh: trong cách biểu diễn danh sách cạnh, mỗi cạnh được kí hiệu bởi tên hai

đỉnh liên thuộc với nó (có thứ tự đối với cạnh có hướng) Các cạnh này được thêm vàomột danh sách theo một thứ tự nào đó Ví dụ tập hợp cạnh của đồ thị G là AB, BC,CD,như vậy đồ thị G có ít nhất 4 đỉnh và có 3 cạnh Có thể thấy cách biểu diễn này khắc phụcđược nhược điểm của phương pháp biểu diễn ma trận kề bởi nó là phép liệt kê các cạnhthực sự đang có trong đồ thị, tuy nhiên đổi lại việc tính toán trên các cạnh sẽ mất nhiềuthời gian hơn, bởi mỗi lần truy vấn cạnh, ta đều phải duyệt lại danh sách

• Danh sách kề: với mỗi đỉnh u của đơn đồ thị G, ta xác định các đỉnh kề với nó Danh sách

Trang 38

Hình 2.19: Một ví dụ ma trận liền kề biểu diễn đồ thị khung xương

này được gọi là danh sách kề của đỉnh u Tập hợp các danh sách này với mọi đỉnh u củaG, được gọi là danh sách kề của G Ví dụ danh sách kề của đỉnh A là B,C cho biết đỉnh Aliên thuộc hai cạnh AB và AC Cách lưu trữ này giúp tiết kiệm chi phí lưu trữ, đảm bảocác thao tác truy xuất không mất nhiều thời gian, đặc biệt phù hợp với đồ thị có nhiềuđỉnh nhưng ít cạnh

2.4.3Mạng đồ thị (GNN)

Dữ liệu dạng đồ thị rất phức tạp nên đã tạo ra rất nhiều thách thức cho các mô hình học sâu.Một trong những thách thức trong việc áp dụng học sâu vào đồ thị là đầu vào có kích thước biếnđổi Khác với dữ liệu hình ảnh với kích thước đầu vào cố định, có cấu trúc và kích thước xácđịnh nên có thể coi đó là biểu đồ lưới có kích thước cố định, các đồ thị không có dạng cố định,với kích thước thay đổi của các nút không có thứ tự, nơi các nút có thể có số lượng lân cận khácnhau GNN là loại mô hình mạng nơ rơn thần kinh được thiết kế để xử lý và huấn luyện dữ liệucó cấu trúc đồ thị Nó có khả năng tạo ra biểu diễn đồ thị ở nhiều cấp độ ngữ nghĩa, trong khi sửdụng thông tin cấu trúc GNN đơn giản bao gồm ba thành phần: đồ thị tích chập, lớp tuyến tính,kích hoạt phi tuyến Các nhiệm vụ học máy trên đồ thị bao gồm các bài toán: bài toán phân loạinút, bài toán dự đoán mối quan hệ giữa các phần tử trong đồ thị và bài toán phân loại đồ thị.Bài toán nhận dạng hành động đồ thị dựa trên khung xương được giới thiệu trong luận văn nàylà dạng bài toán phân loại đồ thị Mỗi đồ thị khung xương được coi là một điểm dữ liệu với mộtnhãn hành động liên quan, mô hình học sâu nhằm mục đích học ánh xạ từ các điểm dữ liệu đếncác nhãn

Kiến trúc trích xuất đặc trưng của GNN được minh họa trong Hình 2.20 Trong GNN, mỗi lớpẩn hoạt động như một bước cập nhật thay vì một biến đổi tuyến tính Các lớp cập nhật này quantrọng cho sự lan truyền thông tin trong toàn bộ đồ thị Tổng cộng k lớp ẩn được sử dụng, và tạilớp thứ k, mỗi nút chứa thông tin từ các nút có khoảng cách k bước Nói chung, thông tin thuộctính hoặc đặc trưng liên kết với mỗi nút trong một đồ thị được cung cấp Trong lĩnh vực nhậndiện hành động dựa trên bộ xương, GNN xử lý đặc trưng nút cùng với thông tin cấu trúc Nónhằm tạo ra một biểu diễn đồ thị phân biệt của đồ thị con người để tiếp tục xử lý

Cơ chế hoạt động chính trong các mô hình GNN là truyền thông tin Mục tiêu của phương pháp

Trang 39

Hình 2.20: Kiến trúc tổng quát của mô hình nơ-ron đồ thị

này là kết hợp lặp lại các đặc trưng của các nút láng giềng để mã hóa thông tin đồ thị dưới dạngnhúng nút

Cụ thể, kỹ thuật truyền thông tin nhận một đồ thị đầu vào G = (V, E) với một tập hợp các đặctrưng nút xu∈ Rd×|V |để tạo ra nhúng nút hu, ∀u ∈ V Trong mỗi lớp truyền thông tin, một nhúngẩn hu của nút u được cập nhật dựa trên thông tin được gửi từ một tập hợp các láng giềng N(u)như minh họa trong Hình 2.21

Quá trình truyền thông tin có thể được biểu diễn chung như sau:

m(k)N(u)= AGGREGAT E(k)(hkv, ∀v ∈ N(u))

hk+1u = U PDAT E(k)(hku, m(k)N(u))

(2.12)

trong đó m(k)N(u)là thông điệp được mã hóa từ láng giềng N(u) tại bước cập nhật k.Các hàm AGGREGATE xử lý các thông điệp đến từ láng giềng của nút, thực hiện các hànhđộng như tổng hợp, trung bình, hoặc nối Sau đó, hàm UPDATE chuyển đổi thông tin đã tổnghợp thành một biểu diễn đặc trưng nút mới

Hình 2.22 cho thấy một ví dụ để minh họa cơ chế truyền thông tin Đối với mỗi đỉnh, cập nhậtgiá trị của nó bằng cách lấy trung bình của tất cả các đỉnh láng giềng (bao gồm chính nó) Vídụ, sau khi khởi tạo, cập nhật đầu tiên cho nút A được thực hiện bằng cách tính:

B, C, và D được xét đến để cập nhật giá trị của A vì chúng là láng giềng của A.Quá trình này diễn ra tương tự cho các nút còn lại của đồ thị, và bước cập nhật lặp lại trong cácbước tiếp theo

Trong mỗi lớp, mỗi nút thu thập thông tin từ các láng giềng gần của nó, và sau k lớp, mỗi nhúng

Trang 40

Hình 2.21: Truyền thông tin nơ-ron

Hình 2.22: Ví dụ minh họa cách truyền thông tin cập nhật kết quả cho đồ thị với 6 đỉnh, cụ thể

là A, B, C, D, E, và F, trong k bước Mỗi đỉnh được gán một giá trị ban đầu Để đơn giản, cácgiá trị được chọn là các số vô hướng thay vì các vector đặc trưng Trong ví dụ này, các giá trịcho mỗi đỉnh được cập nhật trong mỗi bước theo quy tắc truyền thông tin

nút kết hợp các chi tiết về khu vực lân cận k bước của nó Thông tin được mã hóa bao gồm cácchi tiết cấu trúc, phản ánh mức độ của tất cả các nút trong khu vực lân cận k bước, cũng nhưthông tin dựa trên đặc trưng Tương tự như CNNs, GNN thể hiện hành vi tổng hợp đặc trưngcục bộ Tuy nhiên, thay vì hoạt động trên các vùng được định nghĩa theo không gian trong mộthình ảnh, GNN tổng hợp thông tin từ các khu vực lân cận cục bộ

Với cách mô tả như trên, GNN thực sự mang lại những lợi ích vượt bậc trong việc tổng hợp đặctrưng và mã hóa các đỉnh khi mà quá trình tổng hợp có thể mang theo thông tin về không gian(các đỉnh lân cận) và thời gian (đặc trưng tại thời điểm cũ)

2.4.4Mạng nơ-ron tích chập đồ thị

Scarselli và cộng sự [13] đã đề xuất một loại GNN đơn giản Mô hình tổng hợp các đặc trưngcủa các nút láng giềng trực tiếp Sau đó, một biến đổi tuyến tính được áp dụng cho các nút đãtổng hợp để cho phép khả năng học tập Ngoài thông tin của các láng giềng, đặc trưng của chínhnút u cũng được xem xét, tương tự như CNN Cập nhật cấp đồ thị dưới dạng ma trận được thểhiện như sau:

Tiêu đề	Nhận dạng hoạt động của con người dựa trên khung xương bằng kỹ thuật học sâu
Tác giả	Trần Hoàng Nguyên
Người hướng dẫn	TS. Nguyễn Đức Dũng
Trường học	Đại học Quốc Gia TP. HCM
Chuyên ngành	Khoa học Máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2024
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	97
Dung lượng	5,55 MB