Nghiên cứu các kỹ thuật học sâu trong biểu diễn và nhận dạng hoạt động của người từ dữ liệu khung xương.

27 15 0
Nghiên cứu các kỹ thuật học sâu trong biểu diễn và nhận dạng hoạt động của người từ dữ liệu khung xương.

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Nghiên cứu các kỹ thuật học sâu trong biểu diễn và nhận dạng hoạt động của người từ dữ liệu khung xương.Nghiên cứu các kỹ thuật học sâu trong biểu diễn và nhận dạng hoạt động của người từ dữ liệu khung xương.Nghiên cứu các kỹ thuật học sâu trong biểu diễn và nhận dạng hoạt động của người từ dữ liệu khung xương.Nghiên cứu các kỹ thuật học sâu trong biểu diễn và nhận dạng hoạt động của người từ dữ liệu khung xương.Nghiên cứu các kỹ thuật học sâu trong biểu diễn và nhận dạng hoạt động của người từ dữ liệu khung xương.Nghiên cứu các kỹ thuật học sâu trong biểu diễn và nhận dạng hoạt động của người từ dữ liệu khung xương.

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI PHẠM ĐÌNH TÂN NGHIÊN CỨU CÁC KỸ THUẬT HỌC SÂU TRONG BIỂU DIỄN VÀ NHẬN DẠNG HOẠT ĐỘNG CỦA NGƯỜI TỪ DỮ LIỆU KHUNG XƯƠNG Ngành: Kỹ thuật máy tính Mã số: 9480106 TĨM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT MÁY TÍNH Hà Nội −2022 Cơng trình hồn thành tại: Trường Đại học Bách Khoa Hà Nội Người hướng dẫn khoa học: PGS.TS Vũ Hải PGS.TS Lê Thị Lan Phản biện 1: Phản biện 2: Phản biện 3: Luận án bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp Trường Đại học Bách khoa Hà Nội: Vào hồi , ngày tháng năm 2022 Có thể tìm hiểu luận án thư viện: Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội Thư viện Quốc gia Việt Nam GIỚI THIỆU Động lực nghiên cứu Nhận dạng hoạt động người toán xác định lớp hoạt động mà người thực dựa liệu thu thập từ thiết bị, cảm biến Các cảm biến sử dụng cảm biến đeo người cảm biến tích hợp thiết bị điện tử cảm biến quán tính điện thoại thông minh, thiết bị camera Microsoft Kinect camera giám sát (CCTV) Nhận dạng hoạt động khả ứng dụng rộng rãi nhiều lĩnh vực khác tương tác người - máy tính, ứng dụng giám sát, trị chơi, chăm sóc người già từ xa, ứng dụng cho nhà/văn phịng/thành phố thơng minh nhiều ứng dụng giám sát khác Tuy nhiên, toán nhận dạng hoạt động tốn có nhiều thách thức cần nghiên cứu phát triển Giới thiệu toán Luận án tập trung vào đề xuất kỹ thuật nhận dạng hoạt động sử dụng nguồn liệu liệu khung xương.Trong nghiên cứu này, chuỗi liệu khung xương mô tả hoạt động phân đoạn Mỗi chuỗi liệu khung xương tương ứng với lớp hoạt động Bài toán nhận dạng hoạt động thực việc dự đoán nhãn hoạt động từ liệu khung xương Các thách thức Nhận dạng hoạt động người chủ đề nghiên cứu có nhiều thách thức đa dạng hoạt động, khác lần thực hoạt động tương đồng lớp hoạt động khác Bốn thách thức đề cập, bao gồm (1) biến thể lớp hoạt động tương đồng lớp hoạt động khác (2) nhiễu liệu khung xương, (3) che khuất phận thể khác người/vật bên ngoài, (4) thiếu liệu dán nhãn Mục tiêu Nghiên cứu có mục tiêu sau: • Biểu diễn hiệu hoạt động người: Các khớp có vai trị khác hoạt động Mục tiêu xác định kỹ thuật biểu diễn hoạt động nhằm nâng cao hiệu nhận dạng hoạt động • Nâng cao hiệu nhận dạng hoạt động tập liệu khung xương có nhiều nhiễu: Mục tiêu thứ hai thiết kế mạng học sâu nhằm nâng cao hiệu nhận dạng liệu khung xương có nhiều nhiễu • Đề xuất mơ hình rút gọn cho nhận dạng hoạt động: Các thiết bị biên thường có lực tính tốn hạn chế Do đó, để triển khai ứng dụng thiết bị biên, cần có nghiên cứu nhằm rút gọn mơ hình mạng học sâu Mục tiêu thứ ba luận án xây dựng mơ hình rút gọn cho nhận dạng hoạt động Giới hạn phạm vi nghiên cứu Trong luận án, giới hạn phạm vi nghiên cứu liệt kê sau • Ba tập liệu phổ biến tập liệu tự thu sử dụng đánh giá Đây tập liệu chứa chuỗi liệu khung xương phân đoạn thu thập cảm biến Kinect hãng Microsoft Mỗi tập liệu có danh sách hoạt động người xác định trước Các tập liệu chứa hoạt động thực người tương tác hai người Trong phạm vi luận án không sử dụng đánh giá tập liệu khác • Luận án sử dụng lớp hoạt động thường ngày Các lớp hoạt động biểu diễn nghệ thuật lĩnh vực đặc thù khác không nằm phạm vi nghiên cứu luận án • Trên bốn tập liệu, cách chia liệu huấn luyện/đánh giá phương pháp đánh giá giữ nguyên báo giới thiệu tập liệu • Đánh giá chéo theo người thực áp dụng tất tập liệu, với nửa số người dùng để huấn luyện nửa lại dùng để đánh giá • Đánh giá chéo theo góc nhìn thực tập liệu NTU RGB+D Dữ liệu từ camera camera sử dụng để huấn luyện Dữ liệu từ camera sử dụng để đánh giá Luận án sử dụng liệu đơn góc nhìn Xử lý liệu kết hợp góc nhìn khơng nằm phạm vi nghiên cứu luận án • Nghiên cứu hướng đến việc triển khai ứng dụng dựa phương pháp đề xuất Ứng dụng phát triển để thực đánh giá định lượng tập Công cụ MediaPipe hãng Google sử dụng để ước lượng khung xương cho người thực Do giới hạn thời gian, luận án trình bày mơ-đun nhận dạng hoạt động Các mơđun có liên quan khác phát hoạt động, ước lượng khung xương đánh giá điểm tập không nằm phạm vi nghiên cứu luận án Đóng góp Luận án có ba đóng góp sau: • Đóng góp 1: Đề xuất hai phương pháp chọn tập khớp (JSS) cho nhận dạng hoạt động người: phương pháp chọn tập khớp xác định trước (Preset JSS) phương pháp chọn tự động khớp giàu thơng tin (MIJ) • Đóng góp 2: Đề xuất mô-đun kết hợp đặc trưng (FF) để kết hợp đặc trưng không gian thời gian cho mạng tích chập đồ thị thích nghi có ý (AAGCN) sử dụng vận tốc khớp tọa độ tương đối khớp Phương pháp đề xuất đặt tên FF- AAGCN Phương pháp đề xuất có hiệu vượt trội so với phương pháp gốc tập liệu thách thức có nhiều nhiễu liệu khung xương • Đóng góp 3: Đề xuất mơ hình rút gọn LW-FF-AAGCN có số lượng tham số mơ hình giảm đáng kể so với mơ hình gốc đảm bảo hiệu nhận dạng Mơ hình đề xuất cho phép phát triển ứng dụng nhận dạng hoạt động người thiết bị có lực tính tốn hạn chế Cấu trúc luận án Ngoài phần mở đầu kết luận, luận án gồm chương cấu trúc sau: • Giới thiệu: Phần giới thiệu toán, mục tiêu, thách thức, phạm vi nghiên cứu đóng góp luận án • Chương có tên "Các nghiên cứu liên quan": Chương tóm tắt nghiên cứu liên quan nhận dạng hoạt động người • Chương có tên "Các kỹ thuật chọn tập khớp cho nhận dạng hoạt động người sử dụng liệu khung xương": Chương trình bày kỹ thuật chọn tập khớp xác định trước (Preset JSS) kỹ thuật chọn tự động khớp giàu thơng tin (MIJ) • Chương có tên "Kỹ thuật kết hợp đặc trưng cho mạng tích chập đồ thị": Chương đề xuất mô-đun kết hợp đặc trưng (FF) thực chức tiền xử lý liệu Mạng học sâu dựa đồ thị FF-AAGCN cho hiệu vượt trội CMDFALL, tập liệu thách thức có nhiều nhiễu liệu khung xương • Chương có tên "Mạng tích chập đồ thị rút gọn": Chương đề xuất mạng tích chập đồ thị rút gọn LW-FF-AAGCN với tham số so với phương pháp gốc AAGCN LW-FF-AAGCN phù hợp cho việc phát triển ứng dụng thiết bị biên có lực tính tốn hạn chế • Kết luận hướng nghiên cứu tiếp theo: Phần tóm tắt đóng góp luận án giới thiệu hướng nghiên cứu nhận dạng hoạt động người CHƯƠNG CÁC NGHIÊN CỨU LIÊN QUAN 1.1 Tổng quan nhận dạng hoạt động Do miền ứng dụng rộng rãi, nghiên cứu nhận dạng hoạt động từ hình ảnh video tiến hành nhiều thập kỷ Các nghiên cứu nhận dạng hoạt động thường dựa chế thị giác người Hệ thống thị giác người phát chuyển động hình trạng thể người khoảng thời gian ngắn Hình ảnh hoạt động truyền đến quan thần kinh để phân biệt hoạt động bộ, chạy Hệ thống cảm thụ thị giác người nhận dạng hoạt động xác ổn định Trong nhiều thập kỷ, nhà nghiên cứu hướng tới việc xây dựng hệ thống nhận dạng hoạt động máy tính có hiệu cao Tuy nhiên, hiệu hệ thống thị giác máy tính cịn xa so với hệ thống thị giác người tính đa dạng môi trường, biến thể lớp hoạt động, đa dạng góc nhìn khác nhau, che khuất 1.2 Các thể thức liệu dùng nhận dạng hoạt động Hoạt động nhận dạng dựa nhiều nguồn liệu khác nhận dạng hoạt động dựa liệu ảnh màu, liệu ảnh độ sâu liệu khung xương, liệu gia tốc, v.v Các thể thức liệu chia thành hai nhóm: thể thức liệu trực quan thể thức liệu không trực quan Các thể thức liệu trực quan ảnh màu, ảnh độ sâu, liệu khung xương biểu diễn hoạt động cách trực quan Các thể thức liệu trực quan sử dụng phổ biến nhận dạng hoạt động Dữ liệu khung xương lưu trữ thông tin chuyển động khớp xương Dữ liệu khung xương biểu diễn hiệu hoạt động không bao gồm đối tượng hay thông tin ngữ cảnh Thể thức liệu trực quan sử dụng nhiều hệ thống giám sát Trong lĩnh vực rô-bốt xe tự lái, liệu ảnh độ sâu với thông tin khoảng cách thường sử dụng cho nhận dạng hoạt động Các thể thức liệu không trực quan liệu gia tốc biểu diễn trực quan hoạt động người Tuy nhiên, thể thức liệu không trực quan sử dụng trường hợp yêu cầu đảm bảo riêng tư thông tin cá nhân Mỗi thể thức liệu có ưu điểm riêng, dùng nhận dạng hoạt động tùy theo mục đích ứng dụng Trong liệu trực quan, nghiên cứu trước thường sử dụng loại liệu phổ biến liệu ảnh màu Gần đây, nhờ phổ biến cảm biến ảnh độ sâu tiến kỹ thuật ước lượng khung xương, việc thu thập liệu khung xương ngày trở nên dễ thực với chất lượng khung xương ngày nâng cao 1.3 Thu thập liệu khung xương Dữ liệu khung xương chuỗi tọa độ khớp xương theo thời gian Các khớp kết nối mơ hình động học theo cấu trúc tự nhiên thể người Mơ hình động học khung xương giúp biểu diễn hoạt động cách dễ dàng Dữ liệu khung xương thu thập hệ thống thu nhận chuyển động MoCap, cảm biến ảnh độ sâu ước lượng khung xương dựa ảnh màu ảnh độ sâu Trong hệ thống thu nhận chuyển động, điểm đánh dấu đặt vị trí khớp Dữ liệu khung xương thu thập hệ thống thu thập chuyển động có độ xác cao Tuy nhiên, nhiều ứng dụng thực tế, thiết bị thu nhận chuyển động thường có chi phí cao yêu cầu cài đặt phức tạp Vì vậy, luận án tập trung vào liệu khung xương thu thập cảm biến ảnh độ sâu sử dụng tương đối phổ biến thị trường 1.4 Các liệu dùng đánh giá Có nhiều liệu xây dựng phục vụ cho mục đích triển khai đánh giá phương pháp nhận dạng hoạt động Luận án sử dụng bốn liệu dùng chung sau: 1.4.1 MSR-Action3D MSR-Action3D liệu bao gồm 20 hoạt động thực 10 người Mỗi người thực hoạt động hai ba lần Mơ hình khung xương gồm 20 khớp xương Tổng cộng có 557 mẫu hoạt động Các hoạt động MSR-Action3D chia thành ba tập con: tập hoạt động (AS1), tập hoạt động (AS2) tập hoạt động (AS3) Mỗi tập có lớp hoạt động số lớp hoạt động tồn nhiều tập 1.4.2 MICA-Action3D MICA-Action3D liệu thu nhận Viện nghiên cứu quốc tế MICA, Trường Đại học Bách khoa Hà Nội Tập liệu xây dựng nhằm mục đích thực đánh giá chéo sở liệu MICA-Action3D có 20 lớp hoạt động MSR-Action3D Dữ liệu MICA-Action3D thu cảm biến Kinect v1 Mỗi người thực hoạt động hai ba lần Các hoạt động thực 20 người tạo tổng cộng 1196 chuỗi hoạt động 1.4.3 CMDFALL Bộ liệu CMDFALL xây dựng với mục tiêu để đánh giá phương pháp để phát kiện ngã Bảy cảm biến Kinect v1 lắp đặt phòng để thu thập liệu Tập liệu có 20 lớp hoạt động Các hoạt động thực 50 người (20 nữ 30 nam) độ tuổi từ 21 đến 40 1.4.4 NTU RGB+D Tập liệu NTU RGB+D gồm nhiều thể thức liệu thu từ cảm biến Kinect v2 Trong tập liệu này, mơ hình khung xương có 25 khớp, với hai người cảnh thu NTU RGB+D tập liệu cỡ lớn sử dụng phổ biến để đánh giá phương pháp nhận dạng hoạt động sử dụng liệu khung xương Tập liệu có 56880 mẫu, chia thành 60 lớp hoạt động Tổng cộng có 40 người tham gia thực hoạt động Ba cảm biến Kinect gắn độ cao góc nhìn khác Nhóm tác giả tập liệu NTU RGB+D đề xuất hai tiêu chuẩn đánh giá: (1) Đánh giá chéo theo người thực (Cross Subject - CS) có 40320 mẫu dùng để huấn luyện 16560 mẫu dùng để đánh giá (2) Đánh giá chéo theo góc nhìn (Cross View - CV): tập huấn luyện bao gồm 37920 mẫu từ camera 3, tập đánh giá có 18960 mẫu thu camera 1.5 Nhận dạng hoạt động sử dụng liệu khung xương Dữ liệu khung xương sử dụng để biểu diễn hoạt động người cách hiệu Dữ liệu khung xương có nhiều ưu điểm khơng phụ thuộc vào trang phục không gian Dữ liệu khung xương dễ dàng thu thập nhờ phổ biến cảm biến độ sâu đột phá kỹ thuật ước lượng khung xương người từ liệu ảnh màu ảnh độ sâu Do hiệu lưu trữ tính tốn liệu khung xương, nhận dạng hoạt động sử dụng liệu khung xương trở nên phổ biến Nhiều phương pháp nhận dạng hoạt động sử dụng liệu khung xương đề xuất Hình 1.1 Để nhận dạng hoạt động, đặc trưng khơng gian thời gian trích chọn từ tọa độ khớp xương Thông tin không gian chủ yếu liên quan đến mối liên hệ khớp khung hình, thơng tin thời gian đề cập đến phụ thuộc khớp khung hình khác Trong năm gần đây, với phát triển kỹ thuật học sâu, kiến trúc mạng học sâu dựa liệu đề xuất cho nhận dạng hoạt động với kết khả quan Mạng nơ-ron tích chập (CNN), mạng nơ-ron hồi quy (RNN) mạng tích chập đồ thị (GCN) số kiến trúc mạng học sâu phát triển cho nhận dạng hoạt động dựa liệu khung xương Hình 1.1 Các phương pháp đề xuất cho nhận dạng hoạt động sử dụng liệu khung xương 1.6 Một số nghiên cứu nhận dạng hoạt động Việt Nam Một số nhóm nghiên cứu Việt Nam thực nghiên cứu nhận dạng hoạt động người Nhận dạng hoạt động tiếp tục chủ đề nghiên cứu thu hút có nhiều thách thức 1.7 Tiểu kết chương Chương tóm tắt tiến lĩnh vực nhận dạng hoạt động Các thể thức liệu phương pháp nhận dạng khác xem xét Nội dung tổng quan tập trung vào liệu khung xương phương pháp nhận dạng hoạt động sử dụng liệu khung xương, trọng tâm luận án Các ứng dụng nhận dạng hoạt động nhiều lĩnh vực khác thảo luận Mặc dù có số đột phá nghiên cứu nhận dạng hoạt động, cịn nhiều khó khăn việc phát triển ứng dụng Các thách thức bao gồm giống hoạt động, nhiễu, che khuất liệu gán nhãn Do cần có thêm nhiều nghiên cứu để nâng cao hiệu hệ thống nhận dạng hoạt động CHƯƠNG CÁC KỸ THUẬT CHỌN TẬP KHỚP CHO NHẬN DẠNG HOẠT ĐỘNG CỦA NGƯỜI SỬ DỤNG DỮ LIỆU KHUNG XƯƠNG 2.1 Giới thiệu Các nghiên cứu trước cho thấy, khớp có vai trị khác việc biểu diễn nhận dạng hoạt động Do đó, kỹ thuật lựa chọn khớp xương đề xuất bao gồm hai cách tiếp cận chính: kỹ thuật chọn tập khớp xác định trước kỹ thuật chọn tập khớp tự động Với kỹ thuật lựa chọn tập khớp xác định trước, khớp xác định trước nhằm đơn giản hóa q trình chọn khớp Kỹ thuật giúp tránh phức tạp tính toán phân lớp chọn khớp giàu thông tin Trong cách tiếp cận thứ hai, khớp chọn tự động thông qua độ đo thống kê giá trị trung bình / phương sai tọa độ khớp / góc khớp Với cách tiếp cận này, với lớp hoạt động, số lượng khớp số lớp lựa chọn khác Ở chương này, phương pháp chọn tập khớp xác định trước đề xuất dựa phương pháp gốc phương pháp sử dụng tọa độ khớp (JP) Hai phương pháp chọn tập khớp tự động đề xuất có tên chọn khớp giàu thông tin với số lượng khớp cố định (FMIJ) chọn khớp giàu thơng tin với số lượng khớp thích nghi (AMIJ) Với FMIJ, số khớp chọn cho tất lớp hoạt động Với AMIJ, số khớp chọn thay đổi theo đặc điểm lớp hoạt động Hình 2.1 mơ tả phương pháp nhận dạng sử dụng với tập khớp lựa chọn từ kỹ thuật đề xuất Hình 2.1 Kỹ thuật chọn tập khớp hệ thống nhận dạng hoạt động từ liệu khung xương 2.2 Các phương pháp đề xuất 2.2.1 Kỹ thuật chọn tập khớp xác định trước Với kỹ thuật lựa chọn tập khớp xác định trước, tùy vào sở liệu, tập khớp lựa chọn từ trước nhằm biểu diễn hoạt động Dựa quan sát cho thấy hành động chủ yếu liên quan đến vị trí khớp đầu, tay chân, luận án sử dụng 13 khớp biểu diễn nhận dạng hoạt động (xem Hình 2.2) Với khớp lựa chọn, Hình 2.2 Các khớp lựa chọn biểu diễn hoạt động (các khớp màu xanh) sơ đồ hệ thống phương pháp nhận dạng với tập khớp xác định trước mơ tả Hình 2.3 Các vec-tơ đặc trưng tổng hợp cách kết hợp tọa độ khớp vận tốc khớp Với khung xương có N khớp Tọa độ khớp thứ i khung thời gian t biểu diễn dạng: pi(t) = [xi(t), yi(t), zi(t)] (2.1) Hình trạng khung xương khung thời gian t biểu diễn N khớp xương sau: p(t) = [p1(t), p2(t), , pN(t)] (2.2) Dựa hướng tiếp cận Ghorbel đồng tác giả, tọa độ khớp p(t) vận tốc khớp V (t) sử dụng để biểu diễn hoạt động Vận tốc khớp định nghĩa bởi: V (t) = {pi(t + 1) − pi(t − 1)|i = N} (2.3) Sau đó, chuẩn hóa theo thời gian thực kỹ thuật Dynamic Time Warping (DTW) Fourier Temporal Pyramid (FTP) giúp giảm bớt ảnh hưởng nhiễu liệu khung xương Việc phân loại thực phương pháp máy vec-tơ hỗ trợ (SVM) Phương pháp đề xuất đánh giá MSR-Action3D CMDFALL tập hợp Một sơ đồ bao gồm C khối SVM sử dụng để dự đốn lớp hoạt động Hình 2.5 Sơ đồ hệ thống phương pháp đề xuất FMIJ/AMIJ 2.3 Các kết thử nghiệm Bảng 2.1 so sánh độ xác phương pháp đề xuất với phương pháp khác MSR-Action3D Phương pháp SMIJ sử dụng so sánh trực tiếp nên kết nhận dạng có độ xác thấp Ba phương pháp cuối phương pháp dựa ma trận hiệp biến Khi so với phương pháp gốc Cov3DJ CovP3DJ, phương pháp đề xuất có độ xác cao hơn, 5,67% 5,22% Bảng 2.2 so sánh kết nhận dạng tập liệu CMDFALL Bảng 2.1 So sánh độ xác (%) phương pháp chọn tập khớp MSR-Action3D TT 10 11 12 13 14 15 16 17 18 Phương pháp Action Graph, 2010 Histogram, 2012 EigenJoints, 2012 Cov3DJ, 2013 Joint Position (JP), 2014 Relative JP (RJP), 2014 Joint Angle (JA), 2014 Absolute SE(3), 2014 LARP, 2014 Spline Curve, 2015 Multi-fused, 2017 CovP3DJ, 2018 CovMIJ, 2018 Đại số Lie với VFDT, 2020 Preset JSS Preset JSS với Covariance Descriptors Proposed (FMIJ) Proposed (AMIJ) AS1 72.9 87.98 74.5 88.04 93.36 95.77 84.51 90.3 94.72 83.08 90.8 93.48 93.48 94.66 95.86 95.7 95.7 96.7 AS2 71.9 85.48 76.1 89.29 85.53 86.9 68.05 83.91 86.83 79.46 93.4 84.82 90.18 85.08 91.27 91.1 92.9 92.9 AS3 79.2 63.46 96.4 94.29 99.55 99.28 96.17 95.39 99.02 93.69 95.7 94.29 97.14 96.76 99.47 96.2 98.1 99.0 Bảng 2.2 Đánh giá hiệu FMIJ/AMIJ tập liệu CMDFALL TT 10 11 12 13 2.4 Phương pháp Cov3DJ Joint Position (JP) Res-TCN CovMIJ CNN CNN-LSTM CNN-Velocity CNN-LSTM-Velocity RA-GCN Preset JSS Preset JSS using Covariance Descriptors Proposed (FMIJ) Proposed (AMIJ) Năm 2013 2014 2017 2018 2019 2019 2019 2019 2019 2019 - Chỉ số F1 (%) 61 49.18 39.38 62.5 40.34 39.24 46.13 45.23 58.63 52.86 60.2 64 64 Tiểu kết chương Cả phương pháp chọn tập khớp dựa dựa kinh nghiệm phương pháp chọn tập khớp tự động dựa số liệu thống kê giúp nâng cao hiệu nhận dạng hoạt động Phương pháp chọn tập khớp xác định trước giúp đơn giản hóa q trình chọn khớp FMIJ AMIJ phương pháp đề xuất để lựa chọn tập khớp tự động Các mô tả hiệp phương sai tính tốn cho tọa độ khớp vận tốc khớp Cả FMIJ AMIJ hoạt động tốt phương pháp gốc Cov3DJ liệu đánh giá FMIJ/AMIJ tốt JSS xác định trước u cầu nhiều thời gian tính tốn Các phương pháp JSS đề xuất có hiệu ổn định liệu khung xương thu thập từ nguồn khác Các kết chương công bố báo [C1], [C2], and [J2] CHƯƠNG KỸ THUẬT KẾT HỢP ĐẶC TRƯNG CHO MẠNG TÍCH CHẬP ĐỒ THỊ 3.1 Giới thiệu Các khớp thể người xếp theo trật tự định có chất cấu trúc đồ thị Tuy nhiên, phương pháp đề cập Chương chưa tập trung vào khai thác chất đồ thị liệu khung xương Các phương pháp tiếp cận ban đầu sử dụng kỹ thuật trích chọn đặc trưng thủ công theo quy tắc thiết lập trước Kỹ thuật trích chọn đặc trưng thủ cơng có độ xác hạn chế gặp khó khăn việc tổng quát hóa Các kiến trúc mạng học sâu CNN RNN gần sử dụng nhận dạng hoạt động sử dụng liệu khung xương Tuy nhiên phương pháp khai thác thông tin trật tự khớp mơ hình khung xương, yếu tố quan trọng nhận dạng hoạt động người Một phương pháp phát triển gần biểu diễn chuỗi liệu khung xương dạng đồ thị Trong chương này, mơ hình học sâu dựa đồ thị nghiên cứu để nâng cao hiệu nhận dạng hoạt động Mục đích tạo kỹ thuật hiệu sử dụng độ lệch khớp chuỗi liệu khung xương 3.2 Các nghiên cứu liên quan mạng tích chập đồ thị Phép tính tích chập cho hình ảnh mở rộng thành phép tính tích chập cho đồ thị Mạng tích chập đồ thị (GCN) Mạng GCN sử dụng nhận dạng hoạt động mạng GCN không gian - thời gian (ST-GCN) Mạng tích chập đồ thị thích nghi có ý (AAGCN) giới thiệu gần có khả xây dựng đồ thị thích nghi Sơ đồ hệ thống AAGCN bao gồm dãy 10 khối 3.3 Phương pháp đề xuất Trong chương này, phương pháp nhận dạng dựa mạng tích chập đồ thị thích nghi có ý (AAGCN) mơ đun kết hợp đặc trưng đề xuất Sơ đồ phương pháp đề xuất mơ tả Hình 3.1 Mục tiêu mơ-đun kết hợp đặc trưng kết hợp nhiều đặc trưng trích xuất từ khớp xương, nhằm đưa biểu diễn giàu thông tin cho phép nhận dạng hiệu hoạt động Dữ liệu đầu mô-đun kết hợp đặc trưng chuẩn hóa cách sử dụng chuẩn hóa lơ (BN) AAGCN có 10 khối bao gồm B1, B2, , B10 Bốn khối B1, B2, B3, B4 khối có 64 kênh đầu Ba khối B5, B6, B7 khối có 128 kênh đầu Ba khối cuối B8, B9, B10 khối có 256 kênh đầu Số lượng kênh đầu cho khối số lượng lọc sử dụng phép tính tích chập Mục tiêu sử dụng tham số huấn luyện để trích xuất đặc trưng đồ thị cấp độ khác Với hai khối B5, B8, giá trị bước dịch thiết lập để giảm chiều dài khung Lớp kết hợp trung bình tồn cục (GAP) sử dụng để kết hợp đồ đặc trưng GAP chế hiệu giúp giảm kích thước tensor tăng tốc độ tính tốn Một ưu điểm lớp GAP ánh xạ đồ đặc trưng lớp hoạt động Do đó, đồ đặc trưng hiểu đồ tin cậy cho lớp hoạt động Một lợi ích khác lớp GAP khơng có tham số điều chỉnh khơng gây overfit liệu Softmax sử dụng để phân lớp hoạt động Hình 3.1 Một mơ-đun kết hợp đặc trưng, lớp chuẩn hóa theo lơ (BN), mười khối không gian - thời gian, lớp pooling (GAP) lớp softmax Hình 3.2 cho thấy sơ đồ khối AAGCN Khối tính tích chập khơng gian (Convs), mơ-đun ý khối tính tích chập thời gian (Convt) Mỗi lớp tích chập khơng gian thời gian có lớp BN lớp ReLU kèm Mỗi khối sử dụng đường nối tắt để tránh tượng suy biến gradient Hình 3.2 Khối khơng-thời gian • Số kênh: Do có thành phần tọa độ (x, y, z) nên số kênh AAGCN Mô-đun kết hợp đặc trưng kết hợp tọa độ khớp tương vận tốc khớp nên số kênh đầu khối kết hợp đặc trưng kênh • Số khung: Chiều dài khung lớn Tmax dùng để biểu diễn hoạt động Các chuỗi khung xương ngắn Tmax chuẩn hóa chiều dài Tmax cách lặp lại chuỗi khung xương • Số khớp: Số lượng khớp mơ hình khung xương • Số người: Số người tối đa khung hình Thiết lập tham số tập liệu mô tả Bảng 3.1 Bảng 3.1 Thiết lập tham số tập liệu TT Tập liệu Số kênh CMDFALL MICA-Action3D NTU RGB+D Số khung 600 175 300 Số khớp 20 20 25 Số người 1 AAGCN sử dụng liệu đầu vào tọa độ khớp Nhiễu liệu khung xương làm giảm độ xác nhận dạng hoạt động Việc sử dụng tọa độ khớp tương đối giúp giảm bớt sai lệch Một số lớp hoạt động có chuỗi tọa độ khớp tương tự Các hoạt động phân tách tốc độ thực Trong luận án, khối kết hợp đặc trưng đề xuất cách kết hợp hai đặc trưng: tọa độ khớp tương đối vận tốc khớp Tọa độ khớp thứ i khung thời gian t biểu diễn bởi: pi(t) = [xi(t), yi(t), zi(t)] (3.1) Khung xương khung thời gian t gồm có N khớp xương: p(t) = [p1(t), p2(t), , pN(t)] (3.2) Trong mơ hình khung xương, tọa độ khớp tương đối độ lệch khớp xương với khớp trung tâm pc, Hình 3.3 Trong tập liệu sử dụng, khớp vị trí bụng chọn làm khớp trung tâm pc RJP biểu diễn tốn học bởi: Hình 3.3 Tọa độ khớp tương đối RJP độ lệch khớp xương với khớp trung tâm (a) Mơ hình Microsoft Kinect v1 với 20 khớp (b) Mơ hình Microsoft Kinect v2 với 25 khớp RJP (t) = {pi(t) − pc(t)|i = N} (3.3) Vận tốc khớp định nghĩa theo công thức (2.3) Vector đặc trưng F tạo cách kết hợp tọa độ khớp tương đối vận tốc khớp theo số chiều: F (t) = [RJP (t), V (t)] 3.4 (3.4) Các kết thử nghiệm Ba tập liệu CMDFALL, MICA-Action3D, and NTU-RGBD sử dụng để đánh giá Dữ liệu từ nửa số người thực sử dụng để huấn luyện liệu từ phần lại sử dụng để đánh giá Hiệu phương pháp đề xuất đánh giá máy chủ có CPU Intel i7-8700, nhớ 32 GB GPU GeForce GTX 1080Ti Bảng 3.2 tổng hợp kết đánh giá hiệu phần tập liệu CMDFALL sử dụng tọa độ khớp, vận tốc khớp, RJP mô-đun kết hợp đặc trưng Bảng 3.2 Đánh giá hiệu phần CMDFALL TT Phương pháp AAGCN dùng tọa độ khớp AAGCN dùng vận tốc khớp AAGCN dùng RJP Đề xuất (FF-AAGCN) Precision (%) 65.7 68.64 69.15 77.87 Recall (%) 65.57 69.7 69.72 78.52 F1 (%) 65.11 68.54 69.04 77.59 Bảng 3.3 so sánh phương pháp đề xuất phương pháp khác tập liệu CMDFALL Trên tập liệu CMDFALL, phương pháp đề xuất hoạt động tốt phương pháp gốc AAGCN Phương pháp đề xuất đạt hiệu cao với số F1 lên đến 77,59 %, phương pháp gốc đạt số F1 65,11 % Hình 3.4 biểu diễn trực quan lớp hoạt động CMDFALL sử dụng biểu diễn lân cận dạng thống kê phân bố (t-SNE) Bảng 3.3 Đánh giá hiệu CMDFALL với số Precision, Recall F1 [%] TT 10 11 12 13 14 15 16 Phương pháp Cov3DJ Joint Position (JP) Res-TCN CovMIJ CNN CNN-LSTM CNN-Velocity CNN-LSTM-Velocity RA-GCN AAGCN AS-RAGCN Preset JSS Preset JSS using Covariance FMIJ (Chương 2) AMIJ (Chương 2) Đề xuất (FF-AAGCN) Năm 2013 2014 2017 2018 2019 2019 2019 2019 2019 2020 2020 2019 2019 2021 2021 - Prec (%) 48.68 45.24 49.97 47.64 61.18 65.7 75.82 77.87 Recall (%) 41.78 40.58 47.89 46.51 59.28 65.57 74.81 78.52 Bảng 3.4 Đánh giá độ xác (%) NTU RGB+D TT 10 11 12 13 14 15 16 17 18 19 20 21 22 Phương pháp Bi-directional RNN Part-based LSTM ST-LSTM STA-LSTM VA-LSTM ARRN-LSTM IndRNN SRN+TSL Res-TCN Clip CNN Synthesized CNN Motion CNN Multi-scale CNN ST-GCN GCNN Dense IndRNN AS-GCN AGCN 3s RA-GCN AS-RAGCN AAGCN Proposed (FF-AAGCN) Year 2015 2016 2016 2016 2017 2018 2018 2018 2017 2017 2017 2017 2017 2018 2018 2019 2019 2019 2020 2020 2020 - CS 59.1 60.7 69.2 73.4 79.2 80.7 81.8 84.8 74.3 79.6 80.0 83.2 85.0 81.5 83.5 86.7 86.8 87.3 87.3 87.7 88.0 88.2 CV 64.0 67.3 77.7 81.2 87.7 88.8 88.0 92.4 83.1 84.8 87.2 89.3 92.3 88.3 89.8 94.0 94.2 93.7 93.6 92.9 95.1 94.8 F1 (%) 61 49.18 39.38 62.5 40.34 39.24 46.13 45.23 58.63 65.11 74.9 52.86 60.2 64 64 77.59 (a) AAGCN (b) Proposed Hình 3.4 Phân bố 20 lớp hoạt động CMDFALL với AAGCN (trái) phương pháp đề xuất (phải) sử dụng t-SNE 3.5 Tiểu kết chương Chương trình bày phương pháp nhận dạng hoạt động đề xuất dựa việc tích hợp mơ-đun kết hợp đặc trưng mơ hình AAGCN Phương pháp đề xuất đặt tên FF-AAGCN Trong mô đun kết hợp đặc trưng, tọa độ khớp tương đối vận tốc khớp trích chọn cho tồn khớp khung xương FF-AAGCN có hiệu nhận dạng vượt trội so với phương pháp gốc AAGCN tập liệu thách thức CMDFALL Trên NTU RGB+D, phương pháp đề xuất đạt độ xác đánh giá chéo theo người 88,2% độ xác đánh giá chéo theo góc nhìn 94,8% Kết phương pháp đề xuất có hiệu tương đương với phương pháp gốc AAGCN NTU RGB+D Feature Fusion giúp tăng hiệu nhận dạng hoạt động sử dụng đặc trưng vận tốc với hiệu số khung hình khác Các kết chương công bố báo [C3], [J1], [J3] CHƯƠNG MẠNG TÍCH CHẬP ĐỒ THỊ RÚT GỌN 4.1 Giới thiệu Như trình bày Chương 2, phương pháp chọn tập khớp (JSS) giúp biểu diễn hoạt động cách hiệu Mô-đun kết hợp đặc trưng đề xuất Chương giúp nâng cao hiệu nhận dạng hoạt động mạng tích chập đồ thị tập liệu có nhiều nhiễu Tất phương pháp chủ yếu tập trung vào nâng cao độ xác nhận dạng Tuy nhiên, để phát triển ứng dụng thiết bị, cần phải có mơ hình học sâu có độ phức tạp thấp Có nhiều hướng tiếp cận để làm giảm số lượng tham số mô hình mạng học sâu Trong chương này, mơ hình rút gọn đề xuất cách lược bớt số lớp mạng học sâu, kết hợp JSS chọn trước với mô-đun kết hợp đặc trưng nghiên cứu Chương Chương Hai đồ thị định nghĩa dựa khớp chọn Mơ hình đề xuất đạt hiệu tốt với tham số Phần demo giới thiệu ứng dụng phát triển sử dụng mơ hình mạng học sâu rút gọn 4.2 Các nghiên cứu liên quan mạng tích chập đồ thị rút gọn Trên liệu cỡ lớn, mơ hình dựa mạng tích chập đồ thị có hiệu nhận dạng tốt Tuy nhiên, mơ hình dựa GCN thường u cầu khối lượng tính tốn lớn Nhiều nghiên cứu thực để phát triển mơ hình rút gọn 4.3 Phương pháp đề xuất Một mơ hình rút gọn đề xuất dựa FF-AAGCN Chương Mục đích thiết kế mơ hình học sâu với tham số mơ hình Mơ hình rút gọn đề xuất có tên LW-FF-AAGCN Trong FF-AAGCN, có mười khối với số lượng kênh đầu khác nhau: bốn khối với 64 kênh đầu ra, ba khối với 128 kênh đầu ba khối với 256 kênh đầu Chỉ có ba khối với 128 kênh đầu sử dụng LW-FF-AAGCN Hai đồ thị dựa tập khớp chọn trước đề xuất Sơ đồ hệ thống phương pháp đề xuất mô tả Hình 4.1 Mơ-đun kết hợp đặc trưng làm nhiệm vụ tiền xử lý liệu khung xương Mô-đun JSS (tùy chọn) xác định trước 13 khớp từ mô hình khung xương Chương Hai dạng đồ thị định nghĩa sử dụng tập khớp chọn Đầu mô-đun JSS đưa vào lớp chuẩn hóa lơ (BN) để chuẩn hóa liệu Dữ liệu đầu từ lớp JS chuyển sang chuỗi ba khối B1, B2, B3 với 128 kênh đầu Đầu khối B3 đưa vào lớp tổng hợp trung bình tồn cục (GAP), lớp tạo vectơ đặc trưng 128 chiều Vectơ đặc trưng chuyển đến lớp softmax để thực phân lớp Phương pháp chọn tập khớp xác định trước Chương sử dụng để chọn 13 Hình 4.1 Sơ đồ LW-FF-AAGCN đề xuất khớp (đánh dấu màu xanh lam) từ mơ hình khung xương gồm 20 khớp Hình 4.2.a Các khớp màu đỏ không sử dụng để biểu diễn hoạt động Hai đồ thị đề xuất với đỉnh 13 khớp màu xanh lam Hai đồ thị gọi đồ thị JSS loại A (JSS-A) đồ thị JSS loại B (JSS-B) Trong JSS-A, khớp khuỷu tay khớp gối kết nối với khớp đầu để tạo thành đồ thị liên thông từ khớp chọn Hình 4.2.b Đối với JSSB, kết nối đối xứng thêm vào cho cặp khớp khuỷu tay, cổ tay, đầu gối mắt cá chân Hình 4.2.c Các kết nối khớp đối xứng quan trọng khớp đối xứng di chuyển theo hướng khác nhiều hoạt động chạy, Hình 4.2 (a) Chọn tập khớp xác định trước gồm 13 khớp (màu lam) mơ hình khung xương với 20 khớp (b) Đồ thị loại A (JSS-A) định nghĩa đường liền nét kết nối 13 khớp màu xanh lam (c) Đồ thị loại B (JSS-B) định nghĩa 13 khớp màu xanh lam có bổ sung thêm kết nối khớp đối xứng Phần hình vẽ minh họa chiều không gian đồ thị Bảng 4.1 Đánh giá phần tập liệu CMDFALL Các số đươc tính theo phần trăm Các cụm từ viết tắt bảng gồm Feature Fusion (FF), Lightweight (LW), Joint Subset Selection (JSS) TT 4.4 Phương pháp AAGCN LW-AAGCN FF-AAGCN (Chương 3) LW-FF-AAGCN LW-FF-AAGCN với JSS-A LW-FF-AAGCN với JSS-B FF ✗ ✗ ✓ ✓ ✓ ✓ LW ✗ ✓ ✗ ✓ ✓ ✓ JSS Precision Recall F1 65.70 65.57 65.11 ✗ 67.03 66.44 66.39 ✗ 77.87 78.52 77.59 ✗ 80.64 81.48 80.59 ✗ 79.73 80.20 79.56 ✓ 81.00 80.97 80.63 ✓ Các kết thử nghiệm Mơ hình rút gọn xây dựng dựa mô-đun kết hợp đặc trưng (FF), lược bớt số lớp (LW) chọn tập khớp xác định trước (JSS) Đánh giá phần thực để đánh giá đóng góp thành phần vào kết chung Kết đánh giá tổng hợp Bảng 4.1 Thử nghiệm tiến hành máy chủ có CPU Intel i7-8700, nhớ 32 GB GPU GeForce GTX 1080Ti Khi áp dụng LW cho AAGCN bản, hiệu nhận dạng tăng với số F1 66,39% Khi sử dụng mô-đun kết hợp đặc trưng, số F1 77,59% kết Chương Khi kết hợp LW FF, số F1 LW-FF-AAGCN 80,59% Đánh giá thực cho loại đồ thị JSS-A JSS-B Chỉ số F1 79,56% 80,63% cho JSS-A JSS-B Có nghĩa CMDFALL, việc thêm kết nối đối xứng giúp nâng cao hiệu nhận dạng hoạt động So sánh hiệu nhận dạng hoạt động LW-FF-AAGCN với phương pháp có CMDFALL hiển thị Bảng 4.2 LW-FF-AAGCN đạt số F1 lên đến 80,59%, cao 3% so với FF-AAGCN Chỉ số F1 LW-FF-AAGCN cao 14,44% so với phương pháp gốc AAGCN Cov3DJ Joint Position (JP) phương pháp gốc phương pháp đề xuất Chương Res-TCN phương pháp sử dụng báo gốc tập liệu CMDFALL CovMIJ biến thể FMIJ mô tả Chương CNN CNN-Velocity phương pháp dựa mạng nơ-ron tích chập CNNLSTM CNN-LSTM-Velocity phương pháp kết hợp mạng nơ-ron tích chập mạng nơ-ron hồi quy RA-GCN, AAGCN AS-RAGCN mạng tích chập đồ thị Các phương pháp cịn lại phương pháp đề xuất Chương Chương Số lượng tham số mơ hình u cầu tính tốn CMDFALL tổng hợp Bảng 4.3 Độ phức tạp tính tốn sử dụng số phép tính dấu chấm động (FLOPs) Đây số phép tính cần thiết để nhận dạng hoạt động Có thể thấy, LW giúp giảm số lượng tham số mơ hình lên đến 5,6 lần Mơ hình rút gọn với JSS yêu cầu số lượng FLOPs 1,74 lần so với phương pháp gốc AAGCN Trên liệu cỡ lớn NTU RGB+D, mơ hình AAGCN có tổng cộng 3,76 triệu tham số Mơ hình đề xuất có 0,67 triệu tham số, 5,6 lần so với phương pháp gốc AAGCN Bảng 4.2 So sánh hiệu phương pháp CMDFALL Các số hiệu tính theo phần trăm TT 10 11 12 13 14 15 16 17 18 19 Phương pháp Cov3DJ Joint Position (JP) Res-TCN CovMIJ CNN CNN-LSTM CNN-Velocity CNN-LSTM-Velocity RA-GCN AAGCN AS-RAGCN Preset JSS (Chương 2) Preset JSS using Covariance (Chương 2) FMIJ (Chương 2) AMIJ (Chương 2) FF-AAGCN (Chương 3) Proposed (LW-FF-AAGCN) Proposed (LW-FF-AAGCN JSS-A) Proposed (LW-FF-AAGCN JSS-B) Năm 2013 2014 2017 2018 2019 2019 2019 2019 2019 2020 2020 2019 2019 2021 2021 2021 - Precision Recall 48.68 41.78 45.24 40.58 49.97 47.89 47.64 46.51 61.18 59.28 65.7 65.57 75.82 74.81 77.87 78.52 80.64 81.48 79.73 80.20 81.00 80.97 F1 61 49.18 39.38 62.5 40.34 39.24 46.13 45.23 58.63 65.11 74.9 52.86 60.2 64 64 77.59 80.59 79.56 80.63 Bảng 4.3 Số lượng tham số phép toán CMDFALL TT Phương pháp AAGCN LW-AAGCN FF-AAGCN (Chương 3) LW-FF-AAGCN LW-FF-AAGCN với JSS-A LW-FF-AAGCN với JSS-B FF ✗ ✗ ✓ ✓ ✓ ✓ LW ✗ ✓ ✗ ✓ ✓ ✓ JSS Param 3.74M ✗ 0.66M ✗ 3.75M ✗ 0.66M ✗ 0.66M ✓ 0.66M ✓ FLOPs 50.94G 44.81G 50.98G 44.85G 29.15G 29.15G Có ràng buộc hiệu nhận dạng với độ phức tạp tính tốn phương pháp đề xuất AAGCN Bảng 4.4 Khi đánh giá chéo theo người thực hiện, độ xác phương pháp đề xuất 86,9% AAGCN 88,0% Khi đánh giá chéo theo góc nhìn, độ xác phương pháp đề xuất 92,7% độ xác AAGCN 95,1% Bảng 4.4 So sánh số lượng tham số mơ hình, số lượng phép tốn FLOPs, độ xác (%) NTU RGB+D TT 10 11 12 13 14 15 16 17 18 4.5 Phương pháp LSTM-CNN SR-TSL HCN ST-GCN DCM AS-GCN RA-GCNv1 AGCN RA-GCNv2 AAGCN SAR-NAS AS-RAGCN STAR-64 STAR-128 FF-AAGCN (Chương 3) LW-FF-AAGCN LW-FF-AAGCN JSS-A LW-FF-AAGCN JSS-B Năm Param 2017 60M 2018 19.1M 2018 2.64M 2018 3.1M 2019 10M 2019 7.1M 2019 6.21M 2019 3.47M 2020 6.21M 2020 3.76M 2020 1.3M 2020 4.88M 2021 0.42M 2021 1.26M 2021 3.76M 0.67M 0.66M 0.66M FLOPs 4.2G 16.32G 35.92G 32.8G 18.66G 32.8G 16.43G 10.2G 16.44G 14.26G 7.42G 7.42G CS (%) 82.9 84.8 86.5 81.5 84.5 86.8 85.9 87.3 87.3 88.0 86.4 87.7 81.9 83.4 88.2 86.9 84.1 83.5 CV (%) 90.1 92.4 91.1 88.3 91.3 94.2 93.5 93.7 93.6 95.1 94.3 92.9 88.9 89.0 94.8 92.7 90.1 90.1 Phần mềm demo Trong phần này, ứng dụng phát triển để nhận dạng hoạt động người theo tập MSR-Action3D Do giới hạn thời gian, kết mô-đun nhận dạng hoạt động giới thiệu Các mô-đun liên quan phát hoạt động, đánh giá hoạt động người thực để chấm điểm, đánh giá tập nằm phạm vi nghiên cứu 4.6 Tiểu kết chương Trong chương này, mơ hình rút gọn LW-FF-AAGCN đề xuất Việc lược bớt lớp cho mạng học sâu AAGCN đề xuất với mô-đun kết hợp đặc trưng kỹ thuật lựa chọn tập khớp xác định trước Hai đồ thị định nghĩa cho khớp chọn Đồ thị loại B (JSS-B) với cạnh kết nối khớp đối xứng đạt hiệu cao CMDFALL với số lượng tham số FLOP Kết thử nghiệm cho thấy mơ hình rút gọn với đồ thị loại B (JSS-B) hoạt động tốt phương pháp gốc AAGCN tập liệu nhiều thách thức với số lượng tham số 5,6 lần so với phương pháp gốc Độ phức tạp tính tốn tính theo FLOPs mơ hình đề xuất thấp 3,5 lần so với phương pháp gốc CMDFALL Phương pháp đề xuất sử dụng để phát triển ứng dụng nhận dạng hoạt động người Kết chương gửi đến tạp chí quốc tế ISI, Q1 Multimedia Tools and Applications (MTAP) chờ kết phản biện KẾT LUẬN VÀ HƯỚNG NGHIÊN CỨU TIẾP THEO Kết luận Như vậy, luận án đề xuất phương pháp nhận dạng hoạt động người dựa liệu khung xương Luận án có ba kết Đóng góp luận án việc lựa chọn tập khớp xác định trước tự động giúp nâng cao hiệu nhận dạng hoạt động Trong đóng góp thứ hai, mơ-đun kết hợp đặc trưng đề xuất cho AAGCN để tạo thành FF-AAGCN Mô-đun kết hợp đặc trưng mô-đun tiền xử lý liệu đơn giản hiệu cho mạng học sâu dựa đồ thị, đặc biệt tập liệu khung xương có nhiều nhiễu Phương pháp đề xuất FF-AAGCN vượt trội so với phương pháp gốc CMDFALL, tập liệu có nhiễu liệu khung xương Trên tập liệu lớn NTU RGB+D, FF-AAGCN có hiệu nhận dạng tương đương với AAGCN Đóng góp thứ ba mơ hình rút gọn LW-FF-AAGCN Số lượng tham số mơ hình LW-FFAAGCN 5,6 lần so với phương pháp gốc Mơ hình rút gọn đề xuất phù hợp để phát triển ứng dụng cho thiết bị với lực tính tốn hạn chế Ngồi để minh họa khả ứng dụng phương pháp đề xuất, ứng dụng đánh giá tự động tập xây dựng Hướng nghiên cứu Hướng nghiên cứu luận án bao gồm: Hướng nghiên cứu ngắn hạn • Thực nghiên cứu đánh giá nhiễu liệu khung xương sai số trình ước lượng cảm biến RGB-D • Nghiên cứu độ đo thống kê khác để lựa chọn tập khớp phương sai góc khớp cho mạng học sâu dựa đồ thị • Phát triển mơ hình rút gọn dựa đồ thị để phát triển ứng dụng thiết bị biên Do khả tính tốn bị hạn chế thiết bị biên, nên cần có mơ hình rút gọn đáp ứng u cầu cho ứng dụng thời gian thực • Nghiên cứu khả diễn giải mạng học sâu dựa đồ thị • Nghiên cứu ước lượng khung xương nhằm nâng cao hiệu nhận dạng hoạt động Hướng nghiên cứu dài hạn • Mở rộng phương pháp nhận dạng hoạt động người để áp dụng vào tóan nhận dạng hoạt động liên tục sử dụng liệu khung xương • Mở rộng nghiên cứu từ mạng tích chập đồ thị sang kỹ thuật học sâu hình học Mục đích hướng tới việc xây dựng biểu diễn tốn học chung cho mơ hình học sâu • Phát triển ứng dụng sử dụng mơ hình nhận dạng hoạt động người ứng dụng hỗ trợ người già chăm sóc y tế, giám sát phát hành vi bất thường DANH MỤC CÁC CƠNG TRÌNH ĐÃ CƠNG BỐ CỦA LUẬN ÁN Các hội nghị [C1] Tien-Nam Nguyen, Dinh-Tan Pham, Thi-Lan Le, Hai Vu, and Thanh-Hai Tran (2018), Novel Skeleton-based Action Recognition Using Covariance Descriptors on Most Informative Joints, Proceedings of International Conference on Knowledge and Systems Engineering (KSE 2018), IEEE, Vietnam, ISBN: 978-1-5386-6113-0, pp.50-55, 2018 [C2] Dinh-Tan Pham, Tien-Nam Nguyen, Thi-Lan Le, and Hai Vu (2019), Analyzing Role of Joint Subset Selection in Human Action Recognition, Proceedings of NAFOSTED Conference on Information and Computer Science (NICS 2019), IEEE, Vietnam, ISBN: 9781-7281-5163-2, pp.61-66, 2019 [C3] Dinh-Tan Pham, Tien-Nam Nguyen, Thi-Lan Le, and Hai Vu (2020), SpatioTemporal Representation for Skeleton-based Human Action Recognition, Proceedings of International Conference on Multimedia Analysis and Pattern Recognition (MAPR 2020), IEEE, Vietnam, ISBN: 978-1-7281-6555-4, pp.1-6, 2020 Các tạp chí [J1] Dinh-Tan Pham, Quang-Tien Pham, Thi-Lan Le, and Hai Vu (2021), An Efficient Feature Fusion of Graph Convolutional Networks and its application for Real-Time Traffic Control Gestures Recognition, IEEE Access, ISSN: 2169-3536, pp.121930 - 121943, 2021 (ISI, Q1) [J2] Van-Toi Nguyen, Tien-Nam Nguyen, Thi-Lan Le, Dinh-Tan Pham, and Hai Vu (2020), Adaptive most joint selection and covariance descriptions for a robust skeleton-based human action recognition, Multimedia Tools and Applications (MTAP), Springer, DOI: 10 1007/s11042-02110866-4, pp.1-27, 2021 (ISI, Q1) [J3] Dinh Tan Pham, Thi Phuong Dang, Duc Quang Nguyen, Thi Lan Le, and Hai Vu (2021), Skeleton-based Action Recognition Using Feature Fusion for Spatial-Temporal Graph Convolutional Networks, Journal of Science and Technique, Le Quy Don Technical University (LQDTU-JST), ISSN 1859-0209, pp.7-24, 2021 ... hiệu hoạt động người: Các khớp có vai trị khác hoạt động Mục tiêu xác định kỹ thuật biểu diễn hoạt động nhằm nâng cao hiệu nhận dạng hoạt động • Nâng cao hiệu nhận dạng hoạt động tập liệu khung. .. mạng học sâu phát triển cho nhận dạng hoạt động dựa liệu khung xương Hình 1.1 Các phương pháp đề xuất cho nhận dạng hoạt động sử dụng liệu khung xương 1.6 Một số nghiên cứu nhận dạng hoạt động. .. xương biểu diễn hoạt động cách trực quan Các thể thức liệu trực quan sử dụng phổ biến nhận dạng hoạt động Dữ liệu khung xương lưu trữ thông tin chuyển động khớp xương Dữ liệu khung xương biểu diễn

Ngày đăng: 15/03/2022, 21:46

Mục lục

    BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

    NGHIÊN CỨU CÁC KỸ THUẬT HỌC SÂU TRONG BIỂU DIỄN VÀ NHẬN DẠNG HOẠT ĐỘNG CỦA NGƯỜI TỪ DỮ LIỆU KHUNG XƯƠNG

    Động lực nghiên cứu

    Giới thiệu bài toán

    Giới hạn và phạm vi nghiên cứu

    Cấu trúc của luận án

    1.2 Các thể thức dữ liệu dùng trong nhận dạng hoạt động

    1.3 Thu thập dữ liệu khung xương

    1.4 Các bộ dữ liệu dùng trong đánh giá

    1.5 Nhận dạng hoạt động sử dụng dữ liệu khung xương

Tài liệu cùng người dùng

Tài liệu liên quan