Bài viết đề xuất mô hình học sâu nâng cao (DNN) thông qua mạng lưới Attention dựa trên phân tích khung xương đối tượng trong miền không gian để làm tăng hiệu quả cho bài toán phát hiện chủ thể và nhận dạng hành động.
Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thơng Cơng nghệ Thơng tin (REV-ECIT2021) Mơ Hình Học Sâu Nâng Cao Ứng Dụng Cho Xe Tự Hành Phát Hiện Đối Tượng Nhận Dạng Hành Động Điều Khiển Của Cảnh Sát Giao Thông Hà Mạnh Hùng1 Phạm Thế Anh2, Nguyễn Văn Tới1, Nông Vũ Hiếu1 Khoa Điện Điện Tử, Đại học PHENIKAA, Yên nghĩa, Hà Đông, Hà Nội, 12116, Việt Nam Prover Technology AB, Krukmakargatan, 2111851, Stockholm, Sweden Email: hung.hamanh@phenikaa-uni.edu.vn, the.anh.pham@prover.com, toi.nguyenvan@phenikaa-uni.edu.vn, 20010704@st.phenikaa-uni.edu.vn qua đường v.v., cảnh sát giao thơng điều khiển thơng qua tín hiệu cử để giảm ùn tắc giao thông, hướng dẫn người qua đường an tồn Để hiểu tín hiệu điều khiển cảnh sát giao thơng cần phải hiểu rõ cử chỉ, tư hành động người điều khiển Do đó, nhiều kỹ thuật liên quan đến xác định đối tượng phân loại hành động đề xuất Ví dụ, nhận dạng biển báo giao thơng thực phương pháp tiếp cận dựa màu sắc, dựa hình dạng, thuật toán học máy, phát ánh sáng đo khoảng cách (LiDAR) [5], phát cảnh sát giao thông mạng YOLOv3 [6], nhận dạng cử hành động cảnh sát giao thơng phân tích học máy phương thức trích xuất đặc trưng thủ công kết hợp với mạng nhớ ngắn-dài hạn (LSTM) [7][8] Tóm tắt—Trong báo này, chúng tơi đề xuất mơ hình học sâu nâng cao (DNN) thơng qua mạng lưới Attention dựa phân tích khung xương đối tượng miền không gian để làm tăng hiệu cho toán phát chủ thể nhận dạng hành động DNN bao gồm mạng nơ-ron tích chập (CNN), lớp liên kết không gian Attention (SJA), mạng nơ-ron Attention chiều hồi quy (A_BGRU), hai mạng phân loại (FFN) Lớp SJA liên kết làm bật đặc trưng khớp nối tư đối tượng A_BGRU tạo trọng số Attention theo miền thời gian để làm bật đặc trưng liên kết thời gian Trong mơ hình DNN chúng tôi, FFN lấy đầu A_ BGRU để phân loại hành động chủ thể FFN khác xử lý đầu lớp SJA với majority votting để xác định đối tượng chủ thể Trong trình thử nghiệm, tham số CNN khởi tạo từ đặc trưng kế thừa mạng đào tạo Google Inception V3 với tập liệu ImageNet Kinects Kết cho thấy mô hình DNN đề xuất thực thi liệu cảnh sát giao thơng đạt độ xác trung bình 99,93% phát chủ thể 94,06% phân loại hành động So với mô hình thực thi liệu cảnh sát giao thông đề cập, DNN đạt hiệu suất tương đối vượt trội, ứng dụng để hỗ trợ nhận dạng cho phương tiện tự lái Với nở rộ liệu sức mạnh tính tốn năm gần đây, học sâu trở thành lựa chọn hàng đầu để xây dựng mơ hình nhận dạng Trong phương pháp học máy thơng thường phân tích khả nhận dạng hành động thực theo ba bước chính: trích xuất đặc trưng [9] [10], mô tả chủ thể, diễn giải ngữ nghĩa từ chuỗi hình ảnh RGB [11] Hầu hết phương pháp sử dụng phổ biến dựa Mạng học sâu (DNN), bao gồm Mạng học sâu tích chập (CNN), Mạng hồi quy (RNN), Mạng phân loại (FFN) [12] Ngoài chuỗi đầu vào RGB, đặc trưng chuyển động chủ thể, khung xương liên kết mơ tả tư đầu vào DNN để tạo đặc tính đa dạng dễ phân biệt nhận dạng đạt hiệu cao [11], [13] Để mang lại xác việc mơ hình hóa chủ thể, q trình nhận dạng tập trung đến yếu tố có ý nghĩa quan trọng, liên quan đến đặc trưng nhận dạng để cải thiện độ xác Gần đây, với tiếp cận chế Attention học sâu mang lại hiệu đáng kể cho nhiều mơ hình, tiếp tục thành phần thiếu mơ hình tiến tiến Cơ chế attention đơn giản trung bình có trọng số đặc trưng mà nghĩ cần thiết cho toán, điều đặc biệt trọng số mơ hình tự Từ khóa- Mạng nơ-ron, mạng nơ-ron hồi quy, mạng CNN tích chập, Attention, Khung xương, nhận dạng chủ thể, nhận dạng hành động I GIỚI THIỆU Phân loại nhận dạng đối tượng thành phần quan trọng hệ thống xe tự hành Gần đây, công nghệ có bước tiến lớn, phương tiện tự lái Tesla, BMW, Google v.v sử dụng nhiều cảm biến để nhận biết tình đường nhằm mục đích lái xe tự động hóa đến cấp độ [1] - [4] Để xác định đối tượng chuyển động đa dạng đường, phương tiện phải có kiến thức hành vi ý định đối tượng nhằm đạt an toàn vận hành Hơn nữa, để ứng dụng đến cấp độ thực tế, xảy cố tín hiệu giao thơng, ùn tắc giao thông, người ISBN 978-604-80-5958-3 146 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) học Một số nghiên cứu khảo sát chế Attention mặt không gian DNN để làm bật phận quan trọng vị trí khơng gian trình tự thời gian cho toán nhận dạng [14], [15] [12] chủ thể hành động, major votting [12] [15] sử dụng để nâng cao khả phân biệt chủ thể phân loại hành động Trong nghiên cứu này, tập liệu video clip từ [7] sử dụng để đánh giá mơ hình DNN đề xuất Các kết thử nghiệm xác nhận DNN chúng tơi đạt độ xác trung bình 99,93% 94,06% nhận dạng đối tượng hành động, hiệu suất chúng tơi vượt trội so với mơ hình trước thực tập liệu Do đó, DNN đề xuất ưu tiên sử dụng hệ thống xe tự lái để nhận dạng chủ thể hành động Phần lại báo tổ chức sau: phần II, chúng tơi miêu tả mơ hình đề xuất Trong phần III, đánh giá, thảo luận hiệu hệ thống, cung cấp kết mô Cuối cùng, kết luận báo phần IV Trong thực tế, hành động đơn phụ thuộc vào chủ thể bị ảnh hưởng vùng chứa chủ thể hành động vị trí khung hình Hơn tín hiệu để phát hành động chủ thể xác định khoảng thời gian cần thiết có liên quan đến chuỗi hành động tương ứng Để giải vấn đề này, đề xuất sử dụng chế Attention để tính tốn trọng số liên quan nhiều vùng tác động đến vị trí khơng gian chủ thể thơng qua việc kết hợp với vị trí khớp khung xương chủ thể Đồng thời để làm tăng độ sác, chế Attention tiếp tục áp dụng để trích xuất thông tin cần thiết liên kết tác động theo miền khơng gian giúp mơ hình rà sốt lại tồn video để đưa dự đốn cuối Trong khn khổ báo này, đề xuất mô hình DNN bao gồm mạng tích chập CNN, lớp khơng gian liên kết Atttention (SJA), Bidirectinal GRU dựa Attention (A_BGRU) hai mạng đầy đủ FFN để phát đối tượng nhận dạng hành động cảnh sát giao thông CNN dựa mạng hội tụ huấn luyện mơ hình Google Inception V3 đào tạo tập liệu lớn ImageNet Kinects, nơi áp dụng kỹ thuật học chuyển giao Lớp SJA với chế Attention tích hợp đặc trưng tĩnh từ mạng CNN kết hợp với điểm trích chọn khớp khung xương tư từ đưa kết đầu cho A_BGRU nơi khớp tư cung cấp thông tin tư vật lý chủ thể Cơ chế hoạt động Attention thực A_BGRU lấy kết đầu từ lớp SJA kết đầu đơn vị hidden A_BGRU để điều chỉnh A_BGRU theo trọng số Attention A_BGRU bao gồm hai lớp đảo chiều song song bidirectional Gated Recurrent Unit (GRU) Cuối cùng, có hai mạng truyền thẳng FFN xử lý vectơ đặc trưng từ lớp SJA A_BGRU để nhận dạng II Như thể Hình 1, DNN đề xuất bao gồm mạng tích chập CNN, lớp SJA, A_BGRU hai mạng truyền thẳng FFN thiết kế cho xác định chủ thể nhận dạng hành động Trước hết, video clip chia thành nhiều đoạn video, đoạn xếp chồng lên để tránh hiệu ứng chặn Do kích thước cố định lớp mạng học sâu huấn luyện inception V3, mơ hình đề xuất DNN sử dụng kỹ thuật tiền xử lý chia tỷ lệ kích thước, lấy mẫu tăng giảm, để đáp ứng nhu cầu đầu vào Chuỗi RGB từ đoạn video đầu vào mạng tích chập CNN để tạo đặc trưng tĩnh chứa đặc trưng cấu trúc đối tượng Lớp SJA tạo mô tả không gian hỗ trợ khớp tư khung xương chủ thể A_BGRU liên tục xử lý đầu lớp SJA để tạo vectơ đặc trưng quan trọng không gian-thời gian liên quan đến đối tượng hành độngc đối tượng Cuối cùng, Hình Mơ hình đề xuất DNN cho phân loại đối tượng nhận dạng hành động ISBN 978-604-80-5958-3 MƠ HÌNH HỆ THỐNG ĐỀ XUẤT CHO XE TỰ HÀNH 147 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) hai mạng truyền thẳng FFN sử dụng để phân loại nhận dạng hành động Ngồi ra, cảnh sát giao thơng trích đoạn video xác định major votting kết phân loại từ tất khung hình ảnh tồn video A Tiền xử lý Mỗi video clip RGB chia thành nhiều phân đoạn khoảng thời gian giây Như số khung hình phân đoạn video 15*2 (15 khung hình / giây tập liệu [7]) Các phân đoạn video liền kề tổ chức chồng lên 50%, kích thước khung hình chia thành 299 × 299 pixel Dựa liệu đầu vào RGB, đặc trưng khớp 2D tương ứng khung xương đối tượng trích xuất từ cơng cụ OpenPose khớp tương ứng chủ thể có tọa độ giá trị tin cậy tương ứng 18 điểm khớp [16] Hình Sơ đồ khối mơ hình đề xuất SJA Quá trình hoạt động lớp SJA xây dựng sau 𝑀 𝑠 biểu thị đặc trưng đối tượng tĩnh với kích thước 𝑘 × 𝑘 × 𝐷 P biểu diễn đặc trưng trích xuất tư chủ thể từ khung RGB, với kích thước 18 × Thao tác ghép tầng 𝑀 𝑠 P để trở thành đầu vào cho lớp kết nối đầy đủ với hàm kích hoạt Tanh để thu đầu 𝑘 × 𝑘 × 𝐷, 𝛼, sau: B Mơ Hình Đề Xuất Mạng Học Sâu DNN 1) CNN Đặc Trưng Không Gian Trước huấn luyện, kỹ thuật học chuyển giao áp dụng để hỗ trợ huấn luyện hiệu cách sử dụng kiến thức đào tạo từ trước, sử dụng cấu trúc liên kết mạng để thực việc huấn luyện dựa liệu lớn Theo đó, chúng tơi sử dụng mạng hội tụ mơ hình Google Inception V3 đào tạo tập liệu lớn ImageNet Kinects, tinh chỉnh huấn luyện lại theo phương thức học chuyển giao liệu tín hiệu cảnh sát [7] để tạo đặc trưng tĩnh Trong Hình 1, đặc trưngcủa đối tượng trích xuất từ lớp tổng hợp cuối CNN có khối đối tượng kích thước 𝑘 × 𝑘 × 𝐷, 𝑘 × 𝑘 𝐷 đại diện cho kích thước khung đối tượng chiều không gian đặc trưng trích xuất, tương ứng Ở đây, 𝑘 𝐷 2048 𝛼 = 𝐹𝑐 (𝑀 𝑠 ⨀ 𝑃 ) hàm 𝐹𝑐 ( ) biểu thị cho hàm tính tốn lớp kết nối đầy đủ, ⊛ ⨀ biểu thị cho phép toán nhân phần tử (element-wise multiplication) and toán tử ghép (concatenation operation) Lớp kết nối đầy đủ thực phép toán vector đầu vào với trọng số tương ứng thêm vào biases để trở thành liệu lũy tích, qua hàm Tanh để thu kết đầu Các hoạt động nói nhằm xây dựng mối tương quan đặc trưng đối tượng tĩnh vị trí khớp khung xương Thứ hai, tham số Attention, α, chuẩn hóa theo khung đặc trưng đơn với chiều kích thước 𝑘 × 𝑘 sau, 𝛼̅𝑗,𝑖 = 2) Lớp SJA Để khai phá thơng tin có ý nghĩa đặc trưng giúp phát hành động, tạo lớp SJA mạng tích chập CNN mạng A_BGRU cách trích xuất trọng số tương ứng với thành phần phân biệt hành động vùng khác Lớp SJA, mô tả Hình 2, kết hợp trích chọn đặc trưng tĩnh thơng tin tư chủ thể, tính tốn liệu kết hợp để mang lại trọng số Attention quan trọng sau kết hợp trọng số với đặc trưng đối tượng tĩnh để tạo kết véc tơ khơng gian Attention Bằng cách trích xuất đặc trưng số hành động phụ thuộc vào phần thể chủ thể thay tồn thể vectơ khơng gian Attention với trọng số mơ tả phù hợp có lợi cho phân biệt hành động ISBN 978-604-80-5958-3 (1) 𝑒𝑥𝑝 (𝛼𝑗,𝑖 ) ∑𝑘×𝑘 𝑟=1 𝑒𝑥𝑝(𝛼𝑗,𝑟 ) (2) 𝛼̅𝑗,𝑖 trọng số Attention chuẩn hóa thành phần thứ i khung đặc trưng thứ j 𝜶 = {𝛼𝑗,𝑖 |𝑗 = 1, , 𝑇1 ; 𝑖 = 1, , 𝑘 } Thao tác làm tăng tác động Attention có giá trị dương theo cấp số nhân chuẩn hóa chúng để thu giá trị tương đối quan trọng khung đối tượng Cuối cùng, trọng số Attention chuẩn hóa nhân theo phần tử với thành phần tương ứng đặc trưng đối tượng, 𝑘×𝑘 ̅𝑗𝑠 𝑀 𝑠 = ∑ 𝛼̅𝑗,𝑖 𝑀𝑗,𝑖 (3) 𝑖=1 ̅ 𝒔 = {𝑀 ̅𝑗𝑠 |𝑗 = 1, , 𝑇1 } vector đầu trong 𝑴 không gian Attention lớp SJA Thao tác nhúng Attention chuẩn hóa vào đặc trưng đối tượng tĩnh để làm bật phần đặc trưng quan trọng có liên quan đến hành động nhấn mạnh vùng tác động 148 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) nhiều đến đặc trưng phân loại hành động để đưa dự báo sác khung hình ảnh phân đoạn video đầu vào, tương ứng Kích thước đầu vào hai FFN thỏa mãn đầu SJA A_BGRU Các nơron đầu hai FFN (cảnh sát giao thông người tham gia giao thông) (9 lớp tương đương với tín hiệu điều khiển) để đáp ứng yêu cầu dự đoán phân loại, tương ứng 3) Biểu diễn liên kết thời gian Attention cấu trúc A_BGRU Đầu từ lớp SJA đưa vào mạng A_BGRU nhúng chế Attention để trích rút thông tin không gian-thời gian Một đầu vào A_BGRU vectơ không gian đặc trưng Attention nhấn mạnh vào đặc trưng hành động Ngoài ra, A_BGRU bao gồm cấu trúc GRU hai chiều đơn vị tính tốn trọng số Attention để diễn giải đặc trưng miền thời gian Các mẫu đầu vào bao gồm vectơ không gian atttention trạng thái ẩn GRU A_BGRU Đầu từ đơn vị tính tốn trọng số attention tạo thành tập hợp vectơ ngữ cảnh, C, đầu vào nhúng trọng số attention cho đơn vị GRU Sơ đồ khối A_BGRU đề xuất hiển thị Hình III Trong phần này, tiến hành thực nghiệm liên quan đến mơ hình đề xuất Đầu tiên, chúng tơi giới thiệu sở liệu chuẩn sử dụng để đánh giá hiệu mơ hình cài đặt Tiếp theo chúng tơi trình bày hai kết so sánh, (1) trường hợp cụ thể với mơ hình khác nhận dạng hành động, (2) so sánh hiệu suất phân loại với mơ hình cơng bố [7] Cuối phân tích kết phân biệt người cảnh sát giao thông A Tập liệu đánh giá Trong thử nghiệm này, sở liệu liên quan đến tín hiệu điều khiển cảnh sát giao thông [7] sử dụng với 21 video clip đưa vào (như Hình 4) Các video clip có độ phân giải khung hình 1080 × 1080-pixel tốc độ khung hình 15Hz Ngồi ra, có tám lệnh cử không lệnh mô từ cảnh sát giao thơng, hành động thực từ cử khơng lệnh sang trạng thái lệnh, sau từ trạng thái lệnh sang cử không lệnh nhà ngồi trời Có hai loại trang phục phản quang phổ thông cảnh sát giao thông mặc, trang phục phản quang sử dụng hầu hết video clip trang phục chung xuất hai video clip Quá trình đánh giá hiệu suất phân loại bao gồm 11 video cho huấn luyện 10 video clip dùng để kiểm tra, tuân theo xếp tập liệu [7] để so sánh cách cơng Hình Sơ đồ khối mơ hình đề xuất A_BGRU ̅ 𝑠, Đầu tiên, vector không gian nhúng attention, 𝑀 ghép với trạng thái ẩn GRU A_BGRU để trở thành vector đầu vào cho lớp kết nối đầy đủ với chức kích hoạt tốn tử Tanh Sau tính tốn qua hàm trung bình mũ softmax, đầu từ lớp kết nối đầy đủ tạo trọng số attention Ở đây, mối tương quan vectơ không gian nhúng trọng số attention trạng thái thời gian A_BGRU xây dựng để tìm đặc trưng cần nhấn mạnh vào hành động bước thời gian cụ thể Thứ hai, phép nhân ma trận vectơ không gian nhúng ̅ 𝑠 trọng số attention tương ứng attention, 𝑀 thực để đạt vectơ ngữ cảnh, C, giải đơn vị GRU hai chiều với nhấn mạnh vào phần quan trọng phân đoạn đầu vào Ví dụ đoạn video ̅ 𝑠 cho A_BGRU, cần 30 đầu vào có 30 khung đặc trưng 𝑀 bước thời gian tương ứng để thực tính tốn Ngồi ra, A_BGRU tạo hai liệu đầu từ đường dẫn tới lùi, nối tương ứng để tạo thành vectơ đặc trưng 2n chiều cho lần phân loại n = 2048 Hình Một vài tín hiệu điều khiển hành động liệu cảnh sát giao thông [7] 4) Cấu trúc phân loại FFNs cho phát chủ thể nhận dạng hành động Hai mạng nơ-ron truyền thẳng ba lớp sử dụng để xác định chủ thể nhận dạng hành động dựa ISBN 978-604-80-5958-3 KẾT QUẢ VÀ ĐÁNH GIÁ HIỆU NĂNG HỆ THỐNG 149 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) phân loại sai hành động lệnh Đó số phân đoạn video tạm thời bao gồm hành động lệnh khơng hồn chỉnh, dẫn đến dự đốn sai B Phân tích so sánh kết thực nghiệm Trong mục này, tiến hành đánh giá thành phần mơ hình đề xuất DNN để hiểu đóng góp hiệu suất chúng Ngoài ra, kết thử nghiệm thành phần mơ hình đề xuất DNN thực tập liệu để so sánh thảo luận Mục đích hiểu rõ hiệu suất cải thiện chế attention mơ hình đề xuất SJA A_BGRU, chúng tơi tiến hành đánh giá thực ba loại DNN để ghi nhận hành động DNN Loại 1, đặt tên CNN, bao gồm mạng tích chập mạng nơron truyền thẳng ba lớp để phân loại tham số ban đầu mạng tích chập CNN khởi tạo tham số mạng Inception V3 hội tụ DNN loại 2, đặt tên CNN + SJA, bao gồm DNN loại bổ xung lớp SJA để nâng cao khả nhận dạng hành động khớp tư khung xương chủ thể DNN loại đề xuất, CNN + SJA + A_BGRU, sử dụng DNN Loại A_BGRU Ở đây, A_BGRU bao gồm lớp GRU hai chiều với chế attention, tạo vectơ đầu nối kết đầu từ GRU cuối đường tiến lùi Ngoài ra, lớp phân loại hành động ba loại DNN sử dụng mạng nơ-ron truyền thẳng để dự đốn Nghiên cứu cơng bố [7] sử dụng mạng tích chập trích xuất liệu khung xương sau chuyển đổi qua đặc trưng độ dài góc miền không gian, cuối đào tạo liệu miền thời gian với việc sử dụng mạng LSTM So với độ xác 91,18% từ cơng trình công bố [7], DNN đề xuất cho thấy hiệu suất tốt 2,88% việc sử dụng chế Attention mạng tích chập CNN mạng hồi quy GRU đào tạo liệu RGB kết hợp đặc trưng khung xương Để phân biệt người cảnh sát điều khiển giao thông đường, người mặc đồng phục tương tự áo phản quang xác định cảnh sát giao thông Bảng II hiển thị ma trận nhầm lẫn DNN YOLOv4- tiny [17] đề xuất để xác định đối tượng tổng số 70.000 hình ảnh từ đối tượng ngữ cảnh (COCO), Lớp đối tượng trực quan (VOC) liệu cử tính hiệu điều khiển cảnh sát giao thơng sử dụng để huấn luyện Độ xác cải thiện đáng kể majority votting Trong DNN đề xuất, độ xác nhận biết người cảnh sát 99,86% 100,00% người thực hành động lệnh Lỗi nhận dạng người xuất phát từ hành động cụ thể mà cánh tay, tay chân bàn tay đối tượng che khuất quần áo phản quang để đánh lừa đối tượng phân loại Ở tình thơng thường, người đi qua đường với cử động tác Từ kết thí nghiệm Bảng II, DNN đề xuất có khả hoạt động hứa hẹn cho phân biệt nhận dạng người tham gia giao thông BẢNG 1: HIỆU SUẤT PHÂN LOẠI CỦA BA MƠ HÌNH DNNS Mơ hình DNNs Đầu vào Hiệu xuất phân loại CNN RGB 78.90% CNN+SJA RGB + Pose joints 86.95% RGB + Pose joints 94.06% CNN+SJA+A_BGRU (Mô hình đề xuất DNN) Như liệt kê Bảng I, hiệu suất phân loại DNN Loại I sử dụng mạng tích chập CNN 78,90% Khi lớp SJA thêm vào, tỷ lệ xác tăng lên 86,95% Bởi DNN Loại tiếp cận đặc trưng không gian Attention để liên kết điểm khớp khung xương chủ thể, nhấn mạnh vùng có ý nghĩa để nhận dạng cử tín hiệu điều khiển bỏ qua vùng không liên quan Cũng nhấn mạnh miền không gian, DNN đề xuất sử dụng A_BGRU để làm bật manh mối thông tin miền thời gian có liên kết theo miền khơng gian để thu đặc trưng hành động với độ xác tốt lên đến 94,06% Qua thấy việc kết hợp sử dụng chế Attention dựa mạng tích chập mạng hồi quy đạt kết khả quan Ma trận nhầm lẫn DNN đề xuất liên quan đến hành động mơ tả Hình 5, khơng phải lệnh, dừng lại, di chuyển thẳng, rẽ trái, chờ rẽ trái, rẽ phải, chuyển làn, giảm tốc độ dạt vào lề đường đánh số từ đến Hầu hết hành động lệnh bị ISBN 978-604-80-5958-3 Hình Ma trận nhầm lẫn mơ hình DNN đề xuất cho nhận dạng hành động 150 Hội nghị Quốc gia lần thứ 24 Điện tử, Truyền thông Công nghệ Thông tin (REV-ECIT2021) Bảng 2: Matrận hỗn loạn mơ hình DNN đề xuất YoLov4-tiny cho phát đối tượng TÀI LIỆU THAM KHẢO [1] [2] Người tham null gia giao thơng Đề xuất mơ hình DNN bỏ qua majority voting (imagebased) Cảnh sát 100.00% 0.00% giao thơng Người tham gia 1.58% 98.42% giao thơng Mơ hình đề xuất DNN (video-based) Cảnh sát 100.00% 0.00% giao thông Người tham gia 0.14% 99.86% giao thông YOLOv4-tiny (image-based) Cảnh sát 95.59% 4.20% 0.21% giao thông Người tham gia 0.00% 99.63% 0.37% giao thông YOLOv4-tiny với majority voting (video-based) Cảnh sát 98.01% 1.99% 0.00% giao thông Người tham gia 0% 100.00% 0% giao thông Cảnh sát giao thông IV [3] [4] [5] [6] [7] [8] [9] [10] KẾT LUẬN Trong khuôn khổ báo này, triển khai thành cơng mơ hình mạng DNN sử dụng chuỗi đầu vào RGB kèm với đặc trưng tư để phát đối tượng nhận dạng hành động DNN đề xuất bao gồm mạng tích chập CNN, lớp SJA, A_BGRU hai mạng truyền thẳng FFN Cấu trúc liên kết mạng CNN dựa mơ hình hội tụ Google Inception V3 để tạo đặc trưng đối tượng tĩnh nơi sử dụng kỹ thuật học chuyển giao Lớp SJA hỗ chợ trích xuất đặc trưng cục việc điều chỉnh trọng số attention cách thích ứng khớp tư khung xương miền không gian A_BGRU xử lý kết đầu lớp SJA để thu vectơ đặc trưng không gian-thời gian bật Cuối cùng, hai mạng truyền thẳng FFN hoàn thành việc phân loại đối tượng hành động, dựa khung hình ảnh đoạn video, tương ứng Kết phân loại từ tất hình ảnh đoạn video áp dụng majority votting để dự đoán kết cuối Theo kết thử nghiệm, DNN đề xuất đạt độ xác trung bình 99,93% 94,06%, tương ứng để xác định chủ thể hành động Mơ hình chúng tơi khai thác nhấn mạnh vào đặc trưng hữu ích có tính phân loại hành động Do đó, DNN đề xuất hứa hẹn mơ hình tối ưu để phát chủ thể hiểu đối tượng thực nhiệm vụ áp dụng cho hệ thống xe tự hành ISBN 978-604-80-5958-3 [11] [12] [13] [14] [15] [16] [17] 151 Tesla, https://www.tesla.com/autopilot BMW, https://www.bmw.com/en/automotive-life/autonomousdriving.html Google's Waymo, https://waymo.com/ H Zhu, K Yuen, L Mihaylova, and H Leung, “Overview of environment perception for intelligent vehicles,” IEEE Transactions on Intelligent Transportation Systems, vol 18, no 10, pp 2584-2601, Oct 2017 C Liu, S Li, F Chang, and Y Wang, “Machine vision based traffic sign detection methods: Review, analyses and perspectives,” IEEE Access, July 17, 2019 (Digital Object Identifier 10.1109/ACCESS.2019.2924947) Y Zheng et al, “A method of detect traffic police in complex scenes,” in Proc of the 14th International Conference on Computational Intelligence and Security, pp 83-87, 2018 J He, C Zhang, X He, and R Dong, “Visual recognition of traffic police gestures with convolutional pose machine and handcrafted features,” Neurocomputing, no 390, pp 248–259, 2020 Manh-Hung Ha and Osacl T C Chen "Action Recognition Improved by Correlation and Attention of Subjects and Scene," in Proceedings of the IEEE Visual Communications and Image Processing (VCIP), 2021 (Accepted) O T.-C Chen, C.-H Tsai, H H Manh, and W.-C Lai, "Activity recognition using a panoramic camera for homecare." in Proceedings of 14th IEEE International Conference on Advanced Video and Signal Based Surveillance, pp 1-6, 2017 O T.-C Chen, H H Manh, and W.-C Lai, “Activity recognition of multiple subjects for homecare,” in Proceedings of the 10th International Conference on Knowledge and Smart Technology, pp 242–247, 2018 P Turaga, R Chellappa, V S Subrahmanian, and O Udrea, “Machinerecognition of human activities: A survey,” IEEE Transactions on Circuits and Systems for Video technology, vol 18, no 11, pp 1473–1488, 2008 Manh-Hung Ha and Osacl T C Chen, “Deep neural networks using capsule networks and skeleton-based attentions for action recognition,” IEEE Access, vol 9, pp 6164–6178, January 2021 S Das, A Chaudhary, F Bremond, and M Thonnat, “Where to focus on for human action recognition?” in IEEE Winter Conference on Applications of Computer Vision, pp 71–80, 2019 D Li, T Yao, L.-Y Duan, T Mei, and Y Rui, “Unified spatiotemporal attention networks for action recognition in videos,” IEEE Transactions on Multimedia, vol 21, no 2, pp 416–428, 2019 O T.-C Chen, M.-H Ha, and Y L Lee, "Computationaffordable recognition system for activity identification using a smart phone at home," in Proceedings of the IEEE International Symposium on Circuits and Systems, pp 1-5, 2020 Z Cao, T Simon, S.-E Wei, and Y Sheikh, “Realtime multiperson 2d pose estimation using part affinity fields,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp 7291–7299, 2017 Jiang, Z., Zhao, L., Li, S., & Jia, Y Real-time object detection method based on improved YOLOv4-tiny arXiv preprint arXiv:2011.04244, 2020 ... liên quan đến đối tượng hành độngc đối tượng Cuối cùng, Hình Mơ hình đề xuất DNN cho phân loại đối tượng nhận dạng hành động ISBN 978-604-80-5958-3 MÔ HÌNH HỆ THỐNG ĐỀ XUẤT CHO XE TỰ HÀNH 147 Hội... ứng để tạo thành vectơ đặc trưng 2n chiều cho lần phân loại n = 2048 Hình Một vài tín hiệu điều khiển hành động liệu cảnh sát giao thông [7] 4) Cấu trúc phân loại FFNs cho phát chủ thể nhận dạng. .. để phát đối tượng nhận dạng hành động cảnh sát giao thông CNN dựa mạng hội tụ huấn luyện mơ hình Google Inception V3 đào tạo tập liệu lớn ImageNet Kinects, nơi áp dụng kỹ thuật học chuyển giao