1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn

88 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Tác giả Đào Đức Quang
Người hướng dẫn TS. Ngô Đức Thanh
Trường học Trường Đại học Công nghệ Thông tin, Đại học Quốc gia TP HCM
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2024
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 88
Dung lượng 59,81 MB

Nội dung

6.1 Minh họa giao diện chương trình demo trong việc nhận diện hành ứng với mỗi góc nhìn theo như mô tả của cuộc thi và nhận được kết quả nhận diện như bên dưới6.2_ Mô tả đầu ra sau khi t

Trang 1

ĐẠI HỌC QUOC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

—————#›2*œ8&————

ĐÀO ĐỨC QUANG

LUẬN VAN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH

Mã số: 8 48 01 01

THÀNH PHÓ HÒ CHÍ MINH - 2024

Trang 2

ĐẠI HỌC QUOC GIA TP HCM

5) * CR

UIT-HCM

DAO DUC QUANG

NHAN DANG HANH VI MAT TAP TRUNG CUA TAI XE TRONG VIDEO THEO HUONG TIEP CAN DA GOC NHIN

LUAN VAN THAC SI NGANH KHOA HQC MAY TINH

Mã số: 8 48 01 01

NGUOI HUONG DAN KHOA HOC

TS NGO DUC THANH

THÀNH PHO HO CHÍ MINH - 2024

Trang 3

DANH SÁCH HỘI ĐÒNG PHẢN BIỆN

Hội đồng Phản biện Luận văn Thạc sĩ được thành lập theo quyết định số ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin

Trang 4

Lời cảm ơn

Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc tới Thay Ngô Đức Thanh,

người đã tận tình hướng dẫn, cung cấp kiến thức quý báu trong suốt

quá trình thực hiện luận văn.

Tôi cũng xin bày tỏ lòng biết ơn sâu sắc đến các thầy cô trong bộ môn,

những người đã không chỉ truyền đạt kiến thức quý báu mà còn tạo

điều kiện tốt nhất cho tôi trong suốt quá trình học tại trường Nhữngkiến thức và kinh nghiệm mà tôi học được từ các thầy cô là tài sản vô

giá trong sự nghiệp nghiên cứu và phát triển chuyên môn của bản thân

Đồng thời, tôi cũng xin cảm ơn các bạn đồng môn, những người bạn

đã cùng tôi trao đổi, chia sé và cùng nhau vượt qua những thử tháchtrong suốt quá trình học tập

Đặc biệt, tôi xin gửi lời cảm ơn chân thành nhất đến bà xã yêu quý,

Phạm Thị Thu Hằng Cảm ơn em đã luôn bên cạnh, động viên và hỗ trợ

tôi trong mọi hoàn cảnh Sự quan tâm và yêu thương của em là động

lực to lớn giúp tôi vượt qua mọi khó khăn trong học tập và cuộc sống.Cuối cùng, không thể không nhắc đến gia đình yêu quý của tôi, nguồn

cảm hứng và sức mạnh vô hình Cam ơn cha mẹ đã luôn tin tưởng, ủng

hộ và tạo mọi điều kiện để tôi theo đuổi ước mơ của mình và đã luôn làchỗ dựa tinh thần cho tôi

Tôi xin chân thành cảm ơn tất cả mọi người đã giúp đỡ, hỗ trợ và gópphần vào sự thành công của luận văn này Mọi công sức và tình cảm

mà mọi người dành cho tôi sẽ được tôi ghi nhớ mãi mãi.

Ký tên

Đào Đức Quang

Trang 5

Lời cam đoan

Tôi xin cam đoan luận văn này là công trình nghiên cứu của tôi và

những nội dung được trình bày trong luận văn này là hoàn toàn trung

thực Các cá nhân, tổ chức hỗ trợ tôi trong quá trình thực hiện luậnvăn đã được đề cập đến trong Lời cảm ơn Các công trình khoa họcđược tôi tham khảo có trích dẫn rõ ràng và liệt kê cụ thể, chính xáctrong phần Tài liệu tham khảo Tôi hoàn toàn chịu trách nhiệm về tính

xác thực của luận văn này.

Ký tên

Đào Đức Quang

Trang 6

Tóm tắt

Việc hiểu được hành vi của con người một cách tự động ngày càng trở

nên quan trọng trong lĩnh vực công nghệ và truyền thông hiện đại Đặc

biệt, với sự bùng nổ của mạng xã hội và các phương tiện truyền thông mới, việc tạo ra và xử lý nội dung video đã trở nên phổ biến từ đó đãthu hút rất nhiều các nghiên cứu liên quan

Một trong những ứng dụng nổi bật của công nghệ thị giác máy tính là

nhận diện hành vi từ video, trong đó có bài toán nhỏ hơn là nhận diện

lái xe bất thường, bao gồm những hoạt động phân tâm như sử dụngđiện thoại, ăn uống, và thảo luận trong khi lái xe Những hành vi này

đã được chứng minh là nguyên nhân của nhiều vụ tai nạn giao thong

nghiêm trọng.

Một trong những thách thức lón trong việc phát hiện hành vi này là

thiếu hut dt liệu gan nhãn chất lượng cao Sự thiếu hut này can trở

đáng kể quá trình phát triển các mô hình hiệu quả Cuộc thi AICity Challenge đã cung cấp một bộ dữ liệu phong phú từ 3 góccamera được bố trí xong xe, mở rộng và thúc đẩy cơ hội nghiên cứu trong lĩnh vực này Các phương pháp hiện tại để xác định thời điểmnày còn nhiều hạn chế, chủ yếu dựa trên dữ liệu từ một camera duynhất nên khó có thể xác định những hành vi bị che khuất hoặc mơ hồ,dẫn đến những dự đoán không chính xác do hạn chế về góc nhìn hoặc

tính không rõ ràng của hành vi.

Nhóm của Zhou đã đề xuất một phương pháp sử dụng ViT |7| đãđược tiền huấn luyện bằng phương pháp VideoMAE giúp nhận diệnhành vi và tổng hợp thông tin từ các góc nhìn camera và đã đạt kết

quả cao trong cuộc thi AI City năm 2023 Tuy nhiên, một trong những

hạn chế của phương pháp này là cách tổng hợp thông tin từ các góc nhìn video còn quá adhoc và khó có thể tổng quát hóa Mục tiêu của luận văn này là để khắc phụ hạn chế trên và giúp phương pháp này có thể áp dụng rộng rãi hơn mà không cần phải tinh chỉnh thủ công lại

cho từng bài toán.

Trang 7

2.1 Nhận diện hành vi tài xế bằng dáng ngồi 11

2.2 Nhận diện hành vi trong video sử dụng việc khai thác multi-view| 12

2.3 Nhận diện hành vi mất tập trung của tài xế trong video! 13

2.3.1 Cuộc thi AI City Challenge 2023) 13

2.3.2 Một số tap dữ liệu liên quan bài toán 15

2.3.2.1 Tập dữ liệu ActivityNel 15

2.3.2.2 Tập dữ lệu Kinelcsl 16

Am V 17

2.3.2.4 Tập dữ lệu SynDD2| 18 23.3 Độ đo đánh giá| cv 19

2.3.4 Hướng tiếp cận bài toán 21

23.41 Nhóm Meituan 21

ii

Trang 8

2.3.4.2 Nhóm jJNU| 21 2.3.4 Nhóm Victtell 22

3 Multi View Action Recognition for Distracted Driver Behavior

25

3.1 Tong quan phương pháp| - 25

3.2 Nhận diện hành vi) 0 0 0000040 eee 26

3.3 Khai thác thông tin đa góc nhìn| 30

3.3.1 Tiền xửlý[ cv 30

3.3.2 Tổng hợp thong tin 32

3.4 Hauxttlyp 2 Qua 33

3.5 Phương pháp đề xuất cho việc khai thác da góc nhìn

3.5.2 Tổng hợp trọng số dựa vào kết quả sưm _ os3.5.3 Chi lay trọng số dựa vào góc nhìn có kết quả tốt nhất(maz_ os)

3.5.4 Scale kết quả dựa vào maz_ os

3.6 Kết chương ay gm «@ .\À / 38

4 Thực nghiệm va phân tích 39

>- ` Ta 39

4.1.1 Tap dữ liệu dùng để finetune mô hình nhận diện 39

4.1.2 Tap dữ liệu test) 2.2 00 40

4.1.3 Tập dữ liệu đáp án (ground truth) của bộ dữ liệu A2| 41

Trang 9

4.4.1 Tổng hợp tham số bằng cách scaling theo max os|

4.4.2 Tổng hợp tham số bằng max os[

443 Kết luận|

45 Kết chuong)

5 Kết luận và hướng phát triển 5.1 Kết quả đạt được|

5.2 Hướng phát trién| .

6 Phu luc

6.2 Ứng dụng minh hoa

6.3 Minh hoa kết quả đầu ra

'Tài liệu tham khảo

6.1 Cấu trúc file nộp cho bai thi

1V

53 56

59

59

61

61 61

63

63 64 64

67

Trang 10

Danh sách hình vẽ

11 Mô tả mỗi hành vi có thể biểu diễn bằng nhiều góc nhìn khác

1.2 Mô tả bài toán đối với video chưa được cắt sẵn Yêu cầu của bài

toán là từ video đầu vào ngẫu nhiên, nhận diện được các hànhđộng đang được quan tâm cùng với thời điểm bắt đầu và kết thúc

| —_ của chúng |

1.3 Minh họa bài toán nhận điện hành vi mat tập trung của tài xế

tập trung khi lái xe cần được nhận diện cùng với thời điểm bắt đầu và kết thúc của chúng Thời điểm xảy ra hành vi có thể ngẫu nhiên ở bất kì thời điểm trong video với độ dài khác nhau.

1.4 Mô tả minh họa tổng hợp thông tin từ nhiều góc nhìn cần được

xử lý nhiễu do mỗi camera có thể có một dự đoán khác nhau gt

là đáp án còn zmaz_ label là hành vi có độ tin cậy tốt nhất nhậndiện được Các khoảng trắng là hành vi lái xe bình thường.|

1.5 Thách thức trong việc nhận diện hành vi mất tập của tài xế

với một góc nhìn camera Ở video này khó có thể xác định được tài xế đang bấm điện thoại hay đang điều chỉnh bảng điều khiển

Te

1.6 Mô tả hành vi nói chuyện với người sau lung khá mơ hồ, có thể

nhầm lan với hành vi nói chuyện với người bên ghế bên phải.|

1.7 Mô tả các góc nhìn khác nhau sẽ dễ nhận diện các hành vi khác

nhau Dối với hành vi Adjusting Control pane camera rig

Trang 11

_— trích được từ các góc nhìn |14|

2.3 Đầu vào của bài toán là là 3 đoạn video ứng với 3 góc nhìn va

đầu Ta là nhận, hành vi bat thường ứng với bang £-lichne vi Hài

mm>————————

2.4 Mô tả một số tập dữ liệu phổ biến 33|Ì

2.5 Minh họa cho bộ dữ liệu ActivityNet được thu thập từ internet.

2.6 Minh họa bộ dữ liệu Kinetics được thu thập từ internet.

pa Vie ame 1: Dashboard, 2: Rightside, 3: Rearview

Minh hoa ae dữ liệu SynDD2 được quay từ camera ở các vi trí

"a4 19

2.10 Kết quả mos của các nhóm trong cuộc thi AI City 20232.11 Sơ đồ xử lý chung của nhóm Meituan Dữ liệu đầu vào sẽ được

chia nhỏ thành những đoạn không trùng nhau và dưa vào bộ nhận

điện đã được finetune trên tập dữ liệu SynDD2 với mỗi góc nhìn với kĩ thuật k-fold Sau khi đi qua bộ suy diễn sẽ thu được k bộ

dự đoán cho mỗi giây ứng với 16 label cho mỗi view Sau đó đem

lấy trung bình độ tin cậy (confident score) ứng với xác suất giây

thứ t là label thứ n Kế tiếp sẽ được đưa vào bộ tổng hợp và phân đoạn để xử lý và đưa ra kết quả cuối cùng.

2.12 Mô hình xử lý chung của đội JNU 17] Clip đầu vào của mỗi góc

nhìn sẽ được chia thành những snippet nhỏ trùng nhau sau đó đi

qua mô hình nhận diện hành vi và được tổng hợp dựa vào phân phối Gauss Sau đó kết quả sẽ được tổng hợp và sàng lọc và đưa

Te y

2.13 Mô tả bộ nhận diện chung cho một góc nhìn của đội Viettel 27)

-Video đầu vào sẽ được cắt thành nhiều clip nhỏ sau đó được huấn

luyện qua kĩ thuật k-fold với bộ nhận diện X3] Sau đó các dự

đoán sẽ được tổng hợp và hậu xử lý để đưa ra kết quả cuối cùng 2.14 Mô tả cách đội Viettel tong hợp thông tin từ các góc nhìn Các

kết quả dự đoán của từng fold sẽ được lấy trung bình để ra được

dự đoán theo từng view Sau đó các kết quả dự đoán theo từng

Trang 12

3 góc nhìn sẽ được chia thành những đoạn nhỏ sau đó được dua

qua bộ nhận diện riêng đã được huấn luyện cho từng góc nhìn

Sau đó kết quả sẽ được đưa qua bộ tổng hợp thông tin các góc

nhìn Cuối cùng kết quả sẽ được đưa vào bộ hậu xử lý dùng đểgop và sàng lọc các dự đoán và đưa ra kết quả dự đoán cuối cùng.| 26

chia ra nhiều phần nhỏ sao đó được đưa vào bộ mã hóa và đưavào bộ Transformer tiêu chuẩn Để nhận diện hình ảnh, mô hình

có thêm một bộ nhận diện có thể huấn luyện được Bộ Encoder

_ 27

3.3 So sánh về độ chính xác của mô hình ViT khi được tiền huấn

luyện trên những tập dữ liệu có kích thước lớn dần Nhìn chung

ta có thể thấy được ở tập dữ liệu nhỏ, khoảng dưới 30 triệu mẫu

thì CNN có hiệu quả tốt hơn, tuy nhiên, khi dữ liệu được huấnluyện với 100 triệu mau thì ViT cho kết quả tốt hơn ¬

3.4 Mô tả cấu trúc của VideoMAE.Dau tiên, các khung hình đầu vào

được giảm số lượng khung hinh (temporal downsampling) và sửdụng cube embeding dé đạt được các video token Sau đó chúng

được đi qua bộ che theo tube masking với cùng một cách che cho

tất cả khung hình với tỉ lệ cao (từ 75%) để tiền huấn luyện bộ mã

hóa (encoder) Backbone lúc đó được sử dụng là ViT với sự chú ý

theo không và thời gian (joint space-time attention).

3.5 Mô tả phương pháp finetune Tap dữ liệu Al bao gồm 25 tài xế

sẽ được chia thành k nhóm tài xế Sau đó kĩ thuật k-fold được sửdụng dé finetune ra k mô hình ứng với mỗi view| 293.6 Một phần dữ liệu đầu ra của một góc nhìn Với mỗi góc camera,

bộ nhận diện sẽ cho đầu ra là xác suất của tất cả các hành vi tạicác thời điểm tương ứng cho tất cả các góc nhìn ứng với mỗi dòng trong hình tong cộng sẽ có views x k kết quả dau ra như thé này3.7 Mô tả cách mô hình xử lý dữ liệu đầu và trước khi assemble

3.8 Minh hoa một phần kết quả trả về từ model sau khi suy diễn với

vii

Trang 13

3.9 Kết quả của mỗi view sau khi qua bước tiền xử lý sẽ tiếp tục được

đua vào khối khai thác thông tin đa góc 1 nhn|

3.10 Tổng quan hương pháp hậu xử lý | Che we doin cin or oan]

clip ngắn sé được hau xử ly bằng cách gop các dự đoán nằm gầnnhau và loại những dự đoán quá ngắn| 343.11 Mô tả cách thức chung cho phương pháp hậu xử lý Ban đầu, với

mỗi clip ngắn các dự đoán có confident score thấp sẽ bị loại bỏ

Tiếp theo các dự đoán này sẽ được gom lại làm một nếu xungquanh nó là cùng một hành vi Cuối cùng các dự đoán ngắn so

4.1 Mô tả ghi chú của bộ dữ liệu đấpán| 40

4.2 Mô tả ví dụ về dữ liệu đáp án của tập dữ liệu Al

4.3 Tóm tắt độ dài các hình vi trong tập AI

4.4 Tóm tắt độ dài các hình vi trong tập A2

4.5 Mô tả phan bổ các nhãn trong bộ dữ liệu Al Da số các nhãn đều

có thời lượng rải rác nhưng về độ tập trung thi có class hay label

1,7,9,10 là tương đối ngắn dưới 8 giây, có một số hành vi chỉ kéo

dài hoặc 2 giây, còn lai chủ yếu giao động từ 8 đến 21 giây

4.6 Các phiên ban của Vision Transformer

4.7 Mô tả kết quả nhận diện trên tập Al đối với khi nhận diện trên

từng góc nhìn Nhìn chung góc nhìn right view có kết quả tệ nhất

ở hầu hết các hành vi dash và rear có kết quả gần như nhau

4.8 Mô tả so sánh hiện quả nhận diện (mos) đối với các phương

pháp tổng hợp Phương pháp tính trọng số bằng cách scaling với max _os dat được kết quả tổng quát tốt nhất.

4.9 Mô tả tổng quan kết quả nhận diện (mos) trên tập A2 đối với

các phương pháp tổng hợp thông tin các góc nhìn Phương pháp tổng hợp bằng trọng số với cách chia cho mazos đạt hiệu quả tong quan tốt nhất tuy nhiên với một số hành vi cu thể vẫn cònchưa tốt hơn các phương pháp còn lại ví như Labell3 đạt kết qua

1m 51 4.10 Mo tả tỉ lệ thay đổi kết quả so với phương pháp gốc Ta có thể

thay được đối với Label 04 cải thiện đến 45% so với phương pháp

với kết quả gốc mặc dù các phương pháp tính trung bình đạt hiệu

quả tương đương với phương pháp gốc| 92

vill

Trang 14

4.12 Minh họa kết quả nhận diện trước và sau khi khai thác multi-view

giữa phương pháp tổng hợp gốc và phương pháp scaling theo

eee bebe beet eee 54

4.13 Đối với hành vi Label_ 04 "Eating", cách tổng hợp gốc do không

tăng độ tự tin lên nên những thông tin nhận diện được từ dash

hay rear bi coi là nhiễu nên bị bỏ qua Phương pháp scaling theo

max _os do tăng cường kết quả nhận diện nên sau khi tổng hợpvẫn bắt được các thông tin) cố 544.14 Đối với hành vi Label 13 "Yawning", kết quả nhận diện của các

góc camera khác là "Normal" Chỉ có camera dash là cho rằng đây

là hành vi bất thường Phương pháp của tác giả đối với hành vi

Label 13 này chỉ lây thông tin từ view dashboard nên khi tổng hợp

thông tin có kết quả tốt hơn phương pháp scaling bằng maz_os4.15 Đối với hành vi Label 14 "Hand on head"do nhiễu từ camera dash

và right nên nên khi tổng hợp thông tin bằng maz_ scaling một

phần dự đoán trở thành Label 3 "Phone (Left) "dẫn đến kết quảnhận diện không tốt hơn phương pháp cơ sở.| 59

4.16 Tong quan so sánh giữa phương pháp tổng hợp baseline và maz _ os

Nhìn chung không tốt hơn phương pháp cơ sở ở mọi mat nhưng

có cùng xu hướng với phương pháp cơ sở.| 56

4.17 Minh họa kết quả nhận diện trước va sau khi khai thác multi-view

giữa phương pháp tổng hợp gốc và phương pháp chọn thông tin

ee B7

4.18 Minh hoa tổng hợp thông tin dựa vào chọn lựa kết quả tốt nhất

(maz— os) so với phương pháp cơ sở Do chọn được camera có dự

đoán gần giống đáp án nhất nên đã cải thiện được kết quả nhận

m>———————— 58

max_os không đúng camera có nhận diện giống với đáp án nên

ma 58

4.20 Mô tả tổng hợp view bằng max_ os đối với hành vi Label 14 Đối

với hành vi này, maz_os chọn camera right đối với Label 14 (do

1X

Trang 15

4.21 Phương pháp tổng hợp tự động nhìn chung tương đồng với phương

pháp gốc ở những Label khác, tuy nhiên có sự khác biệt ở cácLabel 04, 13, 14 đã tao ra sự khác biệt trong kết quả tổng hợp.|.

6.1 Minh họa giao diện chương trình demo trong việc nhận diện hành

ứng với mỗi góc nhìn theo như mô tả của cuộc thi và nhận được

kết quả nhận diện như bên dưới6.2_ Mô tả đầu ra sau khi tổng hợp các view của phương pháp tổng

hợp bằng cách scaling theo bằng rmaz_ os Hành vi số 4 được cảithiện tuy nhiên hành vi 13 và 14 chưa đươc tốt lắm so với phương

"ốẶ.ằẰ ăn 65

Trang 16

Danh sách bảng

4.1 Tổng quan thời lượng theo giây của các hành vi trong tập dữ liệu

Al cùng với số lượng mau ứng với từng góc nhìn Phần lớn mỗi

video đều có 1 hành vi tương ứng đã loại đi hành vi lái xe bình

dash

Trọng số mặc định ấu việc tổng hợp multi view là wi

wre” = 0.3," — 0.4 Sau đó tác giả tiến hành tỉnh chỉnh đối

xI

Trang 17

4.10 Mô tả trọng số w? ứng với từng Label_ ¡ và view v dựa vào scaling

theo zmaz_ os từ kết quả Bảng |4.5| Bộ tham số này sẽ cho ra file

có tên là A2_ weight devide by max avg ioul

4.12 Một số trọng số w? của phương pháp cơ sở và phương pháp chọn

view có kết quả tốt 6.1 So sánh hiệu quả các phương pháp tổng hợp trọng số tự động 66

Trang 18

nhất.| -Bảng các cụm từ viết tắt

Viết tắt Mô tả day đủ

CNN Convolutional Neural Network DNN Deep Neural Network

RNN Recurrent Neural Networks LSTM Long Short-Term Memory

CRNN Convolutional Recurrent Neural Network

AP Average Precision

GPU Graphics Processing Unit

imageMAE image Masked auto-encoders videoMAE Video Masked auto-encoders

HAR Human Activity Recognition TAL Temporal Action Localization

NLP Natural Language Processing

Vit Vision transformer

MLP Multilayer Perceptron

Al Artificial Intelligent

AR Action Recognition dash góc nhìn trực diện hay dashboard right góc nhìn bên phải hay right view rear góc nhìn bên hông hay rear view

Bảng 1: Danh sách viết tắt và mô tả đầy đủ

xII

Trang 19

Chương 1

Giới thiệu đề tài

1.1 Tổng quan

1.1.1 Nhận diện hành vi trong videos

Mạng xã hội và sự phát triển của các thiết bị kĩ thuật số đã thúc đẩy sự tăng lên đáng kể của dữ liệu video Từ sự đa dạng và phong phú của dữ liệu video, việcphân tích và thấu hiều hành vi từ video đang trở thành một lĩnh vực nghiên cứu

quan trọng trong thị giác máy tính (3|[20)(28)[31][33}.

Có rat nhiều yếu tố ảnh hưởng đến việc nhận diện hành vi như độ phan giải,ánh sáng của môi trường xung quanh, tốc độ khung hình, đối tượng đang đượcquan sát có thể bị che khuất.

Ngoài ra sự khác biệt về vóc dáng con người, kĩ thuật của nhân vật có thể tạo

ra vô số biểu diễn cho một hành vi của con người ví dụ như một động viên chơi

thể thao sẽ rất khác với một người bình thường cùng chơi môn thể thao đó Hay chỉ đơn giản là đổi góc của camera hay đổi từ camera màu thành camera chiều

sâu cũng đã có thể tạo ra một biểu diễn khác của hành động (Hình [.1).

Bài toán tổng quát yêu cầu xây dựng các hệ thống có khả năng giải quyết cácvấn đề trên và tự động nhận diện và phân loại các hành vi hay hành động chọnlọc được yêu cầu nhận điện Diều này bao gồm việc xử lý các video đầu vào,phát hiện các hành vi cụ thể từ một danh sách quan tâm của đối tượng trongvideo và gắn nhãn cho chúng Mục tiêu là xác định được các hành vi và hoạt

động đang diễn ra trong video một cách tự động và chính xác.

Trang 20

Cam04 Cam05 Cam06 PTZ04 PTZ06

ObjectThrow

Hình 1.1: Mô ta mỗi hành vi có thể biểu diễn bằng nhiều góc nhìn khác nhau.

Dữ liệu đầu vào thường là hình ảnh hoặc video được ghi từ các camera quansát Các đoạn video này có thể được cắt sẵn (trimed) hoặc chưa được cắt sẵn

đạt được nhiều thành tựu đáng kể đối với loại video này BÌ: Tuy nhiên, trong

thực tế, hay trong các video được ghi hình sẵn phần lớn dữ liệu video là chưa

được cắt sẵn

Video chưa được cắt sin mặt khác là những đoạn video dài có thể chứa nhiều

hành động (Hình [1.2] ), thời điểm trước hành động, chuyển giao giữa các hành

động đều bao gồm trong đoạn video, ngoài ra độ dài của hành động cũng ngẫunhiên có thể chỉ vài giây hoặc có thể kéo dài vài phút Ngoài ra hành vi đang được quan tâm có thể chiếm một phần rất nhỏ trong toàn bộ video Kết quả

đầu ra của video này sẽ là vị trí thời gian của hành động hay nói cách khác là

Trang 21

No Action of Interest | Action Detected : Long Jump No Action of Interest

` AC Time

Action Start Action End

Action Instances of Various Lengths

ä I

| Action 1 | | Action2 |! Action 3 Action 4

Ỹ Ỹ Ỹ Ỹ Y tự HH

Start End Start End Start End Start End) Dung:

Hình 1.2: Mô ta bài toán đối với video chưa được cắt sẵn Yêu cầu của bài toán

là từ video đầu vào ngẫu nhiên, nhận diện được các hành động đang được quantâm cùng với thời điểm bắt đầu và kết thúc của chúng.

thời điểm bắt đầu và kết thúc cùng với nhãn của hành động Điều này dẫn đếnbài toán nhận diện hành vi sử dụng video chưa cắt sẵn có độ phức tạp cao hơnnhiều so với bài toán nhận diện hành vi trong video đã cắt sẵn Đề tài nghiêncứu này sẽ chủ yếu tập trung vào việc nhận diện hành vi dựa trên video chưađược cắt sẵn

1.1.2 Bài toán nhận diện hành vi mất tập trung của tài

xế

Bài toán nhận diện hành vi mất tập trung của tài xế là một trong những bài

toán con của bài toán nhận diện hành vi trong videos với tập hợp các hành vi

được quan tâm đến là các hành vi mất tập trung của tài xế (Hình Cuộc thi

AT City nhắm đến việc sử dụng AI để cải thiện việc vận hành trong môi trường thực tế để có thể ứng dụng làm nền tảng để phát triển thành phố thông

minh Một trong những tac vu trong đó là cải thiện sự hiệu quả và an toàn khi

tham gia giao thông bằng cách nhận diện các hành mất tập trung khi lái xe

được giới thiệu lần đầu vào cuộc thi năm 2022 (29) Cuộc thi nay đã thu hút 508

đội vào năm 2023 tăng gấp đôi so với 254 đội vào năm 2022 từ 46 quốc gia khác

Trang 22

Distracted: Phone (Left)

Y Y oa

Bat dau Kết thúc. Thời gian

Hành vi mat tập trung có thé có nhiều độ

dài khác nhau và ở vị trí bất kì

M M v v M

>

Bắt đầu Kết thúc Bắt dau Kết thúc Bắt đầu Kết thúc Ti8i@=m

nhau trên toàn thế giới cho thấy được sự quan tâm ngày càng tăng đối với nhucầu này

Ngoài ra cuộc thi này cung cấp bộ dữ liệu thu thập từ 3 camera được bé trí ở

3 vị trí khác nhau xung quanh tài xế cung cấp một bộ dữ liệu ghi lại hành vi củatài xế ở nhiều góc độ khác nhau cho ta một cái nhìn tổng quát hơn so với một góc nhìn riêng biệt.Cuộc thi yêu cầu xác định thời điểm và nhận diện 16 hành vi

mắt tập trung của tài xế (Hinh|1.3) ví dụ như nhắn tin, ăn, uống, nghe điện thoại.

Từ việc giải quyết vấn đề nhận diện hành vi lái xe mất tập trung sẽ giúpchúng ta tạo ra các công cụ để theo dõi và đánh giá hành vi của tài xế một cáchhiệu quả Điều này rất quan trọng trong việc sớm phát hiện các tài xế không

tập trung, giúp đưa ra các cảnh báo kịp thời giúp đảm bảo an toàn trên đường.

Các camera được lắp trên xe sẽ liên tục ghi lại hình ảnh và video về tài xế từnhiều góc nhìn khác nhau giúp ta có thể nghiên cứu và phân tích hiệu quả hơn các hành vi mất tập trung có thể gây nguy hiểm cho việc tham gia giao thông.

Thành công trong việc giải bài toán này không chỉ làm tăng an toàn giao thông

mà còn có thể hỗ trợ việc phát triển các hệ thống cảnh báo sớm các hành vi

Trang 23

nguy hiểm làm giảm nguy cơ tai nạn và bảo vệ tính mạng của nhiều người tham

gia giao thông mỗi ngày.

1.1.3 Các thách thức của bài toán nhận diện hành vi mat

tập trung của tài xế

Các thác thức chính của bài toán nhận diện hành vi mất tập trung của tài xế

như sau:

e Hệ thống phải nhận diện được một hoặc nhiều hành vi trong 1 đoạn clip

chưa được rút gọn (untrim video) đòi hỏi các phương pháp rất phức tạp và

khó có thể áp dụng vào thực tế ki.

e Thông thường việc xác định thời gian xảy ra hành vi thường chỉ được sử

dụng trên 1 góc nhìn của video dẫn đến mô hình có thể không nhậndiện được hành vi trên những góc nhìn khác ngoài ra cần một phương pháp

để tổng hợp thông tin từ các góc nhìn khác nhau Hình |1.4|cho thấy ta cần

một phương pháp thích hợp cho việc xử lý nhiễu từ dự đoán của mỗi camera.

e Góc nhìn của một camera có thể không nhận diện được đúng hành vi (Hình

ngay cả việc gán nhãn thủ công vẫn khó có thể nhận biết được hành vi

nào Từ hình[1.7|ta có thể thấy được mỗi camera có thể nhận diện ra một

kết quả khác nhau tùy thuộc vào độ bao quát của góc camera với hành vi

e Các hành vi của con người có thể rất mơ hồ hoặc nhiều biểu hiện khác nhau

cho cùng hành vi dẫn đến việc khó nhận diện hay phân biệt được hành vi

(Hình

e Các hành vi mất tập trung diễn ra gần nhau rất khó có thể nhận diện được

thời gian bắt đầu và kết thúc của hành vi, một phần thời lượng video là cóchứa hành vi mất tập trung còn phần lớn thời gian là hành vi lái xe bìnhthường Hình cho thấy được hành vi có thể ở bất kì thời điểm nào ở đoạn video và có thể có độ dài ngắn khác nhau.

e Tập dữ liệu dùng để huấn luyện khá nhỏ so với số lượng hành vi cần nhận

diện dẫn đến mô hình có thể dễ dàng gặp vấn đề học vẹt (overfit) Chỉ

khoảng 755 mẫu cho 16 hành vi tương đương với việc mỗi hành vi chỉ có

khoảng 47 mẫu so với các bộ dữ liệu dùng để huấn luyện hành vi khác.

b

Trang 24

0 Class Probabilities for Video ID: 8 - View: dash

08 _

06 Boa

= 06

8

Boa E

Hình 1.4: Mô tả minh họa tổng hợp thông tin từ nhiều góc nhìn cần được xử

lý nhiễu do mỗi camera có thể có một dự đoán khác nhau gt là dp ấn cònmazx_label là hành vi có độ tin cậy tốt nhất nhận diện được Các khoảng trắng

là hành vi lái xe bình thường.

Hình 1.5: Thách thức trong việc nhận diện hành vi mất tập trung của tài xế với

một góc nhìn camera Ở video này khó có thể xác định được tài xế đang bấm điện thoại hay đang điều chỉnh bảng điều khiển vì tay bị che khuất

Trang 25

Hình 1.6: Mô tả hành vi nói chuyện với người sau lưng khá mơ hồ, có thể nhầmlẫn với hành vi nói chuyện với người bên ghế bên phải.

1.1.4 Nhận diện hành vi với hướng tiếp cận đa góc nhìn

(multi-view)

Đôi khi nếu chỉ lắp một camera để nhận diện hành vi có thể không đánh giá

khách quan được hành vi (Hinh|1.7) của tài xế vì góc camera có thể bị che khuất

bởi các vật trên xe như vô lăng hoặc có thể bị các vật dụng trên xe che khuất,việc lắp đặt ba camera trên xe cũng giúp chúng ta nhìn thấy được nhiều góckhác nhau qua đó đánh giá hành vi của tài xế một cách chính xác hơn so với chỉdùng một camera Hình cho thấy được khi đổi góc nhìn khác ta có thể quan sát được đầy đủ hành vi của tài xế và có thêm thông tin để đánh giá chính xáchành vi của tài xế

Thông tin nhận hiện từ các góc camera (Hình 1.4) có rất nhiều nhiễu và mỗi

góc camera có thể cho ra một dự đoán khác nhau cho cùng một thời điểm Từ

đó cần có phương pháp tổng hợp thông tin thích hợp cho dữ liệu thu được đểđạt được kết quả nhận diện tốt nhất

1.1.5 Phạm vi

Pham vi khuôn khổ của luận văn gói gọn trong các yêu cầu của cuộc thi AI City

như sau:

Trang 26

Hanh vi “Adjusting Control Pannel”

Hình 1.7: Mô ta các góc nhìn khác nhau sẽ dễ nhận diện các hành vi khác nhau.

Đối với hành vi Adjusting Control pane camera right side sẽ thấy được tươngtác giữa tài xế với bảng điều khiển còn các góc camera khác thì bị che khuất.Đối với hành vi Text thì dashboard và rear view bị che mat tay cầm điện thoại,chỉ có right side là thấy được rõ hành vi

e Bai toán đề tài luận văn này chủ yếu tập trung vào là nhận diện 16 hành vi

mất tập trung trong bang [2.1] của tài xế cùng với thời gian bắt đầu và kết

thúc của chúng ví dụ như nhắn tin, gọi điện thoại, vươn ra phía sau từ 3đoạn video Các video này được thu thập được từ 3 góc camera được bố trínhư hình |2.8Ìvà ghi hình đồng thời nhau

e Ngoài dữ liệu cuộc thi cung cấp, các đội không được phép sử dụng thêm dữ

liệu bên ngoài để huấn luyện mô hình Các mô hình đã được pretrain sẵn thì vẫn có thể sử dụng được.

e Hành vi được ghi hình bởi tài xế thực hiện trong xe đang đứng im và không

có hành khách trong xe.

e Dề tài tập trung vào việc nhận diện được thời điểm bắt đầu và kết thúc

trong đoạn video chưa được cắt sẵn thu đươc từ 3 góc nhìn của camera

trong xe.

e Dề tài tập trung vào các phương pháp hậu xử lý giúp cho việc tổng hợp các

dự đoán từ các video thu thập được từ 3 góc nhìn hiệu quả nhất và giảm

thiểu việc phải chỉnh thủ công các tham số (Hình |I.4).

8

Trang 27

1.2 Mục tiêu và các đóng góp

1.21 Mục tiêu

Mục tiêu chính của luận văn này bao gồm:

e Nghiên cứu các thuật toán SOTA từ cuộc thi và xây dựng giải pháp hiệu

quả cho bài toán này dựa vào SOTA Cải thiện độ chính xác trong việc nhận

điện thời điểm tài xế thực hiện các hành vi mất tập trung trong bang [2.1].

Với dữ liệu huấn luyện từ 3 góc nhìn của camera (dashboard, rearview, right

view) được ghi hình chỉ có tài xế trong xe 6 tô đứng yên Hướng tiếp cận sẽ

dựa vào việc cải thiện hậu xử lý và khai thác multi-view.

e Xây dựng được ứng dụng minh họa sử dụng mô hình đã cải tiến người dùng

có thể upload video và nhận được kết quả trả về về thời điểm bắt đầu vàkết thúc của hành vi mất tập trung

1.2.2 Các đóng góp chính

Đóng góp quan trọng của luận văn này có thể tổng kết như sau:

e Báo cáo các kĩ thuật của các phương pháp SOTA đang được sử dụng cho

việc tăng cường hiệu quả nhận diện hành vi mất tập trung của bài toán.Cùng với đề xuất cải tiến cho phương pháp tổng hợp kết quả nhận diện của

tác giả thay vì việc phải chọn hệ số một cách thủ công.

e Kết quả thực nghiệm, so sánh và đánh giá của các phương pháp.

e Chương trình minh họa sử dụng mô hình đã được cải tiến trong việc nhận

diện hành vi tài xế mất tập trung Người dùng có thể input video và chương trình sẽ trả về kết quả thời điểm mất tập trung của tài xế.

1.3 Bo cục luận văn

Luận văn này gồm 5 chương với bố cục như sau:

e Chương 1: Nội dung chương 1 bao gồm các thông tin tổng quan giới thiệu

về bài toán, các thách thức đã gặp phải trong quá trình thực hiện luận văn,

Trang 28

mục tiêu và phạm vi được đặt ra khi thực hiện luận văn này và tóm tắt các

đóng góp chính của luận văn.

e Chương 2: Trong chương 2 sẽ giới thiệu về bài toán của cuộc thi cùng với

một số các nghiên cứu có liên quan đến bài toán bao gồm các phương pháp

và tập dữ liệu liên quan đã tham khảo qua Kết chương sẽ là lý do chọn

phương phap cơ sở.

e Chương 3: Phương pháp cơ sở và phương pháp đề xuất sẽ được giới thiệu

trong chương này Mở đầu bằng tổng quan về phương pháp cơ sở va đi dầnsâu vào chỉ tiết của từng thành phần có trong phương pháp đã đề xuất Cuốichương sẽ mô tả về phương pháp được đề xuất

e Chương 4: Trong chương 4, tập dữ liệu được sử dụng cho việc thực nghiệm,

độ đo cho từng bài toán, phương pháp huấn luyện và kết quả đánh giá củaphương pháp đã được đề xuất sẽ được giới thiệu, tiếp theo đó sẽ là phân

tích về kết quả đạt được.

e Chương 5: Tại chương 5 sẽ là tổng kết lai eác nội dung đã thực hiện và bàn

luận về hướng mà luận văn có thể phát triển thêm trong tương lai.

10

Trang 29

Chương 2

Các nghiên cứu liên quan

Nhận diện hành vi của con người trong video đã trở thành một trong những đềtài được nghiên cứu sôi nổi trong lĩnh vực trí thông minh nhân tạo bởi tính ứng dụng cao của chúng trong cuộc sống đời thường Sự da dạng trong việc biểu diễn

hành vi làm cho việc nhận diện hành vi trở thành một bài toán phức tạp Với sự

ra đời của các mô hình CNN lớn như C3D [26] SlowFast , Transformer nhu

Vision Transformer |7| và các biến thể khác như MViT (sj, Swin Transformer ;

Video Vision Transformer |2| đã mở ra thêm nhiều phương pháp hơn trong việc

nhận diện hành vi con người.

2.1 Nhận diện hành vi tài xế bằng dáng ngồi

Weights

111 Original Learned Using

i — CoiyNet eo Em A Genetic Algorithm

Trang 30

Một cách tiếp cận bài toán nhận diện hành vi khác là bằng cách tổng hợp thôngtin nhận diện từ nhiều bộ nhận diện khác nhau Ý tưởng của nhóm tác giả lànếu nhận diện tốt được tư thế của tài xế (tay và mặt) thì có thể nhận diện tốt

hơn hành vi của tài xế trong đó có hành vi lái xe mất tập trung.

Hướng tiếp cận của nhóm tác giả (Hình [2.1) là sử dụng mô hình nhận diện

tay và mặt để trích ra hình ảnh về tay và mặt sau đó đưa qua một bộ nhận diện tay hoặc mặt hoặc cả tay và mặt sau đó từ kết quả trích xuất được sẽ được tổng hợp lại bằng một bộ trọng số có thể học được.

2.2 Nhận diện hành vi trong video sử dụng việc

multi-12

Trang 31

số này sẽ được đưa qua bộ phân loại Naive Bayes cho việc đưa ra kết quả cuốicùng Tổng quan phương pháp được mô tả ở hình

Kết quả thử nghiệm đạt hiệu quả cao trên các tập dữ liệu như HMDB51, UCF

Sprots, cho thấy được việc tong hợp thông tin từ nhiều góc nhìn giúp cải thiện

hiệu quả nhận diện các hành vi.

2.3 Nhận diện hành vi mất tập trung của tài

xê trong video

2.3.1 Cuộc thi AT City Challenge 2023

Track 3 của AI City Challenge cung cấp cảnh quay video của tài xế trong xe,

bao gồm ba góc nhìn khác nhau được gắn ở các vị trí trong xe như hình [2.8] và

chứa 16 loại hành động lái xe khác nhau như trong bang [2.1] dua trên các video

với tổng thời lượng là 10 tiếng được thu thập từ 10 tài xế ngẫu nhiên, xác địnhcác chi tiết về hoạt động bất thường Các chi tiết này bao gồm nhãn của hành vi,

thời gian bắt đầu và kết thúc của chúng và thông tin tệp video tương ứng theo

mẫu ở mục Hình 2.9]mo tả ba loại góc nhìn camera trong xe, và Hình

cho thấy cách lắp đặt camera Mặc dù nhãn cho hành vi lái xe "Normal"được

liệt kê trong bang [2.1] nhưng nó không phải hành vi được quan tâm đến Bai

toán này có thể chia làm hai bài toán nhỏ hơn là nhận diện hành vi và xác định

vị trí của hành vi.

Các nghiên cứu lái xe tự nhiên rất quan trọng trong việc cải thiện an toàntrong việc tham gia giao thông Chúng có thể giúp nắm bắt và phân tích hành vicủa tài xế trong môi trường giao thông và phát hiện sự phân tâm của tài xế khilái xe, đây là một trong những yếu tố then chốt để giảm lái xe mất tập trung.

Bài toán nhắm tới việc nhận diện được thời điểm và phân loại hành vi mấttập trung của tài xế với mô tả như sau:

e Input:

— video tài xế ở góc nhìn rear

— video tài xế ở góc nhìn dashboard

— video tài xế ở góc nhìn right view

— Danh sách các loại hành vi cần nhận diện

15

Trang 32

e Output:

— Nhãn của hành vi

— Thời điểm bắt đầu và kết thúc của hành vi cần nhận diện

Cu thể về quy định về nội dung của output được dé cập trong phụ lục

Right video stream

Detector

“Rear video stream ”” hành vi mất tập trung

| & bắt đầu và kết thúc

Hình 2.3: Dau vào của bài toán là là 3 đoạn video ứng với 3 góc nhìn và đầu ra

là nhãn hành vi bất thường ứng với bang [2.1] cùng với thời gian bắt đầu và kết

thúc.

Label | Distracted driver behavior Label Distracted driver behavior

0 Normal 8 Adjusting Control Pannel

1 Drinking 9 Picking up from floor (Driver)

2 Phone Call (Right) 10 Picking up from floor (Passenger)

3 Phone call (Left) 11 Talking to passenger at the right

4 Eating 12 Talking to passenger at backseat

5 Texting (Right) 13 Yawning

6 Texting (Left) 14 Hand on head

7 Reaching behind 15 Singing or dance with music

Bang 2.1: Danh sách các hành vi cần nhận diện

14

Trang 33

2.3.2 Một số tập dữ liệu liên quan bài toán

Các phương pháp học sâu thường sẽ được cải thiện độ chính xác khi lượng dữ

liệu được sử dụng để huấn luyện tăng lên Điều này tương tự với bài toán nhận

diện hành vi hay nói cách khác, chúng ta cần bộ dữ liệu lớn và được gán nhãn

để có thể huấn luyện và đánh giá được những mô hình hiệu quả Thông thường,

bộ dữ liệu thường được xây dựng theo quy trình sau:

1 Định nghĩa danh sách hành động

2 Thu thập dữ liệu từ nhiều nguồn

3 Cung cấp nhãn về thời điểm bắt đầu và kết thúc của hành động thủ công

4 Làm sạch bộ dữ liệu bằng cách loại bỏ dữ liệu trùng lặp và nhiễu

Hình [2.4] mô tả một số bộ dữ liệu phổ biến được sử dụng để đánh giá độ hiệu

quả của các mô hình.

Dataset Year | #Samples | Ave Len | # Actions

HMDBS5I [109] 2011 7K ~5s 51

UCF101 [190] 2012 13.3K ~6s 101

Sports 1M [99] 2014 1.1M ~5.5m 487 ActivityNet [40] 2015 28K [5, 10}m 200

YouTube8M [1] 2016 8M 229.6s 3862

Charades [186] 2016 9.8K 30.1s 157 Kinetics400 [100] | 2017 306K 10s 400 Kinetics600 [12] 2018 482K 10s 600 Kinetics700 [13] 2019 650K 10s 700

Sth-Sth V1 [69] 2017 108.5K [2, 6]s 174 Sth-Sth V2 [69] 2017 | 220.8K [2, 6]s 174

AVA [70] 2017 385K 15m 80 AVA-kinetics [117] | 2020 624K 15m, 10s 80

MIT [142] 2018 1M 3s 339 HACS Clips [267] | 2019 1.55M 2s 200 HVU [34] 2020 572K 10s 739

AViD [165] 2020 450K [3, 15]s 887

Hình 2.4: Mô tả một số tap dữ liệu phổ biến

2.3.2.1 Tập dữ liệu ActivityNet

Được giới thiệu lần đầu vào năm 2015 và series ActivityNet (Hình P.5} đã có

nhiều phiên bản kể từ lần đầu ra mắt Phiên ban mới nhất là ActivityNet 200

15

Trang 34

(V.13) bao gồm 200 hành động của người trong cuộc sống hằng ngày Bộ dữ liệunày được thiết kế để hỗ trợ việc nghiên cứu và phát triển các thuật toán phân

tích và nhận dạng hành động ở cấp độ video Tập dữ liệu này bao gồm một loạt

các video từ Youtube với các hành động được gán nhãn ở từng video Nó bao

gồm 10,024 mẫu dữ liệu training, 4,926 mẫu dữ liệu validate và 5,024 mẫu dữliệu test trung bình mỗi hành vi có 137 mẫu dữ liệu video chưa được cắt sẵn và

1.41 hành vi mỗi video {33}.

Tạp dữ liệu này thường được sử dụng để huấn luyện và đánh giá các mô hình

hoc máy va hoc sâu trong việc nhận dạng hành động, phân tích hành vi, và thậm

chí cả tổng hợp hành động.

pop OR Và

(Pre

Personal care Grooming oneself ~=——> Brushing teeth

Hình 2.5: Minh hoa cho bộ dữ liệu ActivityNet được thu thập từ internet.

2.3.2.2 Tập dữ liệu Kinetics

Hình 2.6: Minh họa bộ dữ liệu Kinetics được thu thập từ internet.

Series dữ liệu Kinetics là một trong những bộ dữ liệu được áp dụng rộng rãi cho

việc đánh giá Bộ dữ liệu Kinetics400 [I3| (Hình |2.6) được giới thiệu lần đầu vào

năm 2017 và nó bao gồm 240 ngàn mau training, 20k mau testing đã được cắt sẵn

16

Trang 35

thành 10 giây Chúng được thu thập từ 400 loại hành động của con người diễn ra

hằng ngày Bộ dữ liệu này ngày càng được mở rộng với Kinetics-600 |5| vào năm

2018 với 480 ngàn mau và Kinetics700vao năm 2019 với 650 ngàn mẫu .

Kinetics thường xuyên được dùng trong các nghiên cứu tiên tiến về nhận dạnghành động, giúp cải thiện độ chính xác và khả năng tổng quát hóa của các môhình trong tình huống thực tế

2.3.2.3 Tap dữ liệu AVA

Hình 2.7: Mô ta tập dữ liệu AVA đươc thu thập từ internet

Tap dữ liệu AVA được giới thiệu vào năm 2017 và trở thành bộ dữ liệu đầutiên quy mô lớn về nhận diện diện hành vi N6 bao gồm 430 video với độ dai

trung bình 15 phút và 80 hành vi ở mức độ nguyên tử tức những hành động cơ

bản nhất mà con người thực hiện trong đời sống hằng ngày được thu thập từcác bộ phim thực tế giúp mang lại sự đa dạng về các hành vi trong đời sống,ngoài ra bộ dữ liệu còn có các nhãn liên quan đến tương tác ví dụ như ngườivới vật, người với người rất hữu ích cho việc huấn luyện mô hình hiểu được bốicảnh, nội dung của video Các nhãn được gắn theo mỗi khung hình quan trọng(key-frame) dẫn đến có tới 200k mẫu hình ảnh cho huấn luyện, 57k mẫu cho việcxác thực (validation) và 120k mẫu cho việc kiểm tra và đánh giá.

AVA là một bộ lữ liệu nhiều thách thức thường được sử dụng để phát triển các mô hình có khả năng hiểu và phân tích hành động ở mức độ tinh tế hơn, hỗ

17

Trang 36

trợ các nghiên cứu về tương tác người với người, người với đồ vật và những tìnhhuống tương tự

2.3.2.4 Tập dữ liệu SynDD2

Tập dữ liệu (SynDD2 PH) do cuộc thi AI City challenge cung cấp gồm 210

video được thu thập từ 3ð tài xế Mỗi tài xế sẽ thực hiện 1 trong 16 hành vi trong

bảng [2.1] theo trình tự ngẫu nhiên va độ dài hành vi một cách ngẫu nhiên Tai

xế sẽ đươc chỉ dẫn về thời điểm bắt đầu và kết thúc của hành vi bằng tiếng beep

và loại hành vi bằng cách phát ra âm thanh sử dụng google text-to-speech [23].

Các hành vi này được thu đồng thời từ 3 camera ứng với 3 góc nhìn được bố

trí như Hình |Ð.8|trong xe đứng yên Mỗi tài xế sẽ thực hiện việc thu thập dữ liệu

2 lần, lần đầu không có vật cẩn (ví dụ như kính ram, mũ), lần sau có vat can

Như vậy mỗi tài xế sẽ có tổng cộng 6 video ứng với 2 lần thu thập dữ liệu và 3

góc nhìn ứng với tổng cộng 210 video với tổng độ dài 34 giờ (hơn 9 phút/video)với độ phân giải 1920 x 1080 với tốc độ khung hình là 30 FPS và được đồng bộ

thời gian thủ công trên cả 3 camera.

Tạp dữ liệu này có thể được sử dụng để đánh giá các mô hình nhận diện hoặc phân tích hình vi của tài xế Từ đó có thể giúp các nhà nghiên cứu thiết kế

18

Trang 37

(a) Dashboard (b) RearView (c) Rightside

Hình 2.9: Minh họa tập dữ liệu SynDD2 được quay từ camera ở các vi trí của

max (min(ge, pe) — max(gs, ps), 0)

max(ge, pe) — min(gs, ps)

0s(p,g) = (2.3)

Trong đó gọi ø là đáp án, với thời gian bắt dau gs, thời gian kết thúc ge và nhãnhành vi gl, p là dự đoán gần nhất có cùng mã hành vi với ø nếu nó có kết quảos(p,g) lớn nhất trong đó pl là nhãn hành vi dự đoán trùng với gl, thời gian batđầu ps, thời gian kết thúc pe lần lượt nằm trong khoảng [gs — 10s, gs + 10s] và[ge — 10s, ge + 10s] Độ trùng khớp os là tỉ lệ trùng lặp về thời gian của dự đoán

p và dap án g Đối với tất cả các đáp án khác hành vi hoặc nằm ngoài khoảngcho phép đều có độ trùng khớp là 0

Công thức để tính độ trùng lặp của video x được mô tả như sau:

1video_os(x) = n(G,) , s> ae (2.4)

19

Trang 38

16 14 TUE [3] 0.4849

Hình 2.10: Kết quả mos của các nhóm trong cuộc thi AI City 2023

Khi đó kết quả cuối cùng sẽ là trung bình độ trùng khớp mos của tất cả các

video Theo công thức sau:

Kết quả của các đội thi được mô ta ở hình |2.10| Đội có thành tích tốt nhất

Meituan sử dụng phương phap học tự giám sát trên mô hình lớn đã được

tiền huấn luyện cho việc nhận diện hành vi và thuật toán và thuật toán dùng

để gộp và sàng lọc cho việc xác định thời điểm bắt đầu và kết thúc cho các góc nhìn và đạt được điểm số mos = 0.7416 Theo sau đó là đội JNU sử dụngmô-đun chỉnh sửa xác xuất xảy ra hành vi cho việc nhận diện, và một cơ chế lọc

tùy biến cho từng loại hành vi vào việc xác định thời điểm Đội đạt giải ba lỗ

sử dụng mô dun transformer kết hợp local attention và global attention nhưngchỉ sử dụng trên góc camera dashboard và rear view do chúng có kết quả nhậndiện tốt nhất

20

Trang 39

2.3.4 Hướng tiếp cận bài toán

2.3.4.1 7 Nhóm Meituan

Y tưởng của nhóm là finetune mô hình nhận diện hành vi lớn (cụ thể là

Video-MAE) trên tập dữ liệu của cuộc thi với từng góc nhìn của camera, các mô hình

này đã được tiền huấn luyện sẵn Để tránh việc model bị overfit do tập dữ liệu dùng để finetune khá nhỏ so vơi số lượng hành vi, nhóm tác giả đã sử dụng phương pháp k-fold Sau đó kết quả nhận diện của từng góc nhìn sẽ được tổng

hợp bằng trọng số với từng góc nhìn ứng với từng hành vi và hậu xử lý để dưa

ra kết quả cuối cùng Hình 2.11] mô tả các bước xử lý của nhóm đã được minh

họa lại rõ hơn.

hành vi mất tap trung

& bắt đầu và kết thúc

Hình 2.11: Sơ đồ xử lý chung của nhóm Meituan Dữ liệu đầu vào sẽ được chia

nhỏ thành những đoạn không trùng nhau và đưa vào bộ nhận diện đã được

finetune trên tập dữ liệu SynDD2 với mỗi góc nhìn với kĩ thuật k-fold Sau khi

đi qua bộ suy diễn sẽ thu được k bộ dự đoán cho mỗi giây ứng với 16 label cho

mỗi view Sau đó đem lấy trung bình độ tin cậy (confident score) ứng với xácsuất giây thứ t là label thứ n Kế tiếp sẽ được đưa vào bộ tổng hợp và phân đoạn để xử lý và đưa ra kết quả cuối cùng.

2.3.4.2 Nhóm JNU

Ý tưởng chính của nhóm là sử dung mô hình nhận điện cho từng góc nhìn của

camera trên từng đoạn video và sau đó tổng hợp thông tin dựa trên độ tin cậycủa khung hình với phân phối Gauss Video đầu vào sẽ đươc chia thành những

đoạn nhỏ trùng nhau và được đưa qua mô hình nhận diện hành vi Do dữ liệu

của cuộc thi khá nhỏ nên tác giả sử dụng X3D (9| cho việc nhận diện hành vi vì

mô hình này được xây dựng dựa trên MobileNet nên nhẹ và có số lượng tham số

nhỏ Sau đó, với từng frame sẽ được đánh giá độ tin cậy bằng phân phối Gauss

21

Trang 40

Frame Class 7 x 1

eS

Action Probability Calibration

Different Sampling and Training Strategies

Manning Ne

Manning ON y ig

M fapping why

ea ơn

Hình 2.12: Mô hình xử lý chung của đội JNU [17] Clip đầu vào của mỗi góc

nhìn sẽ được chia thành những snippet nhỏ trùng nhau sau đó đi qua mô hình

nhận diện hành vi và được tổng hợp dựa vào phân phối Gauss Sau đó kết quả

sẽ được tổng hợp và sàng lọc và đưa ra kết quả cuối cùng

với frame nằm chính giữa đoạn video nhỏ sẽ là frame có độ tin cậy cao nhất Sau

đó thông tin dự đoán sẽ được tổng hợp bằng trọng số của từng góc nhìn, độ tin cậy của mỗi hành vi Tiếp theo sàng lọc kết quả để thu được kết quả cuối cùng.

Video Clip ++ = Prob.Labeln - :

X3D — Prob Label † Post-Processing

ỉ H 1 eee ! Action

i ! | ¡ _ | Segment

H h X3D h Long t

Input Video |——>; Video Ci ¡KFold |_Prob.Labeln | [* |Ensemble Temporal | ——*‡

| ¬ F—®— - | Pmi P : Localizatlon Ị Action

Hình 2.13: Mô tả bộ nhận diện chung cho một góc nhìn của đội Viettel (27).

Video đầu vào sẽ được cắt thành nhiều clip nhỏ sau đó được huấn luyện qua kithuật k-fold với bộ nhận diện X3D Sau đó các dự đoán sẽ được tổng hợp và hậu

xử lý để đưa ra kết quả cuối cùng

Ý tưởng của nhóm Viettel, doi đạt giải nhất ở cuộc thi năm 2022 |22| là sẽ huấn

luyện mô hình cho mỗi góc nhìn với bộ nhận diện nhỏ nhẹ là X3D bằng k-fold

22

Ngày đăng: 08/11/2024, 17:11

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Yehya Abouelnaga, Hesham M. Eraqi, and Mohamed N. Moustafa. Real-timedistracted driver posture classification, 2018 Khác
[2] Anurag Arnab, Mostafa Dehghani, Georg Heigold, Chen Sun, Mario Luéié¢,and Cordelia Schmid. Vivit: A video vision transformer. In Proceedings of the IEEE/CVE international conference on computer vision, pages 6836-6846,2021 Khác
[3] Djamila Romaissa Beddiar, Brahim Nini, Mohammad Sabokrou, and Abde-nour Hadid. Vision-based human activity recognition: a survey. MultimediaTools and Applications, 79(41):30509-30555, 11 2020 Khác
[4] Fabian Caba Heilbron, Victor Escorcia, Bernard Ghanem, and Juan Car-los Niebles. Activitynet: A large-scale video benchmark for human activity understanding. In Proceedings of the icee conference on computer vision and pattern recognition, pages 961-970, 2015 Khác
[5] Joao Carreira, Eric Noland, Andras Banki-Horvath, Chloe Hillier, and An- drew Zisserman. A short note about kinetics-600, 2018.|6] Xiaodong Dong, Ruijie Zhao, Hao Sun, Dong Wu, Jin Wang, Xuyang Zhou,Jiang Liu, Shun Cui, and Zhongjiang He. Multi-attention transformer for naturalistic driving action recognition. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 5434-5440,2023 Khác
[7] Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn,Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale, 2021 Khác
[8] Haoqi Fan, Bo Xiong, Karttikeya Mangalam, Yanghao Li, Zhicheng Yan,Jitendra Malik, and Christoph Feichtenhofer. Multiscale vision transformers.In Proceedings of the IEEE/CVF international conference on computervision, pages 6824-6835, 2021 Khác
[9] Christoph Feichtenhofer. X3d: Expanding architectures for efficient video recognition. In Proceedings of the IEEE/CVF conference on computer visionand pattern recognition, pages 203-213, 2020 Khác
[10] Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, and Kaiming He. Slow- fast networks for video recognition. In Proceedings of the IEEE/CVF inter-national conference on computer vision, pages 6202-6211, 2019 Khác
[11] Kaiming He, Xinlei Chen, Saining Xie, Yanghao Li, Piotr Dollar, and RossGirshick. Masked autoencoders are scalable vision learners. In Proceedingsof the IEEE/CVF conference on computer vision and pattern recognition,pages 16000-16009, 2022 Khác
[12] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residuallearning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770-778, 2016 Khác
[13] Will Kay, Joao Carreira, Karen Simonyan, Brian Zhang, Chloe Hillier,Sudheendra Vijayanarasimhan, Fabio Viola, Tim Green, Trevor Back, Paul Natsev, Mustafa Suleyman, and Andrew Zisserman. The kinetics human action video dataset, 2017 Khác
(14) Muhammad Attique Khan, Kashif Javed, Sajid Ali Khan, Tanzila Saba,Usman Habib, Junaid Ali Khan, and Aagqif Afzaal Abbasi. Human action recognition using fusion of multiview and deep features: an application tovideo surveillance. Multimedia tools and applications, 83(5):148§5—14911,2024 Khác
[15] Ang Li, Meghana Thotakuri, David A. Ross, João Carreira, AlexanderVostrikov, and Andrew Zisserman. The ava-kinetics localized human actions video dataset, 2020 Khác
[16] Kunchang Li, Yali Wang, Yinan He, Yizhuo Li, Yi Wang, Limin Wang, andYu Qiao. Uniformerv2: Spatiotemporal learning by arming image vits with video uniformer. arXiv preprint arXtv:2211.09552, 2022 Khác
[17] Rongchang Li, Cong Wu, Linze Li, Zhongwei Shen, Tianyang Xu, Xiao-junWu, Xi Li, Jiwen Lu, and Josef Kittler. Action probability calibration for efficient naturalistic driving action localization. In Proceedings of theIEEE/CVF Conference on Computer Vision and Pattern Recognition, pages5269-5276, 2023 Khác
[18] Wenhui Li, Yongkang Wong, An-An Liu, Yang Li, Yu-Ting Su, and MohanKankanhalli. Multi-camera action dataset for cross-camera action recogni- tion benchmarking. In 2017 IEEE Winter Conference on Applications ofComputer Vision (WACV). IEEE, March 2017 Khác
[19] Ze Liu, Han Hu, Yutong Lin, Zhuliang Yao, Zhenda Xie, Yixuan Wei, JiaNing, Yue Cao, Zheng Zhang, Li Dong, et al. Swin transformer v2: Scalingup capacity and resolution. In Proceedings of the IEEE/CVF conference oncomputer vision and pattern recognition, pages 12009-12019, 2022 Khác
[20] L. Minh Dang, Kyungbok Min, Hanxiang Wang, Md. Jalil Piran, Cheol Hee Lee, and Hyeonjoon Moon. Sensor-based and vision-based human activity recognition: A comprehensive survey. Pattern Recognition, 108:107561, 2020 Khác
[21] Milind Naphade, Shuo Wang, David C. Anastasiu, Zheng Tang, Ming-ChingChang, Yue Yao, Liang Zheng, Mohammed Shaiqur Rahman, Meenakshi S.Arya, Anuj Sharma, Qi Feng, Vitaly Ablavsky, Stan Sclaroff, Pranamesh Chakraborty, Sanjita Prajapati, Alice Li, Shangru Li, Krishna Kunadharaju, Shenxin Jiang, and Rama Chellappa. The 7th ai city challenge, 2023 Khác

HÌNH ẢNH LIÊN QUAN

Bảng các cụm từ viết tắt - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Bảng c ác cụm từ viết tắt (Trang 18)
Hình 1.1: Mô ta mỗi hành vi có thể biểu diễn bằng nhiều góc nhìn khác nhau. - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Hình 1.1 Mô ta mỗi hành vi có thể biểu diễn bằng nhiều góc nhìn khác nhau (Trang 20)
Hình 1.2: Mô ta bài toán đối với video chưa được cắt sẵn. Yêu cầu của bài toán - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Hình 1.2 Mô ta bài toán đối với video chưa được cắt sẵn. Yêu cầu của bài toán (Trang 21)
Hình 1.4: Mô tả minh họa tổng hợp thông tin từ nhiều góc nhìn cần được xử - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Hình 1.4 Mô tả minh họa tổng hợp thông tin từ nhiều góc nhìn cần được xử (Trang 24)
Hình 1.5: Thách thức trong việc nhận diện hành vi mất tập trung của tài xế với - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Hình 1.5 Thách thức trong việc nhận diện hành vi mất tập trung của tài xế với (Trang 24)
Hình 1.6: Mô tả hành vi nói chuyện với người sau lưng khá mơ hồ, có thể nhầm - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Hình 1.6 Mô tả hành vi nói chuyện với người sau lưng khá mơ hồ, có thể nhầm (Trang 25)
Hình 1.7: Mô ta các góc nhìn khác nhau sẽ dễ nhận diện các hành vi khác nhau. - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Hình 1.7 Mô ta các góc nhìn khác nhau sẽ dễ nhận diện các hành vi khác nhau (Trang 26)
Hình 2.1: Mô tả phương pháp nhận diện dáng ngồi tài xế bằng cách tổng hợp - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Hình 2.1 Mô tả phương pháp nhận diện dáng ngồi tài xế bằng cách tổng hợp (Trang 29)
Hình 2.2: Phương pháp được đề xuất trong việc tổng hợp các đặc trưng rút trích - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Hình 2.2 Phương pháp được đề xuất trong việc tổng hợp các đặc trưng rút trích (Trang 30)
Hình 2.5: Minh hoa cho bộ dữ liệu ActivityNet được thu thập từ internet. - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Hình 2.5 Minh hoa cho bộ dữ liệu ActivityNet được thu thập từ internet (Trang 34)
Hình trong tình huống thực tế. - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Hình trong tình huống thực tế (Trang 35)
Hình 2.9: Minh họa tập dữ liệu SynDD2 được quay từ camera ở các vi trí của hình - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Hình 2.9 Minh họa tập dữ liệu SynDD2 được quay từ camera ở các vi trí của hình (Trang 37)
Hình 2.10: Kết quả mos của các nhóm trong cuộc thi AI City 2023 - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Hình 2.10 Kết quả mos của các nhóm trong cuộc thi AI City 2023 (Trang 38)
Hình 2.13: Mô tả bộ nhận diện chung cho một góc nhìn của đội Viettel (27). - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Hình 2.13 Mô tả bộ nhận diện chung cho một góc nhìn của đội Viettel (27) (Trang 40)
Hình 3.1: Tổng quan mô hình nhận diện của nhóm Meituan [53]. Video từ 3 góc - Luận văn thạc sĩ Khoa học máy tính: Nhận dạng hành vi mất tập trung của tài xế trong video theo hướng tiếp cận đa góc nhìn
Hình 3.1 Tổng quan mô hình nhận diện của nhóm Meituan [53]. Video từ 3 góc (Trang 44)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN