6.1 Minh họa giao diện chương trình demo trong việc nhận diện hành ứng với mỗi góc nhìn theo như mô tả của cuộc thi và nhận được kết quả nhận diện như bên dưới6.2_ Mô tả đầu ra sau khi t
Trang 1ĐẠI HỌC QUOC GIA TP HCM
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
—————#›2*œ8&————
ĐÀO ĐỨC QUANG
LUẬN VAN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
Mã số: 8 48 01 01
THÀNH PHÓ HÒ CHÍ MINH - 2024
Trang 2ĐẠI HỌC QUOC GIA TP HCM
5) * CR
UIT-HCM
DAO DUC QUANG
NHAN DANG HANH VI MAT TAP TRUNG CUA TAI XE TRONG VIDEO THEO HUONG TIEP CAN DA GOC NHIN
LUAN VAN THAC SI NGANH KHOA HQC MAY TINH
Mã số: 8 48 01 01
NGUOI HUONG DAN KHOA HOC
TS NGO DUC THANH
THÀNH PHO HO CHÍ MINH - 2024
Trang 3DANH SÁCH HỘI ĐÒNG PHẢN BIỆN
Hội đồng Phản biện Luận văn Thạc sĩ được thành lập theo quyết định số ngày của Hiệu trưởng Trường Đại học Công nghệ Thông tin
Trang 4Lời cảm ơn
Trước hết, tôi xin bày tỏ lòng biết ơn sâu sắc tới Thay Ngô Đức Thanh,
người đã tận tình hướng dẫn, cung cấp kiến thức quý báu trong suốt
quá trình thực hiện luận văn.
Tôi cũng xin bày tỏ lòng biết ơn sâu sắc đến các thầy cô trong bộ môn,
những người đã không chỉ truyền đạt kiến thức quý báu mà còn tạo
điều kiện tốt nhất cho tôi trong suốt quá trình học tại trường Nhữngkiến thức và kinh nghiệm mà tôi học được từ các thầy cô là tài sản vô
giá trong sự nghiệp nghiên cứu và phát triển chuyên môn của bản thân
Đồng thời, tôi cũng xin cảm ơn các bạn đồng môn, những người bạn
đã cùng tôi trao đổi, chia sé và cùng nhau vượt qua những thử tháchtrong suốt quá trình học tập
Đặc biệt, tôi xin gửi lời cảm ơn chân thành nhất đến bà xã yêu quý,
Phạm Thị Thu Hằng Cảm ơn em đã luôn bên cạnh, động viên và hỗ trợ
tôi trong mọi hoàn cảnh Sự quan tâm và yêu thương của em là động
lực to lớn giúp tôi vượt qua mọi khó khăn trong học tập và cuộc sống.Cuối cùng, không thể không nhắc đến gia đình yêu quý của tôi, nguồn
cảm hứng và sức mạnh vô hình Cam ơn cha mẹ đã luôn tin tưởng, ủng
hộ và tạo mọi điều kiện để tôi theo đuổi ước mơ của mình và đã luôn làchỗ dựa tinh thần cho tôi
Tôi xin chân thành cảm ơn tất cả mọi người đã giúp đỡ, hỗ trợ và gópphần vào sự thành công của luận văn này Mọi công sức và tình cảm
mà mọi người dành cho tôi sẽ được tôi ghi nhớ mãi mãi.
Ký tên
Đào Đức Quang
Trang 5Lời cam đoan
Tôi xin cam đoan luận văn này là công trình nghiên cứu của tôi và
những nội dung được trình bày trong luận văn này là hoàn toàn trung
thực Các cá nhân, tổ chức hỗ trợ tôi trong quá trình thực hiện luậnvăn đã được đề cập đến trong Lời cảm ơn Các công trình khoa họcđược tôi tham khảo có trích dẫn rõ ràng và liệt kê cụ thể, chính xáctrong phần Tài liệu tham khảo Tôi hoàn toàn chịu trách nhiệm về tính
xác thực của luận văn này.
Ký tên
Đào Đức Quang
Trang 6Tóm tắt
Việc hiểu được hành vi của con người một cách tự động ngày càng trở
nên quan trọng trong lĩnh vực công nghệ và truyền thông hiện đại Đặc
biệt, với sự bùng nổ của mạng xã hội và các phương tiện truyền thông mới, việc tạo ra và xử lý nội dung video đã trở nên phổ biến từ đó đãthu hút rất nhiều các nghiên cứu liên quan
Một trong những ứng dụng nổi bật của công nghệ thị giác máy tính là
nhận diện hành vi từ video, trong đó có bài toán nhỏ hơn là nhận diện
lái xe bất thường, bao gồm những hoạt động phân tâm như sử dụngđiện thoại, ăn uống, và thảo luận trong khi lái xe Những hành vi này
đã được chứng minh là nguyên nhân của nhiều vụ tai nạn giao thong
nghiêm trọng.
Một trong những thách thức lón trong việc phát hiện hành vi này là
thiếu hut dt liệu gan nhãn chất lượng cao Sự thiếu hut này can trở
đáng kể quá trình phát triển các mô hình hiệu quả Cuộc thi AICity Challenge đã cung cấp một bộ dữ liệu phong phú từ 3 góccamera được bố trí xong xe, mở rộng và thúc đẩy cơ hội nghiên cứu trong lĩnh vực này Các phương pháp hiện tại để xác định thời điểmnày còn nhiều hạn chế, chủ yếu dựa trên dữ liệu từ một camera duynhất nên khó có thể xác định những hành vi bị che khuất hoặc mơ hồ,dẫn đến những dự đoán không chính xác do hạn chế về góc nhìn hoặc
tính không rõ ràng của hành vi.
Nhóm của Zhou đã đề xuất một phương pháp sử dụng ViT |7| đãđược tiền huấn luyện bằng phương pháp VideoMAE giúp nhận diệnhành vi và tổng hợp thông tin từ các góc nhìn camera và đã đạt kết
quả cao trong cuộc thi AI City năm 2023 Tuy nhiên, một trong những
hạn chế của phương pháp này là cách tổng hợp thông tin từ các góc nhìn video còn quá adhoc và khó có thể tổng quát hóa Mục tiêu của luận văn này là để khắc phụ hạn chế trên và giúp phương pháp này có thể áp dụng rộng rãi hơn mà không cần phải tinh chỉnh thủ công lại
cho từng bài toán.
Trang 72.1 Nhận diện hành vi tài xế bằng dáng ngồi 11
2.2 Nhận diện hành vi trong video sử dụng việc khai thác multi-view| 12
2.3 Nhận diện hành vi mất tập trung của tài xế trong video! 13
2.3.1 Cuộc thi AI City Challenge 2023) 13
2.3.2 Một số tap dữ liệu liên quan bài toán 15
2.3.2.1 Tập dữ liệu ActivityNel 15
2.3.2.2 Tập dữ lệu Kinelcsl 16
Am V 17
2.3.2.4 Tập dữ lệu SynDD2| 18 23.3 Độ đo đánh giá| cv 19
2.3.4 Hướng tiếp cận bài toán 21
23.41 Nhóm Meituan 21
ii
Trang 82.3.4.2 Nhóm jJNU| 21 2.3.4 Nhóm Victtell 22
3 Multi View Action Recognition for Distracted Driver Behavior
25
3.1 Tong quan phương pháp| - 25
3.2 Nhận diện hành vi) 0 0 0000040 eee 26
3.3 Khai thác thông tin đa góc nhìn| 30
3.3.1 Tiền xửlý[ cv 30
3.3.2 Tổng hợp thong tin 32
3.4 Hauxttlyp 2 Qua 33
3.5 Phương pháp đề xuất cho việc khai thác da góc nhìn
3.5.2 Tổng hợp trọng số dựa vào kết quả sưm _ os3.5.3 Chi lay trọng số dựa vào góc nhìn có kết quả tốt nhất(maz_ os)
3.5.4 Scale kết quả dựa vào maz_ os
3.6 Kết chương ay gm «@ .\À / 38
4 Thực nghiệm va phân tích 39
>- ` Ta 39
4.1.1 Tap dữ liệu dùng để finetune mô hình nhận diện 39
4.1.2 Tap dữ liệu test) 2.2 00 40
4.1.3 Tập dữ liệu đáp án (ground truth) của bộ dữ liệu A2| 41
Trang 94.4.1 Tổng hợp tham số bằng cách scaling theo max os|
4.4.2 Tổng hợp tham số bằng max os[
443 Kết luận|
45 Kết chuong)
5 Kết luận và hướng phát triển 5.1 Kết quả đạt được|
5.2 Hướng phát trién| .
6 Phu luc
6.2 Ứng dụng minh hoa
6.3 Minh hoa kết quả đầu ra
'Tài liệu tham khảo
6.1 Cấu trúc file nộp cho bai thi
1V
53 56
59
59
61
61 61
63
63 64 64
67
Trang 10Danh sách hình vẽ
11 Mô tả mỗi hành vi có thể biểu diễn bằng nhiều góc nhìn khác
1.2 Mô tả bài toán đối với video chưa được cắt sẵn Yêu cầu của bài
toán là từ video đầu vào ngẫu nhiên, nhận diện được các hànhđộng đang được quan tâm cùng với thời điểm bắt đầu và kết thúc
| —_ của chúng |
1.3 Minh họa bài toán nhận điện hành vi mat tập trung của tài xế
tập trung khi lái xe cần được nhận diện cùng với thời điểm bắt đầu và kết thúc của chúng Thời điểm xảy ra hành vi có thể ngẫu nhiên ở bất kì thời điểm trong video với độ dài khác nhau.
1.4 Mô tả minh họa tổng hợp thông tin từ nhiều góc nhìn cần được
xử lý nhiễu do mỗi camera có thể có một dự đoán khác nhau gt
là đáp án còn zmaz_ label là hành vi có độ tin cậy tốt nhất nhậndiện được Các khoảng trắng là hành vi lái xe bình thường.|
1.5 Thách thức trong việc nhận diện hành vi mất tập của tài xế
với một góc nhìn camera Ở video này khó có thể xác định được tài xế đang bấm điện thoại hay đang điều chỉnh bảng điều khiển
Te
1.6 Mô tả hành vi nói chuyện với người sau lung khá mơ hồ, có thể
nhầm lan với hành vi nói chuyện với người bên ghế bên phải.|
1.7 Mô tả các góc nhìn khác nhau sẽ dễ nhận diện các hành vi khác
nhau Dối với hành vi Adjusting Control pane camera rig
Trang 11_— trích được từ các góc nhìn |14|
2.3 Đầu vào của bài toán là là 3 đoạn video ứng với 3 góc nhìn va
đầu Ta là nhận, hành vi bat thường ứng với bang £-lichne vi Hài
mm>————————
2.4 Mô tả một số tập dữ liệu phổ biến 33|Ì
2.5 Minh họa cho bộ dữ liệu ActivityNet được thu thập từ internet.
2.6 Minh họa bộ dữ liệu Kinetics được thu thập từ internet.
pa Vie ame 1: Dashboard, 2: Rightside, 3: Rearview
Minh hoa ae dữ liệu SynDD2 được quay từ camera ở các vi trí
"a4 19
2.10 Kết quả mos của các nhóm trong cuộc thi AI City 20232.11 Sơ đồ xử lý chung của nhóm Meituan Dữ liệu đầu vào sẽ được
chia nhỏ thành những đoạn không trùng nhau và dưa vào bộ nhận
điện đã được finetune trên tập dữ liệu SynDD2 với mỗi góc nhìn với kĩ thuật k-fold Sau khi đi qua bộ suy diễn sẽ thu được k bộ
dự đoán cho mỗi giây ứng với 16 label cho mỗi view Sau đó đem
lấy trung bình độ tin cậy (confident score) ứng với xác suất giây
thứ t là label thứ n Kế tiếp sẽ được đưa vào bộ tổng hợp và phân đoạn để xử lý và đưa ra kết quả cuối cùng.
2.12 Mô hình xử lý chung của đội JNU 17] Clip đầu vào của mỗi góc
nhìn sẽ được chia thành những snippet nhỏ trùng nhau sau đó đi
qua mô hình nhận diện hành vi và được tổng hợp dựa vào phân phối Gauss Sau đó kết quả sẽ được tổng hợp và sàng lọc và đưa
Te y
2.13 Mô tả bộ nhận diện chung cho một góc nhìn của đội Viettel 27)
-Video đầu vào sẽ được cắt thành nhiều clip nhỏ sau đó được huấn
luyện qua kĩ thuật k-fold với bộ nhận diện X3] Sau đó các dự
đoán sẽ được tổng hợp và hậu xử lý để đưa ra kết quả cuối cùng 2.14 Mô tả cách đội Viettel tong hợp thông tin từ các góc nhìn Các
kết quả dự đoán của từng fold sẽ được lấy trung bình để ra được
dự đoán theo từng view Sau đó các kết quả dự đoán theo từng
vì
Trang 123 góc nhìn sẽ được chia thành những đoạn nhỏ sau đó được dua
qua bộ nhận diện riêng đã được huấn luyện cho từng góc nhìn
Sau đó kết quả sẽ được đưa qua bộ tổng hợp thông tin các góc
nhìn Cuối cùng kết quả sẽ được đưa vào bộ hậu xử lý dùng đểgop và sàng lọc các dự đoán và đưa ra kết quả dự đoán cuối cùng.| 26
chia ra nhiều phần nhỏ sao đó được đưa vào bộ mã hóa và đưavào bộ Transformer tiêu chuẩn Để nhận diện hình ảnh, mô hình
có thêm một bộ nhận diện có thể huấn luyện được Bộ Encoder
_ 27
3.3 So sánh về độ chính xác của mô hình ViT khi được tiền huấn
luyện trên những tập dữ liệu có kích thước lớn dần Nhìn chung
ta có thể thấy được ở tập dữ liệu nhỏ, khoảng dưới 30 triệu mẫu
thì CNN có hiệu quả tốt hơn, tuy nhiên, khi dữ liệu được huấnluyện với 100 triệu mau thì ViT cho kết quả tốt hơn ¬
3.4 Mô tả cấu trúc của VideoMAE.Dau tiên, các khung hình đầu vào
được giảm số lượng khung hinh (temporal downsampling) và sửdụng cube embeding dé đạt được các video token Sau đó chúng
được đi qua bộ che theo tube masking với cùng một cách che cho
tất cả khung hình với tỉ lệ cao (từ 75%) để tiền huấn luyện bộ mã
hóa (encoder) Backbone lúc đó được sử dụng là ViT với sự chú ý
theo không và thời gian (joint space-time attention).
3.5 Mô tả phương pháp finetune Tap dữ liệu Al bao gồm 25 tài xế
sẽ được chia thành k nhóm tài xế Sau đó kĩ thuật k-fold được sửdụng dé finetune ra k mô hình ứng với mỗi view| 293.6 Một phần dữ liệu đầu ra của một góc nhìn Với mỗi góc camera,
bộ nhận diện sẽ cho đầu ra là xác suất của tất cả các hành vi tạicác thời điểm tương ứng cho tất cả các góc nhìn ứng với mỗi dòng trong hình tong cộng sẽ có views x k kết quả dau ra như thé này3.7 Mô tả cách mô hình xử lý dữ liệu đầu và trước khi assemble
3.8 Minh hoa một phần kết quả trả về từ model sau khi suy diễn với
vii
Trang 133.9 Kết quả của mỗi view sau khi qua bước tiền xử lý sẽ tiếp tục được
đua vào khối khai thác thông tin đa góc 1 nhn|
3.10 Tổng quan hương pháp hậu xử lý | Che we doin cin or oan]
clip ngắn sé được hau xử ly bằng cách gop các dự đoán nằm gầnnhau và loại những dự đoán quá ngắn| 343.11 Mô tả cách thức chung cho phương pháp hậu xử lý Ban đầu, với
mỗi clip ngắn các dự đoán có confident score thấp sẽ bị loại bỏ
Tiếp theo các dự đoán này sẽ được gom lại làm một nếu xungquanh nó là cùng một hành vi Cuối cùng các dự đoán ngắn so
4.1 Mô tả ghi chú của bộ dữ liệu đấpán| 40
4.2 Mô tả ví dụ về dữ liệu đáp án của tập dữ liệu Al
4.3 Tóm tắt độ dài các hình vi trong tập AI
4.4 Tóm tắt độ dài các hình vi trong tập A2
4.5 Mô tả phan bổ các nhãn trong bộ dữ liệu Al Da số các nhãn đều
có thời lượng rải rác nhưng về độ tập trung thi có class hay label
1,7,9,10 là tương đối ngắn dưới 8 giây, có một số hành vi chỉ kéo
dài hoặc 2 giây, còn lai chủ yếu giao động từ 8 đến 21 giây
4.6 Các phiên ban của Vision Transformer
4.7 Mô tả kết quả nhận diện trên tập Al đối với khi nhận diện trên
từng góc nhìn Nhìn chung góc nhìn right view có kết quả tệ nhất
ở hầu hết các hành vi dash và rear có kết quả gần như nhau
4.8 Mô tả so sánh hiện quả nhận diện (mos) đối với các phương
pháp tổng hợp Phương pháp tính trọng số bằng cách scaling với max _os dat được kết quả tổng quát tốt nhất.
4.9 Mô tả tổng quan kết quả nhận diện (mos) trên tập A2 đối với
các phương pháp tổng hợp thông tin các góc nhìn Phương pháp tổng hợp bằng trọng số với cách chia cho mazos đạt hiệu quả tong quan tốt nhất tuy nhiên với một số hành vi cu thể vẫn cònchưa tốt hơn các phương pháp còn lại ví như Labell3 đạt kết qua
1m 51 4.10 Mo tả tỉ lệ thay đổi kết quả so với phương pháp gốc Ta có thể
thay được đối với Label 04 cải thiện đến 45% so với phương pháp
với kết quả gốc mặc dù các phương pháp tính trung bình đạt hiệu
quả tương đương với phương pháp gốc| 92
vill
Trang 144.12 Minh họa kết quả nhận diện trước và sau khi khai thác multi-view
giữa phương pháp tổng hợp gốc và phương pháp scaling theo
eee bebe beet eee 54
4.13 Đối với hành vi Label_ 04 "Eating", cách tổng hợp gốc do không
tăng độ tự tin lên nên những thông tin nhận diện được từ dash
hay rear bi coi là nhiễu nên bị bỏ qua Phương pháp scaling theo
max _os do tăng cường kết quả nhận diện nên sau khi tổng hợpvẫn bắt được các thông tin) cố 544.14 Đối với hành vi Label 13 "Yawning", kết quả nhận diện của các
góc camera khác là "Normal" Chỉ có camera dash là cho rằng đây
là hành vi bất thường Phương pháp của tác giả đối với hành vi
Label 13 này chỉ lây thông tin từ view dashboard nên khi tổng hợp
thông tin có kết quả tốt hơn phương pháp scaling bằng maz_os4.15 Đối với hành vi Label 14 "Hand on head"do nhiễu từ camera dash
và right nên nên khi tổng hợp thông tin bằng maz_ scaling một
phần dự đoán trở thành Label 3 "Phone (Left) "dẫn đến kết quảnhận diện không tốt hơn phương pháp cơ sở.| 59
4.16 Tong quan so sánh giữa phương pháp tổng hợp baseline và maz _ os
Nhìn chung không tốt hơn phương pháp cơ sở ở mọi mat nhưng
có cùng xu hướng với phương pháp cơ sở.| 56
4.17 Minh họa kết quả nhận diện trước va sau khi khai thác multi-view
giữa phương pháp tổng hợp gốc và phương pháp chọn thông tin
ee B7
4.18 Minh hoa tổng hợp thông tin dựa vào chọn lựa kết quả tốt nhất
(maz— os) so với phương pháp cơ sở Do chọn được camera có dự
đoán gần giống đáp án nhất nên đã cải thiện được kết quả nhận
m>———————— 58
max_os không đúng camera có nhận diện giống với đáp án nên
ma 58
4.20 Mô tả tổng hợp view bằng max_ os đối với hành vi Label 14 Đối
với hành vi này, maz_os chọn camera right đối với Label 14 (do
1X
Trang 154.21 Phương pháp tổng hợp tự động nhìn chung tương đồng với phương
pháp gốc ở những Label khác, tuy nhiên có sự khác biệt ở cácLabel 04, 13, 14 đã tao ra sự khác biệt trong kết quả tổng hợp.|.
6.1 Minh họa giao diện chương trình demo trong việc nhận diện hành
ứng với mỗi góc nhìn theo như mô tả của cuộc thi và nhận được
kết quả nhận diện như bên dưới6.2_ Mô tả đầu ra sau khi tổng hợp các view của phương pháp tổng
hợp bằng cách scaling theo bằng rmaz_ os Hành vi số 4 được cảithiện tuy nhiên hành vi 13 và 14 chưa đươc tốt lắm so với phương
"ốẶ.ằẰ ăn 65
Trang 16Danh sách bảng
4.1 Tổng quan thời lượng theo giây của các hành vi trong tập dữ liệu
Al cùng với số lượng mau ứng với từng góc nhìn Phần lớn mỗi
video đều có 1 hành vi tương ứng đã loại đi hành vi lái xe bình
dash
Trọng số mặc định ấu việc tổng hợp multi view là wi
wre” = 0.3," — 0.4 Sau đó tác giả tiến hành tỉnh chỉnh đối
xI
Trang 174.10 Mô tả trọng số w? ứng với từng Label_ ¡ và view v dựa vào scaling
theo zmaz_ os từ kết quả Bảng |4.5| Bộ tham số này sẽ cho ra file
có tên là A2_ weight devide by max avg ioul
4.12 Một số trọng số w? của phương pháp cơ sở và phương pháp chọn
view có kết quả tốt 6.1 So sánh hiệu quả các phương pháp tổng hợp trọng số tự động 66
Trang 18nhất.| -Bảng các cụm từ viết tắt
Viết tắt Mô tả day đủ
CNN Convolutional Neural Network DNN Deep Neural Network
RNN Recurrent Neural Networks LSTM Long Short-Term Memory
CRNN Convolutional Recurrent Neural Network
AP Average Precision
GPU Graphics Processing Unit
imageMAE image Masked auto-encoders videoMAE Video Masked auto-encoders
HAR Human Activity Recognition TAL Temporal Action Localization
NLP Natural Language Processing
Vit Vision transformer
MLP Multilayer Perceptron
Al Artificial Intelligent
AR Action Recognition dash góc nhìn trực diện hay dashboard right góc nhìn bên phải hay right view rear góc nhìn bên hông hay rear view
Bảng 1: Danh sách viết tắt và mô tả đầy đủ
xII
Trang 19Chương 1
Giới thiệu đề tài
1.1 Tổng quan
1.1.1 Nhận diện hành vi trong videos
Mạng xã hội và sự phát triển của các thiết bị kĩ thuật số đã thúc đẩy sự tăng lên đáng kể của dữ liệu video Từ sự đa dạng và phong phú của dữ liệu video, việcphân tích và thấu hiều hành vi từ video đang trở thành một lĩnh vực nghiên cứu
quan trọng trong thị giác máy tính (3|[20)(28)[31][33}.
Có rat nhiều yếu tố ảnh hưởng đến việc nhận diện hành vi như độ phan giải,ánh sáng của môi trường xung quanh, tốc độ khung hình, đối tượng đang đượcquan sát có thể bị che khuất.
Ngoài ra sự khác biệt về vóc dáng con người, kĩ thuật của nhân vật có thể tạo
ra vô số biểu diễn cho một hành vi của con người ví dụ như một động viên chơi
thể thao sẽ rất khác với một người bình thường cùng chơi môn thể thao đó Hay chỉ đơn giản là đổi góc của camera hay đổi từ camera màu thành camera chiều
sâu cũng đã có thể tạo ra một biểu diễn khác của hành động (Hình [.1).
Bài toán tổng quát yêu cầu xây dựng các hệ thống có khả năng giải quyết cácvấn đề trên và tự động nhận diện và phân loại các hành vi hay hành động chọnlọc được yêu cầu nhận điện Diều này bao gồm việc xử lý các video đầu vào,phát hiện các hành vi cụ thể từ một danh sách quan tâm của đối tượng trongvideo và gắn nhãn cho chúng Mục tiêu là xác định được các hành vi và hoạt
động đang diễn ra trong video một cách tự động và chính xác.
Trang 20Cam04 Cam05 Cam06 PTZ04 PTZ06
ObjectThrow
Hình 1.1: Mô ta mỗi hành vi có thể biểu diễn bằng nhiều góc nhìn khác nhau.
Dữ liệu đầu vào thường là hình ảnh hoặc video được ghi từ các camera quansát Các đoạn video này có thể được cắt sẵn (trimed) hoặc chưa được cắt sẵn
đạt được nhiều thành tựu đáng kể đối với loại video này BÌ: Tuy nhiên, trong
thực tế, hay trong các video được ghi hình sẵn phần lớn dữ liệu video là chưa
được cắt sẵn
Video chưa được cắt sin mặt khác là những đoạn video dài có thể chứa nhiều
hành động (Hình [1.2] ), thời điểm trước hành động, chuyển giao giữa các hành
động đều bao gồm trong đoạn video, ngoài ra độ dài của hành động cũng ngẫunhiên có thể chỉ vài giây hoặc có thể kéo dài vài phút Ngoài ra hành vi đang được quan tâm có thể chiếm một phần rất nhỏ trong toàn bộ video Kết quả
đầu ra của video này sẽ là vị trí thời gian của hành động hay nói cách khác là
Trang 21No Action of Interest | Action Detected : Long Jump No Action of Interest
` AC Time
Action Start Action End
Action Instances of Various Lengths
ä I
| Action 1 | | Action2 |! Action 3 Action 4
Ỹ Ỹ Ỹ Ỹ Y tự HH
Start End Start End Start End Start End) Dung:
Hình 1.2: Mô ta bài toán đối với video chưa được cắt sẵn Yêu cầu của bài toán
là từ video đầu vào ngẫu nhiên, nhận diện được các hành động đang được quantâm cùng với thời điểm bắt đầu và kết thúc của chúng.
thời điểm bắt đầu và kết thúc cùng với nhãn của hành động Điều này dẫn đếnbài toán nhận diện hành vi sử dụng video chưa cắt sẵn có độ phức tạp cao hơnnhiều so với bài toán nhận diện hành vi trong video đã cắt sẵn Đề tài nghiêncứu này sẽ chủ yếu tập trung vào việc nhận diện hành vi dựa trên video chưađược cắt sẵn
1.1.2 Bài toán nhận diện hành vi mất tập trung của tài
xế
Bài toán nhận diện hành vi mất tập trung của tài xế là một trong những bài
toán con của bài toán nhận diện hành vi trong videos với tập hợp các hành vi
được quan tâm đến là các hành vi mất tập trung của tài xế (Hình Cuộc thi
AT City nhắm đến việc sử dụng AI để cải thiện việc vận hành trong môi trường thực tế để có thể ứng dụng làm nền tảng để phát triển thành phố thông
minh Một trong những tac vu trong đó là cải thiện sự hiệu quả và an toàn khi
tham gia giao thông bằng cách nhận diện các hành mất tập trung khi lái xe
được giới thiệu lần đầu vào cuộc thi năm 2022 (29) Cuộc thi nay đã thu hút 508
đội vào năm 2023 tăng gấp đôi so với 254 đội vào năm 2022 từ 46 quốc gia khác
Trang 22Distracted: Phone (Left)
Y Y oa
Bat dau Kết thúc. Thời gian
Hành vi mat tập trung có thé có nhiều độ
dài khác nhau và ở vị trí bất kì
M M v v M
>
Bắt đầu Kết thúc Bắt dau Kết thúc Bắt đầu Kết thúc Ti8i@=m
nhau trên toàn thế giới cho thấy được sự quan tâm ngày càng tăng đối với nhucầu này
Ngoài ra cuộc thi này cung cấp bộ dữ liệu thu thập từ 3 camera được bé trí ở
3 vị trí khác nhau xung quanh tài xế cung cấp một bộ dữ liệu ghi lại hành vi củatài xế ở nhiều góc độ khác nhau cho ta một cái nhìn tổng quát hơn so với một góc nhìn riêng biệt.Cuộc thi yêu cầu xác định thời điểm và nhận diện 16 hành vi
mắt tập trung của tài xế (Hinh|1.3) ví dụ như nhắn tin, ăn, uống, nghe điện thoại.
Từ việc giải quyết vấn đề nhận diện hành vi lái xe mất tập trung sẽ giúpchúng ta tạo ra các công cụ để theo dõi và đánh giá hành vi của tài xế một cáchhiệu quả Điều này rất quan trọng trong việc sớm phát hiện các tài xế không
tập trung, giúp đưa ra các cảnh báo kịp thời giúp đảm bảo an toàn trên đường.
Các camera được lắp trên xe sẽ liên tục ghi lại hình ảnh và video về tài xế từnhiều góc nhìn khác nhau giúp ta có thể nghiên cứu và phân tích hiệu quả hơn các hành vi mất tập trung có thể gây nguy hiểm cho việc tham gia giao thông.
Thành công trong việc giải bài toán này không chỉ làm tăng an toàn giao thông
mà còn có thể hỗ trợ việc phát triển các hệ thống cảnh báo sớm các hành vi
Trang 23nguy hiểm làm giảm nguy cơ tai nạn và bảo vệ tính mạng của nhiều người tham
gia giao thông mỗi ngày.
1.1.3 Các thách thức của bài toán nhận diện hành vi mat
tập trung của tài xế
Các thác thức chính của bài toán nhận diện hành vi mất tập trung của tài xế
như sau:
e Hệ thống phải nhận diện được một hoặc nhiều hành vi trong 1 đoạn clip
chưa được rút gọn (untrim video) đòi hỏi các phương pháp rất phức tạp và
khó có thể áp dụng vào thực tế ki.
e Thông thường việc xác định thời gian xảy ra hành vi thường chỉ được sử
dụng trên 1 góc nhìn của video dẫn đến mô hình có thể không nhậndiện được hành vi trên những góc nhìn khác ngoài ra cần một phương pháp
để tổng hợp thông tin từ các góc nhìn khác nhau Hình |1.4|cho thấy ta cần
một phương pháp thích hợp cho việc xử lý nhiễu từ dự đoán của mỗi camera.
e Góc nhìn của một camera có thể không nhận diện được đúng hành vi (Hình
ngay cả việc gán nhãn thủ công vẫn khó có thể nhận biết được hành vi
nào Từ hình[1.7|ta có thể thấy được mỗi camera có thể nhận diện ra một
kết quả khác nhau tùy thuộc vào độ bao quát của góc camera với hành vi
e Các hành vi của con người có thể rất mơ hồ hoặc nhiều biểu hiện khác nhau
cho cùng hành vi dẫn đến việc khó nhận diện hay phân biệt được hành vi
(Hình
e Các hành vi mất tập trung diễn ra gần nhau rất khó có thể nhận diện được
thời gian bắt đầu và kết thúc của hành vi, một phần thời lượng video là cóchứa hành vi mất tập trung còn phần lớn thời gian là hành vi lái xe bìnhthường Hình cho thấy được hành vi có thể ở bất kì thời điểm nào ở đoạn video và có thể có độ dài ngắn khác nhau.
e Tập dữ liệu dùng để huấn luyện khá nhỏ so với số lượng hành vi cần nhận
diện dẫn đến mô hình có thể dễ dàng gặp vấn đề học vẹt (overfit) Chỉ
khoảng 755 mẫu cho 16 hành vi tương đương với việc mỗi hành vi chỉ có
khoảng 47 mẫu so với các bộ dữ liệu dùng để huấn luyện hành vi khác.
b
Trang 240 Class Probabilities for Video ID: 8 - View: dash
08 _
06 Boa
= 06
8
Boa E
Hình 1.4: Mô tả minh họa tổng hợp thông tin từ nhiều góc nhìn cần được xử
lý nhiễu do mỗi camera có thể có một dự đoán khác nhau gt là dp ấn cònmazx_label là hành vi có độ tin cậy tốt nhất nhận diện được Các khoảng trắng
là hành vi lái xe bình thường.
Hình 1.5: Thách thức trong việc nhận diện hành vi mất tập trung của tài xế với
một góc nhìn camera Ở video này khó có thể xác định được tài xế đang bấm điện thoại hay đang điều chỉnh bảng điều khiển vì tay bị che khuất
Trang 25Hình 1.6: Mô tả hành vi nói chuyện với người sau lưng khá mơ hồ, có thể nhầmlẫn với hành vi nói chuyện với người bên ghế bên phải.
1.1.4 Nhận diện hành vi với hướng tiếp cận đa góc nhìn
(multi-view)
Đôi khi nếu chỉ lắp một camera để nhận diện hành vi có thể không đánh giá
khách quan được hành vi (Hinh|1.7) của tài xế vì góc camera có thể bị che khuất
bởi các vật trên xe như vô lăng hoặc có thể bị các vật dụng trên xe che khuất,việc lắp đặt ba camera trên xe cũng giúp chúng ta nhìn thấy được nhiều góckhác nhau qua đó đánh giá hành vi của tài xế một cách chính xác hơn so với chỉdùng một camera Hình cho thấy được khi đổi góc nhìn khác ta có thể quan sát được đầy đủ hành vi của tài xế và có thêm thông tin để đánh giá chính xáchành vi của tài xế
Thông tin nhận hiện từ các góc camera (Hình 1.4) có rất nhiều nhiễu và mỗi
góc camera có thể cho ra một dự đoán khác nhau cho cùng một thời điểm Từ
đó cần có phương pháp tổng hợp thông tin thích hợp cho dữ liệu thu được đểđạt được kết quả nhận diện tốt nhất
1.1.5 Phạm vi
Pham vi khuôn khổ của luận văn gói gọn trong các yêu cầu của cuộc thi AI City
như sau:
Trang 26Hanh vi “Adjusting Control Pannel”
Hình 1.7: Mô ta các góc nhìn khác nhau sẽ dễ nhận diện các hành vi khác nhau.
Đối với hành vi Adjusting Control pane camera right side sẽ thấy được tươngtác giữa tài xế với bảng điều khiển còn các góc camera khác thì bị che khuất.Đối với hành vi Text thì dashboard và rear view bị che mat tay cầm điện thoại,chỉ có right side là thấy được rõ hành vi
e Bai toán đề tài luận văn này chủ yếu tập trung vào là nhận diện 16 hành vi
mất tập trung trong bang [2.1] của tài xế cùng với thời gian bắt đầu và kết
thúc của chúng ví dụ như nhắn tin, gọi điện thoại, vươn ra phía sau từ 3đoạn video Các video này được thu thập được từ 3 góc camera được bố trínhư hình |2.8Ìvà ghi hình đồng thời nhau
e Ngoài dữ liệu cuộc thi cung cấp, các đội không được phép sử dụng thêm dữ
liệu bên ngoài để huấn luyện mô hình Các mô hình đã được pretrain sẵn thì vẫn có thể sử dụng được.
e Hành vi được ghi hình bởi tài xế thực hiện trong xe đang đứng im và không
có hành khách trong xe.
e Dề tài tập trung vào việc nhận diện được thời điểm bắt đầu và kết thúc
trong đoạn video chưa được cắt sẵn thu đươc từ 3 góc nhìn của camera
trong xe.
e Dề tài tập trung vào các phương pháp hậu xử lý giúp cho việc tổng hợp các
dự đoán từ các video thu thập được từ 3 góc nhìn hiệu quả nhất và giảm
thiểu việc phải chỉnh thủ công các tham số (Hình |I.4).
8
Trang 271.2 Mục tiêu và các đóng góp
1.21 Mục tiêu
Mục tiêu chính của luận văn này bao gồm:
e Nghiên cứu các thuật toán SOTA từ cuộc thi và xây dựng giải pháp hiệu
quả cho bài toán này dựa vào SOTA Cải thiện độ chính xác trong việc nhận
điện thời điểm tài xế thực hiện các hành vi mất tập trung trong bang [2.1].
Với dữ liệu huấn luyện từ 3 góc nhìn của camera (dashboard, rearview, right
view) được ghi hình chỉ có tài xế trong xe 6 tô đứng yên Hướng tiếp cận sẽ
dựa vào việc cải thiện hậu xử lý và khai thác multi-view.
e Xây dựng được ứng dụng minh họa sử dụng mô hình đã cải tiến người dùng
có thể upload video và nhận được kết quả trả về về thời điểm bắt đầu vàkết thúc của hành vi mất tập trung
1.2.2 Các đóng góp chính
Đóng góp quan trọng của luận văn này có thể tổng kết như sau:
e Báo cáo các kĩ thuật của các phương pháp SOTA đang được sử dụng cho
việc tăng cường hiệu quả nhận diện hành vi mất tập trung của bài toán.Cùng với đề xuất cải tiến cho phương pháp tổng hợp kết quả nhận diện của
tác giả thay vì việc phải chọn hệ số một cách thủ công.
e Kết quả thực nghiệm, so sánh và đánh giá của các phương pháp.
e Chương trình minh họa sử dụng mô hình đã được cải tiến trong việc nhận
diện hành vi tài xế mất tập trung Người dùng có thể input video và chương trình sẽ trả về kết quả thời điểm mất tập trung của tài xế.
1.3 Bo cục luận văn
Luận văn này gồm 5 chương với bố cục như sau:
e Chương 1: Nội dung chương 1 bao gồm các thông tin tổng quan giới thiệu
về bài toán, các thách thức đã gặp phải trong quá trình thực hiện luận văn,
Trang 28mục tiêu và phạm vi được đặt ra khi thực hiện luận văn này và tóm tắt các
đóng góp chính của luận văn.
e Chương 2: Trong chương 2 sẽ giới thiệu về bài toán của cuộc thi cùng với
một số các nghiên cứu có liên quan đến bài toán bao gồm các phương pháp
và tập dữ liệu liên quan đã tham khảo qua Kết chương sẽ là lý do chọn
phương phap cơ sở.
e Chương 3: Phương pháp cơ sở và phương pháp đề xuất sẽ được giới thiệu
trong chương này Mở đầu bằng tổng quan về phương pháp cơ sở va đi dầnsâu vào chỉ tiết của từng thành phần có trong phương pháp đã đề xuất Cuốichương sẽ mô tả về phương pháp được đề xuất
e Chương 4: Trong chương 4, tập dữ liệu được sử dụng cho việc thực nghiệm,
độ đo cho từng bài toán, phương pháp huấn luyện và kết quả đánh giá củaphương pháp đã được đề xuất sẽ được giới thiệu, tiếp theo đó sẽ là phân
tích về kết quả đạt được.
e Chương 5: Tại chương 5 sẽ là tổng kết lai eác nội dung đã thực hiện và bàn
luận về hướng mà luận văn có thể phát triển thêm trong tương lai.
10
Trang 29Chương 2
Các nghiên cứu liên quan
Nhận diện hành vi của con người trong video đã trở thành một trong những đềtài được nghiên cứu sôi nổi trong lĩnh vực trí thông minh nhân tạo bởi tính ứng dụng cao của chúng trong cuộc sống đời thường Sự da dạng trong việc biểu diễn
hành vi làm cho việc nhận diện hành vi trở thành một bài toán phức tạp Với sự
ra đời của các mô hình CNN lớn như C3D [26] SlowFast , Transformer nhu
Vision Transformer |7| và các biến thể khác như MViT (sj, Swin Transformer ;
Video Vision Transformer |2| đã mở ra thêm nhiều phương pháp hơn trong việc
nhận diện hành vi con người.
2.1 Nhận diện hành vi tài xế bằng dáng ngồi
Weights
111 Original Learned Using
i — CoiyNet eo Em A Genetic Algorithm
Trang 30Một cách tiếp cận bài toán nhận diện hành vi khác là bằng cách tổng hợp thôngtin nhận diện từ nhiều bộ nhận diện khác nhau Ý tưởng của nhóm tác giả lànếu nhận diện tốt được tư thế của tài xế (tay và mặt) thì có thể nhận diện tốt
hơn hành vi của tài xế trong đó có hành vi lái xe mất tập trung.
Hướng tiếp cận của nhóm tác giả (Hình [2.1) là sử dụng mô hình nhận diện
tay và mặt để trích ra hình ảnh về tay và mặt sau đó đưa qua một bộ nhận diện tay hoặc mặt hoặc cả tay và mặt sau đó từ kết quả trích xuất được sẽ được tổng hợp lại bằng một bộ trọng số có thể học được.
2.2 Nhận diện hành vi trong video sử dụng việc
multi-12
Trang 31số này sẽ được đưa qua bộ phân loại Naive Bayes cho việc đưa ra kết quả cuốicùng Tổng quan phương pháp được mô tả ở hình
Kết quả thử nghiệm đạt hiệu quả cao trên các tập dữ liệu như HMDB51, UCF
Sprots, cho thấy được việc tong hợp thông tin từ nhiều góc nhìn giúp cải thiện
hiệu quả nhận diện các hành vi.
2.3 Nhận diện hành vi mất tập trung của tài
xê trong video
2.3.1 Cuộc thi AT City Challenge 2023
Track 3 của AI City Challenge cung cấp cảnh quay video của tài xế trong xe,
bao gồm ba góc nhìn khác nhau được gắn ở các vị trí trong xe như hình [2.8] và
chứa 16 loại hành động lái xe khác nhau như trong bang [2.1] dua trên các video
với tổng thời lượng là 10 tiếng được thu thập từ 10 tài xế ngẫu nhiên, xác địnhcác chi tiết về hoạt động bất thường Các chi tiết này bao gồm nhãn của hành vi,
thời gian bắt đầu và kết thúc của chúng và thông tin tệp video tương ứng theo
mẫu ở mục Hình 2.9]mo tả ba loại góc nhìn camera trong xe, và Hình
cho thấy cách lắp đặt camera Mặc dù nhãn cho hành vi lái xe "Normal"được
liệt kê trong bang [2.1] nhưng nó không phải hành vi được quan tâm đến Bai
toán này có thể chia làm hai bài toán nhỏ hơn là nhận diện hành vi và xác định
vị trí của hành vi.
Các nghiên cứu lái xe tự nhiên rất quan trọng trong việc cải thiện an toàntrong việc tham gia giao thông Chúng có thể giúp nắm bắt và phân tích hành vicủa tài xế trong môi trường giao thông và phát hiện sự phân tâm của tài xế khilái xe, đây là một trong những yếu tố then chốt để giảm lái xe mất tập trung.
Bài toán nhắm tới việc nhận diện được thời điểm và phân loại hành vi mấttập trung của tài xế với mô tả như sau:
e Input:
— video tài xế ở góc nhìn rear
— video tài xế ở góc nhìn dashboard
— video tài xế ở góc nhìn right view
— Danh sách các loại hành vi cần nhận diện
15
Trang 32e Output:
— Nhãn của hành vi
— Thời điểm bắt đầu và kết thúc của hành vi cần nhận diện
Cu thể về quy định về nội dung của output được dé cập trong phụ lục
Right video stream
Detector
“Rear video stream ”” hành vi mất tập trung
| & bắt đầu và kết thúc
Hình 2.3: Dau vào của bài toán là là 3 đoạn video ứng với 3 góc nhìn và đầu ra
là nhãn hành vi bất thường ứng với bang [2.1] cùng với thời gian bắt đầu và kết
thúc.
Label | Distracted driver behavior Label Distracted driver behavior
0 Normal 8 Adjusting Control Pannel
1 Drinking 9 Picking up from floor (Driver)
2 Phone Call (Right) 10 Picking up from floor (Passenger)
3 Phone call (Left) 11 Talking to passenger at the right
4 Eating 12 Talking to passenger at backseat
5 Texting (Right) 13 Yawning
6 Texting (Left) 14 Hand on head
7 Reaching behind 15 Singing or dance with music
Bang 2.1: Danh sách các hành vi cần nhận diện
14
Trang 332.3.2 Một số tập dữ liệu liên quan bài toán
Các phương pháp học sâu thường sẽ được cải thiện độ chính xác khi lượng dữ
liệu được sử dụng để huấn luyện tăng lên Điều này tương tự với bài toán nhận
diện hành vi hay nói cách khác, chúng ta cần bộ dữ liệu lớn và được gán nhãn
để có thể huấn luyện và đánh giá được những mô hình hiệu quả Thông thường,
bộ dữ liệu thường được xây dựng theo quy trình sau:
1 Định nghĩa danh sách hành động
2 Thu thập dữ liệu từ nhiều nguồn
3 Cung cấp nhãn về thời điểm bắt đầu và kết thúc của hành động thủ công
4 Làm sạch bộ dữ liệu bằng cách loại bỏ dữ liệu trùng lặp và nhiễu
Hình [2.4] mô tả một số bộ dữ liệu phổ biến được sử dụng để đánh giá độ hiệu
quả của các mô hình.
Dataset Year | #Samples | Ave Len | # Actions
HMDBS5I [109] 2011 7K ~5s 51
UCF101 [190] 2012 13.3K ~6s 101
Sports 1M [99] 2014 1.1M ~5.5m 487 ActivityNet [40] 2015 28K [5, 10}m 200
YouTube8M [1] 2016 8M 229.6s 3862
Charades [186] 2016 9.8K 30.1s 157 Kinetics400 [100] | 2017 306K 10s 400 Kinetics600 [12] 2018 482K 10s 600 Kinetics700 [13] 2019 650K 10s 700
Sth-Sth V1 [69] 2017 108.5K [2, 6]s 174 Sth-Sth V2 [69] 2017 | 220.8K [2, 6]s 174
AVA [70] 2017 385K 15m 80 AVA-kinetics [117] | 2020 624K 15m, 10s 80
MIT [142] 2018 1M 3s 339 HACS Clips [267] | 2019 1.55M 2s 200 HVU [34] 2020 572K 10s 739
AViD [165] 2020 450K [3, 15]s 887
Hình 2.4: Mô tả một số tap dữ liệu phổ biến
2.3.2.1 Tập dữ liệu ActivityNet
Được giới thiệu lần đầu vào năm 2015 và series ActivityNet (Hình P.5} đã có
nhiều phiên bản kể từ lần đầu ra mắt Phiên ban mới nhất là ActivityNet 200
15
Trang 34(V.13) bao gồm 200 hành động của người trong cuộc sống hằng ngày Bộ dữ liệunày được thiết kế để hỗ trợ việc nghiên cứu và phát triển các thuật toán phân
tích và nhận dạng hành động ở cấp độ video Tập dữ liệu này bao gồm một loạt
các video từ Youtube với các hành động được gán nhãn ở từng video Nó bao
gồm 10,024 mẫu dữ liệu training, 4,926 mẫu dữ liệu validate và 5,024 mẫu dữliệu test trung bình mỗi hành vi có 137 mẫu dữ liệu video chưa được cắt sẵn và
1.41 hành vi mỗi video {33}.
Tạp dữ liệu này thường được sử dụng để huấn luyện và đánh giá các mô hình
hoc máy va hoc sâu trong việc nhận dạng hành động, phân tích hành vi, và thậm
chí cả tổng hợp hành động.
pop OR Và
(Pre
Personal care Grooming oneself ~=——> Brushing teeth
Hình 2.5: Minh hoa cho bộ dữ liệu ActivityNet được thu thập từ internet.
2.3.2.2 Tập dữ liệu Kinetics
Hình 2.6: Minh họa bộ dữ liệu Kinetics được thu thập từ internet.
Series dữ liệu Kinetics là một trong những bộ dữ liệu được áp dụng rộng rãi cho
việc đánh giá Bộ dữ liệu Kinetics400 [I3| (Hình |2.6) được giới thiệu lần đầu vào
năm 2017 và nó bao gồm 240 ngàn mau training, 20k mau testing đã được cắt sẵn
16
Trang 35thành 10 giây Chúng được thu thập từ 400 loại hành động của con người diễn ra
hằng ngày Bộ dữ liệu này ngày càng được mở rộng với Kinetics-600 |5| vào năm
2018 với 480 ngàn mau và Kinetics700vao năm 2019 với 650 ngàn mẫu .
Kinetics thường xuyên được dùng trong các nghiên cứu tiên tiến về nhận dạnghành động, giúp cải thiện độ chính xác và khả năng tổng quát hóa của các môhình trong tình huống thực tế
2.3.2.3 Tap dữ liệu AVA
Hình 2.7: Mô ta tập dữ liệu AVA đươc thu thập từ internet
Tap dữ liệu AVA được giới thiệu vào năm 2017 và trở thành bộ dữ liệu đầutiên quy mô lớn về nhận diện diện hành vi N6 bao gồm 430 video với độ dai
trung bình 15 phút và 80 hành vi ở mức độ nguyên tử tức những hành động cơ
bản nhất mà con người thực hiện trong đời sống hằng ngày được thu thập từcác bộ phim thực tế giúp mang lại sự đa dạng về các hành vi trong đời sống,ngoài ra bộ dữ liệu còn có các nhãn liên quan đến tương tác ví dụ như ngườivới vật, người với người rất hữu ích cho việc huấn luyện mô hình hiểu được bốicảnh, nội dung của video Các nhãn được gắn theo mỗi khung hình quan trọng(key-frame) dẫn đến có tới 200k mẫu hình ảnh cho huấn luyện, 57k mẫu cho việcxác thực (validation) và 120k mẫu cho việc kiểm tra và đánh giá.
AVA là một bộ lữ liệu nhiều thách thức thường được sử dụng để phát triển các mô hình có khả năng hiểu và phân tích hành động ở mức độ tinh tế hơn, hỗ
17
Trang 36trợ các nghiên cứu về tương tác người với người, người với đồ vật và những tìnhhuống tương tự
2.3.2.4 Tập dữ liệu SynDD2
Tập dữ liệu (SynDD2 PH) do cuộc thi AI City challenge cung cấp gồm 210
video được thu thập từ 3ð tài xế Mỗi tài xế sẽ thực hiện 1 trong 16 hành vi trong
bảng [2.1] theo trình tự ngẫu nhiên va độ dài hành vi một cách ngẫu nhiên Tai
xế sẽ đươc chỉ dẫn về thời điểm bắt đầu và kết thúc của hành vi bằng tiếng beep
và loại hành vi bằng cách phát ra âm thanh sử dụng google text-to-speech [23].
Các hành vi này được thu đồng thời từ 3 camera ứng với 3 góc nhìn được bố
trí như Hình |Ð.8|trong xe đứng yên Mỗi tài xế sẽ thực hiện việc thu thập dữ liệu
2 lần, lần đầu không có vật cẩn (ví dụ như kính ram, mũ), lần sau có vat can
Như vậy mỗi tài xế sẽ có tổng cộng 6 video ứng với 2 lần thu thập dữ liệu và 3
góc nhìn ứng với tổng cộng 210 video với tổng độ dài 34 giờ (hơn 9 phút/video)với độ phân giải 1920 x 1080 với tốc độ khung hình là 30 FPS và được đồng bộ
thời gian thủ công trên cả 3 camera.
Tạp dữ liệu này có thể được sử dụng để đánh giá các mô hình nhận diện hoặc phân tích hình vi của tài xế Từ đó có thể giúp các nhà nghiên cứu thiết kế
18
Trang 37(a) Dashboard (b) RearView (c) Rightside
Hình 2.9: Minh họa tập dữ liệu SynDD2 được quay từ camera ở các vi trí của
max (min(ge, pe) — max(gs, ps), 0)
max(ge, pe) — min(gs, ps)
0s(p,g) = (2.3)
Trong đó gọi ø là đáp án, với thời gian bắt dau gs, thời gian kết thúc ge và nhãnhành vi gl, p là dự đoán gần nhất có cùng mã hành vi với ø nếu nó có kết quảos(p,g) lớn nhất trong đó pl là nhãn hành vi dự đoán trùng với gl, thời gian batđầu ps, thời gian kết thúc pe lần lượt nằm trong khoảng [gs — 10s, gs + 10s] và[ge — 10s, ge + 10s] Độ trùng khớp os là tỉ lệ trùng lặp về thời gian của dự đoán
p và dap án g Đối với tất cả các đáp án khác hành vi hoặc nằm ngoài khoảngcho phép đều có độ trùng khớp là 0
Công thức để tính độ trùng lặp của video x được mô tả như sau:
1video_os(x) = n(G,) , s> ae (2.4)
19
Trang 3816 14 TUE [3] 0.4849
Hình 2.10: Kết quả mos của các nhóm trong cuộc thi AI City 2023
Khi đó kết quả cuối cùng sẽ là trung bình độ trùng khớp mos của tất cả các
video Theo công thức sau:
Kết quả của các đội thi được mô ta ở hình |2.10| Đội có thành tích tốt nhất
Meituan sử dụng phương phap học tự giám sát trên mô hình lớn đã được
tiền huấn luyện cho việc nhận diện hành vi và thuật toán và thuật toán dùng
để gộp và sàng lọc cho việc xác định thời điểm bắt đầu và kết thúc cho các góc nhìn và đạt được điểm số mos = 0.7416 Theo sau đó là đội JNU sử dụngmô-đun chỉnh sửa xác xuất xảy ra hành vi cho việc nhận diện, và một cơ chế lọc
tùy biến cho từng loại hành vi vào việc xác định thời điểm Đội đạt giải ba lỗ
sử dụng mô dun transformer kết hợp local attention và global attention nhưngchỉ sử dụng trên góc camera dashboard và rear view do chúng có kết quả nhậndiện tốt nhất
20
Trang 392.3.4 Hướng tiếp cận bài toán
2.3.4.1 7 Nhóm Meituan
Y tưởng của nhóm là finetune mô hình nhận diện hành vi lớn (cụ thể là
Video-MAE) trên tập dữ liệu của cuộc thi với từng góc nhìn của camera, các mô hình
này đã được tiền huấn luyện sẵn Để tránh việc model bị overfit do tập dữ liệu dùng để finetune khá nhỏ so vơi số lượng hành vi, nhóm tác giả đã sử dụng phương pháp k-fold Sau đó kết quả nhận diện của từng góc nhìn sẽ được tổng
hợp bằng trọng số với từng góc nhìn ứng với từng hành vi và hậu xử lý để dưa
ra kết quả cuối cùng Hình 2.11] mô tả các bước xử lý của nhóm đã được minh
họa lại rõ hơn.
hành vi mất tap trung
& bắt đầu và kết thúc
Hình 2.11: Sơ đồ xử lý chung của nhóm Meituan Dữ liệu đầu vào sẽ được chia
nhỏ thành những đoạn không trùng nhau và đưa vào bộ nhận diện đã được
finetune trên tập dữ liệu SynDD2 với mỗi góc nhìn với kĩ thuật k-fold Sau khi
đi qua bộ suy diễn sẽ thu được k bộ dự đoán cho mỗi giây ứng với 16 label cho
mỗi view Sau đó đem lấy trung bình độ tin cậy (confident score) ứng với xácsuất giây thứ t là label thứ n Kế tiếp sẽ được đưa vào bộ tổng hợp và phân đoạn để xử lý và đưa ra kết quả cuối cùng.
2.3.4.2 Nhóm JNU
Ý tưởng chính của nhóm là sử dung mô hình nhận điện cho từng góc nhìn của
camera trên từng đoạn video và sau đó tổng hợp thông tin dựa trên độ tin cậycủa khung hình với phân phối Gauss Video đầu vào sẽ đươc chia thành những
đoạn nhỏ trùng nhau và được đưa qua mô hình nhận diện hành vi Do dữ liệu
của cuộc thi khá nhỏ nên tác giả sử dụng X3D (9| cho việc nhận diện hành vi vì
mô hình này được xây dựng dựa trên MobileNet nên nhẹ và có số lượng tham số
nhỏ Sau đó, với từng frame sẽ được đánh giá độ tin cậy bằng phân phối Gauss
21
Trang 40Frame Class 7 x 1
eS
Action Probability Calibration
Different Sampling and Training Strategies
Manning Ne
Manning ON y ig
M fapping why
ea ơn
Hình 2.12: Mô hình xử lý chung của đội JNU [17] Clip đầu vào của mỗi góc
nhìn sẽ được chia thành những snippet nhỏ trùng nhau sau đó đi qua mô hình
nhận diện hành vi và được tổng hợp dựa vào phân phối Gauss Sau đó kết quả
sẽ được tổng hợp và sàng lọc và đưa ra kết quả cuối cùng
với frame nằm chính giữa đoạn video nhỏ sẽ là frame có độ tin cậy cao nhất Sau
đó thông tin dự đoán sẽ được tổng hợp bằng trọng số của từng góc nhìn, độ tin cậy của mỗi hành vi Tiếp theo sàng lọc kết quả để thu được kết quả cuối cùng.
Video Clip ++ = Prob.Labeln - :
X3D — Prob Label † Post-Processing
ỉ H 1 eee ! Action
i ! | ¡ _ | Segment
H h X3D h Long t
Input Video |——>; Video Ci ¡KFold |_Prob.Labeln | [* |Ensemble Temporal | ——*‡
| ¬ F—®— - | Pmi P : Localizatlon Ị Action
Hình 2.13: Mô tả bộ nhận diện chung cho một góc nhìn của đội Viettel (27).
Video đầu vào sẽ được cắt thành nhiều clip nhỏ sau đó được huấn luyện qua kithuật k-fold với bộ nhận diện X3D Sau đó các dự đoán sẽ được tổng hợp và hậu
xử lý để đưa ra kết quả cuối cùng
Ý tưởng của nhóm Viettel, doi đạt giải nhất ở cuộc thi năm 2022 |22| là sẽ huấn
luyện mô hình cho mỗi góc nhìn với bộ nhận diện nhỏ nhẹ là X3D bằng k-fold
22