Bài toán này không chỉ đơn thuần là phát hiện vàđịnh vị người và vật thé mà còn đòi hỏi hiểu được các mối quan hệ và tương tác giữa họ,chăng hạn như việc một người cầm một đối tượng, lái
Trang 1ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRUONG DAI HOC CONG NGHE THONG TIN
KHOA KHOA HOC MAY TINH
Phạm Tắn Tài — 20521861
Bùi Long Vũ — 20520350
KHÓA LUẬN TÓT NGHIỆP
Tăng cường khả năng Phát hiện tương tác người vật thông
qua đặc trưng ngữ nghĩa sử dụng các mô hình Transformer
Enhance Human — Object Interaction Detection Via Semantic
Feature in Detection Transformer Model
CU NHÂN NGANH KHOA HOC MAY TÍNH
GIANG VIEN HUONG DAN
ThS Võ Duy Nguyên
TS Nguyễn Tan Trần Minh Khang
TP HÒ CHÍ MINH, 2023
Trang 2THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
ngầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.
Trang 3LỜI CẢM ƠN
Xuyên suốt từ lúc chúng tôi mới bước chân vào trường Đại Học Công NghệThông Tin cho đến hôm nay — ngày chúng tôi hoàn thành khóa luận tốt nghiệp Đã
luôn có những người sẵn sàng ở cạnh bên chúng tôi để chỉ bảo, giúp đỡ, và chia sẻ
những khoảnh khắc, kỷ niệm với nhiều cung bậc cảm xúc khó quên
Đầu tiên, chúng tôi xin phép gửi đến hai người thầy, một lời cảm ơn từ tận đáylòng: TS Nguyễn Tan Trần Minh Khang và ThS Võ Duy Nguyên Hai Thay đã tiếp
nhận và chỉ dạy cho chúng tôi từ lúc mới đặt chân tới giảng đường đại học tới tận bây
giờ Những kiến thức không chỉ thiên về các môn học trên giảng đường, mà còn làkinh nghiệm, cách sống và đối xử với người khác sao cho ra dang sinh viên đại học
— những người trưởng thành Các Thầy mở ra cho chúng tôi một cánh cửa mới, cánh
cửa của nghiên cứu khoa học, đưa chúng tôi đi trên con đường mà hơn mười tam năm
sông trên đời chúng tôi chưa hề biết tới, hoặc giả có biết cũng chang dam mo tới Conđường đó trau đồi kỹ năng học tập và làm việc của chúng tôi, đem lại những thách
thức cực kỳ khó khăn Nhưng, “lửa thử vàng, gian nan thử sức” Nhờ liên tục bị vùi
dập bởi những thách thức đó, mà chúng tôi biết cách nỗ lực dé vượt qua, chinh phục
những thử thách đầy thú vi với trái tim nhiệt huyết của các cô cậu sinh viên, đồng
thời cải thiện ban thân của chính mình — từng ngày trở thành một phiên bản tốt đẹp
hơn của ngày hôm qua.
Tiếp theo, chúng tôi xin chân thành cảm ơn toàn thê thầy cô đã và đang làmviéc trong tat cả các Khoa của trường Dai Học Công Nghệ Thông Tin, đặc biệt là cácthầy cô thuộc Khoa Khoa Học Máy Tính Thầy Cô luôn có mặt và sẵn sàng giúp đỡmỗi khi chúng tôi có thắc mắc Những buổi học với giáo trình được soạn kỹ càng và
các bài kiểm tra lay điểm bat chợt đã đưa nhóm chúng tôi vào một môi trường chuyên
nghiệp, khuôn phép và kỷ luật Trong từng môn học, Thầy Cô luôn cé gắng tạo điềukiện tốt nhất cho nhóm chúng tôi dé có thể tiếp thu bài học nhanh chóng, đưa ra nhiềuphương pháp giảng day dé giúp cả lớp không bị chán nản bởi những lý thuyết mangday tính học thuật Thay Cô cũng đưa cho chúng tôi những lời khuyên được đúc rút
từ kinh nghiệm của chính bản thân mình mỗi khi chúng tôi gặp áp lực trong chuyện
Trang 4học và cần một người dé chia sẻ, lắng nghe Từ tận đáy lòng, chúng tôi xin phép cảm
ơn các Thầy Cô, cảm ơn mọi người vì đã dạy cho chúng tôi những bài học đáng giá,
làm hành trang tương lai dé bước vào đời
Và cuối cùng, chúng tôi xin cảm ơn gia đình và những người bạn đã luôn làmột chỗ dựa tinh thần vững chắc trong suốt những năm nay Gia đình luôn là động
lực để chúng tôi tiếp tục bước đi trên con đường kiếm tìm tri thức, những người bạn
lại luôn sát cánh bên chúng tôi và cùng nhau trải qua năm tháng sinh viên nhiều đắng
cay ngọt bùi.
Xin chân thành cảm ơn tat ca!
Trang 5ĐẠI HỌC QUOC GIA TP HO CHÍ CONG HÒA XÃ HỘI CHỦ NGHĨA
MINH VIỆT NAM
TRƯỜNG ĐẠI HỌC , Độc Lập - Tự Do - Hanh Phúc
` CONG NGHỆ THONG TIN
DE CUONG CHI TIET
Tên đề tài: Tăng cường khả năng Phát hiện tương tác người vat thông qua đặc trưng
ngữ nghĩa sử dụng các mô hình Transformer
Tên đề tài tiếng Anh: Enhance Human — Object Interaction Detection Via Semantic
Feature in Detection Transformer Model
Ngôn ngữ thực hiện: Tiếng Việt / Tiếng Anh
Cán bộ hướng dẫn:
- ThS VÕ DUY NGUYEN
- TS NGUYÊN TAN TRAN MINH KHANG
Thời gian thực hiện: Từ ngày 05/09/2023 đến ngày 30/12/2023.
Sinh viên thực hiện:
PHẠM TẤN TÀI - 20521861 Lớp: KHMT2020
Email: 20521861@®gm.uif.edu.vn Điện thoại: 0858848302
BÙI LONG VŨ - 20520350 Lớp: KHMT2020
Email: 20520350@gm.uif.edu.vn Điện thoại: 0375099772
Nội dung đề tài:(Mô ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kếtquả mong đợi của dé tai)
Trang 61 Giới thiệu:
Bài toán phát hiện tương tác người vật là một trong những thách thức quan trọng trong
lĩnh vực thị giác máy tính Nó tập trung vào việc nhận diện và hiểu sự tương tác giữa conngười và vật thể trong một hình ảnh Bài toán này không chỉ đơn thuần là phát hiện vàđịnh vị người và vật thé mà còn đòi hỏi hiểu được các mối quan hệ và tương tác giữa họ,chăng hạn như việc một người cầm một đối tượng, lái một chiếc xe, hoặc tiếp xúc vật thé
trong các tình huống thực tế.Phát hiện tương tác người-vật có ứng dụng rộng rãi trong
nhiều lĩnh vực, bao gồm nhận dạng hành vi con người, ứng dụng trong xe tự hành, giámsát an ninh, và nhiều ứng dụng thú vị khác Bài toán HOI đặt ra những thách thức đáng
ké do sự đa dang và phức tạp của các tình huống tương tác giữa người và vật thé Các tình
huống này rat đa dạng và có thể xuất hiện dưới nhiều hình thức khác nhau:
e Nhiều người tham gia cùng một tương tác: Ví dụ, trong một bữa tiệc, nhiều người
có thê đang nói chuyện, cười đùa, và cùng nhau thưởng thức thức ăn Điều này đòi
hỏi bài toán HOI phải xác định được các loại tương tác đa dạng mà người và vật
thê có thê tham gia
e_ Một người tương tác với nhiều vật thé cùng lúc: Một vi dụ cho trường hợp này là
khi người dùng ngồi trên một chiếc ghế và đang sử dụng máy tính Bài toán HOI
cần xác định được rằng người đó không chỉ ngồi trên ghế mà còn đang tương tác
với máy tính.
e Nhiều người có cùng một tương tác với vật thé: Ví dụ, khi một nhóm bạn đang ném
và bắt một quả bóng, cả nhóm chia sẻ cùng một tương tác với quả bóng Điều nàyđòi hỏi bài toán HOI phải hiểu được tương tác chung của nhiều người với vật thể
(quả bóng) này.
Trong thực tế, có rất nhiều tình huống phức tap và đa dang, làm cho việc phát hiện và hiểu
các mối tương tác giữa người và vật thê trở thành một thách thức lớn trong lĩnh vực Thị
giác máy tính.
Trong các mô hình giải quyết bài toán này mà sử dụng kiến trúc transformer nỗi tiếng có
thé ké đến là HOTR[1] đây là 1 mô hình được phát triển lên từ DETR[2] có thé gọi nó là
Trang 7DETR cho bài toán HOI, mô hình này đã cho thây rằng nó có thê đạt được hiệu suất rấttốt Nhưng hiện tại trong kiến trúc của HOTR ở cả bộ encoder và decoder vẫn chưa khaithác triệt để được thông tin của các đặc trưng ngữ nghĩa Thấy được tiềm năng hiện tại củabài toán nên chúng tôi quyết định lựa chọn bài toán này cho việc tìm hiểu, nghiên cứu vàthực hiện khóa luận tốt nghiệp.
2 Phát biểu bài toán:
Đầu vào: Một hình anh trong đó một (hoặc nhiều) người đang tham gia tương tác với một(hoặc nhiều) vật thẻ
Đầu ra: Phát hiện và nhận diện tập hợp chứa các bộ ba: người, vật thé và các tương tác
giữa họ, được biểu diễn dưới dạng {human, object, interaction}
Hình 1.1 Đầu vào và đầu ra của bài toán
3 Mục tiêu đề tài:
Nghiên cứu và đánh giá các thuật toán phát hiện tương tác người-vật hiện nay
Đánh giá hiệu suất của các cơ chế semantic feature hiện có
Đê xuât cơ chê nâng cao hiệu suât của khả năng phát hiện tương tác người vật băng cách
sử dụng các mô hình transformer.
Đánh giá hiệu suât của mô hình đê xuât trên các tập dữ liệu về tương tác người vật nôi
tiếng hiện nay như V-COCO[3], HICO-DETI4]
Xây dựng chương trình ứng dụng từ mô hình đề xuất
Trang 84 Phạm vi đề tài:
Nghiên cứu, dé xuât mô hình nâng cao hiệu suat bài toán “Phát hiện tương tác người vật”
so với phương pháp cơ sở.
Tài liệu chi tiết cách cài đặt môi trường,các cải tiến và mô hình đề xuất
Báo cáo đánh giá, phân tích thực nghiệm với các phương pháp “state-of-the-art” trên bộ
dữ liệu HICO-DET, V-COCO.
5 Nội dung nghiên cứu đề tài:
Tìm hiéu tông quan và khảo sát vê hướng tiép cận của các mô hình phát hiện tương tac
người vật state-of-the-art.
Nghiên cứu chuyên sâu về các phương pháp có sử dụng đặc trưng ngữ nghĩa
Tìm hiểu các kỹ thuật khai thác đặc trưng ngữ nghĩa từ hình anh
Đề xuất một mô hình giúp cải tiến khả năng tận dụng đặc trưng ngữ nghĩa ở bộ endcoder
và decoder của mô hình HOTR.
Tìm hiểu về các bộ dữ liệu thực nghiệm V-COCO, HICO-DET
Tìm hiểu kỹ thuật để xây dựng chương trình ứng dụng minh họa.
6 Phương pháp thực hiện:
Đọc và tìm hiểu, khảo sát về các phương pháp hiện nay trong bài toán HOI
Cài đặt thực nghiệm lại các phương pháp mà nhóm cho là có thé cải thiện được hiệu suấtTiến hành tổng hợp kết quả và phân tích chúng
Chọn ra phương pháp có tiềm năng nhất và bắt đầu cải thiện hiệu suất của mô hình
Thực nghiệm mô hình thiết kế trên bộ dữ liệu V-COCO và HICO-DET Tổng hợp kết quachỉ tiết và so sánh với các phương pháp trước đó trên bài toán
Xây dựng chương trình ứng dụng cho mô hình đề xuất
7 Kết quả mong đợi:
Trang 9Ban báo cáo chi tiết cung cấp một cái nhìn toàn diện về quá trình tìm hiểu và khảo sát
trong bài toán Phát Hiện Tương Tác Người- Vật (HOD của chúng tôi Báo cáo này sẽ không
chỉ phân tích mà còn đề xuất phương pháp dé cải thiện hiệu suất trong HOI
Source code và hướng dẫn cài đặt chỉ tiết về mô hình đề xuất
Xây dựng chương trình ứng dụng minh họa đề trực quan hóa kết quả nghiên cứu.
8 Tài liệu tham khảo:
[1] Kim, Bumsoo, et al "Hotr: End-to-end human-object interaction detection with
transformers." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern
Recognition 2021.
[2] Carion, Nicolas, et al "End-to-end object detection with transformers." European
conference on computer vision Cham: Springer International Publishing, 2020.
[3] Gupta, Saurabh, and Jitendra Malik "Visual semantic role labeling.” arXiv preprint
arXiv:1505.04474 (2015).
[4] Chao, Yu-Wei, et al "Learning to detect human-object interactions." 2018 ieee winter
conference on applications of computer vision (wacv) IEEE, 2018.
Kế hoạch thực hiện:(Mô td tớm tắt kế hoạch làm việc và phân công công việc cho từng
sinh viên tham gia)
+ Tuần 1 — 2: Khảo sát các nghiên cứu hiện nay trong bài toán HOI
+ Tuần 3 — 6: Tiến hành thực nghiệm cai đặt các mô hình đã tìm hiểu trên tập dữ liệu
V-COCO và HICO-DET
+ Tuần 7 — 12: Từ các mô hình được thực nghiệm chọn ra mô hình tốt nhất và tập trungvào cải tiến hiệu suất của mô hình đó
+ Tuần 13 — 17: Đánh giá, phân tích kết quả và xây dựng chương trình demo
+ Tuân 18 — Phan còn lại: Hoàn thiện báo cáo.
Trang 10Phân công công việc:
Sinh viên thực hiện Công việc
Phạm TAn Tài ° Khảo sát các mô hình hiện nay được sử dụng trong
bài toán HOI
Tìm hiểu các kĩ thuật khai thác đặc trưng ngữ nghĩa
từ hình ảnh
Tìm hiểu về cách nâng cao hiệu suất mô hình
Cài đặt mô hình dé xuất
Viết báo cáo về các mô hình đã tìm hiểu
Code ứng dụng demo
Bùi Long Vũ °
Xác nhận của CBHD
(Ký tên và ghi rõ họ tên)
Tìm hiểu về các mô hình có sử dụng đặc trưng ngữ
nghĩa
Cài đặt các mô hình mà nhóm đã đã khảo sát
Viết báo cáo về các mô hình đã tìm hiểuTìm hiểu về cách nâng cao hiệu suất mô hình
Phân tích và đánh giá kết quả giữa mô hình đề xuất
Trang 11MỤC LỤC
DE CƯƠNG CHI TIẾT 5
TÓM TAT KHÓA LUẬN 17
Chương 1 MỞ ĐẦU 1
1.1 Động Luc Nghiên Cứu 1
1.2 Phát Biểu Bài Toán 3
1.4 Mục Tiêu và Pham Vi Khóa Luận 6
1.5 Đóng Gop Của Nghiên Cứu 7
1.6 Bố Cục Khóa Luận 7
Chuong 2 | CAC NGHIÊN CUU LIEN QUAN 9
2.1 Các Bài Toán Liên Quan Đến Bài Toán HOI 9
2.1.1 Phân Lớp Trên Anh (Image Classification) 92.1.2 Định Vị Vật Thể (ObJect Localization) 102.1.3 Phát Hiện Đối Tượng (Object Detection) 10
2.1.4 Phân Lớp Hanh Dong (Action Recognition) 13
2.1.5 Phan Lớp Tương Tac (Interaction Recognition) 14
Trang 122.1.6 Ước Lượng Tư Thế Người (Human Pose Estimation) 15
2.1.7 Xt Lý Ngôn Ngữ Tự Nhiên (Natural Languagu Processing — NLP)16
2.1.8 Học Sâu Đồng Thời (Simultaneous Deep Learning - SDL) 17
2.2 Bài Toán Phát Hiện Tương Tác Người Vật (HOT) 18
2.3 Các Mô Hình Quan Trọng Với Sự Phát Triển Của Bài Toán HOI 18
2.3.1 Mutual Context Model [13] 18
2.3.2 Visual Semantic Role Labeling 19
2.3.3 InteractNet 20
2.4 Các Bộ Dữ Liệu Thường Dùng Trong Bài Toán Phát Hiện Tương Tac Người
Vật (HOI) 22
Chuong 3 PHƯƠNG PHÁP DE XUẤT 24
3.1 So Sánh — Đánh Giá Ưu Nhược Điểm Của HOTR và QPIC 24
3.2 Mô Hình Separate Query and Decoder Transformer (SQDT) 34
Chuong 4 | THUC NGHIEM VA ĐÁNH GIÁ 38
Trang 134.2.2 Precision
4.2.3 Recall
4.2.4 Average Precision
4.3 Định Nghia Cua True Positive Trong Bai Toán HOI
4.4 Cài Dat Chi Tiết
4.5 Két Qua Thuc Nghiém va Danh Gia
4.6 Triển khai ứng dung
Chương 5 KÉT LUẬN VA HƯỚNG PHAT TRIEN
Trang 14Đầu vào và AGU ra của bài LOGI coeeccecseesseessesssesssessesssesssesssessesssesssesssssecsses 4
Dau ra của bài toán phát hiện đối tượng . ¿55c cccccccccssrses 12
Mô tả một kiểu dau ra của bài toán phân lớp tương tác .-. 14
Mô tả một dau ra của bài toán ước lượng tư thé người . : 16Minh hoa sơ đô của mô hình MCÌMM - 5e +t+E+teE+Eerexereerereers 19
Minh họa anh trong bộ đữ liệu VCO(CO .«<<<<<<<<<++ 20
Minh họa pipeline mô hình InteractNet[ 15 ] « «-«c<<eexssexss 21
Tổng quát mô hình OPIC cescecccccscsscescssvesvessesesseesessessessessesessssssseesessessease 26Minh họa kiến trúc mô hình HOTR -c- e+k‡E+teE+EeEexereerreers 29
Mô tả quá trình đưa các biểu dién tương tác . -5-©5ccs+cs+s+ 31
Kiến trúc mô hình SQDT (Separate Query and Decoder Transformer) 36Minh hoa 1 số hình anh trong bộ dữ liệu VCOCO\ esveseeeesessescssvssvesvesens 39Minh họa một số hình anh trong bộ dữ liệu HICO — DET 40
Minh họa công thức tinh ÏOU c5 c + kESeEEseeseeereeeerseeeeee 42
Minh họa Confusion MÍQfTIV + 3E EESkE+sEEseeEsekeskeskesee 43
Trực quan hóa kết quả thực 1ghiém 5-55 5252+5£+ce£Ee£tecterersscez 49
Minh họa giao điện của UNG đỤN cà hhihseeeerssseeeree 50
Minh họa kết quả dự đoán của mô hình trên ứng dụng - 51
Trang 15DANH MỤC BANG
Bảng 2.1: Thống kê chỉ tiết trên các bộ dữ liệu tốt cho bài toán HOI, 23
Bảng 4.1: Két quả của các của mô hình trên bộ dữ liệu VCOCO - 47Bang 4.2: Kết quả của các của mô hình trên bộ dữ liệu HICO-DET 48
Trang 16DANH MỤC TỪ VIET TAT
Từ viết tắt Từ nguyên gốc
AP Average Precision
CNN Convolutional Neural Network
COCO Common Objects in Context
FEN Feed Forward Network
GPU Graphical Processing Unit
HICO Humans Interacting with Common
Objects
loU Intersection Over Union
NLP Natural Language Processing
mAP mean Average Precision
RPN Region Proposal Network
Trang 17TÓM TAT KHÓA LUẬN
Hiện nay, cộng đồng lĩnh vực thị giác máy tính đang phát triển cực kỳ nhanh
và mạnh mẽ, và Transformer[1] — tiền thân là mô hình áp dụng bộ mã hóa giải mã(encoder — decoder) cực ky nổi tiếng trong giới xử lý ngôn ngữ tự nhiên (NLP -
Natural Language Processing) là mô hình đang nhận được rất nhiều những sự quan
tâm từ phía các những nhà nghiên cứu Tuy nhiên, phần lớn các nhà nghiên cứu đều
có gắng cải tiến dựa trên sự thay đổi về kiến trúc mô hình Nhận thấy điều này, nhóm
chúng tôi đã tiến hành nghiên cứu và cho ra đời một mô hình mới cũng dựa trên kiến
trúc Transformer.
Mục tiêu khóa luận của nhóm chúng tôi là tập trung giải quyết bài toán pháthiện tương tác giữa người và vật trong thế giới thực Đây là một lĩnh vực cực kỳ quan
trọng hiện nay trong Machine Learning nói chung và Computer Vision nói riêng Bai
toán có thể chia thành hai mục tiêu chính: Xác định mối quan hệ giữa người và vật
trong một hình ảnh hoặc một đoạn video, xác định hành động tương tác được thực
hiện giữa cặp người và vật ở trên Kết quả đã được xác định được biểu diễn thông
qua hộp giới hạn (Bounding Box).
Cụ thé, trong báo cáo khóa luận này, nhóm chúng tôi tập trung phát triển một
mô hình mới là SQDT (Separate Query and Decoder Transformer) Nhóm chúng tôi
đã chứng minh rằng việc gộp chung lẫn lộn 2 kiểu truy van và sử dụng chung mộtdecoder cho 2 loại truy van khác biệt có thé ảnh hưởng đến kết quả dự đoán của môhình Từ đó nhóm chúng tôi thử nghiệm và tiến hành kết hợp kiến trúc của HOTR vàQPIC, tạo ra một mô hình mới (SQDT) tận dụng được những ưu điểm của hai môhình trên và cho ra kết quả tốt hơn
Thách thức lớn nhất của bài toán đó là mỗi một cặp người vật có thể có nhiềuhành động tương tác khác nhau Ngoài ra, độ phức tạp và đa dạng của các chủ thểngười — vật cũng rất phong phú, từ đó tạo ra nhiều kiểu tương tác khác nhau, các kiểutương tac cũng có thé thay đồi tùy thuộc vào từng ngữ cảnh và đối tượng cụ thé Điều
Trang 18này khiến cho chúng ta — con người cũng phải tốn thời gian dé xác định xem đây là
tương tác gì Vậy, đây thực sự là một bài toán khó cho giới nghiên cứu học máy.
Trang 19Chương 1 MO ĐẦU
1.1 Động Lực Nghiên Cứu
Bài toán phát hiện tương tác giữa người và vật (Human — Object Interaction
Detection) trong thế giới thực là một trong những vấn đề quan trọng trong lĩnh vực
thị giác máy tính Đặc biệt, bài toán này càng được quan tâm bởi những ảnh hưởng
của nó trong lĩnh vực thị giác máy tính này bởi những ứng dụng cục kỳ thực tế củano: gop phan xay dung hé thong an ninh, y tẾ, giáo dục tiên tiễn, phát hiện các hành
vì đáng nghỉ (mang tính chất đe dọa), cải thiện tương tác giữa người và robot, pháttriển công nghệ robot, Mục tiêu của bai toán là xác định vị trí của người và cácvật thể (được tương tác) ở trong ảnh hoặc video, và tên các cách tương tác giữangười và vật đó Kết qua được biéu dién thông qua sử dụng các hộp giới hạn va gan
nhãn cho các tương tác.
Trong nhiều năm trở lại đây, các nghiên cứu về bài toán phát hiện tương tácngười — vat đã có nhiều bước bién chuyển lớn và đạt được những tiến bộ đáng kề dựatrên sự phát triển của nhiều loại phương pháp học máy khác nhau mà điền hình là học
sâu (deep learning) Một vài những tiến bộ có thé ké đến như:
Sự cải tiến về mặt kiến trúc mô hình: công nghệ bán dẫn ngày càng phát trién,
cho ra đời những thé hệ chip, vi xử lý với khả năng tính toán mạnh hơn gấp nhiều lần
cho phép những nhà nghiên cứu máy học nói chung và thị giác máy tính nói riêng thử
nghiệm rất nhiều mô hình máy học với kiến trúc tầng lớp phức tạp hơn, đem lại kết
quả khả thi hơn Bên cạnh đó, sự nồi tiếng của các mô hình họ Transformer cũng
đang mang đến rất nhiều sự quan tâm đối với các nhà nghiên cứu Mô hình
Transformer với đặc tính là có bộ mã hóa — giải mã (encoder — decoder) đã thành
công trong việc hiểu sâu hơn ý nghĩa của những truy van mà chúng ta truyền vào, mô
hình Transformer có thé học bài toán HOI với độ phức tạp cao hơn và có thể tận dụngcác đặc trưng về ngữ cảnh (Context Feature) tốt hơn Ngoài ra, với mô đun cơ chếchú ý (Attention Mechanism) và sự tích hợp cơ chế chú ý vào các mô hình hiểu ngữ
Trang 20cảnh (Context Model) giúp cho mô hình tập trung sự chú ý vào những phan thật sự
quan trọng, cải thiện khả năng hiểu ngữ cảnh của chúng, từ đó cung cấp nhiều cách
tiếp cận linh hoạt và đa dạng hơn trong công việc xử lý và nhận diện các mối quan hệ
cũng như kiểu tương tác trong bài toán HOI Điền hình, chúng ta có thể kế đến mô
hình HOTR với ý tưởng chính là phân chia decoder thành hai loại là bộ giải mã tương
tác (Interaction Decoder) và bộ giải mã thực thé (Instance Decoder) Mỗi bộ giải mã
sẽ mang nhiệm vụ giải mã thông tin của các loại truy vấn khác nhau Vì được tối ưuriêng cho từng loại nhiệm vụ nên mô hình HOTR[2] cũng dem lại hiệu suất rất cao
Ngoài phát triển những mô hình mới dựa trên họ Transformer, các nhà nghiên
cứu cũng tìm cách đưa mô hình học chuyền giao (Transfer Learning) và những mô
hình được dao tạo trước (Pre — Training) từ những nhiệm vụ như nhận diện vat thé,xác định hành động — tương tác đã giúp cải thiện đáng ké thời gian thực nghiệm, cũngnhư kết quả đầu ra của các mô hình HOI
Bên cạnh sự cải tién về mặt kiến trúc mô hình, vì học máy đang ngày càng thuhút nhiều nhân tài và hiện đang là xu hướng tất nồi trên thế giới, từ đó tạo ra mộtnguồn nhân lực dồi dao hơn và mang lại những bộ dữ liệu mới, hay làm giàu thêm
cho những bộ dữ liệu nổi tiếng cũ Hai bộ dữ liệu cực kỳ nổi tiếng và không xa lạ gi
với những nhà nghiên cứu cho bài toán HOI là HICO — DET[3] và V — COCO(4].
Ảnh từ hai bộ dữ liệu này đã cung cấp nhiều trường hợp, tình huống tương tác khácnhau, giúp cải thiện đáng ké khả năng tổng quát hóa kết quả đầu ra của mô hình
Mặc dù có những tiên bộ lớn lao vê kiên trúc mô hình và bộ dữ liệu, nhưng
bài toán phát hiện tương tác người vật vẫn là một bài toán đang phải đối mặt với cực
kỳ nhiều thách thức Điền hình có thể ké đến:
Sự đa dạng tương tác: Mối quan hệ giữa người và vật cực ky đa dạng, và có
nhiều kiểu tương tác khác nhau, chính vấn đề này đã đem lại một thách thức cực lớntrong nhiệm vụ xây dựng mô hình sao cho có khả năng tổng quát hóa với nhiều loại
tương tác khác biệt Ví dụ, một mô hình xác định tương tác trong bộ môn đua xe máy
với các loại tương tác như quay xe, phanh, tăng tốc, thì rất khó có thé đưa vào xác
Trang 21định tương tác trong bộ môn đua xe đạp, chưa nói đến các bộ môn khác hay các ứng
dụng thực tế khác
Bên cạnh đó, dữ liệu cũng là một vấn đề Tuy đã có những bộ dữ liệu chất
lương hơn nhưng yêu cầu của một bộ dữ liệu HOI thì lại cực kỳ cao Đầu tiên, dữ liệuHOI đòi hỏi sự đồng nhất về độ phức tạp, ánh sáng và góc nhìn Bởi chỉ cần thay đổi
góc nhìn hoặc độ sáng là ta đã có thé hiểu tương tác đó theo một cách khác nhau, từ
đó cũng yêu cầu các mô hình HOI phải làm việc được trên những điều kiện môitrường khác nhau Ngoài ra, các nhãn cũng phải có tính nhất quán Việc gán nhãn chomỗi một cặp người — vật thé và nhãn xác định kiểu tương tác giữa chúng cũng là một
công việc không hé dé dàng, đặc biệt là trường hợp có nhiều đối tượng trong một anh,
mỗi đối tượng lại thực hiện tương tác với nhiều vật thể Tính che phủ giữa người và
vật cũng là một vấn đề nhức nhối khi sự che phủ này có thể làm giảm độ chính xáccủa mô hình, đặc biệt quan trọng khi mô hình không thể lay được một cách đầy đủnhất thông tin về ngữ cảnh có trong bức ảnh, video đó Chính những điều này thường
tạo nên các bộ dữ liệu thiếu chất lượng, thiếu tính thực tế Và cho đến này, phần lớn
các bài toán HOI vẫn phải sử dụng bộ HICO — DET[3] hoặc V — COCO[4] dé tiễn
hành đánh giá, chạy thực nghiệm.
Chính những tiềm năng và thách thức trên đã góp phan tạo ra động lực dé
nhóm chúng tôi quyết định lựa chọn bài toán HOI và tìm hiểu, nghiên cứu, thực hiện
khóa luận tốt nghiệp Mục tiêu của nhóm là đề xuất một mô hình phát hiện tương tácngười vật mới dựa trên các sự chia tách các query và decoder, dựa trên kiến trúc của
2 mô hình là HOTR[2] và QPIC[5] Cung cấp một mô hình mới tận dụng được những
ưu điểm, và loại bỏ được các nhược điểm tồn đọng của mô hình cũ, một mô hình vớikết quả đầu ra tốt hơn
1.2 Phát Biểu Bài Toán
Bài toán phát hiện tương tác giữa người và vật được tiến hành thực nghiệm
trên ảnh tĩnh Nhiệm vụ của bài toán là phát hiện và nhận diện tập hợp chứa các bộ
Trang 22ba: hộp giới hạn người, hộp giới hạn vật thê và nhãn của vật thê, cuôi cùng là nhãn
các loại tương tác giữa chúng Đâu vào và đâu ra của bài toán được mô tả như sau:
Đâu vào: Hình ảnh có chứa các đôi tương là người và vật thê, người có thê
thực hiện một hoặc nhiêu tương tác đôi với vật thê.
Đầu ra: Bộ ba {human, object, interaction} tương đương với hộp giới hạn
người, hộp giới hạn và nhãn của vật, loại tương tác giữa người và vật tương ứng.
(a) Đầu vào (b) Đầu ra
Hình 1-1: Dau vào và đầu ra cua bài toản
và cắn (bite) Nhưng nếu người đó đang há miệng và lưỡi hơi đưa ra ngoài một chút,
Trang 23vậy có thể người đó đang liếm bánh mì Và việc xác định người đó đang cắn hay liếm
bánh mì thật sự không chắc chắn, đến con người chúng ta còn khó xác định, vậy mộtchiếc máy tính — một mô hình học máy cũng sẽ rất khó dé xác định vì tương tác nàykhá nhập nhằng Bởi vậy, sự đa dang trong tương tác khiến chúng ta khó có thé tạo
ra một mô hình có khả năng tông quát hóa cao.
Bên cạnh đó, trong thực tế cũng có rất nhiều tình huống phức tạp khác xảy ra
như người va vật bi che phủ 1 phần, nhiều đối tượng cùng tương tác với | vật, nhiều
đối tượng tương tác với nhiều vật và xảy ra đồng thời Lúc này, nếu mô hình làm
không tốt sẽ không lấy được đầy đủ thông tin của bức ảnh, thông tin của các đối tượng
trong hình, từ đó làm giảm độ chính xác mô hình.
1.3.2 Dữ Liệu Không Đồng Nhất và Kém Chất Lượng
Dữ liệu cho các bài toán HOI thường không đồng nhất, có sự khác nhau vềgóc độ chụp, ánh sáng, độ phức tạp của các đối tượng trong ảnh, độ phức tạp tương
tác Từ đó mô hình của chúng ta cũng phải được xây dựng sao cho có thê học và hoạt
động trơn tru trên các điêu kiện dau vào khác nhau.
Ngoài ra, vi phân lớn công cụ gan nhãn bây giờ đêu xuât phát từ con người,
hay nói cách khác các nhãn được gan bởi con người, bởi vậy không thê loại bỏ trường
hợp các nhãn đó bị xác định sai, bởi vì độ phức tạp của các bức ảnh có nhiêu đôi
tượng người — vật là rất cao
1.3.3 Mô Hình Chưa Đủ Tốt
Hiện nay, phan lớn các cải tiến dựa trên những mô hình có sẵn đều chỉ cải tiễndựa trên 1 hướng (theo visual feature, semantic features, ) mà bỏ quên nhiều loạiđặc trưng, nhiều hướng phát triển khác Dé mô hình có thê nhận biết tốt về các loại
tương tác, nó cần phải có khả năng nhìn nhận, xem xét, hiểu các biểu hiện của người
và vật và tận dụng thông tin của ngữ cảnh — môi trường xung quanh dé đưa ra xác
định chuân hơn Ngoài ra cũng có thể triển khai theo hướng khai thác các đặc trưng
vê ngữ nghĩa.
Trang 241.3.4 Thiếu Tính Thực Tế
Ngoài việc tạo ra một mô hình có kết quả tốt trên tập test, mô hình cũng phải
vượt qua các thách thức khi được triển khai trong đời thực như là áp dụng vào hệthống kiểm soát an toàn, an ninh, nhúng vào robot dé nó có kha năng đưa ra phán
đoán, tương tác tốt hơn,
1.3.5 Tổng Quát
Bài toán phát hiện tương tác giữa người và vật là một bài toán bao gồm những
bài toán con chính sau:
o Phát hiện đối tượng
o Phân lớp tương tác.
o Phân lớp hành động.
o Phát hiện tương tác.
o_ Ước lượng tư thế người
Bởi vậy, dé một mô hình có thé đảm nhiệm và xử lý hết tat cả những nhiệm
vụ trên là rất khó Đây thực sự là một đề tài cực kỳ thách thức cho giới nghiên cứu
thị giác máy tính ngày nay.
1.4 Mục Tiêu và Phạm Vị Khóa Luận
Trong phạm vi của một đề tài khóa luận tốt nghiệp, mục tiêu chính của dé tài
mà nhóm chúng tôi làm là:
o Tìm hiểu, nghiên cứu sơ bộ tổng quan những bài toán, mô hình, bộ dữ liệu
liên quan tới bài toán phát hiện tương tác người vật (HOI).
o Tìm hiểu kỹ và hệ thống lại luồng kiến thức về cơ chế attention trong
Transformer[ 1].
o Đào sâu nghiên cứu về chi tiết kiến trúc các mô hình phục vu cho bài toán
HOI dựa trên mô hình Transformer Đặc biệt tập trung vào 2 mô hình là
HOTR[2] và QPIC[5].
Trang 25o Đề xuất một cơ chế mới dựa trên nền tảng ý tưởng của những mô hình có
sẵn nhằm nâng cao hiệu suất
o Tiến hành chạy thực nghiệm, đánh giá các phương pháp — mô hình phát
hiện tương tác người vật đã nghiên cứu và so sánh với mô hình mà nhóm
nhóm chúng tôi đề xuất
o Từ những thực nghiệm, dựa trên kết quả dự đoán và đưa ra nhận xét, phân
tích nhằm tạo ra một hướng di để cải thiện hiệu suất của mô hình trong
tương lai.
1.5 Đóng Góp Của Nghiên Cứu
Trong nội dung của nghiên cứu này, nhóm chúng tôi đã trình bày các phương
pháp tiếp cận cũ cho bài toán phát hiện tương tác người vật, và đặc biệt tập trung vàohai phương pháp là HOTR[2] và QPIC[5] Nhóm đã trình bay chỉ tiết về ý tưởng, nộidung, và đưa ra các nhận xét phân tích về tu điểm, khuyết điểm của từng phương
pháp.
Bên cạnh đó, nhóm chúng tôi cũng trình bày về hai bộ đữ liệu nổi tiếng và
đáng tin cậy, được sử dụng cho nhiệm vụ phát hiện tương tác người vật là HICO —
DET{[3] và VCOCO[4] Trong đó, nhóm chúng tôi đã đưa ra những mô ta chi tiết về
thông tin liên quan tới bộ dữ liệu, nội dung các bộ dữ liệu và nhìn nhận những ưu
nhược điểm cũng như thách thức mà từng bộ đữ liệu mang lại
Cuối cùng, trong nghiên cứu này, dựa trên hai mô hình đã được tìm hiểu vàphân tích kỹ lưỡng là HOTR[2] và QPIC[5], nhóm chúng tôi đề xuất một mô hìnhmới là SQDT - giữ lại những ưu điểm và bỏ đi những khuyết điểm của 2 mô hình cũ.Sau quá trình huấn luyện, mô hình mới của nhóm chúng tôi đạt hiệu suất tốt trên hai
bộ di liệu là VCOCO[4] và HICO-DET[3].
1.6 Bố Cục Khóa Luận
Phân còn lai của khóa luận được trình bay theo bô cục như sau:
Trang 26CHƯƠNG 2 - CÁC NGHIÊN CỨU LIÊN QUAN: trình bày những tìm hiểu
nghiên cứu tông quan về cách tiếp cận đối với bài toán phát hiện tương tác người vật
trong các công trình nghiên cứu trước đây.
CHƯƠNG 3 - PHƯƠNG PHÁP ĐÈ XUẤT: trình bày mô hình mà nhóm chúngtôi đề xuất dựa trên 2 phương pháp tiền nhiệm là HOTR và QPIC
CHUONG 4 - THỰC NGHIEM VÀ DANH GIÁ: trình bày chỉ tiết về 2 bộ dữ liệu
phục vu bai toán phát hiện tương tác người vật (HOI) là HICO — DET và VCOCO.
Mô tả các tiêu chí — phương pháp đánh giá mô hình và cấu hình máy thực nghiệm
CHƯƠNG 5 - KET LUẬN VÀ HƯỚNG PHÁT TRIEN: tổng kết lại những nội
dung đã trình bày trong khóa luận, từ đó nhận xét đánh giá và đưa ra nhận định vềhướng phát triển trong tương lai
Trang 27Chương2 CÁC NGHIÊN CỨU LIÊN QUAN
Trong những năm gần đây, các phương pháp phát hiện tương tác giữa người
và vật đã có được những bước tién mới mang tính đột phá, đem lại các kết quả ngàycàng cao Nhìn chung, phần lớn những mô hình được phát triển sau này đều có sựliên quan mật thiết, nói cách khác là dựa trên kiến trúc những mô hình đời cũ và thay
đối, phát triển lên
Trong phần này, nhóm chúng tôi sẽ giới thiệu về bài toán HOI và những bài
toán liên quan mật thiết đến bài toán HOI, một vài phương pháp đời đầu, và nhữngphương pháp mới nổi gần đây dựa trên nền tảng kiến trúc mô hình Transformer
(HOTR[2] và QPIC[5]).
2.1 Các Bai Toán Liên Quan Đến Bài Toán HOI
2.1.1 Phân Lớp Trên Ảnh (Image Classification)
Image Classification hay còn gọi là bài toán phân lớp hình ảnh là một trong
những nhiệm vụ phô biến nhất của lĩnh vực thị giác máy tính đối với thực tế Mục
tiêu chính của bài toán là tìm cách phân biệt các đối tượng có trong ảnh dựa trên các
nhãn tương ứng được cung cấp từ dữ liệu đào tạo
Đầu vào của bài toán là một bức ảnh tĩnh, có chứa các vật thể trên đó Sau khi
xử lý, máy sẽ thê hiện dau ra là các nhãn (label) tương ứng với mỗi ảnh chứa vậttương ứng Thông thường bài toán này chỉ có ít đối tượng trên ảnh Vì chỉ làm mỗinhiệm vụ phân lớp nên có rất nhiều mô hình đã đạt được độ chính xác cực cao đối
với bài toán này.
Bên cạnh đó, các bộ dữ liệu phù hợp cho bài toán này cũng không có độ phực
tạp cao, mặc dù có thể đa dạng và rất lớn nhưng độ phức tạp của ảnh không cao, dẫn
đến mô hình được tối ưu cho nhiệm vụ này cũng không thé thực thi tốt các tác vụ
ngoài đời thực Tuy nhiên những mô hình, thuật toán được xây dựng từ bài toán nay
lại chính là những chìa khóa để mở ra thành công cho rất nhiều bài toán khác trong
lĩnh vực thị giác máy tính sau này.
Trang 282.1.2 Dinh Vị Vật Thể (Object Localization)
Định vị vật thê hay Object Localization cũng là 1 trong những bài toán đời đầu
trong ngành thị giác máy tính, và cũng là bài toán cực kỳ quan trọng trong lĩnh vực
trí tuệ nhân tạo — một ứng dụng của thị giác máy tính Nhiệm vụ của nó là nhận vào
một bức ảnh, xác định — khoanh vùng vi trí của các đối tượng mà ta cần trên bức ảnh
đó, vẽ 1 hộp giới hạn xung quanh đối tượng và trả về bức anh đã được định vị đối
tượng.
Có khá nhiều thuật toán thực hiện nhiệm vụ định vị vật thé này, điển hình là:
o Bounding Box Regression: Huấn luyện mô hình dé dự đoán thông
số các hộp giới hạn của vật thể Các thông số thường là tọa độ (x,y) của góc trên bên trái, chiều đài (h) và chiều rộng (w) của hộp
o Keypoint Detection: định vi đối tượng thông qua các điểm chính nồi
bật trên vật thê đó Ví dụ như khuôn mặt sẽ có các điểm nồi bật nhưmũi, mắt, khóe miệng, lông mày,
o Các phương pháp sử dụng hoc sâu: Khi công nghệ tính toán phát
triển, các nhà nghiên cứu đã ứng dụng mạng neural học sâu như các
mô hình họ CNNs để học các đặc trưng của đối tượng, từ đó đưa ra
dự đoán | cách linh hoạt hon.
Các thuật toán dùng cho định vị đối tượng khi phát triển lên có thể dùng cho
không gian 3 chiều, chính điều này làm nên giá trị của nó Giúp mô hình nâng caokhả năng hiểu biết, tương tác với thế giới thực bên ngoài
2.1.3 Phát Hiện Đối Tượng (Object Detection)
Phát hiện đôi tượng là nhiệm vụ khó khăn hơn nhiêu và là sự kêt hợp của cả
hai nhiệm vụ trên Đâu tiên, cân vẽ một hộp giới hạn xung quanh đôi tượng, sau đó
tiễn hành gan nhãn cho đối tượng đó
Sự phát triển trong lĩnh vực này đã mở ra cơ hội cho nghiên cứu các thách thức
phúc tap hơn trong thị giác máy tính, ví dụ như phát hiện tương tác người vat (visual
10
Trang 29human object interaction detection - HOI) Bài toán Phát hiện tương tác người vat
thường phụ thuộc chủ yếu vào bài toán phát hiện đối tượng Với sự phát triển không
ngừng nghỉ của các thuật toán học sâu, các mô hình từ đó được cải tiễn và có thé huấn
luyện trên các bộ dữ liệu mang tính phức tạp cao hơn.
Có thé nói rằng phát hiện đối tượng là một mức trừu tượng hon so với phân
loại hình ảnh Các bộ phát hiện đối tượng thường phải định vi đối tượng trước khi
thực hiện phân loại Hai giai đoạn này là định vị và phân loại Bước định vi nhằm tìmcác vùng trong hình ảnh mà có thé xuất hiện đối tượng, được gọi là các vùng đề xuất.Một số mạng CNNs đã rat nổi tiếng khi thực hiện cải tiến trên các cách tìm vùng déxuất, điển hình như: R-CNN[6], Faster R-CNN[7], Giai đoạn phân lớp sử dụng
các phương pháp tương tự như phân loại hình ảnh, trong đó các đặc trưng tích chập
được sử dụng dé xác định lớp của đối tượng
Việc định vị đối tượng là một nhiệm vụ phức tạp Một phương pháp đơn giản
là lay mẫu tat cả các vùng và tat cả các kích thước của hộp giới hạn trong hình anh.Tuy nhiên, điều này sẽ không hiệu quả tính toán vì số lượng hộp giới hạn là quá lớn
dé thực hiện phân loại Nhiều nghiên cứu về nhiệm vụ định vị đã được tiễn hành, và
do đó, các mô hình tạo ra các vùng đề xuất cũng đa dạng Hình 2-1 mô tả tác vụ định
vị đối tượng trong hình anh bằng phương pháp Faster RCNN[7]:
11
Trang 30Trong thực tế, người ta thường chia các thuật toán phát hiện đối tượng hiện
đại thành hai loại chính: hai giai đoạn (two stage model) và một giai đoạn (one stage
model) Các mô hình hai giai đoạn, như RCNN[6], Mask RCNN[8] yêu cầu thực hiệnhai bước riêng biệt (định vị và phân loại) dé nhận diện các đối tượng từ một hình ảnh
cụ thể Quá trình tạo ra vùng đề xuất có thê sử dụng nhiều phương pháp khác nhau
Ví dụ, trong trường hợp của RCNN[6], thuật toán tim kiếm có chọn lọc (selectivesearch algorithm) được áp dụng, sử dụng độ đo tính toán độ tương đồng của pixel dé
xác định các nhóm pixel có khả năng liên kết Faster-RCNN[7] dựa trên CNN đã sử
dụng ngay 1 mạng mới được gọi là mang đề xuất khu vực (region proposal network),phát hiện các vùng đề xuất từ bản đồ đặc trưng tích chập Sau khi đã định vi, việcphân loại các vùng này có thé được thực hiện thông qua các mạng phân loại khác.Mặc dù các mô hình phát hiện hai giai đoạn thường thể hiện độ chính xác cao hơn sovới mô hình một giai đoạn, nhưng việc phải thực thi lần lượt từng giai đoạn (mặc dù
12
Trang 31sau này đã có những nhà nghiên cứu tìm ra cách để thực thi song song) cũng vẫn làm
tăng thời gian huấn luyện và thực thi
Mô hình phát hiện một giai đoạn đồng thời thực hiện định vị và phân loại đối
tượng trong một lúc Các mô hình tiêu biểu như Single-Shot Detector (SSD)[9] và họ
mô hình You Only Look Once (YOLO)[10] áp dụng phương pháp này SSD[9] sử
dụng các bản đồ đặc trưng ở nhiều kích thước và tạo ra các vùng đề xuất bằng cách
trượt hộp giới hạn qua các bản đồ đặc trưng Các loại mô hình này có khả năng dự
đoán nhanh chóng và thực hiện phát hiện đối tượng trên video ở tốc độ cao, tuy nhiên,
thường phải đánh đổi độ chính xác để tăng tốc độ, đặc biệt là khi đối mặt với đối
tượng nhỏ.
2.1.4 Phân Lớp Hành Động (Action Recognition)
Phân lớp hành động là bài toán cực ky quan trọng và thách thức vì nó thường
được ứng dụng vào trong trí tuệ nhận tao (Artifical Inteligent) Nhiệm vụ chính của
bài toán này là gán nhãn các hành động, các chuỗi hoạt động được thực hiện trong
một video Ví dụ, trong một video có người đang ngồi, sau đó đứng dậy và đi thì môhình phải phát hiện và nhận diện được các hành động “ngồi”, “đứng”, “đi” Đây làcác hành động đơn giản, néu người đó vung tay chao và cầm lay thêm những vật dụngkhác thì còn phức tạp hơn Trong thực tế, hau hết là những loại hành động phức tapnhư “nấu ăn”, “đánh bóng chuyền”, Và bài toán này cũng liên quan mật thiết tới
bài toán xác định đối tượng, vì xác định bối cảnh cũng giúp tăng độ chính xác mô
hình Đối với bài toán HOI, Action Recognition giúp hỗ trợ xác định tương tác cụ thé
mà người đó đang thực hiện.
Một số phương pháp thường được sử dụng trong bài toán phân lớp hành động:
o_ Trích xuất đặc trưng không gian (extract spatial features): sử dụng
các mô hình học sâu state — of — the — art để học các đặc trừng từ
mỗi khung hình video, tạo ra mối tương quan về mặt không gian và
thời gian.
13
Trang 32o Long — short term memory (LSTM)[1I1I]: mặc dù ban đầu LSTM
được sử dụng trong NLP, nhưng nó càng ngày cảng được ứng dung
nhiều trong các lĩnh vực khác Trong Action Recognition, nó chophép mô hình học được các mối quan hệ giữa các khung hình liêntiếp, tạo ra sự kết nối giữa khung hình đầu tiên và cuối cùng của 1
loại tương tác.
2.1.5 Phân Lớp Tương Tac (Interaction Recognition)
Thông thường, bài toán phân lớp tương tác thường được gắn với con người,
và được phát biéu đưới tên Human Interaction Recognition Đây cũng là một bài toán
đang nhận được cực kỳ nhiều sự quan tâm và có tiềm năng phát triển mạnh mẽ trong
giới thị giác máy tính Mục tiêu chính của bài toán là xác định loại tương tác nào đang
diễn ra trong khung hình Các tương tác có thể bao gồm sự giao tiếp giữa con người,
như trò chuyện, bắt tay, ôm hôn, hoặc các hành động tương tác giữa con người và vật
thê như lái xe, sử dụng công cu,
(a) Handshake (h) Punch (c) Hug
Hình 2-2: Mô tả một kiểu đầu ra của bài toán phân lớp tương tác
Hiện tại, có rất nhiều khó khăn trong việc nhận dạng tương tác của con ngườinhư độ phức tạp về không gian của tương tác giữa con người, sự khác biệt về đặcđiểm hành động ở các khoảng thời gian khác nhau và độ phức tạp của các tính nănghành động tương tác, khả năng biểu diễn đa ngữ cảnh, Sự tồn tại của những vấn
đê này hạn chê việc cải thiện độ chính xác nhận dạng.
14
Trang 332.1.6 Ước Lượng Tư Thế Người (Human Pose Estimation)
Một lĩnh vực nghiên cứu liên khác quan đến thị giác máy tính là Ước lượng tưthế người (Human Pose Estimation) Mục tiêu chính của bài toán này là định vị các
bộ phận khác nhau của cơ thê người từ hình ảnh Trong thực tế, bài toán này đóng vai
trò quan trọng trong thể thao, y tế, Hỗ trợ nhận dạng các đặc điểm chung và sự
khác biệt trong cách con người di chuyển Áp dụng vào bài toán nhận diện tương tác
giữa người và vật thé, chúng ta hướng tới việc định vi cơ thé và các bộ phận phụ của
con người vì chúng cung cap thông tin về cach con người tương tác với vật thê.
Quá trình huấn luyện các mô hình ước lượng tư thế thuộc dạng học có giámsát, yêu cầu một lượng lớn dữ liệu huấn luyện với hình ảnh con người trong nhữnghoạt động khác nhau nhằm tăng khả năng khái quát hóa của mô hình Các nhà nghiên
cứu sẽ sử dụng phương pháp đánh giá thông qua bản đồ điểm đặc trưng (keypoint
map), các điểm được đánh dấu băng hình tròn đỏ trên hình anh đại điện cho các khớpnối các bộ phận khác nhau trên cơ thể con người, chúng bao gồm đầu gối, mắt cáchân, cổ, cổ tay, khuyu tay, Tùy theo mức độ đánh dau của nhà nghiên cứu Hìnhanh minh họa trong hình thé hiện một ví dụ về hình ảnh được gan nhãn của một vanđộng viên đang bước đi, lược đồ các điểm đặc trưng phủ lên con người với các đường
kết nối màu vàng tương trưng cho cơ thể chúng ta
15
Trang 34Feature Extraction
Hình 2-3: M6 ta một dau ra cua bài toán ước lượng tư thé người, là một keypoint
map màu xanh.
Có rất nhiều cách khác nhau đề thực thi nhiệm vụ ước lượng tư thế người,
phần lớn đều sử dụng các loại mạng học sâu Một trong những phương pháp đầu tiên
đã tiến hành định nghĩa bài toán theo kiểu hồi quy, sau khi xác định các điểm đặc
trung (keypoint map) mô hình sẽ tính toán lỗi dựa trên hàm tính lỗi Một ứng dụng
của phương pháp nay là Densepose[ 12], trong đó tác gia sử dụng phương pháp phân
đoạn ngữ nghĩa dé xác định các cơ quan phụ Ngoài ra, có một phương pháp tiếp cậnkhác là dựa trên bản đồ nhiệt (heat map), bản đồ nhiệt dùng để biểu thị xác suất màmột keypoint có thé xuất hiện trên vị trí đó thông qua vị trí pixel Kết qua đầu ra của
các mô hình này thường là keypoint map.
2.1.7 Xử Lý Ngôn Ngữ Tự Nhiên (Natural Languagu Processing — NLP)
NLP là một lĩnh vực trong mang học máy, tập trung vào công việc xử lý tương
tác giữa máy tính và ngôn ngữ tự nhiên của con người NLP có rất nhiều ứng dụng
trong đời sống như: Dịch máy (chuyền đổi giữa các ngôn ngữ khác nhau), phân tích
cảm xúc (phân tích các dấu hiệu cảm xúc trong văn bản, phân loại chúng), trích xuấtthông tin (đọc hiểu các văn bản và trích xuất những thông tin có vẻ là quan trọng),
16
Trang 35Chatbot (xây dựng hệ thống trả lời tin nhắn tự động một cách linh hoạt, thông minh),
phân loại văn bản,
Đối với bài toán HOI, NLP có thé hỗ trợ rất nhiều trong công đoạn khai thác
thông tin và hiểu ngữ cảnh (Context Understanding), từ đó làm rõ mối quan hệ giữacon người và môi trường xung quanh, củng cé độ tin cậy của kết qua dự đoán NLP
làm điều đó thông qua các semantic feature Thông thường sẽ có một module đảm
đương nhiệm vụ phân tích thông tin ngữ cảnh đó.
2.1.8 Học Sâu Đồng Thời (Simultaneous Deep Learning - SDL)
Học sâu đồng thời là một bài toán đã có từ lâu, nhưng dạo gần đây mới thực
sự thu hút được sự chú ý của cộng đồng nghiên cứu Deep Learning bởi sử phát triển
của công nghệ điện toán mới cho phép nghiên cứu sâu hơn vao bài toán nay SDL tập
trung vào phát triển các mô hình học máy có khả năng đồng thời thực thi 2 nhiệm vụ:học và dự đoán (nghĩa là mô hình có thé đưa ra dự đoán chính xác hơn ngay cả khi
dữ liệu mới đang được nhập vào) Việc dự đoán một cách liên tục, nhanh, sớm như
thế này góp phần mang lại lợi ích trong các tác vụ như dịch ngôn ngữ, nhận diện —
xử lý giọng nói hoặc video trực tuyến, phát hiện tương tác người vật, Tổng quan,
Học sâu đồng thời có giá trị rất cao đối với bài toán realtime thay vì chỉ có kết quả
cao như các nghiên cứu học thuật trong bài toán khác.
Đối với bài toán phát hiện tương tác người vật, học sâu đồng thời đóng góp
vào nhiêu khía canh như:
o Giảm độ trễ: các nhà nghiên cứu đã và đang có găng tìm cách song song
hóa các quá trình như xác định tư thế người và xác định vật thể, sẽ làm tăng
mạnh thời gian thực thi của các mô hình này.
o Hiểu ngữ cảnh thông qua xử lý đặc trưng ngữ nghĩa: như đã nói ở trên, hiện
nay phần lớn các nhà nghiên cứu chỉ tập trung cải tiến mô hình dựa trêncác đặc trưng về hình (visual feature) Còn một hướng phát triển khác đó
là sử dụng các semantic feature, điều này giúp cho mô hình có thể hiểu
được ngữ cảnh của môi trường xung quanh Khi thực hiện đồng thời hai
17
Trang 36việc này, mô hình có thê xử lý ngay thông tin mới nhận, thay vì chờ đếnkhi toán bộ ngữ cảnh được xử lý tuần tự.
2.2 Bài Toán Phát Hiện Tương Tác Người Vật (HOD)
Phát hiện tương tác người vật là một bài toán mà trong đó, nhiệm vụ chính của
nó là dự đoán một tập hợp bộ ba {human, object, interaction} có trong bức ảnh Từ
tập hợp bộ ba này, chúng ta có thé đưa ra sự tổng kết nhằm xác định mối quan hệ
tương tác giữa người và những vật có trong bức ảnh Chính điều này giúp máy tính
hiểu được cách mà con người và môi trường xung quanh họ tương tác với nhau trongcác ngữ cảnh rất trực quan Nếu so sánh với các bài toán nhận dang (object detection),
phân loại (Object Classification) thông thường, bài toán HOI mang tới những đóng
góp lớn lao hơn rất nhiều bởi tính thực tế và sự đa dụng của chính nó, là đại diện cho
một câp độ thâu hiêu và suy luận cao câp hơn về sự vật và con người trong ảnh, video.
2.3 Các Mô Hình Quan Trọng Với Sự Phát Triển Của Bài Toán HOI
2.3.1 Mutual Context Model [13].
Được xuất bản năm 2012, trong bài báo “Recognizing human-object
interactions in still images by modeling the mutual context of objects and human
poses” Day là một trong những bai bao đầu tiên nhằm đưa bai toán HOI ra ngoài ánhsáng Các tác giả đề xuất một mô hình đề nhận diện tương tác giữa người và vật bằngcách mô hình hóa bối cảnh chung của vật và tư thế người Nhóm tác giả nhận thấy
rằng các đồ vật và tư thế của con người có thé đóng vai trò là bối cảnh chung cho
nhau - việc nhận ra cái này sẽ tạo điêu kiện thuận lợi cho việc nhận biệt cái kia.
Trong bài báo này, tác đề xuất một mô hình bối cảnh tương hỗ (mutual context
model) dé cùng mô hình hóa các đối tượng và tư thế con người trong các hoạt động
tương tác giữa người và đối tượng Quan điểm của nhóm tác giả là nêu đi theo hướngobject detection, thì object detection sẽ cung cấp thông tin ưu tiên mạnh mẽ và môhình có thé ước lượng tư thế người (human pose) tốt hơn, trong khi các mô dung ước
18
Trang 37lượng tư thế người lại giúp cải thiện độ chính xác của việc phát hiện các đối tượng
tương ma được tương tac với con người.
“4 as, ) Image of Humane
I “_ objectinteractlof“°
Hình 2-4: Minh hoa sơ đồ của mô hình MCM Các node A (O1, O2) sẽ xác định
các đối tượng mà người tương tác Các node H (P1 PL) sẽ xác định tư thé người.Nhìn vào hình dễ thấy, việc ước lượng tư thế người có ảnh hưởng trực tiếp đến việc
xác định các object mà người do tương tác.
2.3.2 Visual Semantic Role Labeling
Day không phải là một model, đây là một bai báo nhằm làm nỗi bật tính chat
quan trọng của semantic feature (như là nhãn) Trong bai báo này, nhóm tác gia đưa
ra nhận định bộ COCO[14] vẫn còn quá phức tap tai thời điểm đó để tạo ra mộtphương pháp xử lý bài toán HOI và đem lại năng suất cao Các tác giả lấy từ bộ
COCO[14], tạo ra bộ VCOCO|4] với một bộ động từ - verb (danh sách các tương tac)
riêng được gán nhãn chính xác hơn, các bức ảnh sẽ thực sự liên quan tới verb mà nó
được gán nhãn.
19
Trang 38nhiên môi ảnh thường không chứa quá nhiêu người và vật thê.
Với model dé đánh gia, họ chọn R-CNN[7] và huấn luyện riêng dé cho nó cóthé nhận biết những người tham gia vào tương tác đó Sau đó, họ chọn một mô hìnhthứ 2 là mô hình hồi quy để làm nhiệm vụ xác định các object thực sự tham gia vào
trong tương tác đó (xác định dựa trên semantic feature).
Đây chính là một bước đột phá mới, làm cơ sở tiên đê cho các chiêu hướng
đào sâu phát triển bài toán HOI sau này
2.3.3 InteractNet
Ra đời năm 2018, InteractNet[15] được giới thiệu trong bài báo “Detecting
and Recognizing Human-Object Interactions” — mô hình do đội ngũ facebook AI
research phát triển có lượt cite lên tới 618 cho tới lúc này
Trong mô hình này, nhóm tác giả đưa ra nhận định những đặc điểm của cơ thêngười (như tư thế, quần áo, hành động, ) sẽ là những công cụ giá trị để xác định
object mà người đó đang tương tác tới Và họ tạo ra một mô hình mới — InteractNet
20