Khóa luận tốt nghiệp Khoa học máy tính: Tăng cường khả năng phát hiện tương tác người vật thông qua đặc trưng ngữ nghĩa sử dụng các mô hình transformer

Bài toán này không chỉ đơn thuần là phát hiện vàđịnh vị người và vật thé mà còn đòi hỏi hiểu được các mối quan hệ và tương tác giữa họ,chăng hạn như việc một người cầm một đối tượng, lái

Trang 1

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRUONG DAI HOC CONG NGHE THONG TIN

KHOA KHOA HOC MAY TINH

Phạm Tắn Tài — 20521861

Bùi Long Vũ — 20520350

KHÓA LUẬN TÓT NGHIỆP

Tăng cường khả năng Phát hiện tương tác người vật thông

qua đặc trưng ngữ nghĩa sử dụng các mô hình Transformer

Enhance Human — Object Interaction Detection Via Semantic

Feature in Detection Transformer Model

CU NHÂN NGANH KHOA HOC MAY TÍNH

GIANG VIEN HUONG DAN

ThS Võ Duy Nguyên

TS Nguyễn Tan Trần Minh Khang

TP HÒ CHÍ MINH, 2023

Trang 2

THONG TIN HOI DONG CHAM KHÓA LUẬN TOT NGHIỆP

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

ngầy của Hiệu trưởng Trường Đại học Công nghệ Thông tin.

Trang 3

LỜI CẢM ƠN

Xuyên suốt từ lúc chúng tôi mới bước chân vào trường Đại Học Công NghệThông Tin cho đến hôm nay — ngày chúng tôi hoàn thành khóa luận tốt nghiệp Đã

luôn có những người sẵn sàng ở cạnh bên chúng tôi để chỉ bảo, giúp đỡ, và chia sẻ

những khoảnh khắc, kỷ niệm với nhiều cung bậc cảm xúc khó quên

Đầu tiên, chúng tôi xin phép gửi đến hai người thầy, một lời cảm ơn từ tận đáylòng: TS Nguyễn Tan Trần Minh Khang và ThS Võ Duy Nguyên Hai Thay đã tiếp

nhận và chỉ dạy cho chúng tôi từ lúc mới đặt chân tới giảng đường đại học tới tận bây

giờ Những kiến thức không chỉ thiên về các môn học trên giảng đường, mà còn làkinh nghiệm, cách sống và đối xử với người khác sao cho ra dang sinh viên đại học

— những người trưởng thành Các Thầy mở ra cho chúng tôi một cánh cửa mới, cánh

cửa của nghiên cứu khoa học, đưa chúng tôi đi trên con đường mà hơn mười tam năm

sông trên đời chúng tôi chưa hề biết tới, hoặc giả có biết cũng chang dam mo tới Conđường đó trau đồi kỹ năng học tập và làm việc của chúng tôi, đem lại những thách

thức cực kỳ khó khăn Nhưng, “lửa thử vàng, gian nan thử sức” Nhờ liên tục bị vùi

dập bởi những thách thức đó, mà chúng tôi biết cách nỗ lực dé vượt qua, chinh phục

những thử thách đầy thú vi với trái tim nhiệt huyết của các cô cậu sinh viên, đồng

thời cải thiện ban thân của chính mình — từng ngày trở thành một phiên bản tốt đẹp

hơn của ngày hôm qua.

Tiếp theo, chúng tôi xin chân thành cảm ơn toàn thê thầy cô đã và đang làmviéc trong tat cả các Khoa của trường Dai Học Công Nghệ Thông Tin, đặc biệt là cácthầy cô thuộc Khoa Khoa Học Máy Tính Thầy Cô luôn có mặt và sẵn sàng giúp đỡmỗi khi chúng tôi có thắc mắc Những buổi học với giáo trình được soạn kỹ càng và

các bài kiểm tra lay điểm bat chợt đã đưa nhóm chúng tôi vào một môi trường chuyên

nghiệp, khuôn phép và kỷ luật Trong từng môn học, Thầy Cô luôn cé gắng tạo điềukiện tốt nhất cho nhóm chúng tôi dé có thể tiếp thu bài học nhanh chóng, đưa ra nhiềuphương pháp giảng day dé giúp cả lớp không bị chán nản bởi những lý thuyết mangday tính học thuật Thay Cô cũng đưa cho chúng tôi những lời khuyên được đúc rút

từ kinh nghiệm của chính bản thân mình mỗi khi chúng tôi gặp áp lực trong chuyện

Trang 4

học và cần một người dé chia sẻ, lắng nghe Từ tận đáy lòng, chúng tôi xin phép cảm

ơn các Thầy Cô, cảm ơn mọi người vì đã dạy cho chúng tôi những bài học đáng giá,

làm hành trang tương lai dé bước vào đời

Và cuối cùng, chúng tôi xin cảm ơn gia đình và những người bạn đã luôn làmột chỗ dựa tinh thần vững chắc trong suốt những năm nay Gia đình luôn là động

lực để chúng tôi tiếp tục bước đi trên con đường kiếm tìm tri thức, những người bạn

lại luôn sát cánh bên chúng tôi và cùng nhau trải qua năm tháng sinh viên nhiều đắng

cay ngọt bùi.

Xin chân thành cảm ơn tat ca!

Trang 5

ĐẠI HỌC QUOC GIA TP HO CHÍ CONG HÒA XÃ HỘI CHỦ NGHĨA

MINH VIỆT NAM

TRƯỜNG ĐẠI HỌC , Độc Lập - Tự Do - Hanh Phúc

` CONG NGHỆ THONG TIN

DE CUONG CHI TIET

Tên đề tài: Tăng cường khả năng Phát hiện tương tác người vat thông qua đặc trưng

ngữ nghĩa sử dụng các mô hình Transformer

Tên đề tài tiếng Anh: Enhance Human — Object Interaction Detection Via Semantic

Feature in Detection Transformer Model

Ngôn ngữ thực hiện: Tiếng Việt / Tiếng Anh

Cán bộ hướng dẫn:

- ThS VÕ DUY NGUYEN

- TS NGUYÊN TAN TRAN MINH KHANG

Thời gian thực hiện: Từ ngày 05/09/2023 đến ngày 30/12/2023.

Sinh viên thực hiện:

PHẠM TẤN TÀI - 20521861 Lớp: KHMT2020

Email: 20521861@®gm.uif.edu.vn Điện thoại: 0858848302

BÙI LONG VŨ - 20520350 Lớp: KHMT2020

Email: 20520350@gm.uif.edu.vn Điện thoại: 0375099772

Nội dung đề tài:(Mô ta chỉ tiết mục tiêu, phạm vi, đối tượng, phương pháp thực hiện, kếtquả mong đợi của dé tai)

Trang 6

1 Giới thiệu:

Bài toán phát hiện tương tác người vật là một trong những thách thức quan trọng trong

lĩnh vực thị giác máy tính Nó tập trung vào việc nhận diện và hiểu sự tương tác giữa conngười và vật thể trong một hình ảnh Bài toán này không chỉ đơn thuần là phát hiện vàđịnh vị người và vật thé mà còn đòi hỏi hiểu được các mối quan hệ và tương tác giữa họ,chăng hạn như việc một người cầm một đối tượng, lái một chiếc xe, hoặc tiếp xúc vật thé

trong các tình huống thực tế.Phát hiện tương tác người-vật có ứng dụng rộng rãi trong

nhiều lĩnh vực, bao gồm nhận dạng hành vi con người, ứng dụng trong xe tự hành, giámsát an ninh, và nhiều ứng dụng thú vị khác Bài toán HOI đặt ra những thách thức đáng

ké do sự đa dang và phức tạp của các tình huống tương tác giữa người và vật thé Các tình

huống này rat đa dạng và có thể xuất hiện dưới nhiều hình thức khác nhau:

e Nhiều người tham gia cùng một tương tác: Ví dụ, trong một bữa tiệc, nhiều người

có thê đang nói chuyện, cười đùa, và cùng nhau thưởng thức thức ăn Điều này đòi

hỏi bài toán HOI phải xác định được các loại tương tác đa dạng mà người và vật

thê có thê tham gia

e_ Một người tương tác với nhiều vật thé cùng lúc: Một vi dụ cho trường hợp này là

khi người dùng ngồi trên một chiếc ghế và đang sử dụng máy tính Bài toán HOI

cần xác định được rằng người đó không chỉ ngồi trên ghế mà còn đang tương tác

với máy tính.

e Nhiều người có cùng một tương tác với vật thé: Ví dụ, khi một nhóm bạn đang ném

và bắt một quả bóng, cả nhóm chia sẻ cùng một tương tác với quả bóng Điều nàyđòi hỏi bài toán HOI phải hiểu được tương tác chung của nhiều người với vật thể

(quả bóng) này.

Trong thực tế, có rất nhiều tình huống phức tap và đa dang, làm cho việc phát hiện và hiểu

các mối tương tác giữa người và vật thê trở thành một thách thức lớn trong lĩnh vực Thị

giác máy tính.

Trong các mô hình giải quyết bài toán này mà sử dụng kiến trúc transformer nỗi tiếng có

thé ké đến là HOTR[1] đây là 1 mô hình được phát triển lên từ DETR[2] có thé gọi nó là

Trang 7

DETR cho bài toán HOI, mô hình này đã cho thây rằng nó có thê đạt được hiệu suất rấttốt Nhưng hiện tại trong kiến trúc của HOTR ở cả bộ encoder và decoder vẫn chưa khaithác triệt để được thông tin của các đặc trưng ngữ nghĩa Thấy được tiềm năng hiện tại củabài toán nên chúng tôi quyết định lựa chọn bài toán này cho việc tìm hiểu, nghiên cứu vàthực hiện khóa luận tốt nghiệp.

2 Phát biểu bài toán:

Đầu vào: Một hình anh trong đó một (hoặc nhiều) người đang tham gia tương tác với một(hoặc nhiều) vật thẻ

Đầu ra: Phát hiện và nhận diện tập hợp chứa các bộ ba: người, vật thé và các tương tác

giữa họ, được biểu diễn dưới dạng {human, object, interaction}

Hình 1.1 Đầu vào và đầu ra của bài toán

3 Mục tiêu đề tài:

Nghiên cứu và đánh giá các thuật toán phát hiện tương tác người-vật hiện nay

Đánh giá hiệu suất của các cơ chế semantic feature hiện có

Đê xuât cơ chê nâng cao hiệu suât của khả năng phát hiện tương tác người vật băng cách

sử dụng các mô hình transformer.

Đánh giá hiệu suât của mô hình đê xuât trên các tập dữ liệu về tương tác người vật nôi

tiếng hiện nay như V-COCO[3], HICO-DETI4]

Xây dựng chương trình ứng dụng từ mô hình đề xuất

Trang 8

4 Phạm vi đề tài:

Nghiên cứu, dé xuât mô hình nâng cao hiệu suat bài toán “Phát hiện tương tác người vật”

so với phương pháp cơ sở.

Tài liệu chi tiết cách cài đặt môi trường,các cải tiến và mô hình đề xuất

Báo cáo đánh giá, phân tích thực nghiệm với các phương pháp “state-of-the-art” trên bộ

dữ liệu HICO-DET, V-COCO.

5 Nội dung nghiên cứu đề tài:

Tìm hiéu tông quan và khảo sát vê hướng tiép cận của các mô hình phát hiện tương tac

người vật state-of-the-art.

Nghiên cứu chuyên sâu về các phương pháp có sử dụng đặc trưng ngữ nghĩa

Tìm hiểu các kỹ thuật khai thác đặc trưng ngữ nghĩa từ hình anh

Đề xuất một mô hình giúp cải tiến khả năng tận dụng đặc trưng ngữ nghĩa ở bộ endcoder

và decoder của mô hình HOTR.

Tìm hiểu về các bộ dữ liệu thực nghiệm V-COCO, HICO-DET

Tìm hiểu kỹ thuật để xây dựng chương trình ứng dụng minh họa.

6 Phương pháp thực hiện:

Đọc và tìm hiểu, khảo sát về các phương pháp hiện nay trong bài toán HOI

Cài đặt thực nghiệm lại các phương pháp mà nhóm cho là có thé cải thiện được hiệu suấtTiến hành tổng hợp kết quả và phân tích chúng

Chọn ra phương pháp có tiềm năng nhất và bắt đầu cải thiện hiệu suất của mô hình

Thực nghiệm mô hình thiết kế trên bộ dữ liệu V-COCO và HICO-DET Tổng hợp kết quachỉ tiết và so sánh với các phương pháp trước đó trên bài toán

Xây dựng chương trình ứng dụng cho mô hình đề xuất

7 Kết quả mong đợi:

Trang 9

Ban báo cáo chi tiết cung cấp một cái nhìn toàn diện về quá trình tìm hiểu và khảo sát

trong bài toán Phát Hiện Tương Tác Người- Vật (HOD của chúng tôi Báo cáo này sẽ không

chỉ phân tích mà còn đề xuất phương pháp dé cải thiện hiệu suất trong HOI

Source code và hướng dẫn cài đặt chỉ tiết về mô hình đề xuất

Xây dựng chương trình ứng dụng minh họa đề trực quan hóa kết quả nghiên cứu.

8 Tài liệu tham khảo:

[1] Kim, Bumsoo, et al "Hotr: End-to-end human-object interaction detection with

transformers." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern

Recognition 2021.

[2] Carion, Nicolas, et al "End-to-end object detection with transformers." European

conference on computer vision Cham: Springer International Publishing, 2020.

[3] Gupta, Saurabh, and Jitendra Malik "Visual semantic role labeling.” arXiv preprint

arXiv:1505.04474 (2015).

[4] Chao, Yu-Wei, et al "Learning to detect human-object interactions." 2018 ieee winter

conference on applications of computer vision (wacv) IEEE, 2018.

Kế hoạch thực hiện:(Mô td tớm tắt kế hoạch làm việc và phân công công việc cho từng

sinh viên tham gia)

+ Tuần 1 — 2: Khảo sát các nghiên cứu hiện nay trong bài toán HOI

+ Tuần 3 — 6: Tiến hành thực nghiệm cai đặt các mô hình đã tìm hiểu trên tập dữ liệu

V-COCO và HICO-DET

+ Tuần 7 — 12: Từ các mô hình được thực nghiệm chọn ra mô hình tốt nhất và tập trungvào cải tiến hiệu suất của mô hình đó

+ Tuần 13 — 17: Đánh giá, phân tích kết quả và xây dựng chương trình demo

+ Tuân 18 — Phan còn lại: Hoàn thiện báo cáo.

Trang 10

Phân công công việc:

Sinh viên thực hiện Công việc

Phạm TAn Tài ° Khảo sát các mô hình hiện nay được sử dụng trong

bài toán HOI

Tìm hiểu các kĩ thuật khai thác đặc trưng ngữ nghĩa

từ hình ảnh

Tìm hiểu về cách nâng cao hiệu suất mô hình

Cài đặt mô hình dé xuất

Viết báo cáo về các mô hình đã tìm hiểu

Code ứng dụng demo

Bùi Long Vũ °

Xác nhận của CBHD

(Ký tên và ghi rõ họ tên)

Tìm hiểu về các mô hình có sử dụng đặc trưng ngữ

nghĩa

Cài đặt các mô hình mà nhóm đã đã khảo sát

Viết báo cáo về các mô hình đã tìm hiểuTìm hiểu về cách nâng cao hiệu suất mô hình

Phân tích và đánh giá kết quả giữa mô hình đề xuất

Trang 11

MỤC LỤC

DE CƯƠNG CHI TIẾT 5

TÓM TAT KHÓA LUẬN 17

Chương 1 MỞ ĐẦU 1

1.1 Động Luc Nghiên Cứu 1

1.2 Phát Biểu Bài Toán 3

1.4 Mục Tiêu và Pham Vi Khóa Luận 6

1.5 Đóng Gop Của Nghiên Cứu 7

1.6 Bố Cục Khóa Luận 7

Chuong 2 | CAC NGHIÊN CUU LIEN QUAN 9

2.1 Các Bài Toán Liên Quan Đến Bài Toán HOI 9

2.1.1 Phân Lớp Trên Anh (Image Classification) 92.1.2 Định Vị Vật Thể (ObJect Localization) 102.1.3 Phát Hiện Đối Tượng (Object Detection) 10

2.1.4 Phân Lớp Hanh Dong (Action Recognition) 13

2.1.5 Phan Lớp Tương Tac (Interaction Recognition) 14

Trang 12

2.1.6 Ước Lượng Tư Thế Người (Human Pose Estimation) 15

2.1.7 Xt Lý Ngôn Ngữ Tự Nhiên (Natural Languagu Processing — NLP)16

2.1.8 Học Sâu Đồng Thời (Simultaneous Deep Learning - SDL) 17

2.2 Bài Toán Phát Hiện Tương Tác Người Vật (HOT) 18

2.3 Các Mô Hình Quan Trọng Với Sự Phát Triển Của Bài Toán HOI 18

2.3.1 Mutual Context Model [13] 18

2.3.2 Visual Semantic Role Labeling 19

2.3.3 InteractNet 20

2.4 Các Bộ Dữ Liệu Thường Dùng Trong Bài Toán Phát Hiện Tương Tac Người

Vật (HOI) 22

Chuong 3 PHƯƠNG PHÁP DE XUẤT 24

3.1 So Sánh — Đánh Giá Ưu Nhược Điểm Của HOTR và QPIC 24

3.2 Mô Hình Separate Query and Decoder Transformer (SQDT) 34

Chuong 4 | THUC NGHIEM VA ĐÁNH GIÁ 38

Trang 13

4.2.2 Precision

4.2.3 Recall

4.2.4 Average Precision

4.3 Định Nghia Cua True Positive Trong Bai Toán HOI

4.4 Cài Dat Chi Tiết

4.5 Két Qua Thuc Nghiém va Danh Gia

4.6 Triển khai ứng dung

Chương 5 KÉT LUẬN VA HƯỚNG PHAT TRIEN

Trang 14

Đầu vào và AGU ra của bài LOGI coeeccecseesseessesssesssessesssesssesssessesssesssesssssecsses 4

Dau ra của bài toán phát hiện đối tượng . ¿55c cccccccccssrses 12

Mô tả một kiểu dau ra của bài toán phân lớp tương tác .-. 14

Mô tả một dau ra của bài toán ước lượng tư thé người . : 16Minh hoa sơ đô của mô hình MCÌMM - 5e +t+E+teE+Eerexereerereers 19

Minh họa anh trong bộ đữ liệu VCO(CO .«<<<<<<<<<++ 20

Minh họa pipeline mô hình InteractNet[ 15 ] « «-«c<<eexssexss 21

Tổng quát mô hình OPIC cescecccccscsscescssvesvessesesseesessessessessesessssssseesessessease 26Minh họa kiến trúc mô hình HOTR -c- e+k‡E+teE+EeEexereerreers 29

Mô tả quá trình đưa các biểu dién tương tác . -5-©5ccs+cs+s+ 31

Kiến trúc mô hình SQDT (Separate Query and Decoder Transformer) 36Minh hoa 1 số hình anh trong bộ dữ liệu VCOCO\ esveseeeesessescssvssvesvesens 39Minh họa một số hình anh trong bộ dữ liệu HICO — DET 40

Minh họa công thức tinh ÏOU c5 c + kESeEEseeseeereeeerseeeeee 42

Minh họa Confusion MÍQfTIV + 3E EESkE+sEEseeEsekeskeskesee 43

Trực quan hóa kết quả thực 1ghiém 5-55 5252+5£+ce£Ee£tecterersscez 49

Minh họa giao điện của UNG đỤN cà hhihseeeerssseeeree 50

Minh họa kết quả dự đoán của mô hình trên ứng dụng - 51

Trang 15

DANH MỤC BANG

Bảng 2.1: Thống kê chỉ tiết trên các bộ dữ liệu tốt cho bài toán HOI, 23

Bảng 4.1: Két quả của các của mô hình trên bộ dữ liệu VCOCO - 47Bang 4.2: Kết quả của các của mô hình trên bộ dữ liệu HICO-DET 48

Trang 16

DANH MỤC TỪ VIET TAT

Từ viết tắt Từ nguyên gốc

AP Average Precision

CNN Convolutional Neural Network

COCO Common Objects in Context

FEN Feed Forward Network

GPU Graphical Processing Unit

HICO Humans Interacting with Common

Objects

loU Intersection Over Union

NLP Natural Language Processing

mAP mean Average Precision

RPN Region Proposal Network

Trang 17

TÓM TAT KHÓA LUẬN

Hiện nay, cộng đồng lĩnh vực thị giác máy tính đang phát triển cực kỳ nhanh

và mạnh mẽ, và Transformer[1] — tiền thân là mô hình áp dụng bộ mã hóa giải mã(encoder — decoder) cực ky nổi tiếng trong giới xử lý ngôn ngữ tự nhiên (NLP -

Natural Language Processing) là mô hình đang nhận được rất nhiều những sự quan

tâm từ phía các những nhà nghiên cứu Tuy nhiên, phần lớn các nhà nghiên cứu đều

có gắng cải tiến dựa trên sự thay đổi về kiến trúc mô hình Nhận thấy điều này, nhóm

chúng tôi đã tiến hành nghiên cứu và cho ra đời một mô hình mới cũng dựa trên kiến

trúc Transformer.

Mục tiêu khóa luận của nhóm chúng tôi là tập trung giải quyết bài toán pháthiện tương tác giữa người và vật trong thế giới thực Đây là một lĩnh vực cực kỳ quan

trọng hiện nay trong Machine Learning nói chung và Computer Vision nói riêng Bai

toán có thể chia thành hai mục tiêu chính: Xác định mối quan hệ giữa người và vật

trong một hình ảnh hoặc một đoạn video, xác định hành động tương tác được thực

hiện giữa cặp người và vật ở trên Kết quả đã được xác định được biểu diễn thông

qua hộp giới hạn (Bounding Box).

Cụ thé, trong báo cáo khóa luận này, nhóm chúng tôi tập trung phát triển một

mô hình mới là SQDT (Separate Query and Decoder Transformer) Nhóm chúng tôi

đã chứng minh rằng việc gộp chung lẫn lộn 2 kiểu truy van và sử dụng chung mộtdecoder cho 2 loại truy van khác biệt có thé ảnh hưởng đến kết quả dự đoán của môhình Từ đó nhóm chúng tôi thử nghiệm và tiến hành kết hợp kiến trúc của HOTR vàQPIC, tạo ra một mô hình mới (SQDT) tận dụng được những ưu điểm của hai môhình trên và cho ra kết quả tốt hơn

Thách thức lớn nhất của bài toán đó là mỗi một cặp người vật có thể có nhiềuhành động tương tác khác nhau Ngoài ra, độ phức tạp và đa dạng của các chủ thểngười — vật cũng rất phong phú, từ đó tạo ra nhiều kiểu tương tác khác nhau, các kiểutương tac cũng có thé thay đồi tùy thuộc vào từng ngữ cảnh và đối tượng cụ thé Điều

Trang 18

này khiến cho chúng ta — con người cũng phải tốn thời gian dé xác định xem đây là

tương tác gì Vậy, đây thực sự là một bài toán khó cho giới nghiên cứu học máy.

Trang 19

Chương 1 MO ĐẦU

1.1 Động Lực Nghiên Cứu

Bài toán phát hiện tương tác giữa người và vật (Human — Object Interaction

Detection) trong thế giới thực là một trong những vấn đề quan trọng trong lĩnh vực

thị giác máy tính Đặc biệt, bài toán này càng được quan tâm bởi những ảnh hưởng

của nó trong lĩnh vực thị giác máy tính này bởi những ứng dụng cục kỳ thực tế củano: gop phan xay dung hé thong an ninh, y tẾ, giáo dục tiên tiễn, phát hiện các hành

vì đáng nghỉ (mang tính chất đe dọa), cải thiện tương tác giữa người và robot, pháttriển công nghệ robot, Mục tiêu của bai toán là xác định vị trí của người và cácvật thể (được tương tác) ở trong ảnh hoặc video, và tên các cách tương tác giữangười và vật đó Kết qua được biéu dién thông qua sử dụng các hộp giới hạn va gan

nhãn cho các tương tác.

Trong nhiều năm trở lại đây, các nghiên cứu về bài toán phát hiện tương tácngười — vat đã có nhiều bước bién chuyển lớn và đạt được những tiến bộ đáng kề dựatrên sự phát triển của nhiều loại phương pháp học máy khác nhau mà điền hình là học

sâu (deep learning) Một vài những tiến bộ có thé ké đến như:

Sự cải tiến về mặt kiến trúc mô hình: công nghệ bán dẫn ngày càng phát trién,

cho ra đời những thé hệ chip, vi xử lý với khả năng tính toán mạnh hơn gấp nhiều lần

cho phép những nhà nghiên cứu máy học nói chung và thị giác máy tính nói riêng thử

nghiệm rất nhiều mô hình máy học với kiến trúc tầng lớp phức tạp hơn, đem lại kết

quả khả thi hơn Bên cạnh đó, sự nồi tiếng của các mô hình họ Transformer cũng

đang mang đến rất nhiều sự quan tâm đối với các nhà nghiên cứu Mô hình

Transformer với đặc tính là có bộ mã hóa — giải mã (encoder — decoder) đã thành

công trong việc hiểu sâu hơn ý nghĩa của những truy van mà chúng ta truyền vào, mô

hình Transformer có thé học bài toán HOI với độ phức tạp cao hơn và có thể tận dụngcác đặc trưng về ngữ cảnh (Context Feature) tốt hơn Ngoài ra, với mô đun cơ chếchú ý (Attention Mechanism) và sự tích hợp cơ chế chú ý vào các mô hình hiểu ngữ

Trang 20

cảnh (Context Model) giúp cho mô hình tập trung sự chú ý vào những phan thật sự

quan trọng, cải thiện khả năng hiểu ngữ cảnh của chúng, từ đó cung cấp nhiều cách

tiếp cận linh hoạt và đa dạng hơn trong công việc xử lý và nhận diện các mối quan hệ

cũng như kiểu tương tác trong bài toán HOI Điền hình, chúng ta có thể kế đến mô

hình HOTR với ý tưởng chính là phân chia decoder thành hai loại là bộ giải mã tương

tác (Interaction Decoder) và bộ giải mã thực thé (Instance Decoder) Mỗi bộ giải mã

sẽ mang nhiệm vụ giải mã thông tin của các loại truy vấn khác nhau Vì được tối ưuriêng cho từng loại nhiệm vụ nên mô hình HOTR[2] cũng dem lại hiệu suất rất cao

Ngoài phát triển những mô hình mới dựa trên họ Transformer, các nhà nghiên

cứu cũng tìm cách đưa mô hình học chuyền giao (Transfer Learning) và những mô

hình được dao tạo trước (Pre — Training) từ những nhiệm vụ như nhận diện vat thé,xác định hành động — tương tác đã giúp cải thiện đáng ké thời gian thực nghiệm, cũngnhư kết quả đầu ra của các mô hình HOI

Bên cạnh sự cải tién về mặt kiến trúc mô hình, vì học máy đang ngày càng thuhút nhiều nhân tài và hiện đang là xu hướng tất nồi trên thế giới, từ đó tạo ra mộtnguồn nhân lực dồi dao hơn và mang lại những bộ dữ liệu mới, hay làm giàu thêm

cho những bộ dữ liệu nổi tiếng cũ Hai bộ dữ liệu cực kỳ nổi tiếng và không xa lạ gi

với những nhà nghiên cứu cho bài toán HOI là HICO — DET[3] và V — COCO(4].

Ảnh từ hai bộ dữ liệu này đã cung cấp nhiều trường hợp, tình huống tương tác khácnhau, giúp cải thiện đáng ké khả năng tổng quát hóa kết quả đầu ra của mô hình

Mặc dù có những tiên bộ lớn lao vê kiên trúc mô hình và bộ dữ liệu, nhưng

bài toán phát hiện tương tác người vật vẫn là một bài toán đang phải đối mặt với cực

kỳ nhiều thách thức Điền hình có thể ké đến:

Sự đa dạng tương tác: Mối quan hệ giữa người và vật cực ky đa dạng, và có

nhiều kiểu tương tác khác nhau, chính vấn đề này đã đem lại một thách thức cực lớntrong nhiệm vụ xây dựng mô hình sao cho có khả năng tổng quát hóa với nhiều loại

tương tác khác biệt Ví dụ, một mô hình xác định tương tác trong bộ môn đua xe máy

với các loại tương tác như quay xe, phanh, tăng tốc, thì rất khó có thé đưa vào xác

Trang 21

định tương tác trong bộ môn đua xe đạp, chưa nói đến các bộ môn khác hay các ứng

dụng thực tế khác

Bên cạnh đó, dữ liệu cũng là một vấn đề Tuy đã có những bộ dữ liệu chất

lương hơn nhưng yêu cầu của một bộ dữ liệu HOI thì lại cực kỳ cao Đầu tiên, dữ liệuHOI đòi hỏi sự đồng nhất về độ phức tạp, ánh sáng và góc nhìn Bởi chỉ cần thay đổi

góc nhìn hoặc độ sáng là ta đã có thé hiểu tương tác đó theo một cách khác nhau, từ

đó cũng yêu cầu các mô hình HOI phải làm việc được trên những điều kiện môitrường khác nhau Ngoài ra, các nhãn cũng phải có tính nhất quán Việc gán nhãn chomỗi một cặp người — vật thé và nhãn xác định kiểu tương tác giữa chúng cũng là một

công việc không hé dé dàng, đặc biệt là trường hợp có nhiều đối tượng trong một anh,

mỗi đối tượng lại thực hiện tương tác với nhiều vật thể Tính che phủ giữa người và

vật cũng là một vấn đề nhức nhối khi sự che phủ này có thể làm giảm độ chính xáccủa mô hình, đặc biệt quan trọng khi mô hình không thể lay được một cách đầy đủnhất thông tin về ngữ cảnh có trong bức ảnh, video đó Chính những điều này thường

tạo nên các bộ dữ liệu thiếu chất lượng, thiếu tính thực tế Và cho đến này, phần lớn

các bài toán HOI vẫn phải sử dụng bộ HICO — DET[3] hoặc V — COCO[4] dé tiễn

hành đánh giá, chạy thực nghiệm.

Chính những tiềm năng và thách thức trên đã góp phan tạo ra động lực dé

nhóm chúng tôi quyết định lựa chọn bài toán HOI và tìm hiểu, nghiên cứu, thực hiện

khóa luận tốt nghiệp Mục tiêu của nhóm là đề xuất một mô hình phát hiện tương tácngười vật mới dựa trên các sự chia tách các query và decoder, dựa trên kiến trúc của

2 mô hình là HOTR[2] và QPIC[5] Cung cấp một mô hình mới tận dụng được những

ưu điểm, và loại bỏ được các nhược điểm tồn đọng của mô hình cũ, một mô hình vớikết quả đầu ra tốt hơn

1.2 Phát Biểu Bài Toán

Bài toán phát hiện tương tác giữa người và vật được tiến hành thực nghiệm

trên ảnh tĩnh Nhiệm vụ của bài toán là phát hiện và nhận diện tập hợp chứa các bộ

Trang 22

ba: hộp giới hạn người, hộp giới hạn vật thê và nhãn của vật thê, cuôi cùng là nhãn

các loại tương tác giữa chúng Đâu vào và đâu ra của bài toán được mô tả như sau:

Đâu vào: Hình ảnh có chứa các đôi tương là người và vật thê, người có thê

thực hiện một hoặc nhiêu tương tác đôi với vật thê.

Đầu ra: Bộ ba {human, object, interaction} tương đương với hộp giới hạn

người, hộp giới hạn và nhãn của vật, loại tương tác giữa người và vật tương ứng.

(a) Đầu vào (b) Đầu ra

Hình 1-1: Dau vào và đầu ra cua bài toản

và cắn (bite) Nhưng nếu người đó đang há miệng và lưỡi hơi đưa ra ngoài một chút,

Trang 23

vậy có thể người đó đang liếm bánh mì Và việc xác định người đó đang cắn hay liếm

bánh mì thật sự không chắc chắn, đến con người chúng ta còn khó xác định, vậy mộtchiếc máy tính — một mô hình học máy cũng sẽ rất khó dé xác định vì tương tác nàykhá nhập nhằng Bởi vậy, sự đa dang trong tương tác khiến chúng ta khó có thé tạo

ra một mô hình có khả năng tông quát hóa cao.

Bên cạnh đó, trong thực tế cũng có rất nhiều tình huống phức tạp khác xảy ra

như người va vật bi che phủ 1 phần, nhiều đối tượng cùng tương tác với | vật, nhiều

đối tượng tương tác với nhiều vật và xảy ra đồng thời Lúc này, nếu mô hình làm

không tốt sẽ không lấy được đầy đủ thông tin của bức ảnh, thông tin của các đối tượng

trong hình, từ đó làm giảm độ chính xác mô hình.

1.3.2 Dữ Liệu Không Đồng Nhất và Kém Chất Lượng

Dữ liệu cho các bài toán HOI thường không đồng nhất, có sự khác nhau vềgóc độ chụp, ánh sáng, độ phức tạp của các đối tượng trong ảnh, độ phức tạp tương

tác Từ đó mô hình của chúng ta cũng phải được xây dựng sao cho có thê học và hoạt

động trơn tru trên các điêu kiện dau vào khác nhau.

Ngoài ra, vi phân lớn công cụ gan nhãn bây giờ đêu xuât phát từ con người,

hay nói cách khác các nhãn được gan bởi con người, bởi vậy không thê loại bỏ trường

hợp các nhãn đó bị xác định sai, bởi vì độ phức tạp của các bức ảnh có nhiêu đôi

tượng người — vật là rất cao

1.3.3 Mô Hình Chưa Đủ Tốt

Hiện nay, phan lớn các cải tiến dựa trên những mô hình có sẵn đều chỉ cải tiễndựa trên 1 hướng (theo visual feature, semantic features, ) mà bỏ quên nhiều loạiđặc trưng, nhiều hướng phát triển khác Dé mô hình có thê nhận biết tốt về các loại

tương tác, nó cần phải có khả năng nhìn nhận, xem xét, hiểu các biểu hiện của người

và vật và tận dụng thông tin của ngữ cảnh — môi trường xung quanh dé đưa ra xác

định chuân hơn Ngoài ra cũng có thể triển khai theo hướng khai thác các đặc trưng

vê ngữ nghĩa.

Trang 24

1.3.4 Thiếu Tính Thực Tế

Ngoài việc tạo ra một mô hình có kết quả tốt trên tập test, mô hình cũng phải

vượt qua các thách thức khi được triển khai trong đời thực như là áp dụng vào hệthống kiểm soát an toàn, an ninh, nhúng vào robot dé nó có kha năng đưa ra phán

đoán, tương tác tốt hơn,

1.3.5 Tổng Quát

Bài toán phát hiện tương tác giữa người và vật là một bài toán bao gồm những

bài toán con chính sau:

o Phát hiện đối tượng

o Phân lớp tương tác.

o Phân lớp hành động.

o Phát hiện tương tác.

o_ Ước lượng tư thế người

Bởi vậy, dé một mô hình có thé đảm nhiệm và xử lý hết tat cả những nhiệm

vụ trên là rất khó Đây thực sự là một đề tài cực kỳ thách thức cho giới nghiên cứu

thị giác máy tính ngày nay.

1.4 Mục Tiêu và Phạm Vị Khóa Luận

Trong phạm vi của một đề tài khóa luận tốt nghiệp, mục tiêu chính của dé tài

mà nhóm chúng tôi làm là:

o Tìm hiểu, nghiên cứu sơ bộ tổng quan những bài toán, mô hình, bộ dữ liệu

liên quan tới bài toán phát hiện tương tác người vật (HOI).

o Tìm hiểu kỹ và hệ thống lại luồng kiến thức về cơ chế attention trong

Transformer[ 1].

o Đào sâu nghiên cứu về chi tiết kiến trúc các mô hình phục vu cho bài toán

HOI dựa trên mô hình Transformer Đặc biệt tập trung vào 2 mô hình là

HOTR[2] và QPIC[5].

Trang 25

o Đề xuất một cơ chế mới dựa trên nền tảng ý tưởng của những mô hình có

sẵn nhằm nâng cao hiệu suất

o Tiến hành chạy thực nghiệm, đánh giá các phương pháp — mô hình phát

hiện tương tác người vật đã nghiên cứu và so sánh với mô hình mà nhóm

nhóm chúng tôi đề xuất

o Từ những thực nghiệm, dựa trên kết quả dự đoán và đưa ra nhận xét, phân

tích nhằm tạo ra một hướng di để cải thiện hiệu suất của mô hình trong

tương lai.

1.5 Đóng Góp Của Nghiên Cứu

Trong nội dung của nghiên cứu này, nhóm chúng tôi đã trình bày các phương

pháp tiếp cận cũ cho bài toán phát hiện tương tác người vật, và đặc biệt tập trung vàohai phương pháp là HOTR[2] và QPIC[5] Nhóm đã trình bay chỉ tiết về ý tưởng, nộidung, và đưa ra các nhận xét phân tích về tu điểm, khuyết điểm của từng phương

pháp.

Bên cạnh đó, nhóm chúng tôi cũng trình bày về hai bộ đữ liệu nổi tiếng và

đáng tin cậy, được sử dụng cho nhiệm vụ phát hiện tương tác người vật là HICO —

DET{[3] và VCOCO[4] Trong đó, nhóm chúng tôi đã đưa ra những mô ta chi tiết về

thông tin liên quan tới bộ dữ liệu, nội dung các bộ dữ liệu và nhìn nhận những ưu

nhược điểm cũng như thách thức mà từng bộ đữ liệu mang lại

Cuối cùng, trong nghiên cứu này, dựa trên hai mô hình đã được tìm hiểu vàphân tích kỹ lưỡng là HOTR[2] và QPIC[5], nhóm chúng tôi đề xuất một mô hìnhmới là SQDT - giữ lại những ưu điểm và bỏ đi những khuyết điểm của 2 mô hình cũ.Sau quá trình huấn luyện, mô hình mới của nhóm chúng tôi đạt hiệu suất tốt trên hai

bộ di liệu là VCOCO[4] và HICO-DET[3].

1.6 Bố Cục Khóa Luận

Phân còn lai của khóa luận được trình bay theo bô cục như sau:

Trang 26

CHƯƠNG 2 - CÁC NGHIÊN CỨU LIÊN QUAN: trình bày những tìm hiểu

nghiên cứu tông quan về cách tiếp cận đối với bài toán phát hiện tương tác người vật

trong các công trình nghiên cứu trước đây.

CHƯƠNG 3 - PHƯƠNG PHÁP ĐÈ XUẤT: trình bày mô hình mà nhóm chúngtôi đề xuất dựa trên 2 phương pháp tiền nhiệm là HOTR và QPIC

CHUONG 4 - THỰC NGHIEM VÀ DANH GIÁ: trình bày chỉ tiết về 2 bộ dữ liệu

phục vu bai toán phát hiện tương tác người vật (HOI) là HICO — DET và VCOCO.

Mô tả các tiêu chí — phương pháp đánh giá mô hình và cấu hình máy thực nghiệm

CHƯƠNG 5 - KET LUẬN VÀ HƯỚNG PHÁT TRIEN: tổng kết lại những nội

dung đã trình bày trong khóa luận, từ đó nhận xét đánh giá và đưa ra nhận định vềhướng phát triển trong tương lai

Trang 27

Chương2 CÁC NGHIÊN CỨU LIÊN QUAN

Trong những năm gần đây, các phương pháp phát hiện tương tác giữa người

và vật đã có được những bước tién mới mang tính đột phá, đem lại các kết quả ngàycàng cao Nhìn chung, phần lớn những mô hình được phát triển sau này đều có sựliên quan mật thiết, nói cách khác là dựa trên kiến trúc những mô hình đời cũ và thay

đối, phát triển lên

Trong phần này, nhóm chúng tôi sẽ giới thiệu về bài toán HOI và những bài

toán liên quan mật thiết đến bài toán HOI, một vài phương pháp đời đầu, và nhữngphương pháp mới nổi gần đây dựa trên nền tảng kiến trúc mô hình Transformer

(HOTR[2] và QPIC[5]).

2.1 Các Bai Toán Liên Quan Đến Bài Toán HOI

2.1.1 Phân Lớp Trên Ảnh (Image Classification)

Image Classification hay còn gọi là bài toán phân lớp hình ảnh là một trong

những nhiệm vụ phô biến nhất của lĩnh vực thị giác máy tính đối với thực tế Mục

tiêu chính của bài toán là tìm cách phân biệt các đối tượng có trong ảnh dựa trên các

nhãn tương ứng được cung cấp từ dữ liệu đào tạo

Đầu vào của bài toán là một bức ảnh tĩnh, có chứa các vật thể trên đó Sau khi

xử lý, máy sẽ thê hiện dau ra là các nhãn (label) tương ứng với mỗi ảnh chứa vậttương ứng Thông thường bài toán này chỉ có ít đối tượng trên ảnh Vì chỉ làm mỗinhiệm vụ phân lớp nên có rất nhiều mô hình đã đạt được độ chính xác cực cao đối

với bài toán này.

Bên cạnh đó, các bộ dữ liệu phù hợp cho bài toán này cũng không có độ phực

tạp cao, mặc dù có thể đa dạng và rất lớn nhưng độ phức tạp của ảnh không cao, dẫn

đến mô hình được tối ưu cho nhiệm vụ này cũng không thé thực thi tốt các tác vụ

ngoài đời thực Tuy nhiên những mô hình, thuật toán được xây dựng từ bài toán nay

lại chính là những chìa khóa để mở ra thành công cho rất nhiều bài toán khác trong

lĩnh vực thị giác máy tính sau này.

Trang 28

2.1.2 Dinh Vị Vật Thể (Object Localization)

Định vị vật thê hay Object Localization cũng là 1 trong những bài toán đời đầu

trong ngành thị giác máy tính, và cũng là bài toán cực kỳ quan trọng trong lĩnh vực

trí tuệ nhân tạo — một ứng dụng của thị giác máy tính Nhiệm vụ của nó là nhận vào

một bức ảnh, xác định — khoanh vùng vi trí của các đối tượng mà ta cần trên bức ảnh

đó, vẽ 1 hộp giới hạn xung quanh đối tượng và trả về bức anh đã được định vị đối

tượng.

Có khá nhiều thuật toán thực hiện nhiệm vụ định vị vật thé này, điển hình là:

o Bounding Box Regression: Huấn luyện mô hình dé dự đoán thông

số các hộp giới hạn của vật thể Các thông số thường là tọa độ (x,y) của góc trên bên trái, chiều đài (h) và chiều rộng (w) của hộp

o Keypoint Detection: định vi đối tượng thông qua các điểm chính nồi

bật trên vật thê đó Ví dụ như khuôn mặt sẽ có các điểm nồi bật nhưmũi, mắt, khóe miệng, lông mày,

o Các phương pháp sử dụng hoc sâu: Khi công nghệ tính toán phát

triển, các nhà nghiên cứu đã ứng dụng mạng neural học sâu như các

mô hình họ CNNs để học các đặc trưng của đối tượng, từ đó đưa ra

dự đoán | cách linh hoạt hon.

Các thuật toán dùng cho định vị đối tượng khi phát triển lên có thể dùng cho

không gian 3 chiều, chính điều này làm nên giá trị của nó Giúp mô hình nâng caokhả năng hiểu biết, tương tác với thế giới thực bên ngoài

2.1.3 Phát Hiện Đối Tượng (Object Detection)

Phát hiện đôi tượng là nhiệm vụ khó khăn hơn nhiêu và là sự kêt hợp của cả

hai nhiệm vụ trên Đâu tiên, cân vẽ một hộp giới hạn xung quanh đôi tượng, sau đó

tiễn hành gan nhãn cho đối tượng đó

Sự phát triển trong lĩnh vực này đã mở ra cơ hội cho nghiên cứu các thách thức

phúc tap hơn trong thị giác máy tính, ví dụ như phát hiện tương tác người vat (visual

10

Trang 29

human object interaction detection - HOI) Bài toán Phát hiện tương tác người vat

thường phụ thuộc chủ yếu vào bài toán phát hiện đối tượng Với sự phát triển không

ngừng nghỉ của các thuật toán học sâu, các mô hình từ đó được cải tiễn và có thé huấn

luyện trên các bộ dữ liệu mang tính phức tạp cao hơn.

Có thé nói rằng phát hiện đối tượng là một mức trừu tượng hon so với phân

loại hình ảnh Các bộ phát hiện đối tượng thường phải định vi đối tượng trước khi

thực hiện phân loại Hai giai đoạn này là định vị và phân loại Bước định vi nhằm tìmcác vùng trong hình ảnh mà có thé xuất hiện đối tượng, được gọi là các vùng đề xuất.Một số mạng CNNs đã rat nổi tiếng khi thực hiện cải tiến trên các cách tìm vùng déxuất, điển hình như: R-CNN[6], Faster R-CNN[7], Giai đoạn phân lớp sử dụng

các phương pháp tương tự như phân loại hình ảnh, trong đó các đặc trưng tích chập

được sử dụng dé xác định lớp của đối tượng

Việc định vị đối tượng là một nhiệm vụ phức tạp Một phương pháp đơn giản

là lay mẫu tat cả các vùng và tat cả các kích thước của hộp giới hạn trong hình anh.Tuy nhiên, điều này sẽ không hiệu quả tính toán vì số lượng hộp giới hạn là quá lớn

dé thực hiện phân loại Nhiều nghiên cứu về nhiệm vụ định vị đã được tiễn hành, và

do đó, các mô hình tạo ra các vùng đề xuất cũng đa dạng Hình 2-1 mô tả tác vụ định

vị đối tượng trong hình anh bằng phương pháp Faster RCNN[7]:

11

Trang 30

Trong thực tế, người ta thường chia các thuật toán phát hiện đối tượng hiện

đại thành hai loại chính: hai giai đoạn (two stage model) và một giai đoạn (one stage

model) Các mô hình hai giai đoạn, như RCNN[6], Mask RCNN[8] yêu cầu thực hiệnhai bước riêng biệt (định vị và phân loại) dé nhận diện các đối tượng từ một hình ảnh

cụ thể Quá trình tạo ra vùng đề xuất có thê sử dụng nhiều phương pháp khác nhau

Ví dụ, trong trường hợp của RCNN[6], thuật toán tim kiếm có chọn lọc (selectivesearch algorithm) được áp dụng, sử dụng độ đo tính toán độ tương đồng của pixel dé

xác định các nhóm pixel có khả năng liên kết Faster-RCNN[7] dựa trên CNN đã sử

dụng ngay 1 mạng mới được gọi là mang đề xuất khu vực (region proposal network),phát hiện các vùng đề xuất từ bản đồ đặc trưng tích chập Sau khi đã định vi, việcphân loại các vùng này có thé được thực hiện thông qua các mạng phân loại khác.Mặc dù các mô hình phát hiện hai giai đoạn thường thể hiện độ chính xác cao hơn sovới mô hình một giai đoạn, nhưng việc phải thực thi lần lượt từng giai đoạn (mặc dù

12

Trang 31

sau này đã có những nhà nghiên cứu tìm ra cách để thực thi song song) cũng vẫn làm

tăng thời gian huấn luyện và thực thi

Mô hình phát hiện một giai đoạn đồng thời thực hiện định vị và phân loại đối

tượng trong một lúc Các mô hình tiêu biểu như Single-Shot Detector (SSD)[9] và họ

mô hình You Only Look Once (YOLO)[10] áp dụng phương pháp này SSD[9] sử

dụng các bản đồ đặc trưng ở nhiều kích thước và tạo ra các vùng đề xuất bằng cách

trượt hộp giới hạn qua các bản đồ đặc trưng Các loại mô hình này có khả năng dự

đoán nhanh chóng và thực hiện phát hiện đối tượng trên video ở tốc độ cao, tuy nhiên,

thường phải đánh đổi độ chính xác để tăng tốc độ, đặc biệt là khi đối mặt với đối

tượng nhỏ.

2.1.4 Phân Lớp Hành Động (Action Recognition)

Phân lớp hành động là bài toán cực ky quan trọng và thách thức vì nó thường

được ứng dụng vào trong trí tuệ nhận tao (Artifical Inteligent) Nhiệm vụ chính của

bài toán này là gán nhãn các hành động, các chuỗi hoạt động được thực hiện trong

một video Ví dụ, trong một video có người đang ngồi, sau đó đứng dậy và đi thì môhình phải phát hiện và nhận diện được các hành động “ngồi”, “đứng”, “đi” Đây làcác hành động đơn giản, néu người đó vung tay chao và cầm lay thêm những vật dụngkhác thì còn phức tạp hơn Trong thực tế, hau hết là những loại hành động phức tapnhư “nấu ăn”, “đánh bóng chuyền”, Và bài toán này cũng liên quan mật thiết tới

bài toán xác định đối tượng, vì xác định bối cảnh cũng giúp tăng độ chính xác mô

hình Đối với bài toán HOI, Action Recognition giúp hỗ trợ xác định tương tác cụ thé

mà người đó đang thực hiện.

Một số phương pháp thường được sử dụng trong bài toán phân lớp hành động:

o_ Trích xuất đặc trưng không gian (extract spatial features): sử dụng

các mô hình học sâu state — of — the — art để học các đặc trừng từ

mỗi khung hình video, tạo ra mối tương quan về mặt không gian và

thời gian.

13

Trang 32

o Long — short term memory (LSTM)[1I1I]: mặc dù ban đầu LSTM

được sử dụng trong NLP, nhưng nó càng ngày cảng được ứng dung

nhiều trong các lĩnh vực khác Trong Action Recognition, nó chophép mô hình học được các mối quan hệ giữa các khung hình liêntiếp, tạo ra sự kết nối giữa khung hình đầu tiên và cuối cùng của 1

loại tương tác.

2.1.5 Phân Lớp Tương Tac (Interaction Recognition)

Thông thường, bài toán phân lớp tương tác thường được gắn với con người,

và được phát biéu đưới tên Human Interaction Recognition Đây cũng là một bài toán

đang nhận được cực kỳ nhiều sự quan tâm và có tiềm năng phát triển mạnh mẽ trong

giới thị giác máy tính Mục tiêu chính của bài toán là xác định loại tương tác nào đang

diễn ra trong khung hình Các tương tác có thể bao gồm sự giao tiếp giữa con người,

như trò chuyện, bắt tay, ôm hôn, hoặc các hành động tương tác giữa con người và vật

thê như lái xe, sử dụng công cu,

(a) Handshake (h) Punch (c) Hug

Hình 2-2: Mô tả một kiểu đầu ra của bài toán phân lớp tương tác

Hiện tại, có rất nhiều khó khăn trong việc nhận dạng tương tác của con ngườinhư độ phức tạp về không gian của tương tác giữa con người, sự khác biệt về đặcđiểm hành động ở các khoảng thời gian khác nhau và độ phức tạp của các tính nănghành động tương tác, khả năng biểu diễn đa ngữ cảnh, Sự tồn tại của những vấn

đê này hạn chê việc cải thiện độ chính xác nhận dạng.

14

Trang 33

2.1.6 Ước Lượng Tư Thế Người (Human Pose Estimation)

Một lĩnh vực nghiên cứu liên khác quan đến thị giác máy tính là Ước lượng tưthế người (Human Pose Estimation) Mục tiêu chính của bài toán này là định vị các

bộ phận khác nhau của cơ thê người từ hình ảnh Trong thực tế, bài toán này đóng vai

trò quan trọng trong thể thao, y tế, Hỗ trợ nhận dạng các đặc điểm chung và sự

khác biệt trong cách con người di chuyển Áp dụng vào bài toán nhận diện tương tác

giữa người và vật thé, chúng ta hướng tới việc định vi cơ thé và các bộ phận phụ của

con người vì chúng cung cap thông tin về cach con người tương tác với vật thê.

Quá trình huấn luyện các mô hình ước lượng tư thế thuộc dạng học có giámsát, yêu cầu một lượng lớn dữ liệu huấn luyện với hình ảnh con người trong nhữnghoạt động khác nhau nhằm tăng khả năng khái quát hóa của mô hình Các nhà nghiên

cứu sẽ sử dụng phương pháp đánh giá thông qua bản đồ điểm đặc trưng (keypoint

map), các điểm được đánh dấu băng hình tròn đỏ trên hình anh đại điện cho các khớpnối các bộ phận khác nhau trên cơ thể con người, chúng bao gồm đầu gối, mắt cáchân, cổ, cổ tay, khuyu tay, Tùy theo mức độ đánh dau của nhà nghiên cứu Hìnhanh minh họa trong hình thé hiện một ví dụ về hình ảnh được gan nhãn của một vanđộng viên đang bước đi, lược đồ các điểm đặc trưng phủ lên con người với các đường

kết nối màu vàng tương trưng cho cơ thể chúng ta

15

Trang 34

Feature Extraction

Hình 2-3: M6 ta một dau ra cua bài toán ước lượng tư thé người, là một keypoint

map màu xanh.

Có rất nhiều cách khác nhau đề thực thi nhiệm vụ ước lượng tư thế người,

phần lớn đều sử dụng các loại mạng học sâu Một trong những phương pháp đầu tiên

đã tiến hành định nghĩa bài toán theo kiểu hồi quy, sau khi xác định các điểm đặc

trung (keypoint map) mô hình sẽ tính toán lỗi dựa trên hàm tính lỗi Một ứng dụng

của phương pháp nay là Densepose[ 12], trong đó tác gia sử dụng phương pháp phân

đoạn ngữ nghĩa dé xác định các cơ quan phụ Ngoài ra, có một phương pháp tiếp cậnkhác là dựa trên bản đồ nhiệt (heat map), bản đồ nhiệt dùng để biểu thị xác suất màmột keypoint có thé xuất hiện trên vị trí đó thông qua vị trí pixel Kết qua đầu ra của

các mô hình này thường là keypoint map.

2.1.7 Xử Lý Ngôn Ngữ Tự Nhiên (Natural Languagu Processing — NLP)

NLP là một lĩnh vực trong mang học máy, tập trung vào công việc xử lý tương

tác giữa máy tính và ngôn ngữ tự nhiên của con người NLP có rất nhiều ứng dụng

trong đời sống như: Dịch máy (chuyền đổi giữa các ngôn ngữ khác nhau), phân tích

cảm xúc (phân tích các dấu hiệu cảm xúc trong văn bản, phân loại chúng), trích xuấtthông tin (đọc hiểu các văn bản và trích xuất những thông tin có vẻ là quan trọng),

16

Trang 35

Chatbot (xây dựng hệ thống trả lời tin nhắn tự động một cách linh hoạt, thông minh),

phân loại văn bản,

Đối với bài toán HOI, NLP có thé hỗ trợ rất nhiều trong công đoạn khai thác

thông tin và hiểu ngữ cảnh (Context Understanding), từ đó làm rõ mối quan hệ giữacon người và môi trường xung quanh, củng cé độ tin cậy của kết qua dự đoán NLP

làm điều đó thông qua các semantic feature Thông thường sẽ có một module đảm

đương nhiệm vụ phân tích thông tin ngữ cảnh đó.

2.1.8 Học Sâu Đồng Thời (Simultaneous Deep Learning - SDL)

Học sâu đồng thời là một bài toán đã có từ lâu, nhưng dạo gần đây mới thực

sự thu hút được sự chú ý của cộng đồng nghiên cứu Deep Learning bởi sử phát triển

của công nghệ điện toán mới cho phép nghiên cứu sâu hơn vao bài toán nay SDL tập

trung vào phát triển các mô hình học máy có khả năng đồng thời thực thi 2 nhiệm vụ:học và dự đoán (nghĩa là mô hình có thé đưa ra dự đoán chính xác hơn ngay cả khi

dữ liệu mới đang được nhập vào) Việc dự đoán một cách liên tục, nhanh, sớm như

thế này góp phần mang lại lợi ích trong các tác vụ như dịch ngôn ngữ, nhận diện —

xử lý giọng nói hoặc video trực tuyến, phát hiện tương tác người vật, Tổng quan,

Học sâu đồng thời có giá trị rất cao đối với bài toán realtime thay vì chỉ có kết quả

cao như các nghiên cứu học thuật trong bài toán khác.

Đối với bài toán phát hiện tương tác người vật, học sâu đồng thời đóng góp

vào nhiêu khía canh như:

o Giảm độ trễ: các nhà nghiên cứu đã và đang có găng tìm cách song song

hóa các quá trình như xác định tư thế người và xác định vật thể, sẽ làm tăng

mạnh thời gian thực thi của các mô hình này.

o Hiểu ngữ cảnh thông qua xử lý đặc trưng ngữ nghĩa: như đã nói ở trên, hiện

nay phần lớn các nhà nghiên cứu chỉ tập trung cải tiến mô hình dựa trêncác đặc trưng về hình (visual feature) Còn một hướng phát triển khác đó

là sử dụng các semantic feature, điều này giúp cho mô hình có thể hiểu

được ngữ cảnh của môi trường xung quanh Khi thực hiện đồng thời hai

17

Trang 36

việc này, mô hình có thê xử lý ngay thông tin mới nhận, thay vì chờ đếnkhi toán bộ ngữ cảnh được xử lý tuần tự.

2.2 Bài Toán Phát Hiện Tương Tác Người Vật (HOD)

Phát hiện tương tác người vật là một bài toán mà trong đó, nhiệm vụ chính của

nó là dự đoán một tập hợp bộ ba {human, object, interaction} có trong bức ảnh Từ

tập hợp bộ ba này, chúng ta có thé đưa ra sự tổng kết nhằm xác định mối quan hệ

tương tác giữa người và những vật có trong bức ảnh Chính điều này giúp máy tính

hiểu được cách mà con người và môi trường xung quanh họ tương tác với nhau trongcác ngữ cảnh rất trực quan Nếu so sánh với các bài toán nhận dang (object detection),

phân loại (Object Classification) thông thường, bài toán HOI mang tới những đóng

góp lớn lao hơn rất nhiều bởi tính thực tế và sự đa dụng của chính nó, là đại diện cho

một câp độ thâu hiêu và suy luận cao câp hơn về sự vật và con người trong ảnh, video.

2.3 Các Mô Hình Quan Trọng Với Sự Phát Triển Của Bài Toán HOI

2.3.1 Mutual Context Model [13].

Được xuất bản năm 2012, trong bài báo “Recognizing human-object

interactions in still images by modeling the mutual context of objects and human

poses” Day là một trong những bai bao đầu tiên nhằm đưa bai toán HOI ra ngoài ánhsáng Các tác giả đề xuất một mô hình đề nhận diện tương tác giữa người và vật bằngcách mô hình hóa bối cảnh chung của vật và tư thế người Nhóm tác giả nhận thấy

rằng các đồ vật và tư thế của con người có thé đóng vai trò là bối cảnh chung cho

nhau - việc nhận ra cái này sẽ tạo điêu kiện thuận lợi cho việc nhận biệt cái kia.

Trong bài báo này, tác đề xuất một mô hình bối cảnh tương hỗ (mutual context

model) dé cùng mô hình hóa các đối tượng và tư thế con người trong các hoạt động

tương tác giữa người và đối tượng Quan điểm của nhóm tác giả là nêu đi theo hướngobject detection, thì object detection sẽ cung cấp thông tin ưu tiên mạnh mẽ và môhình có thé ước lượng tư thế người (human pose) tốt hơn, trong khi các mô dung ước

18

Trang 37

lượng tư thế người lại giúp cải thiện độ chính xác của việc phát hiện các đối tượng

tương ma được tương tac với con người.

“4 as, ) Image of Humane

I “_ objectinteractlof“°

Hình 2-4: Minh hoa sơ đồ của mô hình MCM Các node A (O1, O2) sẽ xác định

các đối tượng mà người tương tác Các node H (P1 PL) sẽ xác định tư thé người.Nhìn vào hình dễ thấy, việc ước lượng tư thế người có ảnh hưởng trực tiếp đến việc

xác định các object mà người do tương tác.

2.3.2 Visual Semantic Role Labeling

Day không phải là một model, đây là một bai báo nhằm làm nỗi bật tính chat

quan trọng của semantic feature (như là nhãn) Trong bai báo này, nhóm tác gia đưa

ra nhận định bộ COCO[14] vẫn còn quá phức tap tai thời điểm đó để tạo ra mộtphương pháp xử lý bài toán HOI và đem lại năng suất cao Các tác giả lấy từ bộ

COCO[14], tạo ra bộ VCOCO|4] với một bộ động từ - verb (danh sách các tương tac)

riêng được gán nhãn chính xác hơn, các bức ảnh sẽ thực sự liên quan tới verb mà nó

được gán nhãn.

19

Trang 38

nhiên môi ảnh thường không chứa quá nhiêu người và vật thê.

Với model dé đánh gia, họ chọn R-CNN[7] và huấn luyện riêng dé cho nó cóthé nhận biết những người tham gia vào tương tác đó Sau đó, họ chọn một mô hìnhthứ 2 là mô hình hồi quy để làm nhiệm vụ xác định các object thực sự tham gia vào

trong tương tác đó (xác định dựa trên semantic feature).

Đây chính là một bước đột phá mới, làm cơ sở tiên đê cho các chiêu hướng

đào sâu phát triển bài toán HOI sau này

2.3.3 InteractNet

Ra đời năm 2018, InteractNet[15] được giới thiệu trong bài báo “Detecting

and Recognizing Human-Object Interactions” — mô hình do đội ngũ facebook AI

research phát triển có lượt cite lên tới 618 cho tới lúc này

Trong mô hình này, nhóm tác giả đưa ra nhận định những đặc điểm của cơ thêngười (như tư thế, quần áo, hành động, ) sẽ là những công cụ giá trị để xác định

object mà người đó đang tương tác tới Và họ tạo ra một mô hình mới — InteractNet

20

Tiêu đề	Tăng cường khả năng Phát hiện tương tác người vật thông qua đặc trưng ngữ nghĩa sử dụng các mô hình Transformer
Tác giả	Phạm Tấn Tài, Bùi Long Vũ
Người hướng dẫn	ThS. Võ Duy Nguyên, TS. Nguyễn Tan Trần Minh Khang
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2023
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	77
Dung lượng	49,32 MB