đồ đặc trưng có độ phân giải tương đối nhỏ. Sau đó, nó sử dụng bộ mã hóa Transformer dé mã hóa bản đồ đặc trưng thành bộ nhớ toàn cục. Cuối cùng, các bộ giải mã Transformer sẽ sử dụng một số truy van dé truy xuất các tương tác từ bộ nhớ
toàn cục. Mỗi truy van này sẽ tính toán một ban đồ chú ý (attention map) dựa trên hình ảnh và tìm kiếm các tương tác con người-đối tượng từ các khu vực có trọng số chú ý cao (high attention weights). Mỗi truy van sẽ đưa ra một bộ tô hợp (A, o, i) hoặc giá tri null dé chỉ ra một dự đoán không hợp lệ. Các phương pháp một giai đoạn dựa trên truy vấn (query-based) gần đây đã cho thấy kết quả vượt trội trong lĩnh vực này. Tuy nhiên, nhóm phương pháp này yêu cau dữ liệu lớn dé hỗ trợ quá trình huấn luyện
và thường gặp khó khăn trong việc hội tụ nhanh.
2.4. Bộ dữ liệu và độ đo
Trong phần này, chúng tôi giới thiệu và so sánh chỉ tiết các bộ dữ liệu phổ biến nhất được sử dụng trong bài toán phát hiện tương tác con ngudi-déi tượng. Các bộ
dữ liệu chất lượng tốt cần cung cấp đầy đủ nhãn của vị trí và phân lớp cho mỗi đối tượng trong hình ảnh. Ngoài ra, bài toán phát hiện tương tác con người - đối tượng
yêu câu dt liệu hình anh được gan nhãn không chi cho các đôi tượng ma còn cho các
18
tương tác giữa con người và đối tượng. Đối với các hình ảnh có nhiều trường hợp của một tương tác, tất cả các trường hợp này phải được gan nhãn riêng biệt. Các bộ dữ liệu này phải chứa đủ dit liệu huấn luyện cho tat cả các lớp đối tượng cũng như tất cả các lớp quan hệ. Tuy nhiên, đữ liệu cho tất cả các tô hợp thực tế của đối tượng và mối quan hệ là không thể có được, đo đó các bộ dữ liệu thường chọn một số đối tượng và tương tác để tập trung vào.
Hiện nay, nhiều bộ dé liệu phục vụ cho bài toán này đã ra đời, tuy nhiên mỗi bộ
dữ liệu lại sử dụng phương pháp khác nhau để cung cấp nhãn thực (ground truth), cũng như các lớp đối tượng và mối tương tác khác nhau. Do đó, mỗi bộ dit liệu cũng cung cấp phương pháp đánh giá hiệu suất mô hình riêng của nó. Ở Bảng 2-1, chúng tôi tóm tắt các bộ đữ liệu và thuộc tính của chúng, như đã thảo luận trong phần này.
Một trong số các bộ dữ liệu đầu tiên cho bài toán phát hiện tương tác con người-
đối tượng là bộ dữ liệu HICO [33] do Chao và cộng sự tạo ra. Bộ dữ liệu này được
xây dựng từ bộ dữ liệu MS-COCO [32] thường được sử dung dé đánh giá tác vụ phát hiện đối tượng. HICO sử dung 80 đối tượng từ MS-COCO và các động từ phổ biến
dé tạo ra các loại tương tác cho mỗi đối tượng. Đối tượng cũng được gan cả hành động "không tương tác", tông cộng có 600 tương tác con người-đối tượng. Mỗi loại tương tác con người-đôi tượng có ít nhất sáu hình ảnh, và tập kiểm tra phải chứa ít nhất một hình ảnh cho loại đó. Tuy nhiên, bộ dit liệu HICO không cung cấp nhãn groundtruth ở cấp độ thể hiện (instance level) cho mỗi HOI xuất hiện trong mỗi hình ảnh. Một van đề khác, thực tế rang, các hình anh với nhiều con người có mặt thì không được gán nhãn một cách đầy đủ. Ví dụ, trong trường hợp một người đang ngồi trên máy bay, có thể có nhiều người khác cũng cùng chuyến bay xuất hiện trong hình ảnh, nhưng bộ dt liệu HICO chỉ yêu cầu phát hiện một HOI duy nhất tương ứng với nhãn thực. Nói cách khác, bộ dữ liệu HICO cung cấp các nhãn groundtruth ở cấp độ hình ảnh. Sau khi nhận ra các hạn chế này, Chen và cộng sự đã mở rộng HICO để tạo
ra HICO-DET [2], chứa các nhãn groundtruth cho mỗi con người và đối tượng tham
gia trong một lớp tương tác được chú thích. Các tác giả đã dựa trên bộ dữ liệu HICO
19
ban đầu và mở rộng nó bằng cách thu thập thêm các nhãn groundtruth ở cấp độ thể hiện thông qua nền tảng Amazon Mechanical Turk.
Bảng 2-1: Tóm tắt thuộc tính của các bộ dữ liệu
Name Images Interaction Classes Object Classes HICO 47,774 600 80 HICO-DET 47,776 600 80 V-COCO 10,346 26 80 HCVRD 52,855 927 1824
Bộ đữ liệu Verbs in COCO (V-COCO) [3] cũng là một bộ đữ liệu phổ biến cho bài toán phát hiện tương tác con người-đối tượng. Tương tự như HICO, các lớp đối tượng cũng được lấy từ bộ dữ liệu MS-COCO [32]. Điểm khác biệt là, các tác giả sử dụng luôn các hình ảnh đã có trong bộ dữ liệu COCO. Bộ dữ liệu MS-COCO vốn đã được gán nhãn bởi con người, cùng với phần mô tả xác minh trên mỗi hình ảnh, do
đó có thé từ đó rut trích ra các lớp tương tác. Sử dụng một từ vựng đơn giản, có 26 hành động phô biến giữa các lớp đối tượng khác nhau. Nhờ việc bộ dit liệu MS- COCO đã chứa các nhãn groundtruth cho mỗi đối tượng và con người trong hình ảnh,
do đó các tác giả của V-COCO đã có thê tái sử dụng chúng.
Một bộ dữ liệu khác, mặc dù ít được sử dụng hơn, cho bài phát hiện tương tác
con người-đối tượng là bộ dữ liệu HCVRD được tạo ra bởi Zhuang và cộng sự [58].
Bộ dữ liệu này đa dạng hơn các bộ dữ liệu đã được đề cập trước đó về các tương tác
và đôi tượng được gan nhãn. Các hình ảnh cho HCVRD được thu thập từ bộ dữ liệu Visual Genome [59], chứa các nhãn của đối tượng và hộp giới hạn của chúng, chú thích của hình anh và các mỗi quan hệ được gan nhãn giữa các đối tượng. Các tương tác được bao gồm trong HCVRD được lây từ bộ đữ liệu VG, trong đó một trong các đối tượng được gắn nhãn là con người. Các tác giả đã chú ý đặc biệt trong bước làm sạch các tương tác băng cách loại bỏ các hành động mơ hồ và kết hợp các tương tác
có độ tương đồng cao thành một lớp tương tác duy nhất.
20
Trong bài toán tương tác con người-đối tượng, độ chính xác trung bình (mean Average Precision - mAP) là độ đo đánh giá phô biến nhất. Đối với mỗi hình ảnh, mô hình cần đưa ra một điểm số cho tác vụ phân loại của mỗi lớp tương tác. Đối với mỗi lớp, độ đo average precision sẽ được tính ra từ toàn bộ tập kiểm thử. Sau đó, mAP được tính bằng trung bình của các điểm average precision. Hiện nay, các tác giả đã cung cấp một cau hình đơn giản cho đánh giá được gọi là "Known Object". Trong cài đặt này, các hình ảnh thuộc mẫu dương (positive) đã được xác minh được xem là mẫu dương, các hình ảnh thuộc mẫu âm (negative) đã được xác minh được xem là mẫu
âm, bỏ qua cả các hình ảnh không rõ ràng (ambiguous) và chưa biết (unknown). Điều này loại bỏ sự không chắc chăn của mô hình phát hiện đối tượng không hoàn hảo, băng cách loại bỏ các hình ảnh không có chủ thể tham gia vào tương tác con người- vật đang được xét. Đối với một cài đặt hiệu quả hơn, các tác giả đề xuất thêm phân loại hình ảnh chưa biết - unknown vào nhóm mẫu âm mở rộng (extra negative).
HICO và HICO-DET là hai bộ dữ liệu được đánh giá trên cai đặt Known Object.
Đối với bộ dữ liệu V-COCO, hai chi số thường được sử dung dé đánh giá mô hình là phát hiện tác nhân (agent) và phát hiện vai trò (role). Đối với phát hiện tác nhân, nhiệm vụ là phát hiện con người thực hiện một hành động được truy vấn. Độ đo AP được sử dụng trong nhiệm vụ này như một chỉ số hiệu suất, trong đó khi con người được gán nhãn với đúng lớp tương tác, sẽ được xem là positive. Đối với phát hiện vai trò, mục tiêu là phát hiện con người và các đối tượng tham gia vào tương tác. Mô
hình sẽ cho ra một hộp giới han cho con người và cho vai trò. Tính toán giá trị loU (Intersection-over-Union) của hộp giới hạn đã dự đoán so với hộp nhãn thực, average
precision được tính toán và được đánh gia là độ đo cho nhiệm vụ này.
Ngoài ra, các mô hình được đào tạo trên bộ HCVRD được kiểm thử với ba độ đo: nhận dạng vị từ hay tương tác, với hộp giới hạn cho con người và đối tượng. Trong đó, giai đoạn phát hiện, với hộp giới hạn của con người và đối tượng, tương tác cũng như hộp giới hạn tổng quát bao quanh toàn bộ tương tác được dự đoán. Độ
21
đo cuối cùng là cho phát hiện mối quan hệ, mô hình phải định vị con người và đối
tượng, như đã thực hiện ở giai đoạn phát hiện trước đó.
Cuối cùng, bộ dir liệu UnRel [60] được tao ra để đánh giá các mối tương tac không có thực giữa con người và đối tượng. Tuy nhiên, nó tập trung đặc biệt vào mối
quan hệ không gian như là, con người-cưỡi-thú cưng hoặc con voi-phia trén-xe hơi,
và bao gồm các tương tác không có đối tượng con người. Nó có thê được sử dụng cho việc huấn luyện các mô-đun bé sung hoặc trong trường hợp cần lọc thủ công các lớp tương tác không liên quan đến con người [61], như dit liệu bố sung. Điểm đáng giá của một bộ dữ liệu tương tác không thực tế là nó có thể giúp ích cho các phương pháp học zero-shot và học có giám sát yếu trong bài toán phát hiện tương tác con người - đối tượng.
Tóm lại, trong chương 2 này, chúng tôi đã giới thiệu các nghiên cứu liên quan
đến bài toán HOI detection, bao gồm các phương pháp nền tảng trong việc nhận diện vật thể và phân loại hành động, cũng như các phương pháp tiền đề trong việc giải quyết bài toán HOI detection. Chúng tôi cũng đã trình bày về các bộ dit liệu phô biến
được sử dụng trong việc đánh giá phương pháp HOI detection, và khung đánh giá hiệu quả của các phương pháp HOI detection.
22
Chương 3. PHƯƠNG PHAP ĐÈ XUẤT
Dựa trên cơ sở các nghiên cứu liên quan được trình bày ở Chương 2, trong chương
này chúng tôi sẽ tiến hành mô tả chỉ tiết về phương pháp HOST (Human-Object Semantic Transformer) được đề xuất, đã được chứng minh tính hiệu quả qua các thực nghiệm cho kết quả cạnh tranh với các phương pháp SOTA hiện nay trên bài toán.
3.1. Tổng quan phương pháp đề xuất
Instance queries
repr
\ lea
Hh |_,im
Decoder |
Interaction queries
High-level latent spaces
Positional @
Encoding
Hình 3-1: Tổng quan phương pháp đề xuất.
Bốn mé-dun được thêm vào gom: (1) SG - Semantic-Guided; (2) MCA - Multi-Level
Cross-Attention; (3) EIP - Enhanced Instance Pointers; (4) CASO - Cross Attention
Semantic Queries.
Vé co ban, phuong phap HOST (Human-Object Semantic Transformer) trong nghiên cứu nay van dựa trên phương pháp cơ sở HOTR, tuy nhiên chúng tôi đề xuất tổng cộng thêm 04 mô-đun mới nhằm cải thiện khả năng tiếp cận thông tin ngữ nghĩa
và tận dụng toàn bộ thông tin có giá trị từ bộ mã hóa (encoder), từ đó góp phần cải tiền hiệu suất của mô hình. Mô-đun đầu tiên của chung tôi có tên 1a Semantic-Guided (SG) (Hướng đến thông tin ngữ nghĩa), mục tiêu của đề xuất này là nhằm có thể kết hợp các thông tin từ nhãn vật thé (label embeddings) vào bộ encoder cho phép mô hình tận dụng thông tin ngữ nghĩa về mối quan hệ giữa các đối tượng và hành động
chính xác hơn. Tuy nhiên, việc sử dụng cả đặc trưng trực quan và đặc trưng ngữ nghĩa
có thé làm tăng độ phức tạp của output embedding của bộ mã hóa, dẫn đến việc không tận dụng hết các thông tin có giá trị từ lớp mã hóa cấp thấp.
23
Đề giải quyết các vấn đề phát sinh này, chúng tôi tiếp tục đề xuất thêm 02 mô-
đun là Multi-Level Cross-Attention (MCA) va Enhanced Instance Pointers (EIP).
Trong đó, m6-dun Multi-Level Cross-Attention sẽ giúp các đặc trưng cấp cao được rút trích bởi bộ mã hóa chú ý đến các đặc trưng cấp thấp hơn, từ đó cho phép việc hợp nhất tất cả các output của bộ encoder xuyên suốt từ cấp thấp đến cấp cao. Và mô- dun Enhanced Instance Pointers sẽ tận dụng tối đa các biểu dién phiên ban (instance representations) giúp nâng cao thêm hiệu suất của mô hình. Việc sử dụng them nhiều lớp thông tin từ các biểu diễn phiên bản này giúp mô hình đạt được khả năng so khớp
và tao ra các dự đoán < h,o,¡ > tốt hơn. Cuối cùng, chúng tôi mở rộng dé xuất với
01 mô dun Cross Attention Semantic Queries (CASQ) tập trung vào bước khởi tạo
interaction queries ở Interaction Decoder, tạo các truy vấn tương tác riêng biệt cho
từng hình ảnh. Việc này giúp quá trình khởi tao interaction queries đạt được hiệu suất
cao hơn, từ đó mô hình có thê xử lý các hình ảnh linh hoạt và hiệu quả hơn trong quá
trình suy luận.
3.2. Phương pháp cơ sở HOTR
Recomposition
¡r Ss Parallel Decoders --- $f UU
Instance Instance 1
chang Rape -. HOI Set Prediction -
r-- Shared Encoder -~
Convolutional XI;
Neural Transformer
Network Encoder
Interaction Decoder
Positional
Encoding
Hinh 3-2: Téng quan kién tric phuong phap baseline HOTR. [1]
Phuong pháp cơ sở HOTR [1] là một mô hình end-to-end cho bai toán phat hiện
tương tác HOI, lay cảm hứng từ khái niệm dự đoán tập hợp (set predictions) được giới thiệu trong nghiên cứu DETR [54]. Kiến trúc chính của HOTR dựa trên Transformer [53], được minh hoạ trong Hình 3-2. Quá trình bắt đầu bằng việc trích
24
xuất các đặc trưng cấp cao từ hình ảnh thông qua một mạng nơ-ron tích chập. Sau đó,
bộ mã hóa (Encoder) của Transformer được sử dung dé tạo ra không gian biểu diễn đặc trưng (latent space) cấp cao.
F = FeatureExtractor(J) , (1)
Z = TransƒormerEncoder(7), (2)
, trong đó J là hình ảnh đầu vào, J R#*W*33, F biéu thị cho các đặc trưng cấp
cao thu được từ FeatureExtractor(-), từ mạng mang ResNet-50. Z là không gian
biểu diễn đặc trưng (latent space) cấp cao từ bộ Encoder.
Sau đó, nhóm Kim và cộng sự [1] đã tích hợp hai bộ Decoder song song vào mô
hình HOTR. Bộ Decoder đầu tiên, được gọi là Instance Decoder, được sử dụng dé
thu được các đại diện của thé hiện, tương ứng với các đặc trưng cấp cao của các đối tượng được phát hiện. Hai mạng Feed-Forward Networks được sử dụng dé phan loai các lớp và hồi quy hộp giới han, tương tự như phương pháp áp dụng trong DETR [54]. Quá trình này có thê được biểu diễn toán học như sau:
Rinst = InstanceEncoder(Z, Winst), (3)
Binst = FF Ng(Rinse)s (4)
Cinst = FFNc(Rinst), (5 )
, trong đó Rinse biêu thị cho các đại diện của thé hiện, w;,;, biểu thi mã hóa theo
vị trí (positional encoding) đóng vai trò là truy van thể hiện (instance queries). Các bước tính toán này là dé có được ó/„¿„ tương tự như nghiên cứu [1]. B;„„¿ biểu thị
cho các hộp giới hạn dự đoán và Cinst biểu thị các dự đoán phân loại của đối tượng.
25
Interaction
Representations Ben |- ủ L6 18ƒnrese rItaf
ơ- FEN, PHA, - ——,
FEN, T FFN pox Box
Hình 3-3: Minh họa khái niệm cách con trỏ HO liên kết các biểu diễn tương tác
với các biêu diễn thê hiện. [1]
Bộ Encoder thứ hai, được gọi là bộ Interaction Decoder, được tận dung dé thu được các biểu diễn tương tác trong mô hình HOTR. Các biểu diễn tương tác sau đó được sử dụng trong ba mạng Feed-Forward Networks dé có được dự đoán cho các bộ
ba < H,0,I >, trong đó H đại diện cho con trỏ trỏ tới vi tri của các thể hiện là con người trong Rinseằ O đại diện cho con trỏ trỏ tới vị trớ của cỏc thể hiện là đối tượng (trừ con người) trong ®¿„„¿, Val biêu thị xác suất dự đoán tương tác. Công thức toán
học cho quá trình này như sau:
Riner = InteractionDecoder(Z, Wintr)s (6)
man = FFNy(Rintr), (7)
Pobject = FFNo(Riner), (8)
Jiner = FFN,|(Rintr): (9)
26
Bên cạnh các dự đoán của thê hiện, dự đoán cuối cùng do mô hình HOTR tạo ra bao gồm các bộ ba từ kết quả của hai con trỏ H-O và các phân lớp tương tác.
3.3. Mô-đun Semantic-Guided
Mô-đun đề xuất thứ nhất xuất phát từ ý tưởng nâng cao hiệu suất mô hình HOTR. băng cách kết hợp các đặc trưng ngôn ngữ vào quy trình phát hiện tương tác giữa người và đối tượng. Cụ thê, ý tưởng chính là sử dụng nhúng thông tin ngữ nghĩa từ nhãn dé phát hiện các tương tác, có kiến trúc được minh hoạ ở Hình 3-4 (mô-đun
ngoài cùng bên trái).
Nhung thông tin ngữ nghĩa từ nhãn (label semantic embedding) là một dạng biéu diễn của các nhãn hoặc tên lớp của các đối tượng trong tương tác con người-đối tượng trong không gian ngữ nghĩa đa chiều. Dạng biểu diễn này thu thập ý nghĩa và mối quan hệ giữa các nhãn phân lớp khác nhau và hỗ trợ cải thiện hiệu suất quá trình phát hiện tương tác. Dé có được các biéu diễn nhúng thông tin ngữ nghĩa, chúng tôi sử dụng mô hình được huấn luyện trước VinVL [62], được huấn luyện dé trích xuất đặc trưng của các thê hiện xuất hiện trong hình ảnh và các phân lớp tương ứng của chúng. Trong cơ chế được đề xuất của chúng tôi, chúng tôi chỉ sử dụng các phân lớp đối tượng được dự đoán và chuyền đổi chúng vào không gian vector bằng cách sử dụng
mô hình được huấn luyện trước FastText [63].
Dé tích hợp cơ chế này vào mô hình HOTR, chúng tôi tận dụng nhúng thông tin ngữ nghĩa từ nhãn như đặc trưng đầu vào bổ sung cho bộ mã hóa băng mô-đun Semantic-Guided (SG). Cụ thé, bộ mã hóa tập trung vào cả đặc trưng ngữ nghĩa và trực quan trong M — 1 lớp đầu tiên, nhằm tăng cường đặc trưng ngữ nghĩa. Sau đó, đầu ra của các đặc trưng trực quan và ngữ nghĩa đã mã hoá được cộng lại trước khi được đưa vào lớp thứ M. Các lớp cuối cùng sử dụng đầu ra từ lớp trước đó cho cơ chế Attention (một kỹ thuật dựa trên khái nệm về sự chú ý trong nhận thức của con người, giúp mô hình tập trung vào những yếu tố đặc biệt nhất định trong dữ liệu), giống như trong phương pháp cơ sở HOTR. Toàn bộ quá trình này được biéu diễn bằng các phương trình 10 và 11:
27