Phạm vi ứng dụng trên có được là nhờ việc phát hiện và phân tíchtương tác giữa con người và đối tượng trong hình ảnh có thé cung cấp thông tin quantrọng về hành động và mối quan hệ giữa
Các bài toán Nhận thức thị giác (Visual Perception Tasks)
Bài toán Ước lượng tư thế người (Human Pose Estimation)
tư thế của con người (Human pose estimation) Mục tiêu của ước lượng tư thế là định vị và xác định các bộ phận khác nhau của cơ thể người từ một hình ảnh hoặc video tĩnh Ước lượng tư thé là một bài toán rất hữu ích trong lĩnh vực thé thao giải trí và y tế, cho thay những điểm tương đồng và khác biệt trong cách con người di chuyền và định hướng các bộ phận cơ thé của ho [9] Ap dung vao bai toan phat hién tuong tac giữa người va vật thé, chúng ta tập trung vào việc định vị co thé con người cùng các bộ phận phụ vì chúng có thể xác định cách thức con người tương tác với các vật thê.
Huấn luyện các thuật toán ước lượng tư thế là một bài toán thuộc nhóm học có giám sát, đòi hỏi bộ dữ liệu lớn về con người trong các hoạt động khác nhau [10]. Bản đồ điểm đặc trưng (keypoint map) đóng vai trò là ground truth dé đánh giá, với các điểm được gan nhãn trong hình ảnh sẽ đại diện cho các khớp của cơ thé con người [11] Những khớp này bao gồm đầu gối, khuyu tay, cổ và mắt cá chân Điều này được minh hoạ trong Hình 2-2 với hình ảnh được gán nhãn của một vận động viên đang
10 bước di Bản đô điêm đặc trưng phủ lên con người với các đường kêt nôi màu vàng tượng trưng cho các bộ phận phụ kết nối các khớp trên cơ thể người.
Hình 2-2: Hình ảnh của một vận động viên được phủ bản đồ điểm đặc trưng của con người, minh hoa quy trình các thuật toán tạo ra tư thê [12]
Có một số hướng tiếp cận phô biến đối với bài toán Ước lượng tư thế con người, hầu hết tất cả đều dựa trên mạng nơ-ron tích chập học sâu Hướng tiếp cận thứ nhất, ta định nghĩa dưới dạng một bài toán hồi quy, trong đó các điểm đặc trưng được xác định và hàm độ lỗi dự đoán vị trí đưa ra phản hồi qua quá trình huấn luyện, như trong
Các tác giả của Densepose áp dụng phương pháp phân đoạn ngữ nghĩa cơ thể người để xác định các cơ quan phụ Một cách tiếp cận khác là tạo bản đồ nhiệt biểu thị xác suất điểm đặc trưng tại vị trí pixel Các nghiên cứu như [9] và [17] đã sử dụng cách tiếp cận này.
Các bài toán Hiểu thị giác (Visual Understanding Tasks) 2.3 Bài toán Phát hiện tương tác giữa con người và đối tượng (Human-Object
Hướng tiếp cận với các mô hình song song
So với các phương pháp hai giai đoạn, các phương pháp một giai đoạn sử dụng một framework thông nhất đề thực hiện đồng thời hai tác vụ phát hiện hộp giới hạn và nhận diện tương tác Như đã trình bày ở trên, framework hai giai đoạn sẽ tạo ra các hộp ứng viên (box candidates) chi dựa trên độ tin cậy của tác vụ phát hiện đối tượng, mà không xem xét các hộp ứng viên có thé tương thích với nhau dé tạo thành các cặp tương tác có ý nghĩa hay không Kết quả là, nó có thé tạo ra rất nhiều hộp ứng viên, nhưng chỉ có một vài trong số đó là hợp lệ Điều này có thể dẫn đến sự giảm sút đáng ké về hiệu qua và hiệu suất của giai đoạn thứ hai của mô hình Trái lại, framework một giai đoạn sẽ sử dụng cách thức phi tuần tự và kết hợp chặt chẽ để giải quyết thách thức này Các phương pháp một giai đoạn ban đầu [49]-[52] thường áp dụng câu trúc song song dé tạo ra các hộp ứng viên va dự đoán diém tương tác Cuôi
17 cùng, một mô-đun so khớp (matching module) sẽ tổng hợp kết quả từ các nhánh song song và hình thành các bộ tô hop HOI cuối cùng Các nhánh song song có thé được huấn luyện chung một cách toàn diện So với các phương pháp hai giai đoạn, các phương pháp một giai đoạn song song có lợi thế về tốc độ suy luận nhanh va dé sử dụng trong các ứng dụng thực tế.
Hướng tiếp cận với mô hình dựa trên Transformer
đồ đặc trưng có độ phân giải tương đối nhỏ Sau đó, nó sử dụng bộ mã hóa Transformer dé mã hóa bản đồ đặc trưng thành bộ nhớ toàn cục Cuối cùng, các bộ giải mã Transformer sẽ sử dụng một số truy van dé truy xuất các tương tác từ bộ nhớ toàn cục Mỗi truy van này sẽ tính toán một ban đồ chú ý (attention map) dựa trên hình ảnh và tìm kiếm các tương tác con người-đối tượng từ các khu vực có trọng số chú ý cao (high attention weights) Mỗi truy van sẽ đưa ra một bộ tô hợp (A, o, i) hoặc giá tri null dé chỉ ra một dự đoán không hợp lệ Các phương pháp một giai đoạn dựa trên truy vấn (query-based) gần đây đã cho thấy kết quả vượt trội trong lĩnh vực này. Tuy nhiên, nhóm phương pháp này yêu cau dữ liệu lớn dé hỗ trợ quá trình huấn luyện và thường gặp khó khăn trong việc hội tụ nhanh.
2.4 Bộ dữ liệu và độ đo
Trong phần này, chúng tôi giới thiệu và so sánh chỉ tiết các bộ dữ liệu phổ biến nhất được sử dụng trong bài toán phát hiện tương tác con ngudi-déi tượng Các bộ dữ liệu chất lượng tốt cần cung cấp đầy đủ nhãn của vị trí và phân lớp cho mỗi đối tượng trong hình ảnh Ngoài ra, bài toán phát hiện tương tác con người - đối tượng yêu câu dt liệu hình anh được gan nhãn không chi cho các đôi tượng ma còn cho các
18 tương tác giữa con người và đối tượng được xác định và chú thích riêng biệt trong bộ dữ liệu Các bộ dữ liệu này phải đủ phong phú để huấn luyện cho tất cả các lớp đối tượng và mối quan hệ Tuy nhiên, dữ liệu không thể bao gồm tất cả các tổ hợp thực tế nên các tập dữ liệu thường tập trung vào một số đối tượng và tương tác cụ thể.
Hiện nay, nhiều bộ dé liệu phục vụ cho bài toán này đã ra đời, tuy nhiên mỗi bộ dữ liệu lại sử dụng phương pháp khác nhau để cung cấp nhãn thực (ground truth), cũng như các lớp đối tượng và mối tương tác khác nhau Do đó, mỗi bộ dit liệu cũng cung cấp phương pháp đánh giá hiệu suất mô hình riêng của nó Ở Bảng 2-1, chúng tôi tóm tắt các bộ đữ liệu và thuộc tính của chúng, như đã thảo luận trong phần này.
Một trong số các bộ dữ liệu đầu tiên cho bài toán phát hiện tương tác con người- đối tượng là bộ dữ liệu HICO [33] do Chao và cộng sự tạo ra Bộ dữ liệu này được xây dựng từ bộ dữ liệu MS-COCO [32] thường được sử dung dé đánh giá tác vụ phát hiện đối tượng HICO sử dung 80 đối tượng từ MS-COCO và các động từ phổ biến dé tạo ra các loại tương tác cho mỗi đối tượng Đối tượng cũng được gan cả hành động "không tương tác", tông cộng có 600 tương tác con người-đối tượng Mỗi loại tương tác con người-đôi tượng có ít nhất sáu hình ảnh, và tập kiểm tra phải chứa ít nhất một hình ảnh cho loại đó Tuy nhiên, bộ dit liệu HICO không cung cấp nhãn groundtruth ở cấp độ thể hiện (instance level) cho mỗi HOI xuất hiện trong mỗi hình ảnh Một van đề khác, thực tế rang, các hình anh với nhiều con người có mặt thì không được gán nhãn một cách đầy đủ Ví dụ, trong trường hợp một người đang ngồi trên máy bay, có thể có nhiều người khác cũng cùng chuyến bay xuất hiện trong hình ảnh, nhưng bộ dt liệu HICO chỉ yêu cầu phát hiện một HOI duy nhất tương ứng với nhãn thực Nói cách khác, bộ dữ liệu HICO cung cấp các nhãn groundtruth ở cấp độ hình ảnh Sau khi nhận ra các hạn chế này, Chen và cộng sự đã mở rộng HICO để tạo ra HICO-DET [2], chứa các nhãn groundtruth cho mỗi con người và đối tượng tham gia trong một lớp tương tác được chú thích Các tác giả đã dựa trên bộ dữ liệu HICO
19 ban đầu và mở rộng nó bằng cách thu thập thêm các nhãn groundtruth ở cấp độ thể hiện thông qua nền tảng Amazon Mechanical Turk.
Bảng 2-1: Tóm tắt thuộc tính của các bộ dữ liệu
Name Images Interaction Classes Object Classes HICO 47,774 600 80 HICO-DET 47,776 600 80 V-COCO 10,346 26 80 HCVRD 52,855 927 1824
Bộ dữ liệu V-COCO dựa trên bộ dữ liệu MS-COCO, nhưng sử dụng lại hình ảnh có sẵn và tận dụng nhãn groundtruth của đối tượng và con người để xác định các tương tác Khác với HICO, V-COCO tập trung vào các lớp hành động phổ biến, với từ vựng đơn giản gồm 26 hành động giữa các lớp đối tượng khác nhau.
Một bộ dữ liệu khác, mặc dù ít được sử dụng hơn, cho bài phát hiện tương tác con người-đối tượng là bộ dữ liệu HCVRD được tạo ra bởi Zhuang và cộng sự [58].
Bộ dữ liệu này đa dạng hơn các bộ dữ liệu đã được đề cập trước đó về các tương tác và đôi tượng được gan nhãn Các hình ảnh cho HCVRD được thu thập từ bộ dữ liệu Visual Genome [59], chứa các nhãn của đối tượng và hộp giới hạn của chúng, chú thích của hình anh và các mỗi quan hệ được gan nhãn giữa các đối tượng Các tương tác được bao gồm trong HCVRD được lây từ bộ đữ liệu VG, trong đó một trong các đối tượng được gắn nhãn là con người Các tác giả đã chú ý đặc biệt trong bước làm sạch các tương tác băng cách loại bỏ các hành động mơ hồ và kết hợp các tương tác có độ tương đồng cao thành một lớp tương tác duy nhất.
Trong bài toán tương tác con người-đối tượng, độ chính xác trung bình (mean Average Precision - mAP) là độ đo đánh giá phô biến nhất Đối với mỗi hình ảnh, mô hình cần đưa ra một điểm số cho tác vụ phân loại của mỗi lớp tương tác Đối với mỗi lớp, độ đo average precision sẽ được tính ra từ toàn bộ tập kiểm thử Sau đó, mAP được tính bằng trung bình của các điểm average precision Hiện nay, các tác giả đã cung cấp một cau hình đơn giản cho đánh giá được gọi là "Known Object" Trong cài đặt này, các hình ảnh thuộc mẫu dương (positive) đã được xác minh được xem là mẫu dương, các hình ảnh thuộc mẫu âm (negative) đã được xác minh được xem là mẫu âm, bỏ qua cả các hình ảnh không rõ ràng (ambiguous) và chưa biết (unknown) Điều này loại bỏ sự không chắc chăn của mô hình phát hiện đối tượng không hoàn hảo, băng cách loại bỏ các hình ảnh không có chủ thể tham gia vào tương tác con người- vật đang được xét Đối với một cài đặt hiệu quả hơn, các tác giả đề xuất thêm phân loại hình ảnh chưa biết - unknown vào nhóm mẫu âm mở rộng (extra negative).
HICO và HICO-DET là hai bộ dữ liệu được đánh giá trên cai đặt Known Object. Đối với bộ dữ liệu V-COCO, hai chi số thường được sử dung dé đánh giá mô hình là phát hiện tác nhân (agent) và phát hiện vai trò (role) Đối với phát hiện tác nhân, nhiệm vụ là phát hiện con người thực hiện một hành động được truy vấn Độ đo AP được sử dụng trong nhiệm vụ này như một chỉ số hiệu suất, trong đó khi con người được gán nhãn với đúng lớp tương tác, sẽ được xem là positive Đối với phát hiện vai trò, mục tiêu là phát hiện con người và các đối tượng tham gia vào tương tác Mô hình sẽ cho ra một hộp giới han cho con người và cho vai trò Tính toán giá trị loU (Intersection-over-Union) của hộp giới hạn đã dự đoán so với hộp nhãn thực, average precision được tính toán và được đánh gia là độ đo cho nhiệm vụ này.
Ngoài ra, các mô hình được đào tạo trên bộ HCVRD được kiểm thử với ba độ đo: nhận dạng vị từ hay tương tác, với hộp giới hạn cho con người và đối tượng. Trong đó, giai đoạn phát hiện, với hộp giới hạn của con người và đối tượng, tương tác cũng như hộp giới hạn tổng quát bao quanh toàn bộ tương tác được dự đoán Độ
21 đo cuối cùng là cho phát hiện mối quan hệ, mô hình phải định vị con người và đối tượng, như đã thực hiện ở giai đoạn phát hiện trước đó.
Cuối cùng, bộ dir liệu UnRel [60] được tao ra để đánh giá các mối tương tac không có thực giữa con người và đối tượng Tuy nhiên, nó tập trung đặc biệt vào mối quan hệ không gian như là, con người-cưỡi-thú cưng hoặc con voi-phia trén-xe hơi, và bao gồm các tương tác không có đối tượng con người Nó có thê được sử dụng cho việc huấn luyện các mô-đun bé sung hoặc trong trường hợp cần lọc thủ công các lớp tương tác không liên quan đến con người [61], như dit liệu bố sung Điểm đáng giá của một bộ dữ liệu tương tác không thực tế là nó có thể giúp ích cho các phương pháp học zero-shot và học có giám sát yếu trong bài toán phát hiện tương tác con người - đối tượng.
Tóm lại, trong chương 2 này, chúng tôi đã giới thiệu các nghiên cứu liên quan đến bài toán HOI detection, bao gồm các phương pháp nền tảng trong việc nhận diện vật thể và phân loại hành động, cũng như các phương pháp tiền đề trong việc giải quyết bài toán HOI detection Chúng tôi cũng đã trình bày về các bộ dit liệu phô biến được sử dụng trong việc đánh giá phương pháp HOI detection, và khung đánh giá hiệu quả của các phương pháp HOI detection.
Chương 3 PHƯƠNG PHAP ĐÈ XUẤT
Dựa trên cơ sở các nghiên cứu liên quan được trình bày ở Chương 2, trong chương này chúng tôi sẽ tiến hành mô tả chỉ tiết về phương pháp HOST (Human-Object Semantic Transformer) được đề xuất, đã được chứng minh tính hiệu quả qua các thực nghiệm cho kết quả cạnh tranh với các phương pháp SOTA hiện nay trên bài toán.
3.1 Tổng quan phương pháp đề xuất
Hình 3-1: Tổng quan phương pháp đề xuất.
Bốn mé-dun được thêm vào gom: (1) SG - Semantic-Guided; (2) MCA - Multi-Level
Cross-Attention; (3) EIP - Enhanced Instance Pointers; (4) CASO - Cross Attention