Bài toán Nhận thức thị giác là điểm khởi đầu cho việc hiểu được bối cảnh trong
hình ảnh. Dé bắt đầu hiểu được bối cảnh, một số nhận thức căn bản như xác định các
đối tượng trong bối cảnh là bắt buộc. Các tác vụ như, phân loại hình ảnh và phát hiện
đối tượng sau đây là nền tảng cơ bản trước khi đến nhận diện thị giác nâng cao trong hình ảnh. Trong phần này, chúng tôi sẽ trình bày một cách tông quan cơ bản về từng
bài toán được đê cập ở trên.
2.1.1. Bài toán Phân loại hình anh (Image Classification)
Phân loại hình ảnh là một bài toán cơ bản trong lĩnh vực Thị giác máy tính. Bài
toán này thực hiện nhiệm vụ dự đoán nhãn của một đối tượng trong một hình ảnh. Đầu vào của của bài toán này là một hình ảnh có chứa đối tượng cần phân loại. Đầu
ra là một hoặc nhiều số nguyên được ánh xạ tới tên nhãn tương ứng đã được định
nghĩa trước đó.
Hau hết các bộ dữ liệu cho bài toán này được đánh giá là dé dang theo tiêu chuẩn
hiện đại, thường chỉ chứa các đối tượng được đề cập vả rất ít dữ liệu nhiễu xung
quanh. Một mô hình điển hình dé phân loại hình ảnh chứa một loạt các lớp tích chập, theo sau là các lớp max-pooling dé lay mau bản đồ đặc trưng (feature map). Cuối
cùng, một hoặc nhiều lớp fully connected thực hiện phân loại đối tượng trên bản đồ
đặc trưng [4].
2.1.2. Bài toán Phát hiện đối tượng (Object Detection) Bài toán Phát hiện đối tượng là sự kết hợp của hai nhiệm vụ, gồm phân loại hình ảnh cùng với định vị đối tượng. Trong đó, định vị đối tượng (Object Localization) là việc xác định vị trí của các đối tượng trong ảnh và thể hiện vị trí băng các hộp giới hạn (bounding box). Kết quả trả về từ hình ảnh đầu vào chứa nhiều đối tượng là các hộp giới hạn và nhãn đối tượng cho các hộp đó.
Sự phát triển của lĩnh vực này đã tạo tiền đề cho việc nghiên cứu các bài toán thị giác máy tính phức tạp hơn chăng hạn Hiểu thị giác (visual understanding). Bài toán Phát hiện tương tác người vật (HOI Dectection) có giai đoạn đầu phần lớn dựa trên bài toán phát hiện đối tượng. Với sự phổ biến và phát triển của các phương pháp học sâu, các mô hình có thé hoạt động rất tốt trên các tập dữ liệu lớn và phức tạp [4]..
Có thể nói, phát hiện đối tượng chính là một phiên bản trừu tượng hơn dựa trên phân loại hình ảnh. Các bộ phát hiện đối tượng trước tiên cần tìm thấy đối tượng trong
hình ảnh, sau đó mới phân loại đối tượng đó. Hai bước này được gọi là định vị và
phân loại. Mục tiêu của bước định vi là tìm các vùng trong hình ảnh ma đối tượng có
thé xuất hiện, chúng ta gọi chúng là các vùng đề xuất. Bước phân loại sử dụng các
phương pháp tương tự như phân loại hình ảnh, trong đó các đặc trưng tích chập dé xác định lớp của đối tượng. Các vùng đề xuất sẽ được xác định bởi một hộp giới hạn,
một tập hợp các tọa độ không gian trong hình ảnh và một nhãn phân lớp của đối
tượng. Định vị đối tượng là một nhiệm vụ phức tạp. Một cách đơn giản, để tìm các
vùng đề xuất, ta cần lay mẫu tat cả các vùng và tat cả các kích thước của hộp giới hạn trong hình ảnh. Tuy nhiên, điều này sẽ không hiệu quả về mặt tính toán vì số lượng hộp giới hạn sẽ là không 16 dé thực hiện phân loại. Nhiều nghiên cứu về nhiệm vụ xác định vi trí đã được thực hiện, và do đó, các mô hình xử lý việc tạo các vùng đề xuất cũng khác nhau. Hình 2-1 minh hoạ tac vụ xác định vi trí của đối tượng trong
hình ảnh.
Hình 2-1: Kết quả tác vụ phát hiện đối tượng bằng FasterRCNN. Hình anh được lấy
từ bộ dữ liệu HICO-DET.
Thông thường, các thuật toán phát hiện đối tượng hiện đại được chia thành hai
loại: mô hình hai giai đoạn và mô hình một giai đoạn [4]. Một số ví dụ về mô hình
phát hiện hai giai đoạn là mô hình họ nhà RCNN [5], [6]. Mô hình phát hiện hai giai
đoạn, như tên gọi, yêu cầu hai bước riêng biệt (định vị và phân loại) để phát hiện các đối tượng từ một hình ảnh cụ thể. Việc tạo ra vùng dé xuất có thé được thực hiện bang nhiều cách khác nhau. Trong trường hop của RCNN [6], một thuật toán tìm kiếm có
chọn lọc (selective search algorithm) được sử dụng, sử dụng độ đo tính toán độ tương
đồng của pixel dé xác định các nhóm pixel có thé liên kết. Faster-RCNN [5] sử dung một phương pháp dựa trên CNN gọi là mạng đề xuất khu vực (region proposal network), phát hiện các vùng đề xuất từ bản đồ đặc trưng tích chập. Sau khi đã định
vị, việc phân loại các vùng này có thể được thực hiện bằng các mạng phân loại nơ- ron feedforward đơn giản. Các mô hình phát hiện hai giai đoạn thông thường cho thấy
độ chính xác tốt hơn so với các mô hình một giai đoạn, tuy nhiên đánh đổi bằng chỉ phí về thời gian [4].
Mô hình phát hiện một giai đoạn hoạt động bằng cách thực hiện việc định vị hộp giới hạn và phân loại đối tượng cùng một lúc. Một số mô hình nổi tiếng sử dụng phương pháp phát hiện đối tượng này là Single-Shot Detector (SSD) [7] và họ các
mô hình You Only Look Once (YOLO) [8]. SSD sử dụng các bản đồ đặc trưng ở nhiều kích thước khác nhau. Những bản đồ đặc trưng này là đầu ra của các lớp tích chập sau mỗi lần thực hiện downsampling max pooling. Trên các bản đồ đặc trưng này, nhiều hộp giới hạn mặc định với các kích thước khác nhau được trượt trên bản
đồ đặc trưng dé tạo ra các vùng đề xuất. Những vùng này sau đó được phân loại bằng
các đặc trưng tích chập của chúng. Vì cả việc phân loại và định vị được thực hiện
trong một bước, mô hình phát hiện một giai đoạn rất nhanh trong việc dự đoán và có
thể thực hiện phát hiện đối tượng trên các video với tốc độ khung hình cao. Tuy nhiên,
mô hình phát hiện một giai đoạn cũng thường phải đánh đổi độ chính xác dé tăng tốc
độ, bởi vì chúng thường khó nhận ra các đối tượng nhỏ [4].
2.1.3. Bài toán Ước lượng tư thế người (Human Pose Estimation) Một bài toán nhận thức thị giác khác liên quan đến nghiên cứu này là Ước lượng
tư thế của con người (Human pose estimation). Mục tiêu của ước lượng tư thế là định
vị và xác định các bộ phận khác nhau của cơ thể người từ một hình ảnh hoặc video tĩnh. Ước lượng tư thé là một bài toán rất hữu ích trong lĩnh vực thé thao giải trí và y
tế, cho thay những điểm tương đồng và khác biệt trong cách con người di chuyền và định hướng các bộ phận cơ thé của ho [9]. Ap dung vao bai toan phat hién tuong tac giữa người va vật thé, chúng ta tập trung vào việc định vị co thé con người cùng các
bộ phận phụ vì chúng có thể xác định cách thức con người tương tác với các vật thê.
Huấn luyện các thuật toán ước lượng tư thế là một bài toán thuộc nhóm học có giám sát, đòi hỏi bộ dữ liệu lớn về con người trong các hoạt động khác nhau [10]. Bản đồ điểm đặc trưng (keypoint map) đóng vai trò là ground truth dé đánh giá, với các điểm được gan nhãn trong hình ảnh sẽ đại diện cho các khớp của cơ thé con người [11]. Những khớp này bao gồm đầu gối, khuyu tay, cổ và mắt cá chân. Điều này được
minh hoạ trong Hình 2-2 với hình ảnh được gán nhãn của một vận động viên đang
10
bước di. Bản đô điêm đặc trưng phủ lên con người với các đường kêt nôi màu vàng
tượng trưng cho các bộ phận phụ kết nối các khớp trên cơ thể người.
Hình 2-2: Hình ảnh của một vận động viên được phủ bản đồ điểm đặc trưng của con
người, minh hoa quy trình các thuật toán tạo ra tư thê. [12]
Có một số hướng tiếp cận phô biến đối với bài toán Ước lượng tư thế con người, hầu hết tất cả đều dựa trên mạng nơ-ron tích chập học sâu. Hướng tiếp cận thứ nhất,
ta định nghĩa dưới dạng một bài toán hồi quy, trong đó các điểm đặc trưng được xác
định và hàm độ lỗi dự đoán vị trí đưa ra phản hồi qua quá trình huấn luyện, như trong
[13]-[15]. Tương tự, với cách tiếp cận này, các tác giả của Densepose [16] sử dụng phương pháp phân đoạn ngữ nghĩa của cơ thể người, để xác định các cơ quan phụ. Cách tiếp cận thứ hai nhằm ước lượng tư thé là dua trên bản đồ nhiệt, trong đó bản
đồ nhiệt được tạo dé biểu thị xác suất dựa trên pixel của một điểm đặc trưng ở vị trí
đó. Cách tiếp cận dựa trên bản đồ nhiệt có thê tìm hiểu trong nghiên cứu [9], [17]. Các ví dụ về phương pháp này có thé xem trong [18], [19]. Đầu ra của các mô hình trên là một bản đồ điểm đặc trưng như trong Hình 2-2.
11