Khóa luận tốt nghiệp Khoa học máy tính: Phân đoạn đối tượng trong video dựa vào chỉ dẫn tương tác

Trong đó, một số các yếu tố quan trọng chúng tôi muốn cải thiệnnhư tốc độ thực thi, tài nguyên lưu trữ và số lần tương tác cần thiết.Với các mục tiêu đề cập trên, trong khóa luận này chú

Trang 1

ĐẠI HOC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CONG NGHỆ THONG TIN

KHOA KHOA HỌC MÁY TÍNH

NGUYÊN HỮU DOANH NGUYÊN HUỲNH ANH

KHÓA LUẬN TÓT NGHIỆP

CHỈ DẪN TƯƠNG TÁC

INTERACTION-GUIDED VIDEO OBJECT SEGMENTATION

CU NHAN NGANH KHOA HOC MAY TINH

TP HO CHÍ MINH, 2022

Trang 2

ĐẠI HỌC QUOC GIA TP HO CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

KHOA KHOA HỌC MÁY TÍNH

NGUYEN HỮU DOANH - 18520606 NGUYEN HUYNH ANH - 18520456

KHOA LUAN TOT NGHIEP

PHAN DOAN DOI TUONG TRONG VIDEO DUA VAO

CHI DAN TUONG TAC

INTERACTION-GUIDED VIDEO OBJECT SEGMENTATION

CU NHAN NGANH KHOA HOC MAY TINH

GIANG VIEN HUONG DAN

TS NGUYEN VINH TIEP

TP HO CHÍ MINH, 2022

Trang 3

DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN

Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số

36/QD-DHCNTT ngày 17/01/2022 của Hiệu trưởng Trường Dai học Công nghệ Thông tin.

1 PGS.TS Lê Đình Duy — Chủ tịch.

2 Ths Đỗ Văn Tiến — Thư ký.

3 TS Lê Minh Hưng — Ủy viên.

Trang 4

LỜI CẢM ƠN

Đầu tiên, chúng tôi muốn dành lời cẩm ơn đến giảng viên hướng dẫn,TS.Nguyễn Vinh Tiệp, người có kiến thức đồi dào, nhiệt huyết trong

công việc giảng dạy và niềm đam mê sâu sắc với nghiên cứu khoa học.

Nhờ có Thầy, chúng tôi đã tiếp thu được rất nhiều kiến thức liên quanđến lĩnh vực Học sâu và đặc biệt trong lĩnh vực Thị giác máy tính Với

sự hướng dẫn và động viên của Thầy, chúng tôi đã vượt qua nhiều thử

thách khó khăn trong quá trình thực hiện đề tài này.

Chúng tôi bày tỏ lòng biết ơn đối với những Thầy /Cô thuộc Khoa Khoa

học Máy tính, trường Đại học Công nghệ Thông tin Những người đã

giúp chúng tôi hiểu rõ những kiến thức nền tảng của Khoa học máy

tính để hoàn thành khóa luận này.

Kế đó, chúng tôi cảm thấy rất may mắn khi nhận được sự giúp đỡ tận

tình từ Anh Nguyễn Thành Danh, Anh Nguyễn Vũ Anh Khoa, Anh

Lưu Đức Tuấn trong Phòng Thí Nghiệm Truyền Thông Đa PhươngTiện (MMLAB), trường Dai hoc Công nghệ Thông tin Chính vì thé,chúng tôi muốn dành lời cAm ơn chân thành đến các Anh

Ngoài ra, chúng tôi cũng muốn gởi lời cảm ơn đến PGS.Tran Minh Triết

từ trường Đại học Khoa học Tự nhiên đã hỗ trợ cho chúng tôi về tài

nguyên máy tính để thực hiện bài khóa luận này.

Đặc biệt, không thể không nhắc đến đó là gia đình của chúng tôi, những

người đã tạo cho chúng tôi những nguồn động lực to lớn và đã động

viên chúng tôi trong suốt quá trình thực hiện khóa luận này Do đó,chúng tôi muốn dành lời cảm ơn sâu sắc và chân thành nhất đến gia

đình của chúng tôi.

Trang 5

các ứng dụng có khả năng trích xuất và phân tích thông tin từ các dữ

liệu số này Phân đoạn đối tượng trong video dựa vào chỉ dẫn

tương tác là một trong số đó Bài toán này hiện nay nhận được nhiều

sự quan tâm do tính ứng dụng cao trong thực tế, tuy nhiên để các ứng

dụng đó tiếp cận được hơn với nhiều người thì nó vẫn còn hạn chế ởmột số khía cạnh nhất định Đặc biệt là chi phí tính toán và bộ nhớ

lưu trữ để thực hiện các bài toán này Chính vì thế, trong khóa luận này, chúng tôi đã tìm hiểu tổng quan về bài toán phân đoạn đối tượng

trong video dựa vào chỉ dẫn tương tác, ứng dụng của bài toán vào thực

tế và một số các công trình nghiên cứu khác Thách thức, khó khăntrong tác vụ nhận diện và theo vết đối tượng trong video Chúng tôitập trung vào bài toán phân đoạn đối tượng trong video với sự tương

tác chỉ dẫn của người dùng có tiềm năng triển khai lên các ứng dụng di

động Trong đó, một số các yếu tố quan trọng chúng tôi muốn cải thiệnnhư tốc độ thực thi, tài nguyên lưu trữ và số lần tương tác cần thiết.Với các mục tiêu đề cập trên, trong khóa luận này chúng tôi đề xuất

một mô hình phân đoạn đối tượng trong video dựa vào chỉ dẫn tương

tác gọi là Faster-MiVOS sử dụng các kiến trúc đơn giản, xử lý đủ

nhanh và có thể cho kết quả tốt với số lần tương tác ít Ngoai ra, chúng

tôi cũng thực nghiệm đánh giá ảnh hưởng của một số thành phần đếnkết quả phân đoạn đối tượng trong video dựa vào chỉ dẫn tương tác

Trang 6

2 Các hướng tiếp cận bài toán phan đoạn đối tượng trên video

dựa vào chỉ dẫn tương tác 10

2.1 Phân đoạn hình ảnh dựa vào chỉ dẫn tương tác 10

2.1.1 Toéngquan 0.00000 eee 10

2.1.2 Cơ chế tinh chỉnh bằng phương pháp lan truyền ngược 112.1.3 Cơ chế tỉnh chỉnh các đặc trưng trung gian bằng phương

pháp lan truyền ngược 13

2.2 Phân đoạn đối tượng trong video 15

2.2.1 Phân đoạn đối tượng trong video theo hướng tiếp cận bán

2500 .ẻốẽ, TH aaaẶ 15 2.2.2 Phân đoạn đối tượng trong video dựa vào chỉ dan tương tác 18

3 Faster-MiVOS 22

3.1 Tổng quan 0 va 22

3.2 M6-dun Interaction-to-mask 0.0 0000000004 23

3.2.1 Control-point ExiracfOrT 24 3.2.2 Control-point-based tomask 26 3.3 Mô-dun Mask Propagation .0.0 32

ii

Trang 7

3.4 Mô-dun Fusion Quà 41

4 Kết quả thực nghiệm 44

4.1 Mô hình DAVIS cho phan đoạn đối tượng dựa vào tương tác người

4.1.1 Bộ dữ liệu Dense Annotated Video Segmentation (DAVIS) 44

4.1.2 Độ đo đánh giá mô hình DAVIS Interactive 45

4.1.3 Thực nghiệm đối với DAVIS Challenge 2020 46

4.1.3.1 Mô-dun Interactiontomask 47

4.1.3.2 Mô-dun Mask Propagatlon 52

4.2 Khảo sát người dùng xa 53 5 Kết luận 56 5.1 Kết quả đạt được TQ vo 56 5.2 Hướng phát triển của đề tài 57

Tai liệu tham khảo 58

11

Trang 8

Hướng tiếp cận không giám sát trong bài toán phân đoạn đối

tượng trên video ng kg va 3

Co chế tương tác của phan đoạn đối tượng trên video 4

Sự khác nhau giữa các kiểu nguệch ngoạc trong cùng một video [16] 5

Tổng quan về mô hình phân đoạn ảnh dựa vào chỉ dẫn tương tác

thông qua cơ chế tinh chỉnh bằng phương pháp lan truyền ngược [9] 11

trong thông qua cơ chế tinh chỉnh các đặc trưng trung gian bằngphương pháp lan truyền ngược [20] - 13

Tổng quan mô hình FEELVOS [22] 16 Tổng quan về BoLTVOS [23] Conditional R-CNN (bên trái) cung

cấp các phát hiện có điều kiện trên bouding box khung hình đầutiên, sau đó được ghi lại bằng thuật toán thu hồi tính nhất quán

tạm thời (giữa) Kết quả là các hộp bounding box được chuyển đổi thành mặt nạ phân đoạn bởi mạng Box2Seg (bên phải) 17

Tong quan về mô hình phân đoạn đối tượng trong video STM [15] 17

Tổng quan về mô hình phân đoạn đối tương trong video dựa vào

chỉ dẫn tương tác MA-Net [11] MA-Net gồm có 3 mô-đun một bộ

mã hóa pixel embedding, một nhánh tương tác, một nhánh lan

Kiến trúc Annotation-Transfer Network [8] 20

Mô hình chúng tôi đề xuất cho bài toán phân đoạn đối tượng

trong video dựa vào chi dẫn tương tác 22

1V

Trang 9

Tương tác sử dung những nét vẽ nguéc ngoạc xảy ra sai sót nhiều

Trích xuất các điểm đại diện từ nét vẽ nguệch ngoạc trong mô-đun

Control-point Extractor Các điểm đại diện được trích xuất dọc

theo đường đi của nét vẽ nguệch ngoạc và các điểm cách đều nhau 25

Ranh giới của các đối tượng được thực hiện giãn nở Ranh giới

từng đối tượng được giãn nở riêng rẽ, sau đó được tổng hợp lại

thành một mặt nạ ranh giới hoàn chỉnh [17] 26

Hình ảnh thể hiện kết quả phân đoạn các đối tượng trên ảnh dựa

vào các tương tác do người dùng cung cấp 26

nhấn chuột RITM 000000000 2 ee 27

Hình anh thể hiện kết quả mã hóa tương tác nhấn chuột của người

dùng bằng phương pháp dùng Disk với bán kính nhỏ |2| 28

Một loạt các thao tác xử lý chuyển đổi tương tác nhấn chuột

Conv1S [21| đ⁄⁄.@Ô” 1Aé À 28

Một mẫu Groundtruth trong bộ dit liệu được sử dụng để huấn

luyện mô hình RITM [16] 2 0 30

Quá trình mô phỏng hành động tương tác nhấn chuột của người

dùng [12] a Từ những điểm ảnh dự đoán sai(uùng mau zanh lá),

b Gom cum các điểm ảnh dự đoán sai, c Thêm một điểm tương

tác trên khu vuc gan nhãn sai rộng nhất 3l

Tong quan về mô hình lan truyền STCN [5] STCN gồm các thành

phần chính là Key Encoder, Light Value Encode, Decoder 33Các thao tác tính toán trong thành phan Memory Reading được

áp dụng vào mô-đun Propagation 30

Mô ta về chiến lượt lan truyền trong phương pháp chúng tôi đề

xUat «xa 37

Các khu vực được tô màu là điểm "giống nhất" dưới một độ đo

[5] Bên trái : Dot product; Bên phải: L2 39

Mô tả về sự đóng của của softmax từ ba điểm [5] Bên trái : Dot

product; Bên phải: L2 Ặ QC 39 Đường cong mô ta ti lệ đóng góp của các đặc trưng trong quá

trình huấn luyện mô hình .- 40

Mô tả sự xung đột giữa tại khung hình thứ ¢; sau khi thực hiện

hai lần tương tác của người dùng 42

Trang 10

3.18 Cơ chế của mô dun Fusion [4] Mặt nạ được lan truyền hiện tại

MẸ tại khung hình thứ t; được hợp nhất với mặt na được lan

truyền trước đ 6M; ~† được hướng dẫn bởi các mặt nạ khác nhau

từ sự tương tác tại khung hình f„ .

Một số mẫu dữ liệu trong DAVIS2017 [16]

Biểu đồ thể hiện đường cong độ chính xác 7&F với thời gian tích

lũy cần đạt được độ chính xác đó

-Su khác biệt giữa mặt nạ được dự đoán trong mé-dun

Interaction-to-Mask từ một số cấu hình điểm điều khiển

Biểu đồ trung bình IoU so với thời gian của người dùng Phương

pháp của chúng tôi đạt được độ chính xác cuối cùng và AUC cao

Trang 11

Bang so sánh sự khác nhau giữa các mô hình về số lượng FLOP

và các tham số Tất cả đều sử dụng ảnh với độ phân giải 400 x

400 để tính số FLOP 49

Kết quả được đánh giá ảnh hưởng của các kiến trúc nền tảng cho

mô hình RITM trên toàn bộ hệ thống phân đoạn đối tượng trong

Kết quả đánh giá ảnh hưởng của phương pháp Disk - chuyển đổi các điểm tương tác sang các lược đồ tương tác với bán kính lần

lượt là 3, 5, 7 trên toàn bộ hệ thống phân đoạn đối tượng trong

video <a ZTỨẠT TT" | /Ô s 50

Kết quả đánh giá ảnh hưởng của số lần lặp lại việc mô phỏngtương tác của người dùng khi huấn luyện mô hình RITM trêntoàn bộ hệ thống phân đoạn đối tượng trong video 50Kết quả thực nghiệm trên mô-đun Control-point Extractor - đánh

giá sự ảnh hưởng của việc trích xuất số lượng điểm tối đa từ các

nét vẽ nguéch ngoac của người dùng 51

Kết quả định lượng của STM / STCN khi sử dụng độ tương đồnglần lượt là Dot product/L2 2 0.0.00 000 ee eee 53

Bảng kết quả thé hiện tương tác của người dùng trong thực tế,

gồm ð tình nguyện viên, mỗi tình nguyện viên thực hiện gán nhãn

5 video trong bộ dữ liệu DAVIS2017 A; lần lượt là độ tăng ToUsau lần tương tác thứ ¿ c co 54

Bảng kết quả thể hiện thời gian trung bình của từng mô-đun trên

từng déitugng 2 ee 54

vii

Trang 12

Chương 1

Giới thiệu

Trong chương này, chúng tôi sẽ trình bày tổng quan về bài toán phân đoạn đối

tượng ảnh trên video bao gồm tất cả các hướng tiếp cận, vấn đề và ứng dụng

Thêm vào đó, các thách thức, động lực và mục tiêu của bài khóa luận cũng được

trình bày trong phần này Cuối cùng, tại chương này, chúng tôi cũng trình bày

tổng quan về cấu trúc của bài khóa luận.

1.1 Tổng quan

1.1.1 Phân đoạn đối tượng trên video

Ngành thị giác máy tính đang phát triển nhanh với mục tiêu cố gắng mô phỏng

để hệ thống máy tính có thể hiểu rõ hơn về hình ảnh, video giống như con người.

Sự phát triển nhanh chóng của điện thoại thông minh, thiết bị chụp ghi ảnh và

mạng xã hội đã kéo theo sự gia tăng theo cấp số nhân của dữ liệu truyền thông

Điều này thôi thúc phát triển các ứng dụng có khả năng trích xuất và phân tích

thông tin từ những dit liệu số này

Phân đoạn đối tượng trong video là một trong những bài toán phổ biến nhất của

ngành Thị giác máy tính, nhiệm vụ của bài toán đó là cung cấp cho chúng ta

thông tin về đối tượng chính (foreground) va vùng nền (background) trong tất

cả các khung hình của một video đã cho Có nghĩa là các hệ thống hay phươngpháp phân đoạn đối tượng trong video được xây dựng với mục tiêu phân táchcác đối tượng ra khỏi vùng nền trong toàn bộ khung hình Đây là một tác vụphức tạp đòi hỏi các phương pháp phải có kha năng xử lý các van đề xảy ra

Trang 13

trong một video như đa đối tượng, đối tượng bị biến dạng về hình dáng và kích

thước khi góc nhìn và hướng chuyển động thay đổi, chuyển động trong video quá

nhanh khiến các đối tượng bị nhòe đi Do đó, theo vết các đối tượng trong video

ở mức độ điểm ảnh cũng là một mục tiêu quan trọng của bài toán.

Dựa vào đầu vào mà phân đoạn đối tượng trên video chia thành các loại khácnhau: bán giám sát và không giám sát Hướng tiếp cận không giám sát (Un-supervised Video Object Segmentation) sẽ phân đoạn các đối tượng mà không

cần tương tác từ người dùng, nhưng nhược điểm là có thể không phát hiện được

các đối tượng cần quan tâm hoặc các đối tượng không được chỉ định rõ ràng Phânđoạn đối tượng trong video theo hướng tiếp cận bán giám sát (Semi-supervised

Video Object Segmentation) trích xuất đối tượng can quan tâm bằng cách để

người dùng gán nhãn thủ công trong khung hình đầu tiên hoặc một số khunghình trong video Tuy nhiên, các hướng tiếp cận bán giám sát lại tốn thời gian

gán nhãn ở cấp độ điểm ảnh (ít nhất 79 giây trên một khung hình như đã đề

cập trong công trình) Nhu có thể thay trong Hình 1.1, mặt nạ của tất cả các

đối tượng trong khung đầu tiên được cung cấp Trong trường hợp thứ hai không

có chú thích nào được cung cấp, được thể hiện ở Hình 1.2,

Ngoài hai hướng tiếp cận bán giám sát và không giám sát, có một hướng tiếp

cận thay thế đó là phân đoạn đối tượng trong video dựa vào chỉ dẫn tương tác

của người dùng (Interactive Video Object Segmentation — [VOS), một giải pháp

2

Trang 14

khắc phục hầu hết các nhược điểm của hai hướng tiếp cận vừa được đề cập ở

phần trên Thay vì phải gấn nhãn từng điểm ảnh thì người dùng có thể chỉ định những đối tượng để phân đoạn bằng các hình thức đơn giản và thân thiện hơn

như là các nét vẽ nguệch ngoạc (scribble) hay nhấp chuột (click) Quá trình xử

lý của bài toán phân đoạn đối tượng trên video dựa vào chỉ dẫn tương tác đượcthực hiện như sau : trong lần tương tác đầu tiên, người dùng chọn một khunghình tùy ý ở bất kỳ vị trí nào trong video và cung cấp các tương tác chỉ dẫn trên

khung hình đang xét, ví dụ như hình vẽ nguệch ngoạc cho từng đối tượng trong

khung này Dựa trên những nét vẽ nguệch ngoạc này, mô hình phải dự đoán mặt

nạ phân đoạn của các đối tượng vừa được chỉ định tại khung hình này và lantruyền mặt nạ phân đoạn đó tới tất cả các khung hình còn lại trong video Trong

lần tương tác tiếp theo, người dùng chọn một khung hình với các mặt nạ phân

đoạn có độ chính xác mà họ cho là kém nhất và cung cấp một tập hợp các nét vẽ

nguệch ngoạc mới trong khung này Những nét vẽ nguệch ngoạc này chỉ ra các

vùng phân đoạn sai, từ đó mô hình sẽ sử dụng những nét vẽ nguệch ngoạc để

tỉnh chỉnh các mặt nạ dự đoán trước đó của nó Quy trình này được lặp lại cho

đến khi người dùng hài lòng với tất cả mặt nạ phân đoạn đối tượng trong video

Hình 1.3 minh họa cơ chế tương tác của phân đoạn đối tượng trong video Mặt

nạ của đối tượng mục tiêu được tạo bởi những chỉ dẫn tương tác của người dùng

tại một khung hình (ví dụ: nét vẽ nguệch ngoạc màu xanh lá cây ở khung hình

58) và được tính toán lan truyền để tạo mặt nạ phân đoạn cho đối tượng mục tiêu trong toàn bộ video Người dùng có thể tinh chỉnh các mặt nạ phân đoạn

bằng cách liên tục cung cấp các thông tin về các khu vực false negative và false

positive (ví dụ: nét vẽ nguéch ngoac màu xanh lá cây và màu đỏ ở khung 28).

Trang 15

Frame 28 Frame 58 Frame 70

Round 1 UL interaction 1

= User Interaction in Each Round => Temporal Propagation through Frames

Hình 1.3: Cơ chế tương tác của phân đoạn đối tượng trên video

1.2 "Thách thức của bài toán

Phân đoạn đối tượng trong video dựa vào chỉ dẫn tương tác của người dùngnhận được nhiều sự chú ý từ cộng đồng nghiên cứu bởi vì khả năng ứng dụngcủa nó trong thực tế Ngoai các khó khăn chung mà hầu hết các bài toán phanđoạn đối trong video gặp phải như hình ảnh có độ phân giải thấp, hình ảnh đượcchụp ở những điều kiện không thuận lợi dẫn đến bị thiếu sáng, các đối tượng bịche khuất lan nhau hay có kích thước quá nhỏ Thì còn có một số khó khănriêng mà phân đoạn đối tượng trong video dựa vào tương tác người dùng cầnphải giải quyết :

Mặt nạ phân đoạn được tạo ra từ các nét vẽ nguệch ngoạc là một tác

vụ khó Thông tin từ các nét vẽ nguệch ngoạc cung cấp bị giới hạn, các mô hình

giải quyết thử thách này cần phải cho ra kết quả mặt nạ phân đoạn chính xáccho tất cả các đối tượng cần quan tâm Ngoài ra, một khó khăn nữa đó là dựa

vào tính cách và kinh nghiệm của người tương tác thì các nét vẽ sẽ có kiểu cách

khác nhau, thường không có một dạng nào cố định Hình 1.4 chỉ ra sự khác biệt

giữa các hình thức tương tác vẽ các nét nguệch ngoạc trong cùng một video Mặt

nạ được tạo từ các nét vẽ cũng phải đúng về mặt ngữ nghĩa

Trang 16

Hình 1.4: Sự khác nhau giữa các kiểu nguệch ngoạc trong cùng một video [16].

Chồng chất lỗi sai trong giải thuật lan truyền mặt nạ phân đoạn Đây

là tình trạng mà hầu hết giải thuật lan truyền đều gặp phải Thứ nhất, nếu

như mặt nạ phân đoạn của khung hình tham khảo được dự đoán sai thì khi lan

truyền đến tất cả các khung hình còn lại mức độ sai sót sẽ tăng dần lên Thứhai, việc hai khung hình tham khảo và khung hình cần được xem xét quá xa

nhau thì các thông tin như mặt nạ phân đoạn, ý định tương tấc của người dùng

sẽ bị mất mát trong quá trình lan truyền Thứ ba đó là vấn đề về lan truyềncác mặt nạ phân đoạn đa đối tượng và các đối tượng này có cấu trúc phức tạp

như có nhiều chi tiết nhỏ, bị chồng nhất lên nhau, Hình 1.4 thể hiện sự phức

tạp trong các khung hình gồm nhiều đối tượng với cấu trúc và hình dáng phức tạp

Hiệu suất của phương pháp Toc độ xử lý cũng là một nhân tố cần quan tâm

trong quá trình người dùng thực hiện tương tác trực tiếp lên các đối tượng Họ

không thể chờ đợi quá lâu để mô hình phân đoạn và lan truyền các mặt nạ Thực

tế rất cần các hệ thống hay các phương pháp phân đoạn đối tượng có thể xử lý

trên thời gian thực, do đó tốc độ cũng là một nhân tố quyết định một hệ thốnghay phương pháp đó có thực sự tốt hay không Một số người dùng khác còn có

thể chấp nhận đánh đổi tốc độ xử lý với độ chính xác ở một mức độ nào đó để

cải thiện hiệu suất của quá trình gán nhãn

1.3 Lý do thực hiện đề tài

Kỹ thuật phân đoạn đối tượng trong video đóng vai trò quan trọng, kết hợp vớitương tác của người dùng tạo ra nhiều ứng dụng cần thiết trong đời sống Đối

với lĩnh vực xe tự hành, được minh họa ở Hình 1.5, kỹ thuật này giúp chiếc xe

phân biệt được làn đường, nhận diện biển báo, đèn tín hiệu giao thông, người đi

bộ và những chiếc xe đang cùng lưu thông trên đường mà camera quan sát được

Đặc biệt có thể tính được khoảng cách an toàn và cho biết tốc độ tối đa mà xe

có thể đi được để không đụng với xe đằng trước, từ đó tăng tính an toàn cho

Trang 17

người ngồi trên xe.

Hình 1.5: Hình ảnh thể hiện ứng dụng kỹ thuật công nghệ vào cuộc sống thực tế

trong lĩnh vực xe tự hành Xe tự hành quét và nhận diện vật cản, các phương

tiện khác trên đường!

Hình 1.6: Hình ảnh hệ thống camera giám sát được ứng dụng trong thực tế.

Camera giám sát đường sử dụng để theo dõi, giám sát các khu vực hay giám sát

giao thông trên đường”

Thttps://bkaii.com.vn

"https: //www.vietnamplus.vn

Trang 18

Trong các hệ thống camera giám sát được biểu diễn ở Hình 1.6, kỹ thuật phân đoạn đối tượng trong video có thể giúp chúng ta đếm số lượng xe lưu thông trong

một khu vực vào đó, giám sát các phương tiện vi phạm giao thông như không

tuân thủ tín hiệu đèn giao thông, chạy quá tốc độ, lấn làn Ngoài ra, bài toán

còn có thể được ứng dụng vào nhận dạng khuôn mặt, đếm số người xuất hiện

trong các cửa hàng, siêu thị từ đó giúp theo đõi hành vi của con người Các

ứng dụng trên nếu kết hợp với các thông tin người dùng tương tác sẽ tăng độ tincậy, ngoài ra còn đáp ứng mong muốn hay các mục tiêu mà người dùng hướng

đến trong quá trình sử dụng Để có thể xây dựng các ứng dụng này, các phương

pháp trước đây đều phải đòi hỏi tài nguyên vô cùng lớn Chính vì thế, trong bài

khóa luận này, chúng tôi hi vọng có thể giúp các nghiên cứu sau này có cơ sở để

lựa chọn phương pháp tối ưu hơn và phù hợp cho từng bài toán đồng thời giúp

việc tạo ra các ứng dụng để đưa vào thực tiễn dễ dàng hơn.

1.4 Đóng góp của đề tài

Mục tiêu của khoá luận này là đề xuất một phương pháp mới để phân đoạn đối

tượng video dựa vào chỉ dẫn tương tác đáp ứng tất cả các mục tiêu đã thiết kế,bao gồm nhanh chóng, tạo ra kết quả tương đối tốt và cải thiện độ tốc độ cũngnhư tiết kiệm chi phí tính toán sau mỗi lần tương tác Đóng góp chính trong bàikhóa luận này bao gồm:

e Dề xuất một mô hình cho bài toán phân đoạn đối tượng trong video dựa

vào chỉ dẫn tương tác có tiềm năng ứng dụng trên các thiết bị di động với

các mục tiêu như sử dụng các mô hình nhẹ, đơn giản, xử lý đủ nhanh và có

thể cho kết quả tốt với số lần tương tác ít.

e Dánh giá ảnh hưởng của một số thành phần đến kết quả phân đoạn đối

tượng trong video dựa vào chỉ dẫn tương tác.

Phương pháp chúng tôi đề xuất gồm có các thành phần chính được miêu tả ngắn

gọn như sau:

Phân đoạn đối tượng trên ảnh dựa vào chỉ dẫn tương tác (Interactive

Image Segmentation) Bản chất của video là một chuỗi các hình ảnh liền kề

chuyển động theo thời gian Do đó, việc phân đoạn đối tượng trong video thực

chất là phân đoạn đối tượng trên từng khung hình trong video đó Bài toán phân

đoạn ảnh dựa vào chỉ dẫn tương tác có hai điểm cần chú ý, vấn đề về tương tác

Trang 19

của người dùng và mô hình phân đoạn ảnh Trong phương pháp chúng tôi đềxuất, mô hình phân đoạn ảnh dựa vào chỉ dẫn tương tác cùng với các bước tiền

xử lý tương tác của người dùng là mô-đun chính đầu tiên

Theo vết các đối tượng trong video Khi thực hiện các tác vụ thị giác máy

tính trên video, theo vết các đối tượng là một phần cực kỳ quan trọng, ảnhhướng rất nhiều đến hiệu suất của các phương pháp hay kỹ thuật Đối với bài

toán phân đoạn đối tượng trong video vấn đề theo vết các đối tượng được hiểu

như đang lan truyền các mặt nạ phân đoạn của các đối tượng ở khung hình thamkhảo đến tất cả các khung hình còn lại Chúng tôi quan tâm nhiều đến vấn đề

bộ nhớ lưu trữ và thời gian lan truyền của các mặt phân đoạn nên ở mô-đun thứhai chúng tôi đề xuất sử dụng mô hình nhỏ, nhẹ hơn các phương pháp trước đó

cùng với một số tỉnh chỉnh để cải thiện kết quả phù hợp với mục tiêu mà chúng tôi đề ra Để hoàn thành mục tiêu này, công việc chi tiết mà chúng tôi đã thực

hiện trong luận án này bao gồm:

e Tìm hiểu các kiến thức cơ bản liên quan đến máy học và mạng học sâu Một số

kiến thức liên quan đến mạng nơ-ron bao gồm: Feedforward, Backpropagation,

hàm Activation Bên cạnh đó là kiến thức liên quan đến mạng tích chập để

giải quyết các bài toán của thị giác máy tính

e Khảo sát một số phương pháp để giải quyết các bài toán của thị giác máy

tính như: phân đoạn đối tượng trên ảnh dựa vào chỉ dẫn tương tác, phânđoạn đối tượng trên video theo hướng tiếp cận bán giám sát và có sự tương

tác của người dùng.

e Nghiên cứu tập dữ liệu, mô hình của bài toán và độ đo đánh giá để phân

đoạn đối tượng trên video dựa vào sự tương tác của người dùng

e Thực nghiệm kiểm chứng một số các phương pháp hay các kỹ thuật để tối

ưu quá trình xử lý, tăng hiệu suất của mô hình

1.5 Bố cục của khóa luận

Nội dung của khóa luận này sẽ bao gồm 5 phần:

e Chương 1: Giới thiệu Chương này trình bày tổng quan về vấn đề nghiên

cứu của chúng tôi, cùng với thách thức, ứng dụng và động lực của bài toán

và mục tiêu của khóa luận này Ngoài ra, trong chương này, chúng tôi cũng

trình bày tổng quan về cấu trúc của bài báo cáo khóa luận.

8

Trang 20

e Chương 2: Các hướng tiếp cận bài toán phân đoạn đối tượng trên

video dựa vào chỉ dẫn tương tác Chương này trình bày các phươngpháp tiếp cận hiện đại gần đây về phân đoạn đối tượng trên ảnh và video

cùng với một số hướng tiếp cận phổ biến.

e Chương 3: Phương pháp đề xuất Chương này trình bày phương pháp

chúng tôi đề xuất cho bài toán phân đoạn đối tượng trong video dựa vào chỉ

dẫn tương tác.

e Chương 4: Kết quả thực nghiệm Chương này thể hiện các kết quả thực

nghiệm của chúng tôi và quá trình kiểm tra, đánh giá các thành phần ảnh

hưởng trong phương pháp mà chúng tôi đề xuất

e Chương 5: Kết luận Phần kết luận tổng hợp lại các vấn đề trong khóa

luận của chúng tôi cùng với những đóng góp chính Ngoài ra, chúng tôi cũng

đề cập đến một số các hướng phát triển trong tương lai.

Trang 21

Chương 2

Các hướng tiép cận bài

toán phân đoạn đối tượng

trên video dựa vào chỉ dẫn

tương tác của người dùng Vì vậy, các mô hình phân đoạn ảnh dựa vào chỉ dẫn

tương tác là một thành phần rất quan trọng đối với tác vụ phân đoạn trên video.Một số các công trình nghiên cứu trước đó về chủ đề này thương tập trung vào

van đề khôi phục hay cải thiện kết quả của các mặt nạ phân đoạn bằng cách sử

dụng thêm các tham số tối uu và cơ chế lan truyền ngược để tinh chỉnh lại các

10

Trang 22

lược đồ tương tác Mỗi phương pháp có ưu và nhược điểm riêng, tuy nhiên đều

gặp chung vấn đề về thời gian tính toán và xử lý

2.1.2 Co chế tỉnh chỉnh bằng phương pháp lan truyền

nghiên cứu Won-Dong Jang và Chang-Su Kim đã xây dựng một kiến trúc mạng

phân đoạn ảnh nhận tương tác của người dùng để chỉ định một đối tượng mục

tiêu trên ảnh theo phong cách Bộ mã hóa- Bộ giải mã Ngoài ra, với ý định tỉnh chỉnh lại các mặt nạ phân đoạn dựa vào thông tin tương tac của người dùng,

nhóm hai nhà nghiên cứu cũng thiết kế một cơ chế tỉnh chỉnh bằng phương pháp

lan truyền ngược (Backpropagation Refinement Scheme) viết tắt là BRS [9] để

lưu trữ và sàng lọc thông tin cũng như định hướng mô hình theo như ý muốn

của người dùng Hình 2.1 thể hiện tổng quan kiến trúc mang BRS

Encoder Coarse decoder

Input image Interaction maps

Skip connection

Hình 2.1: Tổng quan về mô hình phan đoạn ảnh dựa vào chi dẫn tương tác thong

qua cơ chế tinh chỉnh bằng phương pháp lan truyền ngược [9]

Kiến trúc mạng cho bài toán phân đoạn ảnh dựa vào chỉ dẫn tương tác được

nhóm tác giả xây dụng theo lối kiến trúc Bộ mã hóa - Bộ giải mã Trong

đó, bộ giải mã gồm 2 thành phần Bộ giải mã thô (Coarse Decoder) và Bộ giải

mã tỉnh (Fine Decoder) Mô hình nhận đầu vào là một ảnh và 2 lược đồ tương

tác của người dùng, một cho đối tượng đang muốn phân đoạn và một cho các đối

11

Trang 23

tượng khác hay vùng phông nền Với Bộ mã hóa, nhóm tác giả sự dụng DenseNet

để trích xuất các đặc trưng cấp cao cũng như các đặc trưng cấp thấp, sau đó áp dụng kết nối tắt (Skip Connection) để khôi phục và thu thập nhiều thông tin hơn về ranh giới của vat thể Hai bộ giải mã thô và bộ giải mã tinh cho đầu ra

là một lược đồ xác suất, xác suất ở vùng hay vị trí nào cao thì nơi đó khả năng

là vùng phân đoạn vật thể đang chỉ định bởi người dùng cao hơn Tuy nhiên,

nhiệm vụ chính của Bộ giải mã thô là dự đoán một mặt nạ phân đoạn thô cho

đối tượng, còn Bộ giả mã tỉnh sẽ tiến hành tỉnh chỉnh cải thiện kết quả phânđoạn thô từ bộ giải mã thô Bộ giải mã thô gồm 4 khối giải mã, mối khối gồm 3

lớp tích chập Mô hình nhận kết quả từ bộ giải mã thô và nối (concatenate) với

các thông tin đầu vào, sau đó được chuyển đời qua cho bộ giải mã tinh xử lý tinh chỉnh kết quả Bộ giải mã tinh sử dụng tích chập atrous để mở rộng vùng

tiếp nhận thông tin Một parametric rectified unit va batch normalization sẽ

được thực hiện sau mỗi lớp tích chập trừ các lớp dùng để dự đoán như “Coarse

ConvP” va “Fine ConvP”.

Cơ chế tinh chỉnh bằng phương pháp lan truyền ngược Mô hình phan

đoạn ảnh dựa vào chỉ dẫn tương tác cho kết quả phân đoạn vật thể với chất lượng khá ổn Tuy nhiên, mô hình này lại có một nhược điểm là không thể đảm bảo rằng những điểm ảnh mà người dùng thực hiện tương tác lên có kết quả

phân đoạn ảnh đúng Do đó, cơ chế tinh chỉnh bằng phương pháp lan truyền

ngược được áp dung dé bắt buộc những điểm ảnh này được gán nhãn một cách

chính xác để kết quả phân đoạn tốt hơn nữa Mô hình sẽ thực thi cơ chế tinh chỉnh bằng phương pháp lan truyền ngược cho đến khi tất cả các điểm ảnh do

người dùng tương tác lên được phân đoạn chính xác Người dùng thông thường

sẽ tương tác nhiều lần để kết quả phân đoạn cải thiện dần dần Việc chỉnh sửa kết quả phân đoạn này có thể thực hiện được bằng tỉnh chỉnh trực tiếp tham

số của mô hình, tuy nhiên việc này lại làm mất đi thông tin mô hình đã được

học trước đó Thay vì vậy có thể chỉnh sửa lại lược đồ tương tác ban đầu của người dùng Mục tiêu của BRS là tối thiểu tinh chỉnh trong các lược đồ tương

tác sao cho nhất quán với mặt nạ phân đoạn đối tượng BRS sử dụng 2 hàm

năng lượng là Corrective Energy tương ứng với tọa độ các điểm tương tác đầu

vào và Inertial Energy nhằm giữ cho mô hình ổn định với những sự thay đổi nhỏ

từ đầu vào Ví dụ ƒ(z)„„ là đầu ra của mô hình với ảnh z và điểm tương tác là

(u,v) với nhãn / thi ham năng lượng được tính toán bằng công thức (2.1):

12

Trang 24

AlAzlls * DL + Aa) — )Ÿ > min (2.1)

BRS được áp dung sau lần tương tác thứ 2 của người dùng và sé được thực hiện

đệ quy cho đến khi ngươi dùng dừng tương tác

Với lối kiến trúc mạng Bộ giải mã-Bộ mã hóa cùng với cơ chế tỉnh chỉnh bằng phương pháp lan truyền ngược, mô hình cho bài toán phân đoạn ảnh dựa vào chỉ

dẫn tương tác do nhóm tác giả Won-Dong Jang và Chang-Su Kim công b6 mang

lại kết quả cải thiện đáng kể Trên các bộ dữ liệu như GrabCut [18], Berkeley

[14], DAVIS [16] và SBD [6], mô hình BRS cần số lần tương tác ít hơn để đạt

kết quả đến 85% và 90% so với các phương pháp trước đó Tuy nhiên, nhược

điểm lớn nhất của BRS chính là tốn quá nhiều chi phí và thời gian tính toán do

việc tinh chỉnh được thực hiện đệ quy và mỗi lần chỉnh sửa mặt nạ phân đoạncần phải lan truyền ngược lại toàn cấu trúc mạng

2.1.3 Cơ chế tinh chỉnh các đặc trưng trung gian bang

phương pháp lan truyền ngược

OistMap-BRS LBRS-B

pm Per pone! opmmerahon 'wcale ard baw

on the (AC: maps (128+12 chanwets)

Toned per-pinel optimization

sale and bias mm

on the image Gott channehi) (128 channels}

Hình 2.2: Tổng quan về mô hình phân đoạn ảnh dựa vào chi dẫn tương tác trong

thông qua cơ chế tỉnh chỉnh các đặc trưng trung gian bằng phương pháp lantruyền ngược [20]

Cơ chế tỉnh chỉnh các đặc trưng trung gian bằng phương pháp lan truyền ngược(Feature-backpropagation Refinement Scheme) viết tắt là {BRS [20] là một cơ

15

Trang 25

chế tinh chỉnh mặt na phân đoạn ảnh giải quyết các van đề về tối ưu hóa thôngqua các biến phụ trợ thay vì tỉnh chỉnh lại các lược đồ tương tác ở đầu vào của

mạng Phương pháp này yêu cầu chỉ cần lan truyền ngược về một đoạn ngắn

của cau trúc mạng khác với BRS là cần phải lan truyền ngược cả về toàn mạng

để chỉnh sửa đầu vào do đó cải thiện hiệu suất phân đoạn của mô hình Với mục tiêu tăng tốc quá trình tối ưu hóa để cải thiện kết quả phân đoạn ảnh, việc lan truyền ngược để tính toán các hàm năng lượng sẽ không thực hiện qua toàn

mạng mà chỉ thông qua một số đoạn của mô hình lộ f-BRS, mục tiêu tối ưu là

các thành phan trong các tensor đặc trưng, việc tối ưu các thành phần này chỉ

làm thay đổi rất nhỏ xung quang các điểm tương tác ở mặt nạ phân đoạn đối tượng, chung quy sẽ không làm ảnh hưởng quá lớn Hình 2.2 mô tả tổng quan về

mô hình f-BRS.

BRS điều chỉnh lại hàm ƒ trong công thức tính toán tối ưu của BRS bằng cách

them vào các biến phụ trợ Ví dụ, gọi f(z, z) là hàm kết hợp giữa đầu vào x và

biến phụ trợ z Với biến phụ trợ được cố định z = p sao cho hàm được điều chỉnh

sẽ tương đương với hàm gốc ƒ(z,p) = f(x) Mục tiêu của £BRS là tìm giá trị Ap

nhỏ sao cho giá trị của hàm f(x,p + Ap) tại điểm ảnh mà người dùng tương tác

gần với nhãn mà người dùng cung cấp nhất Hàm tối ưu được tính toán bằng

công thức (2.2):

n

v—1

f-BRS chọn hai tham số đó là channel-wise scale va bias dé kích hoạt tai một

trong các lớp cuối cùng của cấu trúc mạng vì scale và bias là bất biến với vi trítrong ảnh, do đó sẽ không làm ảnh hưởng nhiều đến kết quả toàn cục Mặt khácchọn các tham số ở những lớp cuối cùng sẽ không cần phải lan truyền ngược lại

cả toàn cấu trúc mạng mà chỉ cần một đoạn nhỏ trong đó Tùy thuộc vào vị trí

áp dụng hàm mục tiêu, {BRS có thể đánh đổi giữa độ chính xác và tốc độ.

Feature Backpropagation Refinement Scheme chỉ thực hiện tính toán trên những

đặc trưng trung gian và quá trình lan truyền ngược chỉ diễn ra trên một đoạn

nhỏ của cấu cấu trúc mang Vì vậy, {BRS đã vận dụng hiệu quả các biến phụ

trợ trong các hàm tối ưu để chỉnh sửa mặt nạ phân đoạn đối tượng, cải thiện kết

quả cả về độ chính xác và tốc độ

14

Trang 26

2.2 Phân đoạn đối tượng trong video

Phân đoạn đối tượng trong video là bài toán phân tách tất cả các đối tượng cầnquan tâm trong tất cả các khung hình với vùng nền trong video Với mục tiêu

theo vết tất cả các điểm ảnh của đối tượng có trong video thì phân đoạn đối

tượng video được chưa làm ba loại: phân đoạn đối tượng video với hướng tiếpcận không giám sát, phân đoạn đối tượng video với hướng tiếp cận bán giám sát,phân đoạn đối tượng với hướng tiếp cận dựa vào chỉ dẫn của người dùng

2.2.1 Phân đoạn đối tượng trong video theo hướng tiếp

cận bán giám sát

Phân đoạn đối tượng theo hướng tiếp cận bán giám sát cung cấp với một mặt

nạ đối tượng ban đầu trong khung đầu tiên, sau đó sẽ sử dụng mô hình để phân

đoạn các đối tượng trong các khung hình còn lại Thông thường, các phương

pháp thuộc hướng tiếp cận này sẽ chia thành hai loại: theo vết đối tượng, mạng

bộ nhớ.

Phương pháp dựa vào theo vết đối tượng: một hình ảnh mặt nạ đối tượng

hiện tại sẽ dự đoán từ hình ảnh RGB và các mặt nạ đối tượng của khung hìnhtrước đó FEELVOS [22] sử dụng một mạng phức hợp duy nhất va chỉ yêu

cầu một lần chuyển tiếp duy nhất cho mỗi khung hình video Hình 2.3 là tổng

quan của mô hình FEELVOS Kiến trúc của mô hình này sử dung backbone

Deeplabv3+[3] để trích xuất đặc trưng với stride bằng 4 Trên hết, tác giả thêm một lớp embedding để trích xuất các vec-tơ đặc trưng embedding với các stride

bằng nhau Sau đó, đối với mỗi đối tượng, tác giả tính khoảng cách giữa cácvec-tơ đặc trưng bằng cách đối sánh toàn cục các vec-tơ đặc trưng embeddingcủa khung hình hiện tại với các vec-tơ đặc trưng embedding của khung hình đầu

tiên Ngoài ra, tác giả sử dụng kết quả của khung hình dự đoạn trước đó để tính

toán khoảng cách giữa các đối tượng ở trong các trong khung hình khác nhau.Bằng cách tính đối sánh cục bộ khoảng cách giữa bản đồ đặc trưng ở khung hiệntại với bản đồ đặc trưng ở khung trước đó Cuối cùng, tác giả kết hợp tất cả cácbản đồ đặc trưng toàn cục có khoảng cách phù hợp, và bản đồ đặc trưng cục bộ

có khoảng cách phù hợp , dự đoán từ khung trước và các đặc trưng sau khi được

trích xuất từ backbone Sau đó,tác giả đưa chúng vào một đầu phân đoạn động

tạo ra cho mỗi pixel (với khoảng cách là 4) một phân phối sau trên tất cả các đối tượng có mặt trong khung hình đầu tiên Toàn bộ hệ thống được đào tạo

15

Trang 27

end-to-end để phân đoạn nhiều đối tượng mà không yêu cầu mất mát trực tiếp

trên embedding.

Groundtruth mask for the first frame is given

BoLTVOS [23] khai khác ý tưởng từ nhiệm vụ phân đoạn đối tượng video

(VOS) có thể được giải quyết bằng cách tách nó thành các bounding box và theo

dõi các bounding box này, tiếp theo là phân đoạn các đối tượng được cung cấpbởi các bounding box được theo dõi Bằng cách áp dụng mô hình này, tác giả có

thể lấy cảm hứng từ cộng đồng theo dõi đối tượng trực quan (VOT) để thiết kế

một trình theo dõi box-level hoạt động tốt cho VOS

Trong hình 2.4, BoLTVOS [23] duoc chia thành ba thành phần Vùng bên

trái trong hình cho thấy mô hình Siamese cascaded R-CNN của tác giả có

thể phát hiện các vùng đối tượng tương tự về mặt trực quan với đối tượng mẫu

khung hình thứ nhất đã cho Vùng trung tâm trong hình cho thấy thuật toán

thu hồi tính nhất quán theo thời gian trực tuyến của tác giả, nó có thể chọn

phát hiện tốt nhất đến từ bộ phát hiện của tác giả trong mỗi bước thời giandựa trên tính nhất quán về mặt thời gian và các dấu hiệu tương tự về hình ảnh,

có tính đến khả năng hiện diện của các biểu tượng tương tự về mặt trực quan

nhưngcác đối tượng không liên quan không nhất quán về mặt không gian Cuối

cùng, như được hiển thị trong vùng bên phải trong hình, sau khi xác định kết quả theo dõi box-level, tác giả áp dụng mạng Box2Seg của mình để tạo mặt nạ

phân đoạn cho đối tượng được cung cấp bởi mỗi bounding box

Phương pháp dựa vào mạng bộ nhớ: STM [15] sử dụng các khung trước đó

và mặt nạ đối tượng của chúng để tạo thành một nhóm bộ nhớ để tham chiếu

16

Trang 28

Hình 2.4: Tổng quan về BoLTVOS [23] Conditional R-CNN (bên trái) cung cấp

các phát hiện có điều kiện trên bouding box khung hình đầu tiên, sau đó được

ghi lại bằng thuật toán thu hồi tính nhất quán tạm thời (giữa) Kết qua là các

hộp bounding box được chuyển đổi thành mặt nạ phân đoạn bởi mạng Box2Seg

Decoder

Space-time Memory Read

Hình 2.5: Tong quan về mô hình phan đoạn đối tượng trong video STM [15]

Memory embedding

Trong mô hình của STM các khung hình trong video được xử lý tuần tự bắt đầu

từ khung hình thứ hai bằng cách sử dụng sự hướng dẫn ở khung hình đầu tiên

được cung cấp Xuyên suốt quá trình xử lí video, STM xem các mặt nạ của đối

tượng ở khung hình trước như tập hợp các khung hình bộ nhớ và khung hình

hiện tại mà không có mặt nạ đối tượng được xem như là khung hình truy vấn.

Tổng quan về mô hình được hiển thị ở Hình 2.5 Đầu tiên, các khung hình bộ

nhớ và truy vấn đều được mã hóa thành các cặp key map và value map thông

qua các bộ mã hóa học sâu Key map được sử dụng để xác định địa chỉ của

các điểm ảnh Còn values map sẽ lưu các thông tin chỉ tiết để ước lượng cho

17

Trang 29

việc phân đoạn Toán tử để ghi vào bộ nhớ chỉ đơn giản là kết hợp key map

và value map được tạo từ các khung hình trước và các mặt nạ đối tượng Khi

tiến trình có một khung hình mới, toán tử đọc bộ nhớ sử dung keys để truy

van và tìm ra thông tin địa chỉ liên quan trong không gian bộ nhớ Sau đó các

đặc trưng được lưu trong value map tại vị trí được truy vấn để dự đoán cho đối

tượng phân đoạn hiện tạ Cuối cùng, bộ giải mã lấy đầu ra của khối đọc và táitạo lại mặt nạ cho khung truy vấn

2.2.2 Phân đoạn đối tượng trong video dựa vào chỉ dan

tương tác

Chỉ dẫn mà người dùng cung cấp được xem như là một thông tin đầu vào được

lặp đi lặp lại cho mô hình chỉnh sửa đối tượng mà mình quan tâm Trong đó

người dùng chỉ định đối tượng bằng một số hình thức tương tác như vẽ nguệchngoạc, nhấn chuột hay vẽ một hình chữ nhật bao bọc quanh đối tượng mục tiêu

Thử thách DAVIS về phân đoạn đối tượng video đã tổ chức kịch bản tương tác kể từ năm 2018 với mục tiêu giải quyết bài toán này Trong lần tương tác đầu tiên của mỗi chuỗi khung hình, máy chủ sẽ chọn cụ thể một khung hình,

cung cấp nét vẽ nguệch ngoạc do người dùng vẽ cho mỗi đối tượng trong khung

hình này Dựa vào các nét vẽ nguệch ngoạc này, mô hình sẽ dự đoán ra mặt nạ

phân đoạn cho các đối tượng quan tâm trong tất cả khung hình trong video Sau

đó, người dùng sẽ nộp kết quả phân đoạn đấy lên máy chủ Trong mỗi lần tươngtác tiếp theo, server sẽ chọn ra khung hình có kết quả tệ nhất trong tất cả cáckết quả được nộp lên và sau đó cung cấp các nét vẽ nguệch ngoạc mới cho khung

hình này Những nét vẽ nguệch ngoạc này chỉ ra các vùng false positive và false

nagative Việc này sẽ lặp đi lặp lại đến khi đạt tới số lần lặp tối hoặc quá thời

gian Máy chủ đo thời gian cần thiết để thực hiện mỗi tương tác, các thời gian

này được kết hợp để tính toán kết quả cuối cùng.

Hàng năm, các phương pháp mới từ những người tham gia được đề xuất

và đạt được những kết quả khá khả quan Các phương pháp tiếp cận để giải

quyết phân đoạn đối tượng video tương tác phải đáp ứng một số mục tiêu

thiết kế, chang hạn như nhanh chóng, tạo ra mặt nạ video ban đầu hiệu quả

sau lần tương tác đầu tiên và cải thiện độ chính xác sau các lần tương tác tiếp theo

18

Trang 30

Embedding Encoder

Propagation Segm Head

Previous Frame f-1

Mask of Frame t-1

Hình 2.6: Tổng quan về mô hình phân đoạn đối tương trong video dựa vào chỉ

dẫn tương tác MA-Net [11] MA-Net gồm có 3 mô-đun một bộ mã hóa pixelembedding, một nhánh tương tác, một nhánh lan truyền

Một cách tiếp cận phổ biến cho vấn đề này bao gồm 2 giai đoạn: tạo mặt nạ

đối tượng hình ảnh từ các nét vẽ nguệch ngoạc và lan truyền mặt nạ MA-Net

[11] tích hợp mạng tương tác và mạng lan truyền thành một thể thống

nhất MA-Net bao gồm 3 mô-đun: một bộ mã hóa pixel embedding, một nhánh tương tác và một nhánh lan truyền Hình 2.6 mô tả tổng quan mô hình MA-Net Trong mô-đun đầu tiên, tất cả các điểm anh từ một chuỗi hình ảnh RGB trong video sẽ được chuyển thành các vec-tơ pixel embedding Nhánh lan truyền sẽ

sử dụng các nét vẽ nguệch ngoạc, vec-tơ pixel embedding của khung hình được

tương tác và kết quả mặt nạ ở lần tương tác trước để tạo ra mặt nạ phân đoạn

mới ứng với đối tượng ở lần tương tác trước Nhánh lan truyền sẽ lan truyềncác thông tin của người dùng tương tác và khung hình trước đến khung hìnhhiện tại bằng cách sử dụng pixel embedding Các bộ mã hóa pixel embeddingcủa hai nhánh được sử dụng cùng một kiến trúc nền tảng và chia sẽ các trọng sốvới nhau Các pixel embedding của tất cả các khung hình được trích xuất chínhxác một lần và ở trong lần tương tác đầu tiên Xuyên suốt các lần tương tác cònlại, chỉ hai segmetation heads được sử dụng, dẫn đến mạng hiệu quả hơn so vớitương tác đầu tiên

19

Trang 31

Hình 2.7: Kiến trúc Annotation-Transfer Network [8].

Ngoài ra, một số phương pháp khác để cả thiện kết quả của mô hình thông

thường sử dụng thêm một số các mô-đun để tỉnh chỉnh lại kết quả

phân đoạn như Annotation-Transfer Network (ATNet) [8] ATNet là một cấu

trúc mạng iVOS cho phép người dùng tương tac với hình thức các nét vẽ nguéch

ngoạc để chỉ định đối tượng Đầu tiên, Annotation Network(A-Net) tạo ra các

mặt nạ phân đoạn cho một khung hình tương tác bằng các nét vẽ nguệch ngoạc

do người dùng cung cấp, sau đó Transfer Network (T-Net) sẽ truyền kết quả phân

đoạn cho các khung hình mục tiêu khác để theo dấu phân đoạn đối tượng mục tiêu Hình 2.7 biểu diễn kiến trúc của Annotation-Transfer Network Cu thể hơn,

A-Net tạo ra một mặt nạ phân đoạn cho khung hình 7„ thông qua tương tác của

người dùng A-Net có dạng bộ mã hóa - bộ giải mã, cụ thể sử dụng SE-ResNet như là bộ giải mã để trích xuất các đặc trưng và vận dụng skip-connection để

thu thập cả đặc trưng cấp thấp và cấp cao Theo sau các lớp tích chập là một

mô-đun ASPP và một mé-dun bottom-up ASPP khai thác thông tin của các

vật thể ở các kích thước khác nhau Mô-đun bottom-up gồm 2 mô-đun nhỏ để

khôi phục lại các thông tin thông qua kết nối tắt Cuối cùng kết quả sẽ đượckhôi phục lại kích thước ban đầu bằng binlinear interpolation

T-Net gồm các bộ giải mã chia sẻ trọng số với nhau, một mô-đun Global transfer,

một môö-dun Local transfer và một bộ giải mã Bộ mã hóa va bộ mã hóa trong

T-Net có cấu trúc giống với cấu trúc của hai thành phan này ở A-Net Bộ giải

20

Trang 32

mã ở T-Net tạo ra một bản đồ xác suất cho đối tượng đang chỉ định trong một

khung hình mục tiêu J; sử dụng những đặc trưng từ bộ mã hóa, mô-đun Global

transfer và mô-đun local transfer Mô-đun Global transfer chuyển dời các thong

tin phân đoạn của một khung hình tương tác J, đến khung hình mục tiêu 1.Còn mô-đun Local transfer thực hiện việc lan truyền các thông tin phân đoạnmột cách cục bộ, tức là lan truyền thông tin phân đoạn của một khung hìnhtrước đó J, đến khung hình mục tiêu 7; vì hai khung hình này gần kề nhau va

chuyển động của đối tượng chỉ định không có quá nhiều sự khác biệt Mục đích

của mô-đun Local Transfer đó là khôi phục lại các mat mát xảy ra trong quá

trình lan truyền từ khung hình tương tác J, đến khung hình mục tiêu i.

ATNet đạt kết quả khả quan trên tap validation của bộ dit liệu DAVIS2017 [16],

trong đó đạt 0.809 trên độ do AUC va 0.827 trên độ do 7&F@Q60s.

21

Trang 33

Hình 3.1: Mô hình chúng tôi đề xuất cho bài toán phân đoạn đối tượng trong

video dựa vào chỉ dẫn tương tác.

Dược truyền cảm hứng từ MIVOS [4], phương pháp của chúng tôi đề xuất cũngbao gồm 3 mô-đun chính: Mô-đun Interaction-to mask, mô-đun Propagation,

22

Trang 34

mô-đun Fusion Đầu tiên, trong mô-đun Interaction-to-mask, chúng tôi chuyển đổi các nét vẽ nguệch ngoạc của người dùng thành một tập hợp các loạt điểm gọi là điểm đại diện Sau đó tập hợp các điểm đại diện sẽ thông qua mô hình phân đoạn RITM [21], đóng vai trò như là chỉ dẫn tương tác để sản sinh ra các

mặt nạ phân đoạn Trong mô-đun Propagation, chúng tôi đề xuất phương pháp

STCN [5] để lan truyền các mặt nạ phân đoạn được tạo ra ở mô-đun đầu tiên

cho toàn bộ các khung ảnh trong video Cuối cùng, các mặt nạ lan truyền sẽ

được hợp nhất ở mô-đun Pusion nhằm mục đích tổng hợp mặt nạ phân đoạn trước và sau mỗi lần tương tác để tránh trường hợp phân rã hoặc mất mát ý

định và thông tin chỉ dẫn tương tác của người dùng trong quá trình lan truyền.Khi đó, mục đích tương tác của người dùng được nắm bắt bằng cách tận dụng

sự khác biệt trong mặt nạ phân đoạn của khung ảnh hiện tại trước và sau khi người dùng tương tác.

3.2 Mö-đun Interaction-to-mask

Mô-đun Interaction-to-mask là mô-đun đầu tiên của framework phân đoạn đối

tượng trong video dựa vào chỉ dẫn tương tác của người dùng Nhiệm vụ chính của

mô-đun này là chuyển đổi tương tác của người dùng sang lược đồ tương

tác và thực hiện quá trình phân đoạn đối tượng trên từng khung ảnh

trong video dựa vào lược đồ đã chuyển đổi trên Ngoài ra, khi người dùng

tiến hành các lần tương tác tiếp theo, mô-đun Interaction-to-mask sẽ chỉnh

sửa lại mặt nạ phân đoạn của đối tượng sao cho nhất quán với ý định chỉnh sửa của người dùng, sau đó chuyển dời kết quả sang mô-đun tiếp theo

để thực hiện quá trình lan truyền cho toàn bộ video.

Interaction-to-mask gồm 2 phần: Control-point Extractor và Control-point-based

to mask Control-point Extractor có nhiệm vụ trích xuất các điểm tương tác từ

các nét vẽ nguéch ngoạc của người dùng và mô-dun này được chúng tôi sử dụng

trong phần đánh giá phương pháp mà chúng tôi đề xuất ở những thực nghiệm

trong cuộc thi DAVIS Khi đánh giá về mặt người dùng thì mô-đun này sẽ không

được áp dụng Control-point-based to mask thực hiện quá trình phân đoạn đối

tượng trong một khung ảnh với đầu vào gồm ảnh RGB, các điểm tương tác vừa

mới trích xuất từ Control-point Extractor và mặt nạ phân đoạn của lần tươngtác trước đó (trong trường hợp yêu cầu chỉnh sửa lại mặt phân đoạn)

23

Trang 35

3.2.1 Control-point Extractor

Có nhiều dạng tương tác mà người dùng thường hay sử dụng để chỉ định đối

tượng muốn phân đoạn trên một ảnh, thông thường nhất là những nét vẽ nguệch

ngoạc hay đơn thuần chỉ là chấm một điểm trên đối tượng Tuy nhiên, mỗi hình thức tương tác có wu và khuyết điểm riêng Ví dụ, khi sử dụng những nét vẽ

nguệch ngoạc thì tùy mỗi người dùng mà có phong cách vẽ khác nhau Hình thức

tương tác này khá thân thiện với người dùng và cung cấp nhiều thông tin chỉ

dẫn hơn cho mô hình phân đoạn Tuy nhiên lại là một khó khăn trong quá trình

huấn luyện mô hình, do những nét vẽ nguệch ngoạc ngẫu nhiên tùy ý này khóđược mô phỏng và một số phương pháp trước đó phải sử dụng những thủ tục

phức tạp và các hàm heuristic để chuyển đổi sang các lược đồ tương tác Mặt

khác, tuy những nét vẽ nguệch ngoạc mang lại thông tin đa dạng nhưng đôi khi

tương tác của người dùng bị sai lệch khiến cho kết quả không chính xác Hình

3.2 cho thấy nét vẽ khá to và thô, sai lệch với vật thể khá nhiều.

Một hình thức tương tác khác được áp dụng khá nhiều trong những mô hìnhphân đoạn ảnh dựa vào chỉ dẫn tương tác những năm gần đây là click hay nói

cụ thể hơn đó là người dùng thực hiện việc nhấn một điểm lên một vùng tùy

ý để chỉ định đối tượng Người tương tác sẽ tốn ít công sức hơn và cách thực hiện cũng dễ dàng hơn rất nhiều so với khi vẽ các nét nguệch ngoạc Có thể thấy khi sử dụng phương pháp này, tỉ lệ sai sót khi tương tác được tối thiểu Việc mô phỏng một điểm tương tác cũng dễ dàng hơn Mặc dù thế, phương pháp này có điểm hạn chế đó là quá ít thông tin chỉ dẫn của người dùng cho mô hình Vì vậy,

có thể kết hợp hai ưu điểm của việc sử dụng nét vẽ nguệch ngoạc và điểm bằng cách chuyển đổi các nét vẽ thành các điểm riêng biệt và cung cấp cho mô hình một loạt điểm trích xuất từ nét vẽ nguệch ngoạc này.

Hình 3.2: Tương tác sử dụng những nét vẽ nguệc ngoạc xảy ra sai sót nhiều [1].

24

Tiêu đề	Phân đoạn đối tượng trong video dựa vào chỉ dẫn tương tác
Tác giả	Nguyen Huu Doanh, Nguyen Huynh Anh
Người hướng dẫn	TS. Nguyen Vinh Tiep
Trường học	Trường Đại học Công nghệ Thông tin
Chuyên ngành	Khoa học máy tính
Thể loại	Khóa luận tốt nghiệp
Năm xuất bản	2022
Thành phố	TP. Ho Chi Minh

Định dạng
Số trang	71
Dung lượng	51,28 MB