Trong đó, một số các yếu tố quan trọng chúng tôi muốn cải thiệnnhư tốc độ thực thi, tài nguyên lưu trữ và số lần tương tác cần thiết.Với các mục tiêu đề cập trên, trong khóa luận này chú
Trang 1ĐẠI HOC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CONG NGHỆ THONG TIN
KHOA KHOA HỌC MÁY TÍNH
NGUYÊN HỮU DOANH NGUYÊN HUỲNH ANH
KHÓA LUẬN TÓT NGHIỆP
CHỈ DẪN TƯƠNG TÁC
INTERACTION-GUIDED VIDEO OBJECT SEGMENTATION
CU NHAN NGANH KHOA HOC MAY TINH
TP HO CHÍ MINH, 2022
Trang 2ĐẠI HỌC QUOC GIA TP HO CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA KHOA HỌC MÁY TÍNH
NGUYEN HỮU DOANH - 18520606 NGUYEN HUYNH ANH - 18520456
KHOA LUAN TOT NGHIEP
PHAN DOAN DOI TUONG TRONG VIDEO DUA VAO
CHI DAN TUONG TAC
INTERACTION-GUIDED VIDEO OBJECT SEGMENTATION
CU NHAN NGANH KHOA HOC MAY TINH
GIANG VIEN HUONG DAN
TS NGUYEN VINH TIEP
TP HO CHÍ MINH, 2022
Trang 3DANH SÁCH HỘI ĐÒNG BẢO VỆ KHÓA LUẬN
Hội đồng chấm khóa luận tốt nghiệp, thành lập theo Quyết định số
36/QD-DHCNTT ngày 17/01/2022 của Hiệu trưởng Trường Dai học Công nghệ Thông tin.
1 PGS.TS Lê Đình Duy — Chủ tịch.
2 Ths Đỗ Văn Tiến — Thư ký.
3 TS Lê Minh Hưng — Ủy viên.
Trang 4LỜI CẢM ƠN
Đầu tiên, chúng tôi muốn dành lời cẩm ơn đến giảng viên hướng dẫn,TS.Nguyễn Vinh Tiệp, người có kiến thức đồi dào, nhiệt huyết trong
công việc giảng dạy và niềm đam mê sâu sắc với nghiên cứu khoa học.
Nhờ có Thầy, chúng tôi đã tiếp thu được rất nhiều kiến thức liên quanđến lĩnh vực Học sâu và đặc biệt trong lĩnh vực Thị giác máy tính Với
sự hướng dẫn và động viên của Thầy, chúng tôi đã vượt qua nhiều thử
thách khó khăn trong quá trình thực hiện đề tài này.
Chúng tôi bày tỏ lòng biết ơn đối với những Thầy /Cô thuộc Khoa Khoa
học Máy tính, trường Đại học Công nghệ Thông tin Những người đã
giúp chúng tôi hiểu rõ những kiến thức nền tảng của Khoa học máy
tính để hoàn thành khóa luận này.
Kế đó, chúng tôi cảm thấy rất may mắn khi nhận được sự giúp đỡ tận
tình từ Anh Nguyễn Thành Danh, Anh Nguyễn Vũ Anh Khoa, Anh
Lưu Đức Tuấn trong Phòng Thí Nghiệm Truyền Thông Đa PhươngTiện (MMLAB), trường Dai hoc Công nghệ Thông tin Chính vì thé,chúng tôi muốn dành lời cAm ơn chân thành đến các Anh
Ngoài ra, chúng tôi cũng muốn gởi lời cảm ơn đến PGS.Tran Minh Triết
từ trường Đại học Khoa học Tự nhiên đã hỗ trợ cho chúng tôi về tài
nguyên máy tính để thực hiện bài khóa luận này.
Đặc biệt, không thể không nhắc đến đó là gia đình của chúng tôi, những
người đã tạo cho chúng tôi những nguồn động lực to lớn và đã động
viên chúng tôi trong suốt quá trình thực hiện khóa luận này Do đó,chúng tôi muốn dành lời cảm ơn sâu sắc và chân thành nhất đến gia
đình của chúng tôi.
Trang 5các ứng dụng có khả năng trích xuất và phân tích thông tin từ các dữ
liệu số này Phân đoạn đối tượng trong video dựa vào chỉ dẫn
tương tác là một trong số đó Bài toán này hiện nay nhận được nhiều
sự quan tâm do tính ứng dụng cao trong thực tế, tuy nhiên để các ứng
dụng đó tiếp cận được hơn với nhiều người thì nó vẫn còn hạn chế ởmột số khía cạnh nhất định Đặc biệt là chi phí tính toán và bộ nhớ
lưu trữ để thực hiện các bài toán này Chính vì thế, trong khóa luận này, chúng tôi đã tìm hiểu tổng quan về bài toán phân đoạn đối tượng
trong video dựa vào chỉ dẫn tương tác, ứng dụng của bài toán vào thực
tế và một số các công trình nghiên cứu khác Thách thức, khó khăntrong tác vụ nhận diện và theo vết đối tượng trong video Chúng tôitập trung vào bài toán phân đoạn đối tượng trong video với sự tương
tác chỉ dẫn của người dùng có tiềm năng triển khai lên các ứng dụng di
động Trong đó, một số các yếu tố quan trọng chúng tôi muốn cải thiệnnhư tốc độ thực thi, tài nguyên lưu trữ và số lần tương tác cần thiết.Với các mục tiêu đề cập trên, trong khóa luận này chúng tôi đề xuất
một mô hình phân đoạn đối tượng trong video dựa vào chỉ dẫn tương
tác gọi là Faster-MiVOS sử dụng các kiến trúc đơn giản, xử lý đủ
nhanh và có thể cho kết quả tốt với số lần tương tác ít Ngoai ra, chúng
tôi cũng thực nghiệm đánh giá ảnh hưởng của một số thành phần đếnkết quả phân đoạn đối tượng trong video dựa vào chỉ dẫn tương tác
Trang 62 Các hướng tiếp cận bài toán phan đoạn đối tượng trên video
dựa vào chỉ dẫn tương tác 10
2.1 Phân đoạn hình ảnh dựa vào chỉ dẫn tương tác 10
2.1.1 Toéngquan 0.00000 eee 10
2.1.2 Cơ chế tinh chỉnh bằng phương pháp lan truyền ngược 112.1.3 Cơ chế tỉnh chỉnh các đặc trưng trung gian bằng phương
pháp lan truyền ngược 13
2.2 Phân đoạn đối tượng trong video 15
2.2.1 Phân đoạn đối tượng trong video theo hướng tiếp cận bán
2500 .ẻốẽ, TH aaaẶ 15 2.2.2 Phân đoạn đối tượng trong video dựa vào chỉ dan tương tác 18
3 Faster-MiVOS 22
3.1 Tổng quan 0 va 22
3.2 M6-dun Interaction-to-mask 0.0 0000000004 23
3.2.1 Control-point ExiracfOrT 24 3.2.2 Control-point-based tomask 26 3.3 Mô-dun Mask Propagation .0.0 32
ii
Trang 73.4 Mô-dun Fusion Quà 41
4 Kết quả thực nghiệm 44
4.1 Mô hình DAVIS cho phan đoạn đối tượng dựa vào tương tác người
4.1.1 Bộ dữ liệu Dense Annotated Video Segmentation (DAVIS) 44
4.1.2 Độ đo đánh giá mô hình DAVIS Interactive 45
4.1.3 Thực nghiệm đối với DAVIS Challenge 2020 46
4.1.3.1 Mô-dun Interactiontomask 47
4.1.3.2 Mô-dun Mask Propagatlon 52
4.2 Khảo sát người dùng xa 53 5 Kết luận 56 5.1 Kết quả đạt được TQ vo 56 5.2 Hướng phát triển của đề tài 57
Tai liệu tham khảo 58
11
Trang 8Hướng tiếp cận không giám sát trong bài toán phân đoạn đối
tượng trên video ng kg va 3
Co chế tương tác của phan đoạn đối tượng trên video 4
Sự khác nhau giữa các kiểu nguệch ngoạc trong cùng một video [16] 5
Tổng quan về mô hình phân đoạn ảnh dựa vào chỉ dẫn tương tác
thông qua cơ chế tinh chỉnh bằng phương pháp lan truyền ngược [9] 11
Tổng quan về mô hình phân đoạn ảnh dựa vào chỉ dẫn tương tác
trong thông qua cơ chế tinh chỉnh các đặc trưng trung gian bằngphương pháp lan truyền ngược [20] - 13
Tổng quan mô hình FEELVOS [22] 16 Tổng quan về BoLTVOS [23] Conditional R-CNN (bên trái) cung
cấp các phát hiện có điều kiện trên bouding box khung hình đầutiên, sau đó được ghi lại bằng thuật toán thu hồi tính nhất quán
tạm thời (giữa) Kết quả là các hộp bounding box được chuyển đổi thành mặt nạ phân đoạn bởi mạng Box2Seg (bên phải) 17
Tong quan về mô hình phân đoạn đối tượng trong video STM [15] 17
Tổng quan về mô hình phân đoạn đối tương trong video dựa vào
chỉ dẫn tương tác MA-Net [11] MA-Net gồm có 3 mô-đun một bộ
mã hóa pixel embedding, một nhánh tương tác, một nhánh lan
Kiến trúc Annotation-Transfer Network [8] 20
Mô hình chúng tôi đề xuất cho bài toán phân đoạn đối tượng
trong video dựa vào chi dẫn tương tác 22
1V
Trang 9Tương tác sử dung những nét vẽ nguéc ngoạc xảy ra sai sót nhiều
Trích xuất các điểm đại diện từ nét vẽ nguệch ngoạc trong mô-đun
Control-point Extractor Các điểm đại diện được trích xuất dọc
theo đường đi của nét vẽ nguệch ngoạc và các điểm cách đều nhau 25
Ranh giới của các đối tượng được thực hiện giãn nở Ranh giới
từng đối tượng được giãn nở riêng rẽ, sau đó được tổng hợp lại
thành một mặt nạ ranh giới hoàn chỉnh [17] 26
Hình ảnh thể hiện kết quả phân đoạn các đối tượng trên ảnh dựa
vào các tương tác do người dùng cung cấp 26
Tổng quan về mô hình phân đoạn ảnh dựa vào chỉ dẫn tương tác
nhấn chuột RITM 000000000 2 ee 27
Hình anh thể hiện kết quả mã hóa tương tác nhấn chuột của người
dùng bằng phương pháp dùng Disk với bán kính nhỏ |2| 28
Một loạt các thao tác xử lý chuyển đổi tương tác nhấn chuột
Conv1S [21| đ⁄⁄.@Ô” 1Aé À 28
Một mẫu Groundtruth trong bộ dit liệu được sử dụng để huấn
luyện mô hình RITM [16] 2 0 30
Quá trình mô phỏng hành động tương tác nhấn chuột của người
dùng [12] a Từ những điểm ảnh dự đoán sai(uùng mau zanh lá),
b Gom cum các điểm ảnh dự đoán sai, c Thêm một điểm tương
tác trên khu vuc gan nhãn sai rộng nhất 3l
Tong quan về mô hình lan truyền STCN [5] STCN gồm các thành
phần chính là Key Encoder, Light Value Encode, Decoder 33Các thao tác tính toán trong thành phan Memory Reading được
áp dụng vào mô-đun Propagation 30
Mô ta về chiến lượt lan truyền trong phương pháp chúng tôi đề
xUat «xa 37
Các khu vực được tô màu là điểm "giống nhất" dưới một độ đo
[5] Bên trái : Dot product; Bên phải: L2 39
Mô tả về sự đóng của của softmax từ ba điểm [5] Bên trái : Dot
product; Bên phải: L2 Ặ QC 39 Đường cong mô ta ti lệ đóng góp của các đặc trưng trong quá
trình huấn luyện mô hình .- 40
Mô tả sự xung đột giữa tại khung hình thứ ¢; sau khi thực hiện
hai lần tương tác của người dùng 42
Trang 103.18 Cơ chế của mô dun Fusion [4] Mặt nạ được lan truyền hiện tại
MẸ tại khung hình thứ t; được hợp nhất với mặt na được lan
truyền trước đ 6M; ~† được hướng dẫn bởi các mặt nạ khác nhau
từ sự tương tác tại khung hình f„ .
Một số mẫu dữ liệu trong DAVIS2017 [16]
Biểu đồ thể hiện đường cong độ chính xác 7&F với thời gian tích
lũy cần đạt được độ chính xác đó
-Su khác biệt giữa mặt nạ được dự đoán trong mé-dun
Interaction-to-Mask từ một số cấu hình điểm điều khiển
Biểu đồ trung bình IoU so với thời gian của người dùng Phương
pháp của chúng tôi đạt được độ chính xác cuối cùng và AUC cao
Trang 11Bang so sánh sự khác nhau giữa các mô hình về số lượng FLOP
và các tham số Tất cả đều sử dụng ảnh với độ phân giải 400 x
400 để tính số FLOP 49
Kết quả được đánh giá ảnh hưởng của các kiến trúc nền tảng cho
mô hình RITM trên toàn bộ hệ thống phân đoạn đối tượng trong
Kết quả đánh giá ảnh hưởng của phương pháp Disk - chuyển đổi các điểm tương tác sang các lược đồ tương tác với bán kính lần
lượt là 3, 5, 7 trên toàn bộ hệ thống phân đoạn đối tượng trong
video <a ZTỨẠT TT" | /Ô s 50
Kết quả đánh giá ảnh hưởng của số lần lặp lại việc mô phỏngtương tác của người dùng khi huấn luyện mô hình RITM trêntoàn bộ hệ thống phân đoạn đối tượng trong video 50Kết quả thực nghiệm trên mô-đun Control-point Extractor - đánh
giá sự ảnh hưởng của việc trích xuất số lượng điểm tối đa từ các
nét vẽ nguéch ngoac của người dùng 51
Kết quả định lượng của STM / STCN khi sử dụng độ tương đồnglần lượt là Dot product/L2 2 0.0.00 000 ee eee 53
Bảng kết quả thé hiện tương tác của người dùng trong thực tế,
gồm ð tình nguyện viên, mỗi tình nguyện viên thực hiện gán nhãn
5 video trong bộ dữ liệu DAVIS2017 A; lần lượt là độ tăng ToUsau lần tương tác thứ ¿ c co 54
Bảng kết quả thể hiện thời gian trung bình của từng mô-đun trên
từng déitugng 2 ee 54
vii
Trang 12Chương 1
Giới thiệu
Trong chương này, chúng tôi sẽ trình bày tổng quan về bài toán phân đoạn đối
tượng ảnh trên video bao gồm tất cả các hướng tiếp cận, vấn đề và ứng dụng
Thêm vào đó, các thách thức, động lực và mục tiêu của bài khóa luận cũng được
trình bày trong phần này Cuối cùng, tại chương này, chúng tôi cũng trình bày
tổng quan về cấu trúc của bài khóa luận.
1.1 Tổng quan
1.1.1 Phân đoạn đối tượng trên video
Ngành thị giác máy tính đang phát triển nhanh với mục tiêu cố gắng mô phỏng
để hệ thống máy tính có thể hiểu rõ hơn về hình ảnh, video giống như con người.
Sự phát triển nhanh chóng của điện thoại thông minh, thiết bị chụp ghi ảnh và
mạng xã hội đã kéo theo sự gia tăng theo cấp số nhân của dữ liệu truyền thông
Điều này thôi thúc phát triển các ứng dụng có khả năng trích xuất và phân tích
thông tin từ những dit liệu số này
Phân đoạn đối tượng trong video là một trong những bài toán phổ biến nhất của
ngành Thị giác máy tính, nhiệm vụ của bài toán đó là cung cấp cho chúng ta
thông tin về đối tượng chính (foreground) va vùng nền (background) trong tất
cả các khung hình của một video đã cho Có nghĩa là các hệ thống hay phươngpháp phân đoạn đối tượng trong video được xây dựng với mục tiêu phân táchcác đối tượng ra khỏi vùng nền trong toàn bộ khung hình Đây là một tác vụphức tạp đòi hỏi các phương pháp phải có kha năng xử lý các van đề xảy ra
Trang 13trong một video như đa đối tượng, đối tượng bị biến dạng về hình dáng và kích
thước khi góc nhìn và hướng chuyển động thay đổi, chuyển động trong video quá
nhanh khiến các đối tượng bị nhòe đi Do đó, theo vết các đối tượng trong video
ở mức độ điểm ảnh cũng là một mục tiêu quan trọng của bài toán.
Dựa vào đầu vào mà phân đoạn đối tượng trên video chia thành các loại khácnhau: bán giám sát và không giám sát Hướng tiếp cận không giám sát (Un-supervised Video Object Segmentation) sẽ phân đoạn các đối tượng mà không
cần tương tác từ người dùng, nhưng nhược điểm là có thể không phát hiện được
các đối tượng cần quan tâm hoặc các đối tượng không được chỉ định rõ ràng Phânđoạn đối tượng trong video theo hướng tiếp cận bán giám sát (Semi-supervised
Video Object Segmentation) trích xuất đối tượng can quan tâm bằng cách để
người dùng gán nhãn thủ công trong khung hình đầu tiên hoặc một số khunghình trong video Tuy nhiên, các hướng tiếp cận bán giám sát lại tốn thời gian
gán nhãn ở cấp độ điểm ảnh (ít nhất 79 giây trên một khung hình như đã đề
cập trong công trình) Nhu có thể thay trong Hình 1.1, mặt nạ của tất cả các
đối tượng trong khung đầu tiên được cung cấp Trong trường hợp thứ hai không
có chú thích nào được cung cấp, được thể hiện ở Hình 1.2,
Ngoài hai hướng tiếp cận bán giám sát và không giám sát, có một hướng tiếp
cận thay thế đó là phân đoạn đối tượng trong video dựa vào chỉ dẫn tương tác
của người dùng (Interactive Video Object Segmentation — [VOS), một giải pháp
2
Trang 14khắc phục hầu hết các nhược điểm của hai hướng tiếp cận vừa được đề cập ở
phần trên Thay vì phải gấn nhãn từng điểm ảnh thì người dùng có thể chỉ định những đối tượng để phân đoạn bằng các hình thức đơn giản và thân thiện hơn
như là các nét vẽ nguệch ngoạc (scribble) hay nhấp chuột (click) Quá trình xử
lý của bài toán phân đoạn đối tượng trên video dựa vào chỉ dẫn tương tác đượcthực hiện như sau : trong lần tương tác đầu tiên, người dùng chọn một khunghình tùy ý ở bất kỳ vị trí nào trong video và cung cấp các tương tác chỉ dẫn trên
khung hình đang xét, ví dụ như hình vẽ nguệch ngoạc cho từng đối tượng trong
khung này Dựa trên những nét vẽ nguệch ngoạc này, mô hình phải dự đoán mặt
nạ phân đoạn của các đối tượng vừa được chỉ định tại khung hình này và lantruyền mặt nạ phân đoạn đó tới tất cả các khung hình còn lại trong video Trong
lần tương tác tiếp theo, người dùng chọn một khung hình với các mặt nạ phân
đoạn có độ chính xác mà họ cho là kém nhất và cung cấp một tập hợp các nét vẽ
nguệch ngoạc mới trong khung này Những nét vẽ nguệch ngoạc này chỉ ra các
vùng phân đoạn sai, từ đó mô hình sẽ sử dụng những nét vẽ nguệch ngoạc để
tỉnh chỉnh các mặt nạ dự đoán trước đó của nó Quy trình này được lặp lại cho
đến khi người dùng hài lòng với tất cả mặt nạ phân đoạn đối tượng trong video
Hình 1.3 minh họa cơ chế tương tác của phân đoạn đối tượng trong video Mặt
nạ của đối tượng mục tiêu được tạo bởi những chỉ dẫn tương tác của người dùng
tại một khung hình (ví dụ: nét vẽ nguệch ngoạc màu xanh lá cây ở khung hình
58) và được tính toán lan truyền để tạo mặt nạ phân đoạn cho đối tượng mục tiêu trong toàn bộ video Người dùng có thể tinh chỉnh các mặt nạ phân đoạn
bằng cách liên tục cung cấp các thông tin về các khu vực false negative và false
positive (ví dụ: nét vẽ nguéch ngoac màu xanh lá cây và màu đỏ ở khung 28).
Trang 15Frame 28 Frame 58 Frame 70
Round 1 UL interaction 1
= User Interaction in Each Round => Temporal Propagation through Frames
Hình 1.3: Cơ chế tương tác của phân đoạn đối tượng trên video
1.2 "Thách thức của bài toán
Phân đoạn đối tượng trong video dựa vào chỉ dẫn tương tác của người dùngnhận được nhiều sự chú ý từ cộng đồng nghiên cứu bởi vì khả năng ứng dụngcủa nó trong thực tế Ngoai các khó khăn chung mà hầu hết các bài toán phanđoạn đối trong video gặp phải như hình ảnh có độ phân giải thấp, hình ảnh đượcchụp ở những điều kiện không thuận lợi dẫn đến bị thiếu sáng, các đối tượng bịche khuất lan nhau hay có kích thước quá nhỏ Thì còn có một số khó khănriêng mà phân đoạn đối tượng trong video dựa vào tương tác người dùng cầnphải giải quyết :
Mặt nạ phân đoạn được tạo ra từ các nét vẽ nguệch ngoạc là một tác
vụ khó Thông tin từ các nét vẽ nguệch ngoạc cung cấp bị giới hạn, các mô hình
giải quyết thử thách này cần phải cho ra kết quả mặt nạ phân đoạn chính xáccho tất cả các đối tượng cần quan tâm Ngoài ra, một khó khăn nữa đó là dựa
vào tính cách và kinh nghiệm của người tương tác thì các nét vẽ sẽ có kiểu cách
khác nhau, thường không có một dạng nào cố định Hình 1.4 chỉ ra sự khác biệt
giữa các hình thức tương tác vẽ các nét nguệch ngoạc trong cùng một video Mặt
nạ được tạo từ các nét vẽ cũng phải đúng về mặt ngữ nghĩa
Trang 16Hình 1.4: Sự khác nhau giữa các kiểu nguệch ngoạc trong cùng một video [16].
Chồng chất lỗi sai trong giải thuật lan truyền mặt nạ phân đoạn Đây
là tình trạng mà hầu hết giải thuật lan truyền đều gặp phải Thứ nhất, nếu
như mặt nạ phân đoạn của khung hình tham khảo được dự đoán sai thì khi lan
truyền đến tất cả các khung hình còn lại mức độ sai sót sẽ tăng dần lên Thứhai, việc hai khung hình tham khảo và khung hình cần được xem xét quá xa
nhau thì các thông tin như mặt nạ phân đoạn, ý định tương tấc của người dùng
sẽ bị mất mát trong quá trình lan truyền Thứ ba đó là vấn đề về lan truyềncác mặt nạ phân đoạn đa đối tượng và các đối tượng này có cấu trúc phức tạp
như có nhiều chi tiết nhỏ, bị chồng nhất lên nhau, Hình 1.4 thể hiện sự phức
tạp trong các khung hình gồm nhiều đối tượng với cấu trúc và hình dáng phức tạp
Hiệu suất của phương pháp Toc độ xử lý cũng là một nhân tố cần quan tâm
trong quá trình người dùng thực hiện tương tác trực tiếp lên các đối tượng Họ
không thể chờ đợi quá lâu để mô hình phân đoạn và lan truyền các mặt nạ Thực
tế rất cần các hệ thống hay các phương pháp phân đoạn đối tượng có thể xử lý
trên thời gian thực, do đó tốc độ cũng là một nhân tố quyết định một hệ thốnghay phương pháp đó có thực sự tốt hay không Một số người dùng khác còn có
thể chấp nhận đánh đổi tốc độ xử lý với độ chính xác ở một mức độ nào đó để
cải thiện hiệu suất của quá trình gán nhãn
1.3 Lý do thực hiện đề tài
Kỹ thuật phân đoạn đối tượng trong video đóng vai trò quan trọng, kết hợp vớitương tác của người dùng tạo ra nhiều ứng dụng cần thiết trong đời sống Đối
với lĩnh vực xe tự hành, được minh họa ở Hình 1.5, kỹ thuật này giúp chiếc xe
phân biệt được làn đường, nhận diện biển báo, đèn tín hiệu giao thông, người đi
bộ và những chiếc xe đang cùng lưu thông trên đường mà camera quan sát được
Đặc biệt có thể tính được khoảng cách an toàn và cho biết tốc độ tối đa mà xe
có thể đi được để không đụng với xe đằng trước, từ đó tăng tính an toàn cho
Trang 17người ngồi trên xe.
Hình 1.5: Hình ảnh thể hiện ứng dụng kỹ thuật công nghệ vào cuộc sống thực tế
trong lĩnh vực xe tự hành Xe tự hành quét và nhận diện vật cản, các phương
tiện khác trên đường!
Hình 1.6: Hình ảnh hệ thống camera giám sát được ứng dụng trong thực tế.
Camera giám sát đường sử dụng để theo dõi, giám sát các khu vực hay giám sát
giao thông trên đường”
Thttps://bkaii.com.vn
"https: //www.vietnamplus.vn
Trang 18Trong các hệ thống camera giám sát được biểu diễn ở Hình 1.6, kỹ thuật phân đoạn đối tượng trong video có thể giúp chúng ta đếm số lượng xe lưu thông trong
một khu vực vào đó, giám sát các phương tiện vi phạm giao thông như không
tuân thủ tín hiệu đèn giao thông, chạy quá tốc độ, lấn làn Ngoài ra, bài toán
còn có thể được ứng dụng vào nhận dạng khuôn mặt, đếm số người xuất hiện
trong các cửa hàng, siêu thị từ đó giúp theo đõi hành vi của con người Các
ứng dụng trên nếu kết hợp với các thông tin người dùng tương tác sẽ tăng độ tincậy, ngoài ra còn đáp ứng mong muốn hay các mục tiêu mà người dùng hướng
đến trong quá trình sử dụng Để có thể xây dựng các ứng dụng này, các phương
pháp trước đây đều phải đòi hỏi tài nguyên vô cùng lớn Chính vì thế, trong bài
khóa luận này, chúng tôi hi vọng có thể giúp các nghiên cứu sau này có cơ sở để
lựa chọn phương pháp tối ưu hơn và phù hợp cho từng bài toán đồng thời giúp
việc tạo ra các ứng dụng để đưa vào thực tiễn dễ dàng hơn.
1.4 Đóng góp của đề tài
Mục tiêu của khoá luận này là đề xuất một phương pháp mới để phân đoạn đối
tượng video dựa vào chỉ dẫn tương tác đáp ứng tất cả các mục tiêu đã thiết kế,bao gồm nhanh chóng, tạo ra kết quả tương đối tốt và cải thiện độ tốc độ cũngnhư tiết kiệm chi phí tính toán sau mỗi lần tương tác Đóng góp chính trong bàikhóa luận này bao gồm:
e Dề xuất một mô hình cho bài toán phân đoạn đối tượng trong video dựa
vào chỉ dẫn tương tác có tiềm năng ứng dụng trên các thiết bị di động với
các mục tiêu như sử dụng các mô hình nhẹ, đơn giản, xử lý đủ nhanh và có
thể cho kết quả tốt với số lần tương tác ít.
e Dánh giá ảnh hưởng của một số thành phần đến kết quả phân đoạn đối
tượng trong video dựa vào chỉ dẫn tương tác.
Phương pháp chúng tôi đề xuất gồm có các thành phần chính được miêu tả ngắn
gọn như sau:
Phân đoạn đối tượng trên ảnh dựa vào chỉ dẫn tương tác (Interactive
Image Segmentation) Bản chất của video là một chuỗi các hình ảnh liền kề
chuyển động theo thời gian Do đó, việc phân đoạn đối tượng trong video thực
chất là phân đoạn đối tượng trên từng khung hình trong video đó Bài toán phân
đoạn ảnh dựa vào chỉ dẫn tương tác có hai điểm cần chú ý, vấn đề về tương tác
Trang 19của người dùng và mô hình phân đoạn ảnh Trong phương pháp chúng tôi đềxuất, mô hình phân đoạn ảnh dựa vào chỉ dẫn tương tác cùng với các bước tiền
xử lý tương tác của người dùng là mô-đun chính đầu tiên
Theo vết các đối tượng trong video Khi thực hiện các tác vụ thị giác máy
tính trên video, theo vết các đối tượng là một phần cực kỳ quan trọng, ảnhhướng rất nhiều đến hiệu suất của các phương pháp hay kỹ thuật Đối với bài
toán phân đoạn đối tượng trong video vấn đề theo vết các đối tượng được hiểu
như đang lan truyền các mặt nạ phân đoạn của các đối tượng ở khung hình thamkhảo đến tất cả các khung hình còn lại Chúng tôi quan tâm nhiều đến vấn đề
bộ nhớ lưu trữ và thời gian lan truyền của các mặt phân đoạn nên ở mô-đun thứhai chúng tôi đề xuất sử dụng mô hình nhỏ, nhẹ hơn các phương pháp trước đó
cùng với một số tỉnh chỉnh để cải thiện kết quả phù hợp với mục tiêu mà chúng tôi đề ra Để hoàn thành mục tiêu này, công việc chi tiết mà chúng tôi đã thực
hiện trong luận án này bao gồm:
e Tìm hiểu các kiến thức cơ bản liên quan đến máy học và mạng học sâu Một số
kiến thức liên quan đến mạng nơ-ron bao gồm: Feedforward, Backpropagation,
hàm Activation Bên cạnh đó là kiến thức liên quan đến mạng tích chập để
giải quyết các bài toán của thị giác máy tính
e Khảo sát một số phương pháp để giải quyết các bài toán của thị giác máy
tính như: phân đoạn đối tượng trên ảnh dựa vào chỉ dẫn tương tác, phânđoạn đối tượng trên video theo hướng tiếp cận bán giám sát và có sự tương
tác của người dùng.
e Nghiên cứu tập dữ liệu, mô hình của bài toán và độ đo đánh giá để phân
đoạn đối tượng trên video dựa vào sự tương tác của người dùng
e Thực nghiệm kiểm chứng một số các phương pháp hay các kỹ thuật để tối
ưu quá trình xử lý, tăng hiệu suất của mô hình
1.5 Bố cục của khóa luận
Nội dung của khóa luận này sẽ bao gồm 5 phần:
e Chương 1: Giới thiệu Chương này trình bày tổng quan về vấn đề nghiên
cứu của chúng tôi, cùng với thách thức, ứng dụng và động lực của bài toán
và mục tiêu của khóa luận này Ngoài ra, trong chương này, chúng tôi cũng
trình bày tổng quan về cấu trúc của bài báo cáo khóa luận.
8
Trang 20e Chương 2: Các hướng tiếp cận bài toán phân đoạn đối tượng trên
video dựa vào chỉ dẫn tương tác Chương này trình bày các phươngpháp tiếp cận hiện đại gần đây về phân đoạn đối tượng trên ảnh và video
cùng với một số hướng tiếp cận phổ biến.
e Chương 3: Phương pháp đề xuất Chương này trình bày phương pháp
chúng tôi đề xuất cho bài toán phân đoạn đối tượng trong video dựa vào chỉ
dẫn tương tác.
e Chương 4: Kết quả thực nghiệm Chương này thể hiện các kết quả thực
nghiệm của chúng tôi và quá trình kiểm tra, đánh giá các thành phần ảnh
hưởng trong phương pháp mà chúng tôi đề xuất
e Chương 5: Kết luận Phần kết luận tổng hợp lại các vấn đề trong khóa
luận của chúng tôi cùng với những đóng góp chính Ngoài ra, chúng tôi cũng
đề cập đến một số các hướng phát triển trong tương lai.
Trang 21Chương 2
Các hướng tiép cận bài
toán phân đoạn đối tượng
trên video dựa vào chỉ dẫn
tương tác của người dùng Vì vậy, các mô hình phân đoạn ảnh dựa vào chỉ dẫn
tương tác là một thành phần rất quan trọng đối với tác vụ phân đoạn trên video.Một số các công trình nghiên cứu trước đó về chủ đề này thương tập trung vào
van đề khôi phục hay cải thiện kết quả của các mặt nạ phân đoạn bằng cách sử
dụng thêm các tham số tối uu và cơ chế lan truyền ngược để tinh chỉnh lại các
10
Trang 22lược đồ tương tác Mỗi phương pháp có ưu và nhược điểm riêng, tuy nhiên đều
gặp chung vấn đề về thời gian tính toán và xử lý
2.1.2 Co chế tỉnh chỉnh bằng phương pháp lan truyền
nghiên cứu Won-Dong Jang và Chang-Su Kim đã xây dựng một kiến trúc mạng
phân đoạn ảnh nhận tương tác của người dùng để chỉ định một đối tượng mục
tiêu trên ảnh theo phong cách Bộ mã hóa- Bộ giải mã Ngoài ra, với ý định tỉnh chỉnh lại các mặt nạ phân đoạn dựa vào thông tin tương tac của người dùng,
nhóm hai nhà nghiên cứu cũng thiết kế một cơ chế tỉnh chỉnh bằng phương pháp
lan truyền ngược (Backpropagation Refinement Scheme) viết tắt là BRS [9] để
lưu trữ và sàng lọc thông tin cũng như định hướng mô hình theo như ý muốn
của người dùng Hình 2.1 thể hiện tổng quan kiến trúc mang BRS
Encoder Coarse decoder
Input image Interaction maps
Skip connection
Hình 2.1: Tổng quan về mô hình phan đoạn ảnh dựa vào chi dẫn tương tác thong
qua cơ chế tinh chỉnh bằng phương pháp lan truyền ngược [9]
Kiến trúc mạng cho bài toán phân đoạn ảnh dựa vào chỉ dẫn tương tác được
nhóm tác giả xây dụng theo lối kiến trúc Bộ mã hóa - Bộ giải mã Trong
đó, bộ giải mã gồm 2 thành phần Bộ giải mã thô (Coarse Decoder) và Bộ giải
mã tỉnh (Fine Decoder) Mô hình nhận đầu vào là một ảnh và 2 lược đồ tương
tác của người dùng, một cho đối tượng đang muốn phân đoạn và một cho các đối
11
Trang 23tượng khác hay vùng phông nền Với Bộ mã hóa, nhóm tác giả sự dụng DenseNet
để trích xuất các đặc trưng cấp cao cũng như các đặc trưng cấp thấp, sau đó áp dụng kết nối tắt (Skip Connection) để khôi phục và thu thập nhiều thông tin hơn về ranh giới của vat thể Hai bộ giải mã thô và bộ giải mã tinh cho đầu ra
là một lược đồ xác suất, xác suất ở vùng hay vị trí nào cao thì nơi đó khả năng
là vùng phân đoạn vật thể đang chỉ định bởi người dùng cao hơn Tuy nhiên,
nhiệm vụ chính của Bộ giải mã thô là dự đoán một mặt nạ phân đoạn thô cho
đối tượng, còn Bộ giả mã tỉnh sẽ tiến hành tỉnh chỉnh cải thiện kết quả phânđoạn thô từ bộ giải mã thô Bộ giải mã thô gồm 4 khối giải mã, mối khối gồm 3
lớp tích chập Mô hình nhận kết quả từ bộ giải mã thô và nối (concatenate) với
các thông tin đầu vào, sau đó được chuyển đời qua cho bộ giải mã tinh xử lý tinh chỉnh kết quả Bộ giải mã tinh sử dụng tích chập atrous để mở rộng vùng
tiếp nhận thông tin Một parametric rectified unit va batch normalization sẽ
được thực hiện sau mỗi lớp tích chập trừ các lớp dùng để dự đoán như “Coarse
ConvP” va “Fine ConvP”.
Cơ chế tinh chỉnh bằng phương pháp lan truyền ngược Mô hình phan
đoạn ảnh dựa vào chỉ dẫn tương tác cho kết quả phân đoạn vật thể với chất lượng khá ổn Tuy nhiên, mô hình này lại có một nhược điểm là không thể đảm bảo rằng những điểm ảnh mà người dùng thực hiện tương tác lên có kết quả
phân đoạn ảnh đúng Do đó, cơ chế tinh chỉnh bằng phương pháp lan truyền
ngược được áp dung dé bắt buộc những điểm ảnh này được gán nhãn một cách
chính xác để kết quả phân đoạn tốt hơn nữa Mô hình sẽ thực thi cơ chế tinh chỉnh bằng phương pháp lan truyền ngược cho đến khi tất cả các điểm ảnh do
người dùng tương tác lên được phân đoạn chính xác Người dùng thông thường
sẽ tương tác nhiều lần để kết quả phân đoạn cải thiện dần dần Việc chỉnh sửa kết quả phân đoạn này có thể thực hiện được bằng tỉnh chỉnh trực tiếp tham
số của mô hình, tuy nhiên việc này lại làm mất đi thông tin mô hình đã được
học trước đó Thay vì vậy có thể chỉnh sửa lại lược đồ tương tác ban đầu của người dùng Mục tiêu của BRS là tối thiểu tinh chỉnh trong các lược đồ tương
tác sao cho nhất quán với mặt nạ phân đoạn đối tượng BRS sử dụng 2 hàm
năng lượng là Corrective Energy tương ứng với tọa độ các điểm tương tác đầu
vào và Inertial Energy nhằm giữ cho mô hình ổn định với những sự thay đổi nhỏ
từ đầu vào Ví dụ ƒ(z)„„ là đầu ra của mô hình với ảnh z và điểm tương tác là
(u,v) với nhãn / thi ham năng lượng được tính toán bằng công thức (2.1):
12
Trang 24AlAzlls * DL + Aa) — )Ÿ > min (2.1)
BRS được áp dung sau lần tương tác thứ 2 của người dùng và sé được thực hiện
đệ quy cho đến khi ngươi dùng dừng tương tác
Với lối kiến trúc mạng Bộ giải mã-Bộ mã hóa cùng với cơ chế tỉnh chỉnh bằng phương pháp lan truyền ngược, mô hình cho bài toán phân đoạn ảnh dựa vào chỉ
dẫn tương tác do nhóm tác giả Won-Dong Jang và Chang-Su Kim công b6 mang
lại kết quả cải thiện đáng kể Trên các bộ dữ liệu như GrabCut [18], Berkeley
[14], DAVIS [16] và SBD [6], mô hình BRS cần số lần tương tác ít hơn để đạt
kết quả đến 85% và 90% so với các phương pháp trước đó Tuy nhiên, nhược
điểm lớn nhất của BRS chính là tốn quá nhiều chi phí và thời gian tính toán do
việc tinh chỉnh được thực hiện đệ quy và mỗi lần chỉnh sửa mặt nạ phân đoạncần phải lan truyền ngược lại toàn cấu trúc mạng
2.1.3 Cơ chế tinh chỉnh các đặc trưng trung gian bang
phương pháp lan truyền ngược
OistMap-BRS LBRS-B
pm Per pone! opmmerahon 'wcale ard baw
on the (AC: maps (128+12 chanwets)
Toned per-pinel optimization
sale and bias mm
on the image Gott channehi) (128 channels}
Hình 2.2: Tổng quan về mô hình phân đoạn ảnh dựa vào chi dẫn tương tác trong
thông qua cơ chế tỉnh chỉnh các đặc trưng trung gian bằng phương pháp lantruyền ngược [20]
Cơ chế tỉnh chỉnh các đặc trưng trung gian bằng phương pháp lan truyền ngược(Feature-backpropagation Refinement Scheme) viết tắt là {BRS [20] là một cơ
15
Trang 25chế tinh chỉnh mặt na phân đoạn ảnh giải quyết các van đề về tối ưu hóa thôngqua các biến phụ trợ thay vì tỉnh chỉnh lại các lược đồ tương tác ở đầu vào của
mạng Phương pháp này yêu cầu chỉ cần lan truyền ngược về một đoạn ngắn
của cau trúc mạng khác với BRS là cần phải lan truyền ngược cả về toàn mạng
để chỉnh sửa đầu vào do đó cải thiện hiệu suất phân đoạn của mô hình Với mục tiêu tăng tốc quá trình tối ưu hóa để cải thiện kết quả phân đoạn ảnh, việc lan truyền ngược để tính toán các hàm năng lượng sẽ không thực hiện qua toàn
mạng mà chỉ thông qua một số đoạn của mô hình lộ f-BRS, mục tiêu tối ưu là
các thành phan trong các tensor đặc trưng, việc tối ưu các thành phần này chỉ
làm thay đổi rất nhỏ xung quang các điểm tương tác ở mặt nạ phân đoạn đối tượng, chung quy sẽ không làm ảnh hưởng quá lớn Hình 2.2 mô tả tổng quan về
mô hình f-BRS.
BRS điều chỉnh lại hàm ƒ trong công thức tính toán tối ưu của BRS bằng cách
them vào các biến phụ trợ Ví dụ, gọi f(z, z) là hàm kết hợp giữa đầu vào x và
biến phụ trợ z Với biến phụ trợ được cố định z = p sao cho hàm được điều chỉnh
sẽ tương đương với hàm gốc ƒ(z,p) = f(x) Mục tiêu của £BRS là tìm giá trị Ap
nhỏ sao cho giá trị của hàm f(x,p + Ap) tại điểm ảnh mà người dùng tương tác
gần với nhãn mà người dùng cung cấp nhất Hàm tối ưu được tính toán bằng
công thức (2.2):
n
v—1
f-BRS chọn hai tham số đó là channel-wise scale va bias dé kích hoạt tai một
trong các lớp cuối cùng của cấu trúc mạng vì scale và bias là bất biến với vi trítrong ảnh, do đó sẽ không làm ảnh hưởng nhiều đến kết quả toàn cục Mặt khácchọn các tham số ở những lớp cuối cùng sẽ không cần phải lan truyền ngược lại
cả toàn cấu trúc mạng mà chỉ cần một đoạn nhỏ trong đó Tùy thuộc vào vị trí
áp dụng hàm mục tiêu, {BRS có thể đánh đổi giữa độ chính xác và tốc độ.
Feature Backpropagation Refinement Scheme chỉ thực hiện tính toán trên những
đặc trưng trung gian và quá trình lan truyền ngược chỉ diễn ra trên một đoạn
nhỏ của cấu cấu trúc mang Vì vậy, {BRS đã vận dụng hiệu quả các biến phụ
trợ trong các hàm tối ưu để chỉnh sửa mặt nạ phân đoạn đối tượng, cải thiện kết
quả cả về độ chính xác và tốc độ
14
Trang 262.2 Phân đoạn đối tượng trong video
Phân đoạn đối tượng trong video là bài toán phân tách tất cả các đối tượng cầnquan tâm trong tất cả các khung hình với vùng nền trong video Với mục tiêu
theo vết tất cả các điểm ảnh của đối tượng có trong video thì phân đoạn đối
tượng video được chưa làm ba loại: phân đoạn đối tượng video với hướng tiếpcận không giám sát, phân đoạn đối tượng video với hướng tiếp cận bán giám sát,phân đoạn đối tượng với hướng tiếp cận dựa vào chỉ dẫn của người dùng
2.2.1 Phân đoạn đối tượng trong video theo hướng tiếp
cận bán giám sát
Phân đoạn đối tượng theo hướng tiếp cận bán giám sát cung cấp với một mặt
nạ đối tượng ban đầu trong khung đầu tiên, sau đó sẽ sử dụng mô hình để phân
đoạn các đối tượng trong các khung hình còn lại Thông thường, các phương
pháp thuộc hướng tiếp cận này sẽ chia thành hai loại: theo vết đối tượng, mạng
bộ nhớ.
Phương pháp dựa vào theo vết đối tượng: một hình ảnh mặt nạ đối tượng
hiện tại sẽ dự đoán từ hình ảnh RGB và các mặt nạ đối tượng của khung hìnhtrước đó FEELVOS [22] sử dụng một mạng phức hợp duy nhất va chỉ yêu
cầu một lần chuyển tiếp duy nhất cho mỗi khung hình video Hình 2.3 là tổng
quan của mô hình FEELVOS Kiến trúc của mô hình này sử dung backbone
Deeplabv3+[3] để trích xuất đặc trưng với stride bằng 4 Trên hết, tác giả thêm một lớp embedding để trích xuất các vec-tơ đặc trưng embedding với các stride
bằng nhau Sau đó, đối với mỗi đối tượng, tác giả tính khoảng cách giữa cácvec-tơ đặc trưng bằng cách đối sánh toàn cục các vec-tơ đặc trưng embeddingcủa khung hình hiện tại với các vec-tơ đặc trưng embedding của khung hình đầu
tiên Ngoài ra, tác giả sử dụng kết quả của khung hình dự đoạn trước đó để tính
toán khoảng cách giữa các đối tượng ở trong các trong khung hình khác nhau.Bằng cách tính đối sánh cục bộ khoảng cách giữa bản đồ đặc trưng ở khung hiệntại với bản đồ đặc trưng ở khung trước đó Cuối cùng, tác giả kết hợp tất cả cácbản đồ đặc trưng toàn cục có khoảng cách phù hợp, và bản đồ đặc trưng cục bộ
có khoảng cách phù hợp , dự đoán từ khung trước và các đặc trưng sau khi được
trích xuất từ backbone Sau đó,tác giả đưa chúng vào một đầu phân đoạn động
tạo ra cho mỗi pixel (với khoảng cách là 4) một phân phối sau trên tất cả các đối tượng có mặt trong khung hình đầu tiên Toàn bộ hệ thống được đào tạo
15
Trang 27end-to-end để phân đoạn nhiều đối tượng mà không yêu cầu mất mát trực tiếp
trên embedding.
Groundtruth mask for the first frame is given
BoLTVOS [23] khai khác ý tưởng từ nhiệm vụ phân đoạn đối tượng video
(VOS) có thể được giải quyết bằng cách tách nó thành các bounding box và theo
dõi các bounding box này, tiếp theo là phân đoạn các đối tượng được cung cấpbởi các bounding box được theo dõi Bằng cách áp dụng mô hình này, tác giả có
thể lấy cảm hứng từ cộng đồng theo dõi đối tượng trực quan (VOT) để thiết kế
một trình theo dõi box-level hoạt động tốt cho VOS
Trong hình 2.4, BoLTVOS [23] duoc chia thành ba thành phần Vùng bên
trái trong hình cho thấy mô hình Siamese cascaded R-CNN của tác giả có
thể phát hiện các vùng đối tượng tương tự về mặt trực quan với đối tượng mẫu
khung hình thứ nhất đã cho Vùng trung tâm trong hình cho thấy thuật toán
thu hồi tính nhất quán theo thời gian trực tuyến của tác giả, nó có thể chọn
phát hiện tốt nhất đến từ bộ phát hiện của tác giả trong mỗi bước thời giandựa trên tính nhất quán về mặt thời gian và các dấu hiệu tương tự về hình ảnh,
có tính đến khả năng hiện diện của các biểu tượng tương tự về mặt trực quan
nhưngcác đối tượng không liên quan không nhất quán về mặt không gian Cuối
cùng, như được hiển thị trong vùng bên phải trong hình, sau khi xác định kết quả theo dõi box-level, tác giả áp dụng mạng Box2Seg của mình để tạo mặt nạ
phân đoạn cho đối tượng được cung cấp bởi mỗi bounding box
Phương pháp dựa vào mạng bộ nhớ: STM [15] sử dụng các khung trước đó
và mặt nạ đối tượng của chúng để tạo thành một nhóm bộ nhớ để tham chiếu
16
Trang 28Hình 2.4: Tổng quan về BoLTVOS [23] Conditional R-CNN (bên trái) cung cấp
các phát hiện có điều kiện trên bouding box khung hình đầu tiên, sau đó được
ghi lại bằng thuật toán thu hồi tính nhất quán tạm thời (giữa) Kết qua là các
hộp bounding box được chuyển đổi thành mặt nạ phân đoạn bởi mạng Box2Seg
Decoder
Space-time Memory Read
Hình 2.5: Tong quan về mô hình phan đoạn đối tượng trong video STM [15]
Memory embedding
Trong mô hình của STM các khung hình trong video được xử lý tuần tự bắt đầu
từ khung hình thứ hai bằng cách sử dụng sự hướng dẫn ở khung hình đầu tiên
được cung cấp Xuyên suốt quá trình xử lí video, STM xem các mặt nạ của đối
tượng ở khung hình trước như tập hợp các khung hình bộ nhớ và khung hình
hiện tại mà không có mặt nạ đối tượng được xem như là khung hình truy vấn.
Tổng quan về mô hình được hiển thị ở Hình 2.5 Đầu tiên, các khung hình bộ
nhớ và truy vấn đều được mã hóa thành các cặp key map và value map thông
qua các bộ mã hóa học sâu Key map được sử dụng để xác định địa chỉ của
các điểm ảnh Còn values map sẽ lưu các thông tin chỉ tiết để ước lượng cho
17
Trang 29việc phân đoạn Toán tử để ghi vào bộ nhớ chỉ đơn giản là kết hợp key map
và value map được tạo từ các khung hình trước và các mặt nạ đối tượng Khi
tiến trình có một khung hình mới, toán tử đọc bộ nhớ sử dung keys để truy
van và tìm ra thông tin địa chỉ liên quan trong không gian bộ nhớ Sau đó các
đặc trưng được lưu trong value map tại vị trí được truy vấn để dự đoán cho đối
tượng phân đoạn hiện tạ Cuối cùng, bộ giải mã lấy đầu ra của khối đọc và táitạo lại mặt nạ cho khung truy vấn
2.2.2 Phân đoạn đối tượng trong video dựa vào chỉ dan
tương tác
Chỉ dẫn mà người dùng cung cấp được xem như là một thông tin đầu vào được
lặp đi lặp lại cho mô hình chỉnh sửa đối tượng mà mình quan tâm Trong đó
người dùng chỉ định đối tượng bằng một số hình thức tương tác như vẽ nguệchngoạc, nhấn chuột hay vẽ một hình chữ nhật bao bọc quanh đối tượng mục tiêu
Thử thách DAVIS về phân đoạn đối tượng video đã tổ chức kịch bản tương tác kể từ năm 2018 với mục tiêu giải quyết bài toán này Trong lần tương tác đầu tiên của mỗi chuỗi khung hình, máy chủ sẽ chọn cụ thể một khung hình,
cung cấp nét vẽ nguệch ngoạc do người dùng vẽ cho mỗi đối tượng trong khung
hình này Dựa vào các nét vẽ nguệch ngoạc này, mô hình sẽ dự đoán ra mặt nạ
phân đoạn cho các đối tượng quan tâm trong tất cả khung hình trong video Sau
đó, người dùng sẽ nộp kết quả phân đoạn đấy lên máy chủ Trong mỗi lần tươngtác tiếp theo, server sẽ chọn ra khung hình có kết quả tệ nhất trong tất cả cáckết quả được nộp lên và sau đó cung cấp các nét vẽ nguệch ngoạc mới cho khung
hình này Những nét vẽ nguệch ngoạc này chỉ ra các vùng false positive và false
nagative Việc này sẽ lặp đi lặp lại đến khi đạt tới số lần lặp tối hoặc quá thời
gian Máy chủ đo thời gian cần thiết để thực hiện mỗi tương tác, các thời gian
này được kết hợp để tính toán kết quả cuối cùng.
Hàng năm, các phương pháp mới từ những người tham gia được đề xuất
và đạt được những kết quả khá khả quan Các phương pháp tiếp cận để giải
quyết phân đoạn đối tượng video tương tác phải đáp ứng một số mục tiêu
thiết kế, chang hạn như nhanh chóng, tạo ra mặt nạ video ban đầu hiệu quả
sau lần tương tác đầu tiên và cải thiện độ chính xác sau các lần tương tác tiếp theo
18
Trang 30Embedding Encoder
Propagation Segm Head
Previous Frame f-1
Mask of Frame t-1
Hình 2.6: Tổng quan về mô hình phân đoạn đối tương trong video dựa vào chỉ
dẫn tương tác MA-Net [11] MA-Net gồm có 3 mô-đun một bộ mã hóa pixelembedding, một nhánh tương tác, một nhánh lan truyền
Một cách tiếp cận phổ biến cho vấn đề này bao gồm 2 giai đoạn: tạo mặt nạ
đối tượng hình ảnh từ các nét vẽ nguệch ngoạc và lan truyền mặt nạ MA-Net
[11] tích hợp mạng tương tác và mạng lan truyền thành một thể thống
nhất MA-Net bao gồm 3 mô-đun: một bộ mã hóa pixel embedding, một nhánh tương tác và một nhánh lan truyền Hình 2.6 mô tả tổng quan mô hình MA-Net Trong mô-đun đầu tiên, tất cả các điểm anh từ một chuỗi hình ảnh RGB trong video sẽ được chuyển thành các vec-tơ pixel embedding Nhánh lan truyền sẽ
sử dụng các nét vẽ nguệch ngoạc, vec-tơ pixel embedding của khung hình được
tương tác và kết quả mặt nạ ở lần tương tác trước để tạo ra mặt nạ phân đoạn
mới ứng với đối tượng ở lần tương tác trước Nhánh lan truyền sẽ lan truyềncác thông tin của người dùng tương tác và khung hình trước đến khung hìnhhiện tại bằng cách sử dụng pixel embedding Các bộ mã hóa pixel embeddingcủa hai nhánh được sử dụng cùng một kiến trúc nền tảng và chia sẽ các trọng sốvới nhau Các pixel embedding của tất cả các khung hình được trích xuất chínhxác một lần và ở trong lần tương tác đầu tiên Xuyên suốt các lần tương tác cònlại, chỉ hai segmetation heads được sử dụng, dẫn đến mạng hiệu quả hơn so vớitương tác đầu tiên
19
Trang 31Hình 2.7: Kiến trúc Annotation-Transfer Network [8].
Ngoài ra, một số phương pháp khác để cả thiện kết quả của mô hình thông
thường sử dụng thêm một số các mô-đun để tỉnh chỉnh lại kết quả
phân đoạn như Annotation-Transfer Network (ATNet) [8] ATNet là một cấu
trúc mạng iVOS cho phép người dùng tương tac với hình thức các nét vẽ nguéch
ngoạc để chỉ định đối tượng Đầu tiên, Annotation Network(A-Net) tạo ra các
mặt nạ phân đoạn cho một khung hình tương tác bằng các nét vẽ nguệch ngoạc
do người dùng cung cấp, sau đó Transfer Network (T-Net) sẽ truyền kết quả phân
đoạn cho các khung hình mục tiêu khác để theo dấu phân đoạn đối tượng mục tiêu Hình 2.7 biểu diễn kiến trúc của Annotation-Transfer Network Cu thể hơn,
A-Net tạo ra một mặt nạ phân đoạn cho khung hình 7„ thông qua tương tác của
người dùng A-Net có dạng bộ mã hóa - bộ giải mã, cụ thể sử dụng SE-ResNet như là bộ giải mã để trích xuất các đặc trưng và vận dụng skip-connection để
thu thập cả đặc trưng cấp thấp và cấp cao Theo sau các lớp tích chập là một
mô-đun ASPP và một mé-dun bottom-up ASPP khai thác thông tin của các
vật thể ở các kích thước khác nhau Mô-đun bottom-up gồm 2 mô-đun nhỏ để
khôi phục lại các thông tin thông qua kết nối tắt Cuối cùng kết quả sẽ đượckhôi phục lại kích thước ban đầu bằng binlinear interpolation
T-Net gồm các bộ giải mã chia sẻ trọng số với nhau, một mô-đun Global transfer,
một môö-dun Local transfer và một bộ giải mã Bộ mã hóa va bộ mã hóa trong
T-Net có cấu trúc giống với cấu trúc của hai thành phan này ở A-Net Bộ giải
20
Trang 32mã ở T-Net tạo ra một bản đồ xác suất cho đối tượng đang chỉ định trong một
khung hình mục tiêu J; sử dụng những đặc trưng từ bộ mã hóa, mô-đun Global
transfer và mô-đun local transfer Mô-đun Global transfer chuyển dời các thong
tin phân đoạn của một khung hình tương tác J, đến khung hình mục tiêu 1.Còn mô-đun Local transfer thực hiện việc lan truyền các thông tin phân đoạnmột cách cục bộ, tức là lan truyền thông tin phân đoạn của một khung hìnhtrước đó J, đến khung hình mục tiêu 7; vì hai khung hình này gần kề nhau va
chuyển động của đối tượng chỉ định không có quá nhiều sự khác biệt Mục đích
của mô-đun Local Transfer đó là khôi phục lại các mat mát xảy ra trong quá
trình lan truyền từ khung hình tương tác J, đến khung hình mục tiêu i.
ATNet đạt kết quả khả quan trên tap validation của bộ dit liệu DAVIS2017 [16],
trong đó đạt 0.809 trên độ do AUC va 0.827 trên độ do 7&F@Q60s.
21
Trang 33Hình 3.1: Mô hình chúng tôi đề xuất cho bài toán phân đoạn đối tượng trong
video dựa vào chỉ dẫn tương tác.
Dược truyền cảm hứng từ MIVOS [4], phương pháp của chúng tôi đề xuất cũngbao gồm 3 mô-đun chính: Mô-đun Interaction-to mask, mô-đun Propagation,
22
Trang 34mô-đun Fusion Đầu tiên, trong mô-đun Interaction-to-mask, chúng tôi chuyển đổi các nét vẽ nguệch ngoạc của người dùng thành một tập hợp các loạt điểm gọi là điểm đại diện Sau đó tập hợp các điểm đại diện sẽ thông qua mô hình phân đoạn RITM [21], đóng vai trò như là chỉ dẫn tương tác để sản sinh ra các
mặt nạ phân đoạn Trong mô-đun Propagation, chúng tôi đề xuất phương pháp
STCN [5] để lan truyền các mặt nạ phân đoạn được tạo ra ở mô-đun đầu tiên
cho toàn bộ các khung ảnh trong video Cuối cùng, các mặt nạ lan truyền sẽ
được hợp nhất ở mô-đun Pusion nhằm mục đích tổng hợp mặt nạ phân đoạn trước và sau mỗi lần tương tác để tránh trường hợp phân rã hoặc mất mát ý
định và thông tin chỉ dẫn tương tác của người dùng trong quá trình lan truyền.Khi đó, mục đích tương tác của người dùng được nắm bắt bằng cách tận dụng
sự khác biệt trong mặt nạ phân đoạn của khung ảnh hiện tại trước và sau khi người dùng tương tác.
3.2 Mö-đun Interaction-to-mask
Mô-đun Interaction-to-mask là mô-đun đầu tiên của framework phân đoạn đối
tượng trong video dựa vào chỉ dẫn tương tác của người dùng Nhiệm vụ chính của
mô-đun này là chuyển đổi tương tác của người dùng sang lược đồ tương
tác và thực hiện quá trình phân đoạn đối tượng trên từng khung ảnh
trong video dựa vào lược đồ đã chuyển đổi trên Ngoài ra, khi người dùng
tiến hành các lần tương tác tiếp theo, mô-đun Interaction-to-mask sẽ chỉnh
sửa lại mặt nạ phân đoạn của đối tượng sao cho nhất quán với ý định chỉnh sửa của người dùng, sau đó chuyển dời kết quả sang mô-đun tiếp theo
để thực hiện quá trình lan truyền cho toàn bộ video.
Interaction-to-mask gồm 2 phần: Control-point Extractor và Control-point-based
to mask Control-point Extractor có nhiệm vụ trích xuất các điểm tương tác từ
các nét vẽ nguéch ngoạc của người dùng và mô-dun này được chúng tôi sử dụng
trong phần đánh giá phương pháp mà chúng tôi đề xuất ở những thực nghiệm
trong cuộc thi DAVIS Khi đánh giá về mặt người dùng thì mô-đun này sẽ không
được áp dụng Control-point-based to mask thực hiện quá trình phân đoạn đối
tượng trong một khung ảnh với đầu vào gồm ảnh RGB, các điểm tương tác vừa
mới trích xuất từ Control-point Extractor và mặt nạ phân đoạn của lần tươngtác trước đó (trong trường hợp yêu cầu chỉnh sửa lại mặt phân đoạn)
23
Trang 353.2.1 Control-point Extractor
Có nhiều dạng tương tác mà người dùng thường hay sử dụng để chỉ định đối
tượng muốn phân đoạn trên một ảnh, thông thường nhất là những nét vẽ nguệch
ngoạc hay đơn thuần chỉ là chấm một điểm trên đối tượng Tuy nhiên, mỗi hình thức tương tác có wu và khuyết điểm riêng Ví dụ, khi sử dụng những nét vẽ
nguệch ngoạc thì tùy mỗi người dùng mà có phong cách vẽ khác nhau Hình thức
tương tác này khá thân thiện với người dùng và cung cấp nhiều thông tin chỉ
dẫn hơn cho mô hình phân đoạn Tuy nhiên lại là một khó khăn trong quá trình
huấn luyện mô hình, do những nét vẽ nguệch ngoạc ngẫu nhiên tùy ý này khóđược mô phỏng và một số phương pháp trước đó phải sử dụng những thủ tục
phức tạp và các hàm heuristic để chuyển đổi sang các lược đồ tương tác Mặt
khác, tuy những nét vẽ nguệch ngoạc mang lại thông tin đa dạng nhưng đôi khi
tương tác của người dùng bị sai lệch khiến cho kết quả không chính xác Hình
3.2 cho thấy nét vẽ khá to và thô, sai lệch với vật thể khá nhiều.
Một hình thức tương tác khác được áp dụng khá nhiều trong những mô hìnhphân đoạn ảnh dựa vào chỉ dẫn tương tác những năm gần đây là click hay nói
cụ thể hơn đó là người dùng thực hiện việc nhấn một điểm lên một vùng tùy
ý để chỉ định đối tượng Người tương tác sẽ tốn ít công sức hơn và cách thực hiện cũng dễ dàng hơn rất nhiều so với khi vẽ các nét nguệch ngoạc Có thể thấy khi sử dụng phương pháp này, tỉ lệ sai sót khi tương tác được tối thiểu Việc mô phỏng một điểm tương tác cũng dễ dàng hơn Mặc dù thế, phương pháp này có điểm hạn chế đó là quá ít thông tin chỉ dẫn của người dùng cho mô hình Vì vậy,
có thể kết hợp hai ưu điểm của việc sử dụng nét vẽ nguệch ngoạc và điểm bằng cách chuyển đổi các nét vẽ thành các điểm riêng biệt và cung cấp cho mô hình một loạt điểm trích xuất từ nét vẽ nguệch ngoạc này.
Hình 3.2: Tương tác sử dụng những nét vẽ nguệc ngoạc xảy ra sai sót nhiều [1].
24