2. Tách đối tượng theo thuật toán Grab-cut
2.2. Phân đoạn năng lượng cực tiểu hóa theo Graph-cut
Theo bài báo của “ Boykov và Jolly 2001” về phân đoạn ảnh màu, cho một trimap T ban đầu. Gọi ảnh là một mảng một chiều của những
giá trị xám – thứ tự đánh chỉ số bằng việc nối từng hàng của mảng hai chiều. Phân đoạn ảnh được biểu diễn như một mảng những giá trị " độ mờ " α= (α1,. . . ,αn) tại mỗi điểm. Điều kiện 0 ≤αn ≤ 1, nhưng để phân đoạn cứng α n ∈ { 0,1}, với 0 là nền và 1 là đối tượng. Tham số θ mô tả sự phân bố mức xám ảnh mặt trước và nền, và gồm có biểu đồ giá trị xám:
θ={h(z ;α),α=0,1 } (1)
Một cho nền và một cho mặt trước. Các biểu đồ được lắp ráp trực tiếp từ pixel có nhãn từ các vùng tương ứng của trimap TB,TF. Nhiệm vụ phân khúc là để suy ra
các biến mờ chưa biết α từ các dữ liệu cho hình ảnh z và mô hình θ.
Hàm năng lượng E được xác định là tối thiểu nó phải tương ứng với một phân đoạn tốt. Điều đó có nghĩa là cả mặt trước và nền quan sát trên biểu đồ mức xám và độ mờ là " nhất quán ", phản ánh một xu hướng bền vững của các đối tượng. Được ghi lại bởi một năng lượng "Gibbs" có dạng:
𝐸(𝛼, 𝜃, 𝑧) = 𝑈(𝛼, 𝜃, 𝑧) + 𝑉(𝛼, 𝑧) (2)
Thuật ngữ dữ liệu U đánh giá sự phù hợp của các phân bố độ mờ α tới dữ liệu z, đưa ra mô hình biểu đồ θ, và được định nghĩa như sau:
U(α,θ, z)=∑n−logh(zn,αn) (3)
Thuật ngữ smoothness có thể được viết như sau
𝑉(𝛼, 𝑧) = 𝛾 ∑ 𝑑𝑖𝑠(𝑚, 𝑛)−1[𝑎𝑛 ≠ 𝑎𝑚]𝑒𝑥𝑝 − 𝛽(𝑧𝑚−𝑧𝑛)2
(𝑛,𝑚)𝜖𝐶 (4)
Trong đó [αn ≠ αm] biểu thị các chức năng chỉ thị cầm lấy những giá trị 0,1
cho một vị từ αn ≠ αm, C là tập hợp các cặp điểm ảnh lân cận, và dis (.) là khoảng cách Euclide của các điểm ảnh lân cận. Năng lượng này khuyến khích sự gắn kết trong các khu vực tương tự màu của mức xám. Trong thực tế, những kết quả tốt thu được bằng cách xác định điểm ảnh láng giềng nếu chúng liền kề theo chiều ngang / chiều dọc hoặc theo đường chéo (kết nối 8 chiều). Khi hằng số = 0, độ xác định γ không đổi. exp là hàm ex.
Hằng số β được lựa chọn như sau: β=(2(zm−zn)2)−1
(5) Trong đó (zm−zn)2
biểu thị sự mong đợi qua một mẫu ảnh. Sự lựa của β đảm bảo rằng các mức năng lượng theo hàm mũ trong công thức tính V(a,z) thiết bị
chuyển mạch một cách thích hợp giữa độ tương phản cao và tương phản thấp. Hằng số γ được gán bằng 50, nó thu được bằng việc tối ưu hóa sự huấn luyện 15 hình ảnh. Hiện nay các mô hình năng lượng được xác định đầy đủ, phân đoạn có thể được ước tính ở mức tối thiểu toàn cục:
̂α=arg(minαE(α,θ)) (6)
Hạn chế tối đa được thực hiện bằng cách sử dụng thuật toán cắt chuẩn tối thiểu. Thuật toán này là nền tảng cho phân đoạn cứng, và phần tiếp theo đưa ra ba hướng phát triển mới của thuật toán phân đoạn cứng trong GrabCut.
Một là, mô hình ảnh đơn sắc được thay thế bằng mô hình màu Gaussian Mixture Model (GMM) ở vị trí biểu đồ.
Hai là, giải thuật ước lượng cắt tối thiểuđược thay thếbởi một thủtục lặp đi lặp lại, mạnh hơn mà xen kẽ giữa ước lượng và tham số học.
Ba là, những yêucầutương táccủangườidùnggiảm nhẹbằng cáchchophép dán nhãn không đầy đủ, người dùng chỉ định TB cho trimap, và điều này có thể được thực hiện dễ dàng bằng cách đặt một hình chữ nhật hoặc Lasso xung quanh đối tượng.