Giải thuật phân đoạn GrabCut

2.2.2.1. Mô hình dữ liệu màu.

Hình ảnh hiện tại cầm lấy gồm có zn điểm trong không gian màu RGB. Như vậy là không thực tế để cấu trúc những biểu đồ không gian màu phù hợp, chúng tuân theo một quy trình kỹ thuật đã được sử dụng cho phân đoạn yếu và sử dụng GMMs. Mỗi GMM, một cho nền và một cho tiền cảnh, được lấy đi một hiệp biến hoàn chỉnh Gaussian mixture với K thành phần(thường là k=5). Để giao tiếp dễ kiểm soát với GMM, Trong khung tối ưu hóa, một vectơ bổ sung k ={ k1,. . . ,kn,. . . ,kN} được giới thiệu, với kn { 1,. . .K } được gán tới mỗi điểm ảnh, một thành phần duy nhất đơn trị GMM, một thành phần hoặc từ nền hoặc mô hình tiền cảnh, tùy theo n = 0 hoặc 11.

Năng lượng Gibbs (2) cho phân đoạn bây giờ trở thành.

E(α,k,θ, z) =U(α,k,θ, z)+V(α, z), (7)

Tùy thuộc vào các thành phần GMM của biến k. Thuật ngữ dữ liệu U bây giờ được xác định, có tính đến các mô hình GMM màu như.

U(α,k,θ, z) = 𝐷(𝛼𝑛 𝑛, 𝑘𝑛, 𝜃, 𝑧𝑛), (8)

Trong đó, D(αn, kn,θ, zn) = −log p(zn | αn, kn,θ)−logπ(αn, kn) và p(.) là một phân phối xác suất Gaussian, (.) là pha trộn các hệ số gia trọng .

D(αn, kn,θ, zn) = −logπ(αn, kn)+ 1

2logdetΣ(αn, kn)+ 1

2 [zn−µ(αn, kn)]T Σ(αn,kn)−1[zn−µ(αn, kn)]. (9)

Vì vậy, các thông số của mô hình hiện nay.

θ = {π(α, k),µ(α, k),Σ(α, k), α = 0,1, k = 1. . .K} , (10)

Ví dụ: Các trọng số π, có nghĩa là μ và phương sai Σ của 2K Gaussian các thành phần cho nền và phân phối tiền cảnh. Các thuật ngữ thông suốt V về cơ bản là không thay đổi từ ảnh đơn sắc trường hợp (4), ngoại trừ các thuật ngữ tương phản được tính bằng Euclidean khoảng cách trong không gian màu:

V(α, z) = γ [𝛼𝑛 ≠ 𝛼𝑚] 𝑒𝑥𝑝 − 𝛽 𝑧𝑚 − 𝑧𝑛 2

(𝑚,𝑛)∈𝐶 , (11)

2.2.2.2. Phân đoạn theo lặp lại cực tiểu năng lƣợng.

Sơ đồ cực tiểu hóa năng lượng mới trong GrabCut làm việc lặp đi lặp lại, thay cho giải thuật one-shot trước đây. Điều này có lợi thế là cho phép tự động sàng lọc vùng mờ α, như mới được dán nhãn điểm ảnh từ vùng TU của các trimap ban đầu được sử dụng để tinh chỉnh các thông số GMM màu θ.Các yếu tố chính của hệ thống GrabCut được đưa ra trong hình 2.2.

Bước 1: Thực hiện bằng cách liệt kê các giá trị đơn giản của kncho mỗi điểm ảnh n.

Bước 2: Được thực hiện như một tập hợp các thủ tục ước lượng tham số Gaussian, như sau. Đưa ra một thành phần GMM đã cho k trong mô hình tiền cảnh, tập hợp con của các điểm ảnh được định nghĩa F (k) = {zn: kn = k và αn = 1} . Trị trung bình và phương sai được ước tính trong mạng lưới chuẩn nghĩa là mẫu và phương sai của các giá trị điểm ảnh trong F (k) và trọng số là π (α, k) = | F (k) | / Σk | F (k) |, trong đó | S | biểu thị kích thước của một tập S.

Bước 3: Là tối ưu hóa toàn cầu, sử dụng cắt tối thiểu.

Cấu trúc của thuật toán đảm bảo thuộc tính hội tụ đúng, bởi vì mỗi bước 1-3 giảm thiểu việc lặp đi lặp lại có thể được hiển thị một tổng năng lượng E hạn chế tối

đa với ba tập hợp các biến lần lượt là k, θ, và α. Do đó E giảm dần một cách đơn điệu và điều này được minh họa trong thực nghiệm trong hình 2.3. Vì vậy, các thuật toán bảo đảm để hội tụ về ít nhất ở một vị trí nhất định là E. Là đơn giản để phát hiện khi E ngừng làm giảm đáng kể, và chấm dứt lặp tự động.

Khởi tạo

 Người sử dụng khởi tạo trimap T bằng việc cung cấp TB duy nhất. Mặt trước nền là tập hợp TF =  ; TU = 𝑇 𝐵, bổ sung cho mặt sau nền.

 Khởi tạo αn = 0 với n ∈ TB và αn = 1 với n ∈ TU.

 Nền và tiền cảnh GMMs khởi tạo từ bộ αn = 0 và αn = 1 tương ứng.

Lặp Lại Giảm Thiểu

1. Gán các thành phần GMM điểm ảnh: cho mỗi n trong TU kn := arg𝑚𝑖𝑛𝑘𝑛Dn(αn, kn, θ, zn).

2. Tìm hiểu các thông số GMM từ dữ liệu z: θ := arg𝑚𝑖𝑛𝜃U(α, k, θ, z)

3. Phân đoạn dự toán: sử dụng min cut để giải quyết.

E(α, k, θ, z). 𝑘

𝑚𝑖𝑛 {∝𝑛: 𝑛∈ 𝑇𝑈 }

min

4. Lặp lại từ bước 1, cho đến sự quy tụ. 5. Áp dụng sự kết búi viền.

Ngƣời dùng chỉnh sửa

 Sửa: sửa lỗi một số điểm ảnh hoặc là để αn = 0 (vẽ lên nền) hoặc αn = 1 (phía trước vẽ lên); cập nhật trimap T cho phù hợp. Thực hiện bước 3 ở trên chỉ

một lần.

 Tinh chỉnh hoạt động: [tùy chọn] thực hiện lặp đi lặp lại toàn bộ thuật toán giảm thiểu.

Hình 2.2 Phân đoạn ảnh Lặp đi lặp lại ở GrabCut.

Hình 2. 3 Sự Quy tụ cực tiểu hóa lặp đi lặp lại

2.2.2.3. Tƣơng tác ngƣời sử dụng và trimap không đầy đủ.

Trimaps không đầy đủ. Thuật toán lặp đi lặp lại giảm thiểu cho phép tăng

tính linh hoạt của tương tác người dùng. Đặc biệt, nơi dán nhãn không đầy đủ cho phép ở vị trí của trimap đầy đủ T, người sử dụng cần chỉ định khu vực nền TB, còn lại TF = 0. Không khó để dán tất cả các nhãn ở tiền cảnh.

Lặp lại giảm thiểu được đề cập ở (hình 2.2) bằng cách cho phép dán các nhãn không hoàn chỉnh tới một số điểm ảnh (tại tiền cảnh) sau đó có thể được co lại,chỉ có nền được nhãn TB là không được rút lại. Trong quá trình thực hiện TB ban đầu được xác định bởi người sử dụng như một dải các điểm ảnh xung quanh bên ngoài của hình chữ nhật được đánh dấu (đánh dấu màu đỏ trong hình 2.1).

Hình 2.4 Ngƣời dùng hiệu chỉnh.

2.3. Phân đoạn ảnh sử dụng Random Walks.

Thuật toán random walker đã được thúc đẩy trong việc giới thiệu bằng cách đi bộ ngẫu nhiên tại các điểm ảnh và ghi nhớ những hạt giống mà chúng đến lần đầu, một phương pháp tính toán như vậy sẽ là không thực tế. Thiết lập những kết nối giữa bước ngẫu nhiên và lý thuyết mạch, cung cấp cho chúng ta một phương pháp đơn giản thuận tiện cho phân tích tính toán xác suất mong muốn. Phần này mô tả ba khía cạnh của thuật toán: Tạo các trọng số đồ thị, thiết lập hệ phương trình để giải quyết vấn đề và thực hiện các chi tiết thực tế [6].

Một đồ thị bao gồm một cặp G = (V, E) với đỉnh (node) v V và cạnh e  E

 V × V. Một cạnh, e, nối hai đỉnh, vi và vj, được ký hiệu là eij. Một đồ thị có trọng số gán một giá trị cho mỗi cạnh được gọi là trọng số. Trọng số của cạnh eij được ký hiệu là w (eij) hoặc wij. Bậc của một đỉnh là di = w (eij) cho tất cả các cạnh eij có liên quan đến vi (điều kiện wij> 0).

Phân đoạn tự động

Phân đoạn tự động Tương tác

2.3.1. Trọng số cạnh.

Để đại diện cho cấu trúc hình ảnh (đã cho tại những điểm ảnh) bởi sự sai lệch bước ngẫu nhiên (tức là trọng số cạnh), người ta định nghĩa một hàm ánh xạ thay đổi trong cường độ hình ảnh với trọng số cạnh. Đây là một đặc tính chung của thuật toán dựa trên đồ thị để phân tích ảnh.

Ngoài ra, nó đã được đề xuất để sử dụng một chức năng làm cực đại entropy của các trọng số kết quả. Hàm trọng số Gaussian.

wij = exp (−β(gi − gj)2), (1)

Trong đó: gi chỉ cường độ ảnh tại điểm i. Giá trị β là tham số tự do. Chúng tôi đã tìm thấy nó hữu ích để bình thường hóa các gradient vuông (gi - gj)2 ∀eij ∈ E

trước khi áp dụng (1). Tất nhiên, (1) có thể được sửa đổi để xử lý màu hoặc giá trị dữ liệu vector được thay thế bằng (gi - gj)2 với ||gi - gj|| được đánh giá cho một vector gi .

2.3.2. Vấn đề Dirichlet Tổ hợp

Dirichlet integral có thể được xác định như sau:

D[u] = 1

2 |𝛻𝑢|Ω 2dΩ, (2)

Trong đó u là trường và Ω là vùng. Tích phân xuất hiện trong các tình huống vật lý bao gồm sự truyền nhiệt,điện tĩnh học và bước ngẫu nhiên.

Một hàm điều hòa có chức năng đáp ứng được phương trình Laplace.

∇2

u = 0. (3)

Việc tìm một đối tượng của hàm hài hòa giá trị biên của nó được gọi là bài toán Dirichlet. Hàm điều hòa thoả mãn những điều kiện đường biên yếu.

𝐿𝑖𝑗 = 𝑑𝑖 −𝑤𝑖𝑗 0 Nế𝑢 𝑖 = 𝑗, Nế𝑢 𝑣𝑖 𝑣à 𝑣𝑗 𝐶ò𝑛 𝑙ạ𝑖, 𝑙à 𝑐á𝑐 đỉ𝑛ℎ, (4) Trong đó Lijlà chỉ số của đỉnh vivà vj.

Xác định ma trận liên thuộc của nút cạnh như sau:

𝐴𝑒𝑖𝑗𝑣𝑘 = +1−1 0 Nế𝑢 𝑖 = 𝑘, Nế𝑢 𝑗 = 𝑘, 𝐶ò𝑛 𝑙ạ𝑖, (5)

Với mọi đỉnh vk và tất cả các cạnh eij liền kề đều được gán một định hướng,

𝐴𝑒𝑖𝑗𝑣𝑘 được dùng để chỉ sự tác động của ma trận tới cạnh eij và đỉnh vk.

Xác định ma trận m x m với C là đường chéo của ma trận với trọng số của mỗi cạnh dọc theo đường chéo. Laplacian tổ hợp đẳng hướng là thành phần của toán tử tổ hợp phân kỳ với toán tử tổ hợp gradient, L = AT

A ma trận cấu thành được giải thích như việc đại diện cho một tích vô hướng có trọng số trên không gian vectơ. Laplacian tổ hợp khái quát hóa các toán tử tổ hợp Laplace- Beltrami

L =ATCA. Trường hợp độ đo bình thường C=I và L = ATA. Xây dựng Một tổ hợp tích phân của Dirichlet (2).

D[x] =1

2(Ax)TC(Ax) =1

2xTLx =1

2 Wij(xi − xj)2

𝑒𝑖𝑗∈𝐸 , (6)

và một tổ hợp hài hòa là một hàm giảm thiểu x. Từ đó L là bán xác định, chỉ những điểm giới hạn D [x] sẽ là cực tiểu.

Phân vùng các đỉnh thành hai bộ, máy ảo (được đánh dấu / nút hạt giống) và VU (nút không gieo giống) như vậy mà VM∪ VU = V and VM ∩VU = ∅.

Chú ý : VM chứa đựng tất cả các điểm hạt giống, bất kể nhãn của chúng. Chúng ta có thể giả định mà không mất tính tổng quát rằng nút trong L và x được sắp xếp sao cho các nút hạt giống được đầu tiên và các nút không gieo giống là thứ hai. Vì vậy, chúng ta có thể phân tách phương trình (6):

D[xU] =1

2 𝑥𝑀𝑇𝑥𝑈𝑇 𝐿𝐵𝑀𝑇 𝐿𝐵 𝑈 𝑥𝑥𝑀

𝑈 =1

2 𝑥𝑀𝑇𝐿𝑀𝑥𝑀 + 2𝑥𝑈𝑇𝐵𝑇𝑥𝑀 + 𝑥𝑈𝑇𝐿𝑈𝑥𝑈 , (7) Trong đó: xB và xU tương ứng với tiềm năng của các hạt giống và các nút không gieo giống tương ứng. Phân biệt D [xU] đối với xU và tìm kiếm các lợi suất điểm quan trọng.

LUxU = −BT xM, (8)

Là một hệ phương trình tuyến tính với ẩn số | VU |. Nếu đồ thị được kết nối, hoặc nếu tất cả các thành phần kết nối chứa một hạt giống, sau đó phương trình (8) sẽ không đơn lẻ.

Biểu thị xác suất được giả thiết tại nút vi cho mỗi nhãn S bởi 𝑥𝑖𝑠. Xác định tập hợp các nhãn cho các điểm hạt giống như một hàm Q(vj) = s, ∀vj∈ VM, trong đó s ∈ Z, 0 < s ≤ K. Xác định vector | VM | × 1 cho mỗi nhãn s tại nút vj∈ VM như:

𝑚𝑗𝑠 = 1 𝑛ế𝑢 𝑄 𝑣𝑗 = 𝑠

0 𝑛ế𝑢 𝑄 𝑣𝑗 ≠ 𝑠 (9)

Vì vậy, đối với nhãn s, giải pháp cho vấn đề Dirichlet tổ hợp có thể được tìm thấy bằng cách giải quyết.

LUxs= −BT

ms, (10)

chỉ có K-1 hệ thống tuyến tính thưa thớt phải được giải quyết, trong đó K là tổng số nhãn.

2.3.3. Mạch tƣơng tự.

Mặc dù giải thuật đã được thúc đẩy dưới dạng bước ngẫu nhiên, nó cũng được biết có nhiều sự tương đương giữa bước ngẫu nhiên và mạch điện.

Xem xét ba phương trình cơ bản của lý thuyết mạch như sau.

AT z = f (Kirchhoff’s Current Law), (13)

p = Ax + b (Kirchhoff’s Voltage Law), (15)

Cho một vector của các dòng chi nhánh z, nguồn hiện tại e, điện áp nguồn b và tiềm năng giảm (điện áp) p. Ba phương trình có thể được kết hợp vào hệ thống tuyến tính.

ATCAx + ATCb = f, (16)

Lx = f − AT

Cb, (17)

Theo (10), với f = 0 (không có nguồn hiện hành) và vai trò của các nguồn điện áp được thực hiện bởi người dùng định nghĩa hạt giống. Lưu ý rằng (6) cũng có thể được hiểu là điện trong ngữ cảnh lý thuyết mạch (17) và đại diện cho kết quả giảm thiểu được thực hiện bởi thế giới vật chất.

2.3.4. Mối quan hệ để khuếch tán.

Quá trình khuếch tán có một lịch sử đáng kể trong máy tính tầm nhìn và quá trình đó có thể được mô tả bởi bước ngẫu nhiên, nó có ích để kiểm tra mối quan hệ giữa một quá trình khuếch tán và phương pháp tiếp cận hiện tại.

Sự khác biệt cơ bản giữa một phương trình khuếch tán và phương trình Laplace của là khuyếch tán đại diện cho một quá trình quá độ xảy ra trong thời gian, trong khi một phương trình Laplace mô tả sự phân bố trạng thái ổn định. Điều này đơn giản mối quan hệ được minh họa bằng cách kiểm tra các phương trình với nhau:

du dt= ∇2

u (Diffusion equation), (18)

0 = ∇2u (Laplace equation). (19)

Trong thực tế, một mạch tương tự của quá trình khuyếch tán cũng xuất hiện trong bài báo kinh điển của Perona và Malik .Hai công thức mạch khác nhau trong đó các nguồn điện áp (được sử dụng để xác định tiềm năng trạng thái ổn định) được thay thế bằng tụ điện tính cho giá trị đại diện cho một điều kiện ban đầu (được sử

dụng để xác định tiềm năng thoáng qua sau khi một số tiền được xác định trước thời gian có thông qua).

Mặc dù có những điểm tương đồng toán học giữa Laplace và phương trình khuyếch tán, các thuật toán này là rất khác nhau. trong đó giá trị ban đầu màu xám được thực hiện như là điều kiện ban đầu và giải pháp là dừng lại sau khi một số tiền định trước thời gian. Ngược lại, chúng tôi mô tả một số thuật toán phân đoạn ra hạt mà làm cho không sử dụng điều kiện ban đầu và kiểm tra việc phân phối ổn định tiềm năng để xác định biên phân đoạn.

2.4. Phân đoạn ảnh sử dụng Random Walks with Restart.

Vấn đề đặt ra là làm thế nào có thể liên kết chặt chẽ hai nút trong một đồ thị? Làm thế nào để tính toán số điểm này một cách nhanh chóng trên đồ thị thực? Random Walk with restart là giải pháp nhanh chóng cho vấn đề nói trên. RWR cung cấp một số điểm liên quan giữa hai nút trong một đồ thị có trọng số, và RWR đã được sử dụng thành công trong nhiều cài đặt như: phụ đề tự động của hình ảnh, khái quát kết nối đồ thị con,...RWR khai thác hai thuộc tính quan trọng được chia sẻ bởi nhiều đồ thị thực, đó là: mối tương quan tuyến tính và cấu trúc liên kết chặt chẽ [7].

RWR được xác định dựa vào phương trình sau (xem giải nghĩa ký hiệu tại bảng ký hiệu):       i i i cW r c e r (1 ) ~ (2.1)

Xem xét một phần tử ngẫu nhiên bắt đầu từ node i. Nó truyền lặp đi lặp lại đến các node bên với xác suất tỷ lệ thuận với trọng số của cạnh. Tại mỗi bước có xác suất c - khả năng trở lại node i. Kết quả liên quan của node j với node i được định nghĩa là xác suất trạng thái ổn định ri, j mà phần tử đó cuối cùng sẽ quay lại

node j. Trong công thức (2.1) ri



là véctơ trạng thái,

W là ma trận điều chỉnh, (1-c)

xác định khả năng quay trở lại,



Dưới đây là một ví dụ đồ thị 12 node với node 4 khởi đầu và phương trình RWR tương ứng:       i i i cW r c e r (1 ) ~ 0.13 0.10 0.13 0.22 0.13 0.05 0.05 0.08 0.04 0.03 0.04 0.02 = 0.9𝑥 0 1/3 1/3 1/3 0 1/3 0 1/3 0 0 0 0 0 0 0 0 0 0 0 1/3 0 0 0 0 1/3 1/3 0 1/3 0 0 0 0 0 0 0 0 1/3 0 1/3 0 1/3 0 0 0 0 0 0 0 0 0 0 1/4 0 1/4 1/4 1/4 0 0 0 0 0 0 0 0 1/2 0 1/2 0 0 0 0 0 0 0 0 0 1/2 1/2 0 0 0 0 0 0 0 1/4 0 0 1/4 0 0 0 1/4 0 1/4 0 0 0 0 0 0 0 0 1/2 0 1/2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1/3 0 1/3 1/3 0 0 0 0 0 0 0 0 0 0 1/3 0 0 0 1/3 1/2 0 1/2 1/3 0 0.13 0.10 0.13 0.22 0.13 0.05 0.05 0.08 0.04 0.03 0.04 0.02 +0.1x

Tổng quan về phân đoạn ảnh

Phân vùng theo miền đồng nhất