Phân đoạn ảnh sử dụng grabcut

Theo bài báo của “ Boykov và Jolly 2001” về phân đoạn ảnh màu, cho một trimap T ban đầu. Ảnh là một mảng z = ( z1,. . . , zn,. . . , zN) của những giá trị xám, được chỉ số hóa bởi chỉ số N. Phân đoạn ảnh được biểu diễn như một mảng những giá trị " độ mờ "  = (1,. . . , N ) tại mỗi điểm. Điều kiện 0 ≤ ≤ 1, nhưng để phân đoạn cứng n{ 0,1}, với 0 là nền và 1 là đối tượng. Tham số  mô tả sự phân bố mức xám ảnh mặt trước và nền, và gồm có biểu đồ giá trị xám[5]:

Một cho nền và một cho mặt trước. Các biểu đồ được lắp ráp trực tiếp từ pixel có nhãn từ các vùng tương ứng của trimap TB,TF. Nhiệm vụ phân khúc là để suy ra các biến mờ chưa biết α từ các dữ liệu cho hình ảnh z và mô hình θ.

2.2.1. Phân đoạn theo năng lƣợng cực tiểu hóa.

Hàm năng lượng E được xác định là tối thiểu nó phải tương ứng với một phân đoạn tốt. Điều đó có nghĩa là cả mặt trước và nền quan sát trên biểu đồ mức xám và độ mờ là " nhất quán ", phản ánh một xu hướng bền vững của các đối tượng. Được ghi lại bởi một năng lượng "Gibbs" có dạng:

E(α,θ, z) =U(α,θ, z)+V(α, z), (2)

Thuật ngữ dữ liệu U đánh giá sự phù hợp của các phân bố độ mờ α tới dữ liệu z, đưa ra mô hình biểu đồ θ, và được định nghĩa như sau :

U(α,θ, z) = −𝑙𝑜𝑔ℎ(𝑧𝑛 𝑛; ∝𝑛) , (3)

Thuật ngữ smoothness có thể được viết như sau:

V(α, z) = γ 𝑑𝑖𝑠(𝑚, 𝑛)−1[𝛼𝑛 𝛼𝑚] 𝑒𝑥𝑝 − 𝛽(𝑧𝑚 − 𝑧𝑛)2

(𝑛,𝑚)∈𝐶 , (4)

Trong đó [] biểu thị các chức năng chỉ thị cầm lấy những giá trị 0,1 cho một vị từ

, C là tập hợp các cặp điểm ảnh lân cận, và dis (.) là khoảng cách Euclide của các điểm ảnh lân cận. Năng lượng này khuyến khích sự gắn kết trong các khu vực tương tự màucủa mức xám. Trong thực tế, những kết quả tốt thu được bằng cách xác định điểm ảnh láng giềng nếu chúng liền kề theo chiều ngang / chiều dọc hoặc theo đường chéo (kết nối 8 chiều). Khi hằng số 𝛽 = 0, độ xác định γ không đổi.

Hằng số 𝛽 được lựa chọn như sau:

β = (2 (𝑧𝑚 − 𝑧𝑛)2)−1, (5)

Trong đó (.) biểu thị sự mong đợi qua một mẫu ảnh. Sự lựa của β đảm bảo rằng các mức năng lượng theo hàm mũ trong (4) thiết bị chuyển mạch một cách thích hợp giữa độ tương phản cao và tương phản thấp. Hằng số γ thu được là 50

bằng việc tối ưu hóa sự huấn luyện 15 hình ảnh.

Hiện nay các mô hình năng lượng được xác định đầy đủ, phân đoạn có thể được ước tính ở mức tối thiểu global:

𝛼 = arg𝑚𝑖𝑛𝛼 𝐸(𝛼, 𝜃). (6)

Hạn chế tối đa được thực hiện bằng cách sử dụng thuật toán cắt chuẩn tối thiểu. Thuật toán này là nền tảng cho phân đoạn cứng, và phần tiếp theo đưa ra ba hướng phát triển mới của thuật toán phân đoạn cứng trong GrabCut.

Một là, mô hình ảnh đơn sắc được thay thế bằng mô hình màu Gaussian Mixture Model (GMM) ở vị trí biểu đồ.

Hai là, giải thuật ước lượng cắt tối thiểu được thay thế bởi một thủ tục lặp đi lặp lại, mạnh hơn mà xen kẽ giữa ước lượng và tham số học.

Ba là, những yêu cầu tương tác của người dùng giảm nhẹ bằng cách cho phép dán nhãn không đầy đủ, người dùng chỉ định TB cho trimap, và điều này có thể được thực hiện dễ dàng bằng cách đặt một hình chữ nhật hoặc Lasso xung quanh đối tượng.

Hình 2.1 Một số ví dụ của Grabcut

2.2.2. Giải thuật phân đoạn GrabCut.

2.2.2.1. Mô hình dữ liệu màu.

Hình ảnh hiện tại cầm lấy gồm có zn điểm trong không gian màu RGB. Như vậy là không thực tế để cấu trúc những biểu đồ không gian màu phù hợp, chúng tuân theo một quy trình kỹ thuật đã được sử dụng cho phân đoạn yếu và sử dụng GMMs. Mỗi GMM, một cho nền và một cho tiền cảnh, được lấy đi một hiệp biến hoàn chỉnh Gaussian mixture với K thành phần(thường là k=5). Để giao tiếp dễ kiểm soát với GMM, Trong khung tối ưu hóa, một vectơ bổ sung k ={ k1,. . . ,kn,. . . ,kN} được giới thiệu, với kn { 1,. . .K } được gán tới mỗi điểm ảnh, một thành phần duy nhất đơn trị GMM, một thành phần hoặc từ nền hoặc mô hình tiền cảnh, tùy theo n = 0 hoặc 11.

Năng lượng Gibbs (2) cho phân đoạn bây giờ trở thành.

E(α,k,θ, z) =U(α,k,θ, z)+V(α, z), (7)

Tùy thuộc vào các thành phần GMM của biến k. Thuật ngữ dữ liệu U bây giờ được xác định, có tính đến các mô hình GMM màu như.

U(α,k,θ, z) = 𝐷(𝛼𝑛 𝑛, 𝑘𝑛, 𝜃, 𝑧𝑛), (8)

Trong đó, D(αn, kn,θ, zn) = −log p(zn | αn, kn,θ)−logπ(αn, kn) và p(.) là một phân phối xác suất Gaussian, (.) là pha trộn các hệ số gia trọng .

D(αn, kn,θ, zn) = −logπ(αn, kn)+ 1

2logdetΣ(αn, kn)+ 1

2 [zn−µ(αn, kn)]T Σ(αn,kn)−1[zn−µ(αn, kn)]. (9)

Vì vậy, các thông số của mô hình hiện nay.

θ = {π(α, k),µ(α, k),Σ(α, k), α = 0,1, k = 1. . .K} , (10)

Ví dụ: Các trọng số π, có nghĩa là μ và phương sai Σ của 2K Gaussian các thành phần cho nền và phân phối tiền cảnh. Các thuật ngữ thông suốt V về cơ bản là không thay đổi từ ảnh đơn sắc trường hợp (4), ngoại trừ các thuật ngữ tương phản được tính bằng Euclidean khoảng cách trong không gian màu:

V(α, z) = γ [𝛼𝑛 ≠ 𝛼𝑚] 𝑒𝑥𝑝 − 𝛽 𝑧𝑚 − 𝑧𝑛 2

(𝑚,𝑛)∈𝐶 , (11)

2.2.2.2. Phân đoạn theo lặp lại cực tiểu năng lƣợng.

Sơ đồ cực tiểu hóa năng lượng mới trong GrabCut làm việc lặp đi lặp lại, thay cho giải thuật one-shot trước đây. Điều này có lợi thế là cho phép tự động sàng lọc vùng mờ α, như mới được dán nhãn điểm ảnh từ vùng TU của các trimap ban đầu được sử dụng để tinh chỉnh các thông số GMM màu θ.Các yếu tố chính của hệ thống GrabCut được đưa ra trong hình 2.2.

Bước 1: Thực hiện bằng cách liệt kê các giá trị đơn giản của kncho mỗi điểm ảnh n.

Bước 2: Được thực hiện như một tập hợp các thủ tục ước lượng tham số Gaussian, như sau. Đưa ra một thành phần GMM đã cho k trong mô hình tiền cảnh, tập hợp con của các điểm ảnh được định nghĩa F (k) = {zn: kn = k và αn = 1} . Trị trung bình và phương sai được ước tính trong mạng lưới chuẩn nghĩa là mẫu và phương sai của các giá trị điểm ảnh trong F (k) và trọng số là π (α, k) = | F (k) | / Σk | F (k) |, trong đó | S | biểu thị kích thước của một tập S.

Bước 3: Là tối ưu hóa toàn cầu, sử dụng cắt tối thiểu.

Cấu trúc của thuật toán đảm bảo thuộc tính hội tụ đúng, bởi vì mỗi bước 1-3 giảm thiểu việc lặp đi lặp lại có thể được hiển thị một tổng năng lượng E hạn chế tối

đa với ba tập hợp các biến lần lượt là k, θ, và α. Do đó E giảm dần một cách đơn điệu và điều này được minh họa trong thực nghiệm trong hình 2.3. Vì vậy, các thuật toán bảo đảm để hội tụ về ít nhất ở một vị trí nhất định là E. Là đơn giản để phát hiện khi E ngừng làm giảm đáng kể, và chấm dứt lặp tự động.

Khởi tạo

 Người sử dụng khởi tạo trimap T bằng việc cung cấp TB duy nhất. Mặt trước nền là tập hợp TF =  ; TU = 𝑇 𝐵, bổ sung cho mặt sau nền.

 Khởi tạo αn = 0 với n ∈ TB và αn = 1 với n ∈ TU.

 Nền và tiền cảnh GMMs khởi tạo từ bộ αn = 0 và αn = 1 tương ứng.

Lặp Lại Giảm Thiểu

1. Gán các thành phần GMM điểm ảnh: cho mỗi n trong TU kn := arg𝑚𝑖𝑛𝑘𝑛Dn(αn, kn, θ, zn).

2. Tìm hiểu các thông số GMM từ dữ liệu z: θ := arg𝑚𝑖𝑛𝜃U(α, k, θ, z)

3. Phân đoạn dự toán: sử dụng min cut để giải quyết.

E(α, k, θ, z). 𝑘

𝑚𝑖𝑛 {∝𝑛: 𝑛∈ 𝑇𝑈 }

min

4. Lặp lại từ bước 1, cho đến sự quy tụ. 5. Áp dụng sự kết búi viền.

Ngƣời dùng chỉnh sửa

 Sửa: sửa lỗi một số điểm ảnh hoặc là để αn = 0 (vẽ lên nền) hoặc αn = 1 (phía trước vẽ lên); cập nhật trimap T cho phù hợp. Thực hiện bước 3 ở trên chỉ

một lần.

 Tinh chỉnh hoạt động: [tùy chọn] thực hiện lặp đi lặp lại toàn bộ thuật toán giảm thiểu.

Hình 2.2 Phân đoạn ảnh Lặp đi lặp lại ở GrabCut.

Hình 2. 3 Sự Quy tụ cực tiểu hóa lặp đi lặp lại

2.2.2.3. Tƣơng tác ngƣời sử dụng và trimap không đầy đủ.

Trimaps không đầy đủ. Thuật toán lặp đi lặp lại giảm thiểu cho phép tăng

tính linh hoạt của tương tác người dùng. Đặc biệt, nơi dán nhãn không đầy đủ cho phép ở vị trí của trimap đầy đủ T, người sử dụng cần chỉ định khu vực nền TB, còn lại TF = 0. Không khó để dán tất cả các nhãn ở tiền cảnh.

Lặp lại giảm thiểu được đề cập ở (hình 2.2) bằng cách cho phép dán các nhãn không hoàn chỉnh tới một số điểm ảnh (tại tiền cảnh) sau đó có thể được co lại,chỉ có nền được nhãn TB là không được rút lại. Trong quá trình thực hiện TB ban đầu được xác định bởi người sử dụng như một dải các điểm ảnh xung quanh bên ngoài của hình chữ nhật được đánh dấu (đánh dấu màu đỏ trong hình 2.1).

Hình 2.4 Ngƣời dùng hiệu chỉnh.

2.3. Phân đoạn ảnh sử dụng Random Walks.

Thuật toán random walker đã được thúc đẩy trong việc giới thiệu bằng cách đi bộ ngẫu nhiên tại các điểm ảnh và ghi nhớ những hạt giống mà chúng đến lần đầu, một phương pháp tính toán như vậy sẽ là không thực tế. Thiết lập những kết nối giữa bước ngẫu nhiên và lý thuyết mạch, cung cấp cho chúng ta một phương pháp đơn giản thuận tiện cho phân tích tính toán xác suất mong muốn. Phần này mô tả ba khía cạnh của thuật toán: Tạo các trọng số đồ thị, thiết lập hệ phương trình để giải quyết vấn đề và thực hiện các chi tiết thực tế [6].

Một đồ thị bao gồm một cặp G = (V, E) với đỉnh (node) v V và cạnh e  E

 V × V. Một cạnh, e, nối hai đỉnh, vi và vj, được ký hiệu là eij. Một đồ thị có trọng số gán một giá trị cho mỗi cạnh được gọi là trọng số. Trọng số của cạnh eij được ký hiệu là w (eij) hoặc wij. Bậc của một đỉnh là di = w (eij) cho tất cả các cạnh eij có liên quan đến vi (điều kiện wij> 0).

Phân đoạn tự động

Phân đoạn tự động Tương tác

2.3.1. Trọng số cạnh.

Để đại diện cho cấu trúc hình ảnh (đã cho tại những điểm ảnh) bởi sự sai lệch bước ngẫu nhiên (tức là trọng số cạnh), người ta định nghĩa một hàm ánh xạ thay đổi trong cường độ hình ảnh với trọng số cạnh. Đây là một đặc tính chung của thuật toán dựa trên đồ thị để phân tích ảnh.

Ngoài ra, nó đã được đề xuất để sử dụng một chức năng làm cực đại entropy của các trọng số kết quả. Hàm trọng số Gaussian.

wij = exp (−β(gi − gj)2), (1)

Trong đó: gi chỉ cường độ ảnh tại điểm i. Giá trị β là tham số tự do. Chúng tôi đã tìm thấy nó hữu ích để bình thường hóa các gradient vuông (gi - gj)2 ∀eij ∈ E

trước khi áp dụng (1). Tất nhiên, (1) có thể được sửa đổi để xử lý màu hoặc giá trị dữ liệu vector được thay thế bằng (gi - gj)2 với ||gi - gj|| được đánh giá cho một vector gi .

2.3.2. Vấn đề Dirichlet Tổ hợp

Dirichlet integral có thể được xác định như sau:

D[u] = 1

2 |𝛻𝑢|Ω 2dΩ, (2)

Trong đó u là trường và Ω là vùng. Tích phân xuất hiện trong các tình huống vật lý bao gồm sự truyền nhiệt,điện tĩnh học và bước ngẫu nhiên.

Một hàm điều hòa có chức năng đáp ứng được phương trình Laplace.

∇2

u = 0. (3)

Việc tìm một đối tượng của hàm hài hòa giá trị biên của nó được gọi là bài toán Dirichlet. Hàm điều hòa thoả mãn những điều kiện đường biên yếu.

𝐿𝑖𝑗 = 𝑑𝑖 −𝑤𝑖𝑗 0 Nế𝑢 𝑖 = 𝑗, Nế𝑢 𝑣𝑖 𝑣à 𝑣𝑗 𝐶ò𝑛 𝑙ạ𝑖, 𝑙à 𝑐á𝑐 đỉ𝑛ℎ, (4) Trong đó Lijlà chỉ số của đỉnh vivà vj.

Xác định ma trận liên thuộc của nút cạnh như sau:

𝐴𝑒𝑖𝑗𝑣𝑘 = +1−1 0 Nế𝑢 𝑖 = 𝑘, Nế𝑢 𝑗 = 𝑘, 𝐶ò𝑛 𝑙ạ𝑖, (5)

Với mọi đỉnh vk và tất cả các cạnh eij liền kề đều được gán một định hướng,

𝐴𝑒𝑖𝑗𝑣𝑘 được dùng để chỉ sự tác động của ma trận tới cạnh eij và đỉnh vk.

Xác định ma trận m x m với C là đường chéo của ma trận với trọng số của mỗi cạnh dọc theo đường chéo. Laplacian tổ hợp đẳng hướng là thành phần của toán tử tổ hợp phân kỳ với toán tử tổ hợp gradient, L = AT

A ma trận cấu thành được giải thích như việc đại diện cho một tích vô hướng có trọng số trên không gian vectơ. Laplacian tổ hợp khái quát hóa các toán tử tổ hợp Laplace- Beltrami

L =ATCA. Trường hợp độ đo bình thường C=I và L = ATA. Xây dựng Một tổ hợp tích phân của Dirichlet (2).

D[x] =1

2(Ax)TC(Ax) =1

2xTLx =1

2 Wij(xi − xj)2

𝑒𝑖𝑗∈𝐸 , (6)

và một tổ hợp hài hòa là một hàm giảm thiểu x. Từ đó L là bán xác định, chỉ những điểm giới hạn D [x] sẽ là cực tiểu.

Phân vùng các đỉnh thành hai bộ, máy ảo (được đánh dấu / nút hạt giống) và VU (nút không gieo giống) như vậy mà VM∪ VU = V and VM ∩VU = ∅.

Chú ý : VM chứa đựng tất cả các điểm hạt giống, bất kể nhãn của chúng. Chúng ta có thể giả định mà không mất tính tổng quát rằng nút trong L và x được sắp xếp sao cho các nút hạt giống được đầu tiên và các nút không gieo giống là thứ hai. Vì vậy, chúng ta có thể phân tách phương trình (6):

D[xU] =1

2 𝑥𝑀𝑇𝑥𝑈𝑇 𝐿𝐵𝑀𝑇 𝐿𝐵 𝑈 𝑥𝑥𝑀

𝑈 =1

2 𝑥𝑀𝑇𝐿𝑀𝑥𝑀 + 2𝑥𝑈𝑇𝐵𝑇𝑥𝑀 + 𝑥𝑈𝑇𝐿𝑈𝑥𝑈 , (7) Trong đó: xB và xU tương ứng với tiềm năng của các hạt giống và các nút không gieo giống tương ứng. Phân biệt D [xU] đối với xU và tìm kiếm các lợi suất điểm quan trọng.

LUxU = −BT xM, (8)

Là một hệ phương trình tuyến tính với ẩn số | VU |. Nếu đồ thị được kết nối, hoặc nếu tất cả các thành phần kết nối chứa một hạt giống, sau đó phương trình (8) sẽ không đơn lẻ.

Biểu thị xác suất được giả thiết tại nút vi cho mỗi nhãn S bởi 𝑥𝑖𝑠. Xác định tập hợp các nhãn cho các điểm hạt giống như một hàm Q(vj) = s, ∀vj∈ VM, trong đó s ∈ Z, 0 < s ≤ K. Xác định vector | VM | × 1 cho mỗi nhãn s tại nút vj∈ VM như:

𝑚𝑗𝑠 = 1 𝑛ế𝑢 𝑄 𝑣𝑗 = 𝑠

0 𝑛ế𝑢 𝑄 𝑣𝑗 ≠ 𝑠 (9)

Vì vậy, đối với nhãn s, giải pháp cho vấn đề Dirichlet tổ hợp có thể được tìm thấy bằng cách giải quyết.

LUxs= −BT

ms, (10)

chỉ có K-1 hệ thống tuyến tính thưa thớt phải được giải quyết, trong đó K là tổng số nhãn.

2.3.3. Mạch tƣơng tự.

Mặc dù giải thuật đã được thúc đẩy dưới dạng bước ngẫu nhiên, nó cũng được biết có nhiều sự tương đương giữa bước ngẫu nhiên và mạch điện.

Xem xét ba phương trình cơ bản của lý thuyết mạch như sau.

AT z = f (Kirchhoff’s Current Law), (13)

p = Ax + b (Kirchhoff’s Voltage Law), (15)

Cho một vector của các dòng chi nhánh z, nguồn hiện tại e, điện áp nguồn b và tiềm năng giảm (điện áp) p. Ba phương trình có thể được kết hợp vào hệ thống tuyến tính.

ATCAx + ATCb = f, (16)

Lx = f − AT

Cb, (17)

Theo (10), với f = 0 (không có nguồn hiện hành) và vai trò của các nguồn điện áp được thực hiện bởi người dùng định nghĩa hạt giống. Lưu ý rằng (6) cũng có thể được hiểu là điện trong ngữ cảnh lý thuyết mạch (17) và đại diện cho kết quả giảm thiểu được thực hiện bởi thế giới vật chất.

2.3.4. Mối quan hệ để khuếch tán.

Quá trình khuếch tán có một lịch sử đáng kể trong máy tính tầm nhìn và quá trình đó có thể được mô tả bởi bước ngẫu nhiên, nó có ích để kiểm tra mối quan hệ giữa một quá trình khuếch tán và phương pháp tiếp cận hiện tại.

Sự khác biệt cơ bản giữa một phương trình khuếch tán và phương trình Laplace của là khuyếch tán đại diện cho một quá trình quá độ xảy ra trong thời gian, trong khi một phương trình Laplace mô tả sự phân bố trạng thái ổn định. Điều này đơn giản mối quan hệ được minh họa bằng cách kiểm tra các phương trình với nhau:

du dt= ∇2

u (Diffusion equation), (18)

0 = ∇2u (Laplace equation). (19)

Trong thực tế, một mạch tương tự của quá trình khuyếch tán cũng xuất hiện trong bài báo kinh điển của Perona và Malik .Hai công thức mạch khác nhau trong

Tổng quan về phân đoạn ảnh

Phân vùng theo miền đồng nhất