Theo bài báo của “ Boykov và Jolly 2001” về phân đoạn ảnh màu, cho một trimap T ban đầu. Ảnh là một mảng z = ( z1,. . . , zn,. . . , zN) của những giá trị xám, được chỉ số hóa bởi chỉ số N. Phân đoạn ảnh được biểu diễn như một mảng những giá trị " độ mờ " = (1,. . . , N ) tại mỗi điểm. Điều kiện 0 ≤ ≤ 1, nhưng để phân đoạn cứng n{ 0,1}, với 0 là nền và 1 là đối tượng. Tham số mô tả sự phân bố mức xám ảnh mặt trước và nền, và gồm có biểu đồ giá trị xám[5]:
Một cho nền và một cho mặt trước. Các biểu đồ được lắp ráp trực tiếp từ pixel có nhãn từ các vùng tương ứng của trimap TB,TF. Nhiệm vụ phân khúc là để suy ra các biến mờ chưa biết α từ các dữ liệu cho hình ảnh z và mô hình θ.
2.2.1. Phân đoạn theo năng lƣợng cực tiểu hóa.
Hàm năng lượng E được xác định là tối thiểu nó phải tương ứng với một phân đoạn tốt. Điều đó có nghĩa là cả mặt trước và nền quan sát trên biểu đồ mức xám và độ mờ là " nhất quán ", phản ánh một xu hướng bền vững của các đối tượng. Được ghi lại bởi một năng lượng "Gibbs" có dạng:
E(α,θ, z) =U(α,θ, z)+V(α, z), (2)
Thuật ngữ dữ liệu U đánh giá sự phù hợp của các phân bố độ mờ α tới dữ liệu z, đưa ra mô hình biểu đồ θ, và được định nghĩa như sau :
U(α,θ, z) = −𝑙𝑜𝑔ℎ(𝑧𝑛 𝑛; ∝𝑛) , (3)
Thuật ngữ smoothness có thể được viết như sau:
V(α, z) = γ 𝑑𝑖𝑠(𝑚, 𝑛)−1[𝛼𝑛 𝛼𝑚] 𝑒𝑥𝑝 − 𝛽(𝑧𝑚 − 𝑧𝑛)2
(𝑛,𝑚)∈𝐶 , (4)
Trong đó [] biểu thị các chức năng chỉ thị cầm lấy những giá trị 0,1 cho một vị từ
, C là tập hợp các cặp điểm ảnh lân cận, và dis (.) là khoảng cách Euclide của các điểm ảnh lân cận. Năng lượng này khuyến khích sự gắn kết trong các khu vực tương tự màucủa mức xám. Trong thực tế, những kết quả tốt thu được bằng cách xác định điểm ảnh láng giềng nếu chúng liền kề theo chiều ngang / chiều dọc hoặc theo đường chéo (kết nối 8 chiều). Khi hằng số 𝛽 = 0, độ xác định γ không đổi.
Hằng số 𝛽 được lựa chọn như sau:
β = (2 (𝑧𝑚 − 𝑧𝑛)2)−1, (5)
Trong đó (.) biểu thị sự mong đợi qua một mẫu ảnh. Sự lựa của β đảm bảo rằng các mức năng lượng theo hàm mũ trong (4) thiết bị chuyển mạch một cách thích hợp giữa độ tương phản cao và tương phản thấp. Hằng số γ thu được là 50
bằng việc tối ưu hóa sự huấn luyện 15 hình ảnh.
Hiện nay các mô hình năng lượng được xác định đầy đủ, phân đoạn có thể được ước tính ở mức tối thiểu global:
𝛼 = arg𝑚𝑖𝑛𝛼 𝐸(𝛼, 𝜃). (6)
Hạn chế tối đa được thực hiện bằng cách sử dụng thuật toán cắt chuẩn tối thiểu. Thuật toán này là nền tảng cho phân đoạn cứng, và phần tiếp theo đưa ra ba hướng phát triển mới của thuật toán phân đoạn cứng trong GrabCut.
Một là, mô hình ảnh đơn sắc được thay thế bằng mô hình màu Gaussian Mixture Model (GMM) ở vị trí biểu đồ.
Hai là, giải thuật ước lượng cắt tối thiểu được thay thế bởi một thủ tục lặp đi lặp lại, mạnh hơn mà xen kẽ giữa ước lượng và tham số học.
Ba là, những yêu cầu tương tác của người dùng giảm nhẹ bằng cách cho phép dán nhãn không đầy đủ, người dùng chỉ định TB cho trimap, và điều này có thể được thực hiện dễ dàng bằng cách đặt một hình chữ nhật hoặc Lasso xung quanh đối tượng.
Hình 2.1 Một số ví dụ của Grabcut
2.2.2. Giải thuật phân đoạn GrabCut.
2.2.2.1. Mô hình dữ liệu màu.
Hình ảnh hiện tại cầm lấy gồm có zn điểm trong không gian màu RGB. Như vậy là không thực tế để cấu trúc những biểu đồ không gian màu phù hợp, chúng tuân theo một quy trình kỹ thuật đã được sử dụng cho phân đoạn yếu và sử dụng GMMs. Mỗi GMM, một cho nền và một cho tiền cảnh, được lấy đi một hiệp biến hoàn chỉnh Gaussian mixture với K thành phần(thường là k=5). Để giao tiếp dễ kiểm soát với GMM, Trong khung tối ưu hóa, một vectơ bổ sung k ={ k1,. . . ,kn,. . . ,kN} được giới thiệu, với kn { 1,. . .K } được gán tới mỗi điểm ảnh, một thành phần duy nhất đơn trị GMM, một thành phần hoặc từ nền hoặc mô hình tiền cảnh, tùy theo n = 0 hoặc 11.
Năng lượng Gibbs (2) cho phân đoạn bây giờ trở thành.
E(α,k,θ, z) =U(α,k,θ, z)+V(α, z), (7)
Tùy thuộc vào các thành phần GMM của biến k. Thuật ngữ dữ liệu U bây giờ được xác định, có tính đến các mô hình GMM màu như.
U(α,k,θ, z) = 𝐷(𝛼𝑛 𝑛, 𝑘𝑛, 𝜃, 𝑧𝑛), (8)
Trong đó, D(αn, kn,θ, zn) = −log p(zn | αn, kn,θ)−logπ(αn, kn) và p(.) là một phân phối xác suất Gaussian, (.) là pha trộn các hệ số gia trọng .
D(αn, kn,θ, zn) = −logπ(αn, kn)+ 1
2logdetΣ(αn, kn)+ 1
2 [zn−µ(αn, kn)]T Σ(αn,kn)−1[zn−µ(αn, kn)]. (9)
Vì vậy, các thông số của mô hình hiện nay.
θ = {π(α, k),µ(α, k),Σ(α, k), α = 0,1, k = 1. . .K} , (10)
Ví dụ: Các trọng số π, có nghĩa là μ và phương sai Σ của 2K Gaussian các thành phần cho nền và phân phối tiền cảnh. Các thuật ngữ thông suốt V về cơ bản là không thay đổi từ ảnh đơn sắc trường hợp (4), ngoại trừ các thuật ngữ tương phản được tính bằng Euclidean khoảng cách trong không gian màu:
V(α, z) = γ [𝛼𝑛 ≠ 𝛼𝑚] 𝑒𝑥𝑝 − 𝛽 𝑧𝑚 − 𝑧𝑛 2
(𝑚,𝑛)∈𝐶 , (11)
2.2.2.2. Phân đoạn theo lặp lại cực tiểu năng lƣợng.
Sơ đồ cực tiểu hóa năng lượng mới trong GrabCut làm việc lặp đi lặp lại, thay cho giải thuật one-shot trước đây. Điều này có lợi thế là cho phép tự động sàng lọc vùng mờ α, như mới được dán nhãn điểm ảnh từ vùng TU của các trimap ban đầu được sử dụng để tinh chỉnh các thông số GMM màu θ.Các yếu tố chính của hệ thống GrabCut được đưa ra trong hình 2.2.
Bước 1: Thực hiện bằng cách liệt kê các giá trị đơn giản của kncho mỗi điểm ảnh n.
Bước 2: Được thực hiện như một tập hợp các thủ tục ước lượng tham số Gaussian, như sau. Đưa ra một thành phần GMM đã cho k trong mô hình tiền cảnh, tập hợp con của các điểm ảnh được định nghĩa F (k) = {zn: kn = k và αn = 1} . Trị trung bình và phương sai được ước tính trong mạng lưới chuẩn nghĩa là mẫu và phương sai của các giá trị điểm ảnh trong F (k) và trọng số là π (α, k) = | F (k) | / Σk | F (k) |, trong đó | S | biểu thị kích thước của một tập S.
Bước 3: Là tối ưu hóa toàn cầu, sử dụng cắt tối thiểu.
Cấu trúc của thuật toán đảm bảo thuộc tính hội tụ đúng, bởi vì mỗi bước 1-3 giảm thiểu việc lặp đi lặp lại có thể được hiển thị một tổng năng lượng E hạn chế tối
đa với ba tập hợp các biến lần lượt là k, θ, và α. Do đó E giảm dần một cách đơn điệu và điều này được minh họa trong thực nghiệm trong hình 2.3. Vì vậy, các thuật toán bảo đảm để hội tụ về ít nhất ở một vị trí nhất định là E. Là đơn giản để phát hiện khi E ngừng làm giảm đáng kể, và chấm dứt lặp tự động.
Khởi tạo
Người sử dụng khởi tạo trimap T bằng việc cung cấp TB duy nhất. Mặt trước nền là tập hợp TF = ; TU = 𝑇 𝐵, bổ sung cho mặt sau nền.
Khởi tạo αn = 0 với n ∈ TB và αn = 1 với n ∈ TU.
Nền và tiền cảnh GMMs khởi tạo từ bộ αn = 0 và αn = 1 tương ứng.
Lặp Lại Giảm Thiểu
1. Gán các thành phần GMM điểm ảnh: cho mỗi n trong TU kn := arg𝑚𝑖𝑛𝑘𝑛Dn(αn, kn, θ, zn).
2. Tìm hiểu các thông số GMM từ dữ liệu z: θ := arg𝑚𝑖𝑛𝜃U(α, k, θ, z)
3. Phân đoạn dự toán: sử dụng min cut để giải quyết.
E(α, k, θ, z). 𝑘
𝑚𝑖𝑛 {∝𝑛: 𝑛∈ 𝑇𝑈 }
min
4. Lặp lại từ bước 1, cho đến sự quy tụ. 5. Áp dụng sự kết búi viền.
Ngƣời dùng chỉnh sửa
Sửa: sửa lỗi một số điểm ảnh hoặc là để αn = 0 (vẽ lên nền) hoặc αn = 1 (phía trước vẽ lên); cập nhật trimap T cho phù hợp. Thực hiện bước 3 ở trên chỉ
một lần.
Tinh chỉnh hoạt động: [tùy chọn] thực hiện lặp đi lặp lại toàn bộ thuật toán giảm thiểu.
Hình 2.2 Phân đoạn ảnh Lặp đi lặp lại ở GrabCut.
Hình 2. 3 Sự Quy tụ cực tiểu hóa lặp đi lặp lại
2.2.2.3. Tƣơng tác ngƣời sử dụng và trimap không đầy đủ.
Trimaps không đầy đủ. Thuật toán lặp đi lặp lại giảm thiểu cho phép tăng
tính linh hoạt của tương tác người dùng. Đặc biệt, nơi dán nhãn không đầy đủ cho phép ở vị trí của trimap đầy đủ T, người sử dụng cần chỉ định khu vực nền TB, còn lại TF = 0. Không khó để dán tất cả các nhãn ở tiền cảnh.
Lặp lại giảm thiểu được đề cập ở (hình 2.2) bằng cách cho phép dán các nhãn không hoàn chỉnh tới một số điểm ảnh (tại tiền cảnh) sau đó có thể được co lại,chỉ có nền được nhãn TB là không được rút lại. Trong quá trình thực hiện TB ban đầu được xác định bởi người sử dụng như một dải các điểm ảnh xung quanh bên ngoài của hình chữ nhật được đánh dấu (đánh dấu màu đỏ trong hình 2.1).
Hình 2.4 Ngƣời dùng hiệu chỉnh.
2.3. Phân đoạn ảnh sử dụng Random Walks.
Thuật toán random walker đã được thúc đẩy trong việc giới thiệu bằng cách đi bộ ngẫu nhiên tại các điểm ảnh và ghi nhớ những hạt giống mà chúng đến lần đầu, một phương pháp tính toán như vậy sẽ là không thực tế. Thiết lập những kết nối giữa bước ngẫu nhiên và lý thuyết mạch, cung cấp cho chúng ta một phương pháp đơn giản thuận tiện cho phân tích tính toán xác suất mong muốn. Phần này mô tả ba khía cạnh của thuật toán: Tạo các trọng số đồ thị, thiết lập hệ phương trình để giải quyết vấn đề và thực hiện các chi tiết thực tế [6].
Một đồ thị bao gồm một cặp G = (V, E) với đỉnh (node) v V và cạnh e E
V × V. Một cạnh, e, nối hai đỉnh, vi và vj, được ký hiệu là eij. Một đồ thị có trọng số gán một giá trị cho mỗi cạnh được gọi là trọng số. Trọng số của cạnh eij được ký hiệu là w (eij) hoặc wij. Bậc của một đỉnh là di = w (eij) cho tất cả các cạnh eij có liên quan đến vi (điều kiện wij> 0).
Phân đoạn tự động
Phân đoạn tự động Tương tác
2.3.1. Trọng số cạnh.
Để đại diện cho cấu trúc hình ảnh (đã cho tại những điểm ảnh) bởi sự sai lệch bước ngẫu nhiên (tức là trọng số cạnh), người ta định nghĩa một hàm ánh xạ thay đổi trong cường độ hình ảnh với trọng số cạnh. Đây là một đặc tính chung của thuật toán dựa trên đồ thị để phân tích ảnh.
Ngoài ra, nó đã được đề xuất để sử dụng một chức năng làm cực đại entropy của các trọng số kết quả. Hàm trọng số Gaussian.
wij = exp (−β(gi − gj)2), (1)
Trong đó: gi chỉ cường độ ảnh tại điểm i. Giá trị β là tham số tự do. Chúng tôi đã tìm thấy nó hữu ích để bình thường hóa các gradient vuông (gi - gj)2 ∀eij ∈ E
trước khi áp dụng (1). Tất nhiên, (1) có thể được sửa đổi để xử lý màu hoặc giá trị dữ liệu vector được thay thế bằng (gi - gj)2 với ||gi - gj|| được đánh giá cho một vector gi .
2.3.2. Vấn đề Dirichlet Tổ hợp
Dirichlet integral có thể được xác định như sau:
D[u] = 1
2 |𝛻𝑢|Ω 2dΩ, (2)
Trong đó u là trường và Ω là vùng. Tích phân xuất hiện trong các tình huống vật lý bao gồm sự truyền nhiệt,điện tĩnh học và bước ngẫu nhiên.
Một hàm điều hòa có chức năng đáp ứng được phương trình Laplace.
∇2
u = 0. (3)
Việc tìm một đối tượng của hàm hài hòa giá trị biên của nó được gọi là bài toán Dirichlet. Hàm điều hòa thoả mãn những điều kiện đường biên yếu.
𝐿𝑖𝑗 = 𝑑𝑖 −𝑤𝑖𝑗 0 Nế𝑢 𝑖 = 𝑗, Nế𝑢 𝑣𝑖 𝑣à 𝑣𝑗 𝐶ò𝑛 𝑙ạ𝑖, 𝑙à 𝑐á𝑐 đỉ𝑛ℎ, (4) Trong đó Lijlà chỉ số của đỉnh vivà vj.
Xác định ma trận liên thuộc của nút cạnh như sau:
𝐴𝑒𝑖𝑗𝑣𝑘 = +1−1 0 Nế𝑢 𝑖 = 𝑘, Nế𝑢 𝑗 = 𝑘, 𝐶ò𝑛 𝑙ạ𝑖, (5)
Với mọi đỉnh vk và tất cả các cạnh eij liền kề đều được gán một định hướng,
𝐴𝑒𝑖𝑗𝑣𝑘 được dùng để chỉ sự tác động của ma trận tới cạnh eij và đỉnh vk.
Xác định ma trận m x m với C là đường chéo của ma trận với trọng số của mỗi cạnh dọc theo đường chéo. Laplacian tổ hợp đẳng hướng là thành phần của toán tử tổ hợp phân kỳ với toán tử tổ hợp gradient, L = AT
A ma trận cấu thành được giải thích như việc đại diện cho một tích vô hướng có trọng số trên không gian vectơ. Laplacian tổ hợp khái quát hóa các toán tử tổ hợp Laplace- Beltrami
L =ATCA. Trường hợp độ đo bình thường C=I và L = ATA. Xây dựng Một tổ hợp tích phân của Dirichlet (2).
D[x] =1
2(Ax)TC(Ax) =1
2xTLx =1
2 Wij(xi − xj)2
𝑒𝑖𝑗∈𝐸 , (6)
và một tổ hợp hài hòa là một hàm giảm thiểu x. Từ đó L là bán xác định, chỉ những điểm giới hạn D [x] sẽ là cực tiểu.
Phân vùng các đỉnh thành hai bộ, máy ảo (được đánh dấu / nút hạt giống) và VU (nút không gieo giống) như vậy mà VM∪ VU = V and VM ∩VU = ∅.
Chú ý : VM chứa đựng tất cả các điểm hạt giống, bất kể nhãn của chúng. Chúng ta có thể giả định mà không mất tính tổng quát rằng nút trong L và x được sắp xếp sao cho các nút hạt giống được đầu tiên và các nút không gieo giống là thứ hai. Vì vậy, chúng ta có thể phân tách phương trình (6):
D[xU] =1
2 𝑥𝑀𝑇𝑥𝑈𝑇 𝐿𝐵𝑀𝑇 𝐿𝐵 𝑈 𝑥𝑥𝑀
𝑈 =1
2 𝑥𝑀𝑇𝐿𝑀𝑥𝑀 + 2𝑥𝑈𝑇𝐵𝑇𝑥𝑀 + 𝑥𝑈𝑇𝐿𝑈𝑥𝑈 , (7) Trong đó: xB và xU tương ứng với tiềm năng của các hạt giống và các nút không gieo giống tương ứng. Phân biệt D [xU] đối với xU và tìm kiếm các lợi suất điểm quan trọng.
LUxU = −BT xM, (8)
Là một hệ phương trình tuyến tính với ẩn số | VU |. Nếu đồ thị được kết nối, hoặc nếu tất cả các thành phần kết nối chứa một hạt giống, sau đó phương trình (8) sẽ không đơn lẻ.
Biểu thị xác suất được giả thiết tại nút vi cho mỗi nhãn S bởi 𝑥𝑖𝑠. Xác định tập hợp các nhãn cho các điểm hạt giống như một hàm Q(vj) = s, ∀vj∈ VM, trong đó s ∈ Z, 0 < s ≤ K. Xác định vector | VM | × 1 cho mỗi nhãn s tại nút vj∈ VM như:
𝑚𝑗𝑠 = 1 𝑛ế𝑢 𝑄 𝑣𝑗 = 𝑠
0 𝑛ế𝑢 𝑄 𝑣𝑗 ≠ 𝑠 (9)
Vì vậy, đối với nhãn s, giải pháp cho vấn đề Dirichlet tổ hợp có thể được tìm thấy bằng cách giải quyết.
LUxs= −BT
ms, (10)
chỉ có K-1 hệ thống tuyến tính thưa thớt phải được giải quyết, trong đó K là tổng số nhãn.
2.3.3. Mạch tƣơng tự.
Mặc dù giải thuật đã được thúc đẩy dưới dạng bước ngẫu nhiên, nó cũng được biết có nhiều sự tương đương giữa bước ngẫu nhiên và mạch điện.
Xem xét ba phương trình cơ bản của lý thuyết mạch như sau.
AT z = f (Kirchhoff’s Current Law), (13)
p = Ax + b (Kirchhoff’s Voltage Law), (15)
Cho một vector của các dòng chi nhánh z, nguồn hiện tại e, điện áp nguồn b và tiềm năng giảm (điện áp) p. Ba phương trình có thể được kết hợp vào hệ thống tuyến tính.
ATCAx + ATCb = f, (16)
Lx = f − AT
Cb, (17)
Theo (10), với f = 0 (không có nguồn hiện hành) và vai trò của các nguồn điện áp được thực hiện bởi người dùng định nghĩa hạt giống. Lưu ý rằng (6) cũng có thể được hiểu là điện trong ngữ cảnh lý thuyết mạch (17) và đại diện cho kết quả giảm thiểu được thực hiện bởi thế giới vật chất.
2.3.4. Mối quan hệ để khuếch tán.
Quá trình khuếch tán có một lịch sử đáng kể trong máy tính tầm nhìn và quá trình đó có thể được mô tả bởi bước ngẫu nhiên, nó có ích để kiểm tra mối quan hệ giữa một quá trình khuếch tán và phương pháp tiếp cận hiện tại.
Sự khác biệt cơ bản giữa một phương trình khuếch tán và phương trình Laplace của là khuyếch tán đại diện cho một quá trình quá độ xảy ra trong thời gian, trong khi một phương trình Laplace mô tả sự phân bố trạng thái ổn định. Điều này đơn giản mối quan hệ được minh họa bằng cách kiểm tra các phương trình với nhau:
du dt= ∇2
u (Diffusion equation), (18)
0 = ∇2u (Laplace equation). (19)
Trong thực tế, một mạch tương tự của quá trình khuyếch tán cũng xuất hiện trong bài báo kinh điển của Perona và Malik .Hai công thức mạch khác nhau trong