Giải thuật phân đoạn GrabCut

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin Phân tích một số phương pháp phân đoạn ảnh có giám sát (Trang 52 - 80)

2.2.2.1. Mô hình dữ liệu màu.

Hình ảnh hiện tại cầm lấy gồm có zn điểm trong không gian màu RGB. Như vậy là không thực tế để cấu trúc những biểu đồ không gian màu phù hợp, chúng tuân theo một quy trình kỹ thuật đã được sử dụng cho phân đoạn yếu và sử dụng GMMs. Mỗi GMM, một cho nền và một cho tiền cảnh, được lấy đi một hiệp biến hoàn chỉnh Gaussian mixture với K thành phần(thường là k=5). Để giao tiếp dễ kiểm soát với GMM, Trong khung tối ưu hóa, một vectơ bổ sung k ={ k1,. . . ,kn,. . . ,kN} được giới thiệu, với kn { 1,. . .K } được gán tới mỗi điểm ảnh, một thành phần duy nhất đơn trị GMM, một thành phần hoặc từ nền hoặc mô hình tiền cảnh, tùy theo n = 0 hoặc 11.

Năng lượng Gibbs (2) cho phân đoạn bây giờ trở thành.

E(α,k,θ, z) =U(α,k,θ, z)+V(α, z), (7)

Tùy thuộc vào các thành phần GMM của biến k. Thuật ngữ dữ liệu U bây giờ được xác định, có tính đến các mô hình GMM màu như.

U(α,k,θ, z) = 𝐷(𝛼𝑛 𝑛, 𝑘𝑛, 𝜃, 𝑧𝑛), (8)

Trong đó, D(αn, kn,θ, zn) = −log p(zn | αn, kn,θ)−logπ(αn, kn) và p(.) là một phân phối xác suất Gaussian, (.) là pha trộn các hệ số gia trọng .

D(αn, kn,θ, zn) = −logπ(αn, kn)+ 1

2logdetΣ(αn, kn)+ 1

2 [zn−µ(αn, kn)]T Σ(αn,kn)−1[zn−µ(αn, kn)]. (9)

Vì vậy, các thông số của mô hình hiện nay.

θ = {π(α, k),µ(α, k),Σ(α, k), α = 0,1, k = 1. . .K} , (10)

Ví dụ: Các trọng số π, có nghĩa là μ và phương sai Σ của 2K Gaussian các thành phần cho nền và phân phối tiền cảnh. Các thuật ngữ thông suốt V về cơ bản là không thay đổi từ ảnh đơn sắc trường hợp (4), ngoại trừ các thuật ngữ tương phản được tính bằng Euclidean khoảng cách trong không gian màu:

V(α, z) = γ [𝛼𝑛 ≠ 𝛼𝑚] 𝑒𝑥𝑝 − 𝛽 𝑧𝑚 − 𝑧𝑛 2

(𝑚,𝑛)∈𝐶 , (11)

2.2.2.2. Phân đoạn theo lặp lại cực tiểu năng lƣợng.

Sơ đồ cực tiểu hóa năng lượng mới trong GrabCut làm việc lặp đi lặp lại, thay cho giải thuật one-shot trước đây. Điều này có lợi thế là cho phép tự động sàng lọc vùng mờ α, như mới được dán nhãn điểm ảnh từ vùng TU của các trimap ban đầu được sử dụng để tinh chỉnh các thông số GMM màu θ.Các yếu tố chính của hệ thống GrabCut được đưa ra trong hình 2.2.

Bước 1: Thực hiện bằng cách liệt kê các giá trị đơn giản của kncho mỗi điểm ảnh n.

Bước 2: Được thực hiện như một tập hợp các thủ tục ước lượng tham số Gaussian, như sau. Đưa ra một thành phần GMM đã cho k trong mô hình tiền cảnh, tập hợp con của các điểm ảnh được định nghĩa F (k) = {zn: kn = k và αn = 1} . Trị trung bình và phương sai được ước tính trong mạng lưới chuẩn nghĩa là mẫu và phương sai của các giá trị điểm ảnh trong F (k) và trọng số là π (α, k) = | F (k) | / Σk | F (k) |, trong đó | S | biểu thị kích thước của một tập S.

Bước 3: Là tối ưu hóa toàn cầu, sử dụng cắt tối thiểu.

Cấu trúc của thuật toán đảm bảo thuộc tính hội tụ đúng, bởi vì mỗi bước 1-3 giảm thiểu việc lặp đi lặp lại có thể được hiển thị một tổng năng lượng E hạn chế tối

đa với ba tập hợp các biến lần lượt là k, θ, và α. Do đó E giảm dần một cách đơn điệu và điều này được minh họa trong thực nghiệm trong hình 2.3. Vì vậy, các thuật toán bảo đảm để hội tụ về ít nhất ở một vị trí nhất định là E. Là đơn giản để phát hiện khi E ngừng làm giảm đáng kể, và chấm dứt lặp tự động.

Khởi tạo

 Người sử dụng khởi tạo trimap T bằng việc cung cấp TB duy nhất. Mặt trước nền là tập hợp TF =  ; TU = 𝑇 𝐵, bổ sung cho mặt sau nền.

 Khởi tạo αn = 0 với n ∈ TB và αn = 1 với n ∈ TU.

 Nền và tiền cảnh GMMs khởi tạo từ bộ αn = 0 và αn = 1 tương ứng.

Lặp Lại Giảm Thiểu

1. Gán các thành phần GMM điểm ảnh: cho mỗi n trong TU kn := arg𝑚𝑖𝑛𝑘𝑛Dn(αn, kn, θ, zn).

2. Tìm hiểu các thông số GMM từ dữ liệu z: θ := arg𝑚𝑖𝑛𝜃U(α, k, θ, z)

3. Phân đoạn dự toán: sử dụng min cut để giải quyết.

E(α, k, θ, z). 𝑘 (adsbygoogle = window.adsbygoogle || []).push({});

𝑚𝑖𝑛 {∝𝑛: 𝑛∈ 𝑇𝑈 }

min

4. Lặp lại từ bước 1, cho đến sự quy tụ. 5. Áp dụng sự kết búi viền.

Ngƣời dùng chỉnh sửa

 Sửa: sửa lỗi một số điểm ảnh hoặc là để αn = 0 (vẽ lên nền) hoặc αn = 1 (phía trước vẽ lên); cập nhật trimap T cho phù hợp. Thực hiện bước 3 ở trên chỉ

một lần.

 Tinh chỉnh hoạt động: [tùy chọn] thực hiện lặp đi lặp lại toàn bộ thuật toán giảm thiểu.

Hình 2.2 Phân đoạn ảnh Lặp đi lặp lại ở GrabCut.

Hình 2. 3 Sự Quy tụ cực tiểu hóa lặp đi lặp lại

2.2.2.3. Tƣơng tác ngƣời sử dụng và trimap không đầy đủ.

Trimaps không đầy đủ. Thuật toán lặp đi lặp lại giảm thiểu cho phép tăng

tính linh hoạt của tương tác người dùng. Đặc biệt, nơi dán nhãn không đầy đủ cho phép ở vị trí của trimap đầy đủ T, người sử dụng cần chỉ định khu vực nền TB, còn lại TF = 0. Không khó để dán tất cả các nhãn ở tiền cảnh.

Lặp lại giảm thiểu được đề cập ở (hình 2.2) bằng cách cho phép dán các nhãn không hoàn chỉnh tới một số điểm ảnh (tại tiền cảnh) sau đó có thể được co lại,chỉ có nền được nhãn TB là không được rút lại. Trong quá trình thực hiện TB ban đầu được xác định bởi người sử dụng như một dải các điểm ảnh xung quanh bên ngoài của hình chữ nhật được đánh dấu (đánh dấu màu đỏ trong hình 2.1).

Hình 2.4 Ngƣời dùng hiệu chỉnh.

2.3. Phân đoạn ảnh sử dụng Random Walks.

Thuật toán random walker đã được thúc đẩy trong việc giới thiệu bằng cách đi bộ ngẫu nhiên tại các điểm ảnh và ghi nhớ những hạt giống mà chúng đến lần đầu, một phương pháp tính toán như vậy sẽ là không thực tế. Thiết lập những kết nối giữa bước ngẫu nhiên và lý thuyết mạch, cung cấp cho chúng ta một phương pháp đơn giản thuận tiện cho phân tích tính toán xác suất mong muốn. Phần này mô tả ba khía cạnh của thuật toán: Tạo các trọng số đồ thị, thiết lập hệ phương trình để giải quyết vấn đề và thực hiện các chi tiết thực tế [6].

Một đồ thị bao gồm một cặp G = (V, E) với đỉnh (node) v V và cạnh e  E

 V × V. Một cạnh, e, nối hai đỉnh, vi và vj, được ký hiệu là eij. Một đồ thị có trọng số gán một giá trị cho mỗi cạnh được gọi là trọng số. Trọng số của cạnh eij được ký hiệu là w (eij) hoặc wij. Bậc của một đỉnh là di = w (eij) cho tất cả các cạnh eij có liên quan đến vi (điều kiện wij> 0).

Phân đoạn tự động

Phân đoạn tự động Tương tác

2.3.1. Trọng số cạnh.

Để đại diện cho cấu trúc hình ảnh (đã cho tại những điểm ảnh) bởi sự sai lệch bước ngẫu nhiên (tức là trọng số cạnh), người ta định nghĩa một hàm ánh xạ thay đổi trong cường độ hình ảnh với trọng số cạnh. Đây là một đặc tính chung của thuật toán dựa trên đồ thị để phân tích ảnh.

Ngoài ra, nó đã được đề xuất để sử dụng một chức năng làm cực đại entropy của các trọng số kết quả. Hàm trọng số Gaussian.

wij = exp (−β(gi − gj)2), (1)

Trong đó: gi chỉ cường độ ảnh tại điểm i. Giá trị β là tham số tự do. Chúng tôi đã tìm thấy nó hữu ích để bình thường hóa các gradient vuông (gi - gj)2eij E

trước khi áp dụng (1). Tất nhiên, (1) có thể được sửa đổi để xử lý màu hoặc giá trị dữ liệu vector được thay thế bằng (gi - gj)2 với ||gi - gj|| được đánh giá cho một vector gi .

2.3.2. Vấn đề Dirichlet Tổ hợp

Dirichlet integral có thể được xác định như sau:

D[u] = 1

2 |𝛻𝑢|Ω 2dΩ, (2) (adsbygoogle = window.adsbygoogle || []).push({});

Trong đó u là trường và Ω là vùng. Tích phân xuất hiện trong các tình huống vật lý bao gồm sự truyền nhiệt,điện tĩnh học và bước ngẫu nhiên.

Một hàm điều hòa có chức năng đáp ứng được phương trình Laplace.

∇2

u = 0. (3)

Việc tìm một đối tượng của hàm hài hòa giá trị biên của nó được gọi là bài toán Dirichlet. Hàm điều hòa thoả mãn những điều kiện đường biên yếu.

𝐿𝑖𝑗 = 𝑑𝑖 −𝑤𝑖𝑗 0 Nế𝑢 𝑖 = 𝑗, Nế𝑢 𝑣𝑖 𝑣à 𝑣𝑗 𝐶ò𝑛 𝑙𝑖, 𝑙à 𝑐á𝑐 đ𝑛ℎ, (4) Trong đó Lijlà chỉ số của đỉnh vivj.

Xác định ma trận liên thuộc của nút cạnh như sau:

𝐴𝑒𝑖𝑗𝑣𝑘 = +1−1 0 Nế𝑢 𝑖 = 𝑘, Nế𝑢 𝑗 = 𝑘, 𝐶ò𝑛 𝑙𝑖, (5)

Với mọi đỉnh vk và tất cả các cạnh eij liền kề đều được gán một định hướng,

𝐴𝑒𝑖𝑗𝑣𝑘 được dùng để chỉ sự tác động của ma trận tới cạnh eij và đỉnh vk.

Xác định ma trận m x m với C là đường chéo của ma trận với trọng số của mỗi cạnh dọc theo đường chéo. Laplacian tổ hợp đẳng hướng là thành phần của toán tử tổ hợp phân kỳ với toán tử tổ hợp gradient, L = AT

A ma trận cấu thành được giải thích như việc đại diện cho một tích vô hướng có trọng số trên không gian vectơ. Laplacian tổ hợp khái quát hóa các toán tử tổ hợp Laplace- Beltrami

L =ATCA. Trường hợp độ đo bình thường C=I và L = ATA. Xây dựng Một tổ hợp tích phân của Dirichlet (2).

D[x] =1

2(Ax)TC(Ax) =1

2xTLx =1

2 Wij(xi − xj)2

𝑒𝑖𝑗∈𝐸 , (6)

và một tổ hợp hài hòa là một hàm giảm thiểu x. Từ đó L là bán xác định, chỉ những điểm giới hạn D [x] sẽ là cực tiểu.

Phân vùng các đỉnh thành hai bộ, máy ảo (được đánh dấu / nút hạt giống) và VU (nút không gieo giống) như vậy mà VM∪ VU = V and VM ∩VU = ∅.

Chú ý : VM chứa đựng tất cả các điểm hạt giống, bất kể nhãn của chúng. Chúng ta có thể giả định mà không mất tính tổng quát rằng nút trong L và x được sắp xếp sao cho các nút hạt giống được đầu tiên và các nút không gieo giống là thứ hai. Vì vậy, chúng ta có thể phân tách phương trình (6):

D[xU] =1

2 𝑥𝑀𝑇𝑥𝑈𝑇 𝐿𝐵𝑀𝑇 𝐿𝐵 𝑈 𝑥𝑥𝑀

𝑈 =1

2 𝑥𝑀𝑇𝐿𝑀𝑥𝑀 + 2𝑥𝑈𝑇𝐵𝑇𝑥𝑀 + 𝑥𝑈𝑇𝐿𝑈𝑥𝑈 , (7) Trong đó: xB và xU tương ứng với tiềm năng của các hạt giống và các nút không gieo giống tương ứng. Phân biệt D [xU] đối với xU và tìm kiếm các lợi suất điểm quan trọng.

LUxU = −BT xM, (8)

Là một hệ phương trình tuyến tính với ẩn số | VU |. Nếu đồ thị được kết nối, hoặc nếu tất cả các thành phần kết nối chứa một hạt giống, sau đó phương trình (8) sẽ không đơn lẻ.

Biểu thị xác suất được giả thiết tại nút vi cho mỗi nhãn S bởi 𝑥𝑖𝑠. Xác định tập hợp các nhãn cho các điểm hạt giống như một hàm Q(vj) = s, ∀vj∈ VM, trong đó s ∈ Z, 0 < s ≤ K. Xác định vector | VM | × 1 cho mỗi nhãn s tại nút vj∈ VM như:

𝑚𝑗𝑠 = 1 𝑛ế𝑢 𝑄 𝑣𝑗 = 𝑠

0 𝑛ế𝑢 𝑄 𝑣𝑗 ≠ 𝑠 (9) (adsbygoogle = window.adsbygoogle || []).push({});

Vì vậy, đối với nhãn s, giải pháp cho vấn đề Dirichlet tổ hợp có thể được tìm thấy bằng cách giải quyết.

LUxs= −BT

ms, (10)

chỉ có K-1 hệ thống tuyến tính thưa thớt phải được giải quyết, trong đó K là tổng số nhãn.

2.3.3. Mạch tƣơng tự.

Mặc dù giải thuật đã được thúc đẩy dưới dạng bước ngẫu nhiên, nó cũng được biết có nhiều sự tương đương giữa bước ngẫu nhiên và mạch điện.

Xem xét ba phương trình cơ bản của lý thuyết mạch như sau.

AT z = f (Kirchhoff’s Current Law), (13)

p = Ax + b (Kirchhoff’s Voltage Law), (15)

Cho một vector của các dòng chi nhánh z, nguồn hiện tại e, điện áp nguồn b và tiềm năng giảm (điện áp) p. Ba phương trình có thể được kết hợp vào hệ thống tuyến tính.

ATCAx + ATCb = f, (16)

Lx = f − AT

Cb, (17)

Theo (10), với f = 0 (không có nguồn hiện hành) và vai trò của các nguồn điện áp được thực hiện bởi người dùng định nghĩa hạt giống. Lưu ý rằng (6) cũng có thể được hiểu là điện trong ngữ cảnh lý thuyết mạch (17) và đại diện cho kết quả giảm thiểu được thực hiện bởi thế giới vật chất.

2.3.4. Mối quan hệ để khuếch tán.

Quá trình khuếch tán có một lịch sử đáng kể trong máy tính tầm nhìn và quá trình đó có thể được mô tả bởi bước ngẫu nhiên, nó có ích để kiểm tra mối quan hệ giữa một quá trình khuếch tán và phương pháp tiếp cận hiện tại.

Sự khác biệt cơ bản giữa một phương trình khuếch tán và phương trình Laplace của là khuyếch tán đại diện cho một quá trình quá độ xảy ra trong thời gian, trong khi một phương trình Laplace mô tả sự phân bố trạng thái ổn định. Điều này đơn giản mối quan hệ được minh họa bằng cách kiểm tra các phương trình với nhau:

du dt= ∇2

u (Diffusion equation), (18)

0 = ∇2u (Laplace equation). (19)

Trong thực tế, một mạch tương tự của quá trình khuyếch tán cũng xuất hiện trong bài báo kinh điển của Perona và Malik .Hai công thức mạch khác nhau trong đó các nguồn điện áp (được sử dụng để xác định tiềm năng trạng thái ổn định) được thay thế bằng tụ điện tính cho giá trị đại diện cho một điều kiện ban đầu (được sử

dụng để xác định tiềm năng thoáng qua sau khi một số tiền được xác định trước thời gian có thông qua).

Mặc dù có những điểm tương đồng toán học giữa Laplace và phương trình khuyếch tán, các thuật toán này là rất khác nhau. trong đó giá trị ban đầu màu xám được thực hiện như là điều kiện ban đầu và giải pháp là dừng lại sau khi một số tiền định trước thời gian. Ngược lại, chúng tôi mô tả một số thuật toán phân đoạn ra hạt mà làm cho không sử dụng điều kiện ban đầu và kiểm tra việc phân phối ổn định tiềm năng để xác định biên phân đoạn.

2.4. Phân đoạn ảnh sử dụng Random Walks with Restart.

Vấn đề đặt ra là làm thế nào có thể liên kết chặt chẽ hai nút trong một đồ thị? Làm thế nào để tính toán số điểm này một cách nhanh chóng trên đồ thị thực? Random Walk with restart là giải pháp nhanh chóng cho vấn đề nói trên. RWR cung cấp một số điểm liên quan giữa hai nút trong một đồ thị có trọng số, và RWR đã được sử dụng thành công trong nhiều cài đặt như: phụ đề tự động của hình ảnh, khái quát kết nối đồ thị con,...RWR khai thác hai thuộc tính quan trọng được chia sẻ bởi nhiều đồ thị thực, đó là: mối tương quan tuyến tính và cấu trúc liên kết chặt chẽ [7].

RWR được xác định dựa vào phương trình sau (xem giải nghĩa ký hiệu tại bảng ký hiệu):       i i i cW r c e r (1 ) ~ (2.1)

Xem xét một phần tử ngẫu nhiên bắt đầu từ node i. Nó truyền lặp đi lặp lại đến các node bên với xác suất tỷ lệ thuận với trọng số của cạnh. Tại mỗi bước có xác suất c - khả năng trở lại node i. Kết quả liên quan của node j với node i được định nghĩa là xác suất trạng thái ổn định ri, j mà phần tử đó cuối cùng sẽ quay lại

node j. Trong công thức (2.1) ri

là véctơ trạng thái, (adsbygoogle = window.adsbygoogle || []).push({});

~

W là ma trận điều chỉnh, (1-c)

xác định khả năng quay trở lại,

i

Dưới đây là một ví dụ đồ thị 12 node với node 4 khởi đầu và phương trình RWR tương ứng:       i i i cW r c e r (1 ) ~ 0.13 0.10 0.13 0.22 0.13 0.05 0.05 0.08 0.04 0.03 0.04 0.02 = 0.9𝑥 0 1/3 1/3 1/3 0 1/3 0 1/3 0 0 0 0 0 0 0 0 0 0 0 1/3 0 0 0 0 1/3 1/3 0 1/3 0 0 0 0 0 0 0 0 1/3 0 1/3 0 1/3 0 0 0 0 0 0 0 0 0 0 1/4 0 1/4 1/4 1/4 0 0 0 0 0 0 0 0 1/2 0 1/2 0 0 0 0 0 0 0 0 0 1/2 1/2 0 0 0 0 0 0 0 1/4 0 0 1/4 0 0 0 1/4 0 1/4 0 0 0 0 0 0 0 0 1/2 0 1/2 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1/3 0 1/3 1/3 0 0 0 0 0 0 0 0 0 0 1/3 0 0 0 1/3 1/2 0 1/2 1/3 0 0.13 0.10 0.13 0.22 0.13 0.05 0.05 0.08 0.04 0.03 0.04 0.02 +0.1x

Một phần của tài liệu Luận văn thạc sĩ công nghệ thông tin Phân tích một số phương pháp phân đoạn ảnh có giám sát (Trang 52 - 80)