2. Tách đối tượng theo thuật toán Grab-cut
2.3. Giải thuật phân đoạn Grab-cut
2.3.1.Mô hình dữ liệu màu
Hình ảnh hiện tại cầm lấy gồm có zn điểm trong không gian màu RGB. Như vậy là không thực tế để cấu trúc những biểu đồ không gian màu phù hợp, chúng tuân theo một quy trình kỹ thuật đã được sử dụng cho phân đoạn yếu và sử dụng GMMs. Mỗi GMM, một cho nền và một cho tiền cảnh, được lấy đi một hiệp biến hoàn chỉnh Gaussian mixture với K thành phần(thường là k=5). Để giao tiếp dễ kiểm soát với GMM, Trong khung tối ưu hóa, một vectơ bổ sung k ={ k1,. . .,kn,. . . ,kN} được giới thiệu, với kn∈ { 1,. . .K } được gántới mỗi điểmảnh, mộtthành phần duy nhất đơn trị GMM, một thành phần hoặc từ nền hoặc mô hình tiền cảnh, tùy theo
αn= 0 hoặc 1.
Năng lượng Gibbs (2) cho phân đoạn bây giờ trở thành:
E(α, k ,θ, z)=U(α, k ,θ, z)+V(α, z) (7)
Tùy thuộc vào các thành phần GMM của biến k. Thuật ngữ dữ liệu U bây giờ được xác định, có tính đến các mô hình GMM màu như.
E(α, k ,θ, z)=∑nD(αn, kn,θ, zn) (8)
Trong đó, D(αn, kn,θ, zn) = −log p(zn | αn, kn,θ)−logπ(αn, kn) và p(.) là một phân phối xác suất Gaussian, (.) là pha trộn các hệ số gia trọng
D(αn, kn,θ, zn)=−logπ(αn, kn)+1 2logdet∑(αn, kn) +1 2[zn−μ(αn, kn)]T∑(αn, kn)−1[zn−μ(αn, kn)] (9) (det: là hàm tính định thức ma trận)
Vì vậy các thông số của mô hình hiện nay là:
θ={π(α,),μ(α, k),∑(α, k),α=0,1; k=1...K} (10)
Ví dụ: Các trọng số π, có nghĩa là μ và phương sai Σ của 2K Gaussian các thành phần cho nền và phân phối tiền cảnh. Các thuật ngữ thông suốt V về cơ bản là không thay đổi từ ảnh đơn sắc trường hợp (4), ngoại trừ các thuật ngữ tương phản được tính bằng Euclidean khoảng cách trong không gian màu:
V(α, z)=γ ∑
(m , n)∈C
[αn≠αm]exp−β∥zm−zn∥2
(11)
(exp(x): là hàm ex)
2.3.2.Phân đoạn theo lặp cực tiểu năng lượng
Sơ đồ cực tiểu hóa năng lượng mới trong GrabCut làm việc lặp đi lặp lại, thay cho giải thuật one-shot trước đây. Điều này có lợi thế là cho phép tự động sàng lọc vùng mờ α, như mới được dán nhãn điểm ảnh từ vùng TU của các trimap ban đầu được sử dụng để tinh chỉnh các thông số GMM màu θ. Các yếu tố chính của hệ thống GrabCut được đưa ra trong lược đồ giải thuật bên dưới.
Bước 1: Thực hiện bằng cách liệt kê các giá trị đơn giản của kn cho mỗi điểm ảnh n.
Bước 2: Được thực hiện như một tập hợp các thủ tục ước lượng tham số Gaussian, như sau. Đưa ra một thành phần GMM đã cho k trong mô hình tiền cảnh, tập hợp con của các điểm ảnh được định nghĩa F (k) = {zn: kn= k và αn= 1} . Trị trung bình và phương sai được ước tính trong mạng lưới chuẩn nghĩa là mẫu và phương sai của các giá trị điểm ảnh trong F (k) và trọng số là π(α,k) = | F (k) | /Σk| F (k) |, trong đó | S | biểu thị kích thước của một tập S.
Cấu trúc của thuật toán đảm bảo thuộc tính hội tụ đúng, bởi vì mỗi bước 1-3 giảm thiểu việc lặp đi lặp lại có thể được hiển thị một tổng năng lượng E hạn chế tối đa với ba tập hợp các biến lần lượt là k,θ,và α. Do đó E giảm dần một cách đơn điệu và điều này dẫn đến gianh giới của đối tượng và nền càng tách rõ hơn. Vì vậy, các thuật toán bảo đảm để hội tụ về ít nhất ở một vị trí nhất định là E. Là đơn giản để phát hiện khi E ngừng làm giảm đáng kể, và chấm dứt lặp tự động.
Khởi tạo
Người sử dụng khởi tạo trimap T bằng việc cung cấp TB duy nhất. Mặt trước nền là tập hợp TF = θ ; TU = 𝑇̅̅̅𝐵, bổ sung cho mặt sau nền.
Khởi tạo αn = 0 với n ∈ TB và αn = 1 với n ∈ TU.
Nền và tiền cảnh GMMs khởi tạo từ bộ αn = 0 và αn = 1 tương ứng.
Lặp Lại Giảm Thiểu
1. Gán các thành phần GMM điểm ảnh: cho mỗi n trong TU
Kn:=arg(mink
n)Dn(αn, kn,θ, zn)
2. Tìm hiểu các thông số GMM từ dữ liệu z: θ:=arg minθU(α, k ,θ, z)
3. Phân đoạn dự toán: sử dụng min cut để giải quyết.
minα
n:n∈Tu=minkE(α, k ,θ, z)
4. lại từ bước 1, cho đến sự quy tụ. 5. Áp dụng sự kết búi viền.
Người dùng chỉnh sửa
Sửa: sửa lỗi một số điểm ảnh hoặc là để αn = 0 (vẽ lên nền) hoặc αn = 1 (phía trước vẽ lên); cập nhật trimap T cho phù hợp. Thực hiện bước 3 ở trên chỉ một lần.
Tinh chỉnh hoạt động: [tùy chọn] thực hiện lặp đi lặp lại toàn bộ thuật toán giảm thiểu.
Hình 1-8. Quá trình lặp lại quy tụ hàm cực tiểu hóa (ảnh màu)
2.3.3.Tương tác người sử dụng và tripmap không đầy đủ
Trimaps không đầy đủ. Thuật toán lặp đi lặp lại giảm thiểucho phép tăng tính linh hoạt của tương tác người dùng. Đặc biệt, nơi dán nhãn không đầy đủ cho phép ở vị trí của trimap đầy đủ T, người sử dụng cần chỉ định khu vực nền TB, còn lại TF= 0. Không khó để dán tất cả các nhãn ở tiền cảnh.
Lặp lại giảm thiểu bằng cách cho phép dán các nhãn không hoàn chỉnh tới một số điểm ảnh (tại tiền cảnh) sau đó có thể được co lại,chỉ có nền được nhãn TB là không được rút lại. Trong quá trình thực hiện TB ban đầu được xác định bởi người sử dụng như một dải các điểm ảnh xung quanh bên ngoài của hình chữ nhật được đánh dấu.
Như hình trên mô tả sau bước đầu tiên người dùng khoanh vào vị trí chọn của người trong ảnh. Chương trình xử lý lấy thiếu phần mũ và giày phải. Người dùng sửa sai bằng cách chọn thêm hai vùng này, và chương trình lại tiếp tục lấy thêm hai phần đó.
Hình 1-10. Thêm ví dụ về sử dụng Grab-cut (ảnh màu)
Ví dụ trên để minh họa thêm về việc người dùng có thể tương tác để sửa những lỗi sai, sau đó Grab-cut có thể tính toán kết quả phù hợp hơn ở đầu ra.
Vùng đỏ kín là đường bao vùng ảnh cần lấy. Các đường màu đỏ là chỉ phần nền ảnh còn sót.
Kỹ thuật sử dụng tự động thuật toán Grabcut
Hình 2-1. Cách sử dụng thuật toán Grab-cut
Hình trên mô tả cách dùng Grab-cut để tách đối tượng trong ảnh, đó là người dùng cần chỉ ra một vùng mà ở đó trong vùng đó có đối tượng cần tách, bên ngoài là phần nền ảnh. Chính vì vậy thuật toán Grab-cut yêu cầu đầu vào là một khoanh vùng chứa đối tượng, nên để thuật toán chạy một cách tự động ta cần chỉ ra được vùng chứa đối tượng này một cách tự động. Trước tiên ta sẽ đi tìm hiểu ảnh sử dụng trong thương mại điện tử có những nhóm nào, các nền ảnh sẽ ra sao để từ đó có thể tìm ra cách tách, hoặc một bộ tham số phù hợp để tìm ra vùng đối tượng cần chọn.