Phân vùng ảnh động có thể được hiểu như một vấn đề suy luận. Ví dụ, ta có thể quan sát màu trong một ảnh, được tạo ra bởi một số nguyên tắc không rõ ràng. Trong bối cảnh phân vùng ảnh, quan sát một ảnh được đưa ra nhưng phân vùng chưa được biết. Về mặt này, có thể xác định vấn đề suy luận như việc tìm kiếm đại diện cho một số điểm ảnh của một ảnh, dựa trên nhãn mà mỗi điểm ảnh được gán.
Với các nhãn này, một ảnh được phân chia thành một tập có nghĩa của các miền và đối tượng. Ta chọn một số công thức xác định để phân vùng ảnh, chẳng hạn như đồng nhất, liên tục và giống nhau. Trong các phương pháp của kỹ thuật sát nhập miền, một số phương pháp sử dụng các phép kiểm tra thống kê tương tự để quyết định việc sát nhập miền, sử dụng một điều kiện cho việc ra quyết định cục bộ.
Đây là ví dụ điển hình của việc xem xét các đặc điểm đồng nhất trong một miền, từ đó có thể thấy rằng một thuộc tính cần thiết cho sát nhập miền là sự thống nhất của các yếu tố dữ liệu trong cùng một miền [21, 22, 23]
Trong các nghiên cứu khác, nếu các miền lân cận chia sẻ một tài nguyên thống nhất chung, thì chúng phải thuộc về cùng một nhóm. Tuy nhiên, hầu hết các thuật toán sát nhập miền hiện tại không thể đảm bảo một giải pháp tối ưu hoàn toàn của các kết quả sát nhập. Kết quả là, đầu ra sát nhập miền là phân vùng quá mức (over – segment), phân vùng chưa đủ (under – segment) hoặc trường hợp cả hai.
Ta sử dụng định nghĩa của đồ thị liền kề miền (RAG) để đại diện cho một ảnh. Giả sử G = (V, E) là một đồ thị vô hướng, trong đó vi ∈ V là một tập hợp các nút tương ứng với các yếu tố ảnh (ví dụ superpixel hoặc miền). E là một tập các cạnh nối các cặp nút lân cận. Mỗi cạnh (vi, vj) ∈ E có trọng số tương ứng w ( (vi, vj)) để đo lường sự khác nhau của hai nút nối với nhau bằng cạnh đó. Trong bối cảnh sát nhập miền, một miền được chọn bởi một thành phần R ⊆ V. Ta có được sự khác nhau giữa hai miền lân cận R1, R2 ⊆ V như cạnh trọng số tối thiểu kết nối chúng.
Các cấu trúc đồ thị của một phân vùng ví dụ thể hiện trong hình 2.1, ở đó các ảnh có 7 miền và RAG được hiển thị bên phải. Ưu điểm của RAG là nó có thể cung cấp một "cái nhìn không gian" của ảnh.
Hình 2.1: Một ví dụ về phân vùng và trên đồ thị liền kề miền tƣơng ứng (RAG)
Khi vị từ sát nhập quyết định liệu có một bằng chứng của việc sát nhập giữa các cặp của các miền, nó liên quan đến hai khía cạnh: một biện pháp không đồng dạng được sử dụng để xác định các miền đại diện cho việc sát nhập, và kiểm tra tài
nguyên thống nhất nếu các miền là đồng nhất. Ta xác định vị từ sát nhập miền tiếp theo P:
(3) Trong đó, Ω1 và Ω2 là các bộ liên quan R1 và R2, tương ứng. Vị từ sát nhập trên miền R1 và R2 như vậy có thể được "sát nhập R1 và R2 khi và chỉ khi chúng là những miền lân cận tương tự nhau nhất trong miền của nhau và thực hiện theo nguyên tắc nhất quán". Các điều kiện (a) là mạnh hơn so với cạnh kết nối giữa R1 và R2 là một miền tối thiểu trong một trong các miền lân cận. Điều này dẫn đến một điều thú vị của thuật toán sát nhập miền được đề xuất, ví dụ, các đại diện của các cặp miền cho việc sát nhập được ấn định bởi các đồ thị được đưa ra. Sau đây ta thấy rằng một điều kiện duy nhất quyết định các cặp miền được sát nhập ở một mức độ sát nhập được đưa ra. Hơn nữa, đã được chứng minh rằng luôn luôn có ít nhất một cặp miền đáp ứng điều kiện (a).
Hình 2.2: Một ví dụ mà P vị từ giữa R1 và R2 đều phù hợp
Rõ ràng, không có điều kiện (b), tất cả các miền sẽ được sát nhập vào một miền lớn ở cuối quá trình sát nhập miền. Vì vậy, điều kiện (b) hoạt động như một tiêu chí dừng lại. Hình 2.2 minh họa một ví dụ khi vị từ P giữa các miền R1 và R2
đều phù hợp. Độ dày của đường kẻ cho thấy trọng lượng của các cạnh. Hầu hết cặp miền tương tự được kết nối bởi một cạnh với trọng lượng tối thiểu.
Vùng 1 và vùng 2 đều phù hợp
Theo định nghĩa của P, kiểm tra tính nhất quán dựa trên các dấu hiệu trực quan lấy ra từ dữ liệu ảnh. Trong phần tiếp theo, phương pháp SPRT được giới thiệu để đưa ra một quyết định đáng tin cậy về tính thống nhất của các miền.