Làm mảnh biên

5. Phƣơng pháp nghiên cứu

2.3.1.3. Làm mảnh biên

Làm mảnh biên thực chất là làm nổi biên với độ rộng chỉ 1 pixel. Chúng ta cũng đã biết rằng chỉ có kỹ thuật Laplace mới cho biên có độ rộng 1 pixel trong khi các kỹ thuật khác thì không hoàn toàn nhƣ thế. Vấn đề đặt ra là sau khi thu đƣợc bản đồ biên của ảnh chúng ta cần phải làm mảnh biên.

Có nhiều kỹ thuật làm mảnh biên, trong bài trình bày thuật toán làm mảnh biên: kỹ thuật “Loại bỏ các điểm không cực đại” và kỹ thuật do Sherman đề xuất.

+ Kỹ thuật loại bỏ các điểm không cực đại:

Giả sử ảnh I(x,y) gồm gradient hƣớng và gradient biên độ (còn gọi là bản đồ hƣớng và bản đồ biên độ). Với mỗi điểm ảnh I(x,y), ta xác định các điểm lân cận của nó theo hƣớng gradient, gọi các điểm đó là I(x1,y1) và I(x2,y2). Nếu I(x,y) lớn hơn cả I(x1,y1) và I(x2,y2) thì giá trị của I(x,y) sẽ đƣợc bảo toàn, ngƣợc lại ta gán giá trị của nó bằng 0 và xem nhƣ bị loại bỏ khỏi biên.

+ Kỹ thuật làm mảnh biên chữ do Sherman đề xuất:

nếu nó thỏa mãn một trong hai điều kiện sau:

- Nó là điểm đen duy nhất kết nối với hai điểm đen không kề nhau. - Tồn tại một chuyển đổi nào tại phần tử trƣớc nó.

2.3.1.4. Nhị phân hóa đường biên

Nhị phân hóa đƣờng biên là giai đoạn then chốt trong quá trình trích chọn vì nó xác định đƣờng bao nào thực sự cần và đƣờng bao nào có thể loại bỏ. Nói chung, ngƣời ta thƣờng nhị phân hóa đƣờng biên theo cách thức làm giảm nhiễu hoặc tránh hiện tƣợng kéo sợi trên ảnh. Điều này cũng giải thích tại sao phân đoạn dựa theo biên có hiệu quả khi ảnh có độ tƣơng phản tốt. Trong trƣờng hợp ngƣợc lại, có thể sẽ bị mất một phần đƣờng bao hay đƣờng bao có chân, không khép kín,… Do đó, sẽ bất lợi cho biểu diễn sau này. Một phƣơng pháp hay dùng là chọn ngƣỡng thích nghi. Với cách chọn này, ngƣỡng sẽ phụ thuộc vào hƣớng của Gradient nhằm giảm sự xoắn của biên. Đầu tiên, ngƣời ta định ra một ngƣỡng nào đó và sau đó sử dụng một hệ số sinh thích nghi thông qua lời giải toán tử đọa hàm theo hƣớng tìm đƣợc để tinh chỉnh.

2.3.1.5. Mô tả biên

Khi đã có bản đồ biên ảnh, ta cần phải biểu diễn nó dƣới dạng thích hợp phục vụ cho việc phân tích và giảm lƣợng thông tin dùng để miêu tả, lƣu trữ đối tƣợng. Ngƣời ta thƣờng thực hiện theo nguyên tắc: tách riêng từng biên và gán cho mỗi biên một mã.

Có rất nhiều phƣơng pháp miêu tả biên, mỗi phƣơng pháp thích hợp với một loại ứng dụng riêng. Tuy nhiên, nhìn chung các biên sẽ đƣợc làm rõ hơn thông qua các thao tác: loại bỏ đƣờng biên hở, khép kín đƣờng biên, loại bỏ các chân rết bám theo đƣờng biên,…

Thông thƣờng, các cấu trúc cơ sở mã hóa đƣờng biên gồm 4 loại: điểm, đoạn thẳng, cung và đƣờng cong. Tuy nhiên, nếu ta biểu diễn đƣờng biên bởi

các điểm thì rất đơn giản về mặt tính toán nhƣng lại bị nghèo nàn về mặt cấu trúc và không cô đọng. Ngƣợc lại, nếu biểu diễn bởi đƣờng cong đa thức bậc cao thì cấu trúc dữ liệ rất cô đọng nhƣng độ phức tạp tính toán lại khá lớn. Do đó, tùy từng loại ứng dụng cụ thể mà chọn cách mã hóa đƣờng biên theo kiểu nào. Dƣới đây, trình bày một số phƣơng pháp mã hóa đƣờng biên hay dùng.

* Mã hóa theo tạo độ Đềcác

Đƣờng biên của ảnh đƣợc biểu diễn bởi một danh sách các điểm ảnh tạo nên đƣờng bao. Gọi C là đƣờng bao ảnh, C(i,j) là các điểm thuộc C. Các biểu diễn này rất đơn giản, việc tính toán là khá nhanh nhƣng có nhƣợc điểm là không làm giảm tải đƣợc lƣợng thông tin. Việc mã hóa sử dụng kỹ thuật tìm kiếm thông tin theo chiều sâu trên cây. Nếu áp dụng một cách đơn thuần kỹ thuật này ta sẽ thu đƣợc một đƣờng biên có tồn tại một số điểm xuất hiện hơn một lần. Để làm mịn biên - nghĩa là mỗi điểm trên biên chỉ xuất hiện một lần chúng ta sẽ phối kết hợp với việc kiểm tra 8 liên thông.

Thuật toán Contour Following mô tả nhƣ sau:

Void CountFoll(Pic, Depth) {

For each point I(x,y) do { If I(x,y)  C then {Root  I(x,y)

KQ  CountFoll (Root,0)

If KQ then Dem  Dem + 1}

} }

* Xấp xỉ bởi đoạn thẳng

phép khôi phục tất cả các thông tin chứa đựng trong đƣờng biên nhƣng lại có thể xấp xỉ nó bởi đoạn thẳng với độ chính xác phụ thuộc vào ngƣời dùng. Thuật toán xấp xỉ bởi đoạn thẳng đƣợc mô tả nhƣ sau:

- Bƣớc 1: Chọn điểm xuất phát R

- Bƣớc 2: Nối R với điểm đang xét Pc – ta đƣợc đoạn thẳng RPc

Tính dj = Max {di – khoảng cách từ các điểm Pi nằm giữa R và Pc đến RPc }

- Bƣớc 3: Nếu dj >  - ngƣỡng cho trƣớc, còn gọi là độ chính xác của xấp xỉ thì phân đoạn RPc thành hai đoạn RPi và PiPc. Sau đó lặp lại bƣớc 2.

Ngƣợc lại, nếu dj <  - tức là đoạn thẳng đang xét “rất gần” với cung của biên thì dừng thuật toán.

Thuật toán sẽ đạt hiệu quả rất cao nếu chọn đƣợc độ chính xác của xấp xỉ hợp lí. Độ chính xác càng thấp, thông tin mô tả càng cô đọng.

2.3.2. Phân đoạn ảnh dựa vào ngƣỡng

2.3.2.1. Giới thiệu

Nguỡng (Threshold) là một khái niệm khá quen thuộc trong xử lý ảnh cũng nhƣ rất nhiều giải thuật khác. Nó dùng để chỉ một giá trị mà ngƣời ta dựa vào để phân hoạch một tập hợp thành các miền phân biệt.

Biên độ của các tính chất vật lý của ảnh nhƣ độ phản xạ, màu sắc,… là các đặc tính đơn giản và rất hữu ích, có thể sử dụng các tính chất này để phân đoạn. Nếu biên độ đủ lớn đặc trƣng cho ảnh thì việc phân đoạn ảnh bằng cách dùng ngƣỡng biên độ là rất hiệu quả. Đặc biệt, kỹ thuật phân ngƣỡng theo biên độ rất có ích đối với ảnh nhị phân nhƣ văn bản in, đồ họa, ảnh màu hay ảnh X-Quang.

Vì vậy, việc chọn ngƣỡng là bƣớc vô cùng quan trọng, thông thƣờng tiến hành qua các bƣớc sau:

nhiều đỉnh và khe thì các khe có thể sử dụng để chọn ngƣỡng.

 Chọn ngƣỡng T sao cho một phần xác thực trƣớc  của toàn bộ số mẫu là thấp hơn T.

 Điều chỉnh ngƣỡng dựa trên xét lƣợc đồ xám của các điểm lân cận

 Chọn ngƣỡng bằng cách xem xét lƣợc đồ xám của những điểm thõa tiêu chuẩn đã chọn.

Một thuật toán đơn giản trong kỹ thuật này là: giả sử chúng ta đang quan tâm đến các đối tƣợng sáng (object) trên nền tối (background), một tham số T - gọi là ngƣỡng độ sáng, sẽ đƣợc chọn cho một ảnh f[x,y] theo cách:

If f[x,y]  T f[x,y] = object = 1

Else f[x,y] = background = 0

Ngƣợc lại, đối với các đối tƣợng trên nền sáng ta có thuật toán sau:

If f[x,y] < T f[x,y] = object = 1

Else f[x,y] = background = 0

Vậy, nên chọn ngƣỡng T nhƣ thế nào để việc phân vùng đạt kết quả cao nhất? Có nhiều thuật toán giải quyết vấn đề này nhƣ: ngƣỡng cố định, dựa trên lƣợc đồ, sử dụng tập mờ, ….

2.3.2.2. Chọn ngưỡng cố định

Đây là phƣơng pháp chọn ngƣỡng độc lập với dữ liệu ảnh. Nếu biết trƣớc các chƣơng trình ứng dụng sẽ làm việc với các ảnh có độ tƣơng phản rất cao, trong đó các đối tƣợng quan tâm rất tối còn nền gần nhƣ đồng nhất và rất sáng thì chọn ngƣỡng T = 128 (xét thang độ sáng từ 0 đến 255) là một giá trị chọn khá chính xác.

Ƣu điểm: Đơn giản dễ lập trình

Nhƣợc điểm: Khó chọn ngƣỡng thích nghi với nhiều loại ảnh trong điều kiện ánh sáng khác nhau.

2.3.2.3. Chọn ngưỡng dựa trên lược đồ (Histogram)

Trong hầu hết các trƣờng hợp, ngƣỡng đƣợc chọn từ lƣợc đồ độ sáng của vùng hay ảnh cần phân đoạn. Có rất nhiều kỹ thuật chọn ngƣỡng tự động xuất phát từ lƣợc đồ xám { h[b] trong đó b = 0,1,…,2b-1} đã đƣợc đƣa ra. Những kỹ thuật phổ biến sẽ đƣợc trình bày dƣới đây. Những kỹ thuật này có thể tận dụng lợi thế do sự là trơn dữ liệu lƣợc đồ ban đầu mang lại nhằm loại bỏ những dao động nhỏ về độ sáng. Tuy nhiên các thuật toán làm trơn cần phải cẩn thận, không đƣợc làm dịch chuyển các vị trí đỉnh của lƣợc đồ. Từ đó, ta có:

      ( 1)/2 2 / ) 1 ( ] [ 1 ] [ w raw sm oothb h b w h W lẻ (2.25) Trong đó: W thƣờng chọn là 3 hoặc 5

* Thuật toán đẳng liệu

Đây là kỹ thuật chọn ngƣỡng theo kiểu lặp do Ridler và Calvard đƣa ra. Đƣợc mô tả nhƣ sau:

• Bƣớc 1: Lƣợc đồ sẽ đƣợc phân đoạn thành hai phần bằng một giá trị ngƣỡng khởi động với 0 = B/2 tức là bằng phân nửa thang độ xám động của ảnh.

• Bƣớc 2: Các trung bình mẫu (mf,0) của những điểm ảnh thuộc đối tƣợng và (mb,0) của những điểm ảnh nền sẽ đƣợc tính toán.

• Bƣớc 3: Tính các ngƣỡng trung gian bằng công thức:

2 1 , 1 ,     f k bk k m m  với k = 1, 2, …. (2.26)

• Bƣớc 4: Nếu k = k-1 thì kết thúc, dừng thuật toán. Ngƣợc lại, lặp lại bƣớc 2.

* Thuật toán đối xứng nền

Kỹ thuật này dựa trên sự giả định là tồn tại hai đỉnh phân biệt trong lƣợc đồ nằm đối xứng nhau qua đỉnh có giá trị lớn nhất trong phần lƣợc đồ thuộc

về các điểm ảnh nền. Kỹ thuật này có thể tận dụng ƣu điểm của việc làm trơn đƣợc mô tả trong phƣơng trình (2.25). Đỉnh cực đại maxp tìm đƣợc nhờ tiến hành tìm giá trị cực đại trong lƣợc đồ. Sau đó thuật toán sẽ đƣợc áp dụng ở phía không phải là điểm ảnh thuộc đối tƣợng ứng với giá trị cực đại đó nhằm tìm ra giá trị độ sáng a ứng với giá trị phần trăm p% mà: P(a) = p%, trong đó P(a) là hàm phân phối xác suất về độ sáng.

Định nghĩa: [Hàm phân phối xác suất về độ sáng]

Hàm phân phối xác suất P(a) thể hiện xác suất chọn được một giá trị độ sáng từ một vùng ảnh cho trước, sao cho giá trị này không vượt quá một giá

trị sáng cho trước a. Khi a biến thiên từ - đến + , P(a) sẽ nhận các giá trị

từ 0 đến 1. P(a) là hàm đơn điệu không giảm theo a, do vậy dP/da ≥ 0.

Hình 2.7. Minh họa thuật toán đối xứng nền

Ở đây ta đang giả thiết là ảnh có các đối tƣợng tối trên nền sáng. Giả sử mức là 5%, thì có nghĩa là ta phải ở bên phải đỉnh maxp một giá trị a sao cho P(a)=95%. Do tính đối xứng đã giả định ở trên, chúng ta lấy đối xứng qua maxp để có đƣợc ngƣỡng T: T = maxp – (a – maxp)

Kỹ thuật này thực hiện ngƣợc lại với tình huống ảnh có các đối tƣợng sáng trên một nền tối.

* Thuật toán tam giác

Thuật toán này do Zack đề xuất. Các bƣớc của thuật toán nhƣ sau: T

Số điểm ảnh

Đối tƣợng

Nền

- Bƣớc 1: Nối đƣờng thẳng  từ điểm Hmax của lƣợc đồ (điểm có histogram lớn nhất, có mức xám bmax) đến điểm Hmin của lƣợc đồ (điểm ứng với độ sáng nhỏ nhất bmin).

- Bƣớc 2: Với mỗi độ sáng b trong khoảng [bmax, bmin], chúng ta đi tính khoảng cách d từ điểm Hb của lƣợc đồ (ứng với giá trị độ sáng b) đến .

- Bƣớc 3: Giá trị b0 ứng với khoảng cách d lớn nhất sẽ đƣợc chọn làm giá trị ngƣỡng T. T = Max{Hb}

Kỹ thuật này đặc biệt hiệu quả khi các điểm ảnh thuộc đối tƣợng tạo nên một đỉnh yếu trong lƣợc đồ ảnh.

Hình 2.8. Minh hoạ thuật toán tam giác

* Chọn ngưỡng đối với Bimodal Histogram

Nếu ảnh chứa một đối tƣợng và một nền có cƣờng độ đồng nhất, nó thƣờng có một histogram hai mốt (bimodal histogram) nhƣ một trƣờng hợp trình bày trong hình bên dƣới.

Ngƣỡng T đƣợc chọn ở tại vị trí cực tiểu địa phƣơng của histogram nằm giữa hai đỉnh của histogram. Điểm cực đại địa phƣơng của histogram có thể dễ dàng đƣợc phát hiện bằng cách sử dụng biến đổi chóp mũ (top hat) do Meyer đƣa ra: Phụ thuộc vào tình huống chúng ta đang phải làm việc là với nhƣng đối tƣợng sáng trên nền tối hay đối tƣợng tối trên nền sáng mà phép biến đổi top hat sẽ có một trong hai dạng sau:

- Các đối tƣợng sáng: TopHat(A,B) = A – (A o B) = A – maxB(minA(A)) d  Hb b Số điểm bmax bmi Giá trị độ sáng Hmin Hmax

- Các đối tƣợng tối: TopHat(A,B) = A – (A o B) = A – minB(maxA(A)) Việc tính toán giá trị cực tiểu địa phƣơng của histogram thì khó nếu histogram nhiễu. Do đó, trong trƣờng hợp này nên làm trơn histogram, ví dụ sử dụng thuật toán (2.25).

Hình 2.9. Bimodal histogram

Trong một số ứng dụng nhất định, cƣờng độ của đối tƣợng hay nền thay đổi khá chậm. Trong trƣờng hợp này, histogram ảnh có thể không chứa hai thuỳ phân biệt rõ ràng, vì vậy có thể phải dùng ngƣỡng thay đổi theo không gian. Hình ảnh đƣợc chia thành những khối hình vuông, histogram và ngƣỡng đƣợc tính cho mỗi khối tƣơng ứng. Nếu histogram cục bộ không phải là bimodal histogram thì ngƣỡng đƣợc tính bằng cách nội suy ngƣỡng của các khối láng giềng. Khi ngƣỡng cục bộ đã có thì áp dụng thuật toán phân ngƣỡng ở hình 2.9. cho khối này.

2.3.3. Phân đoạn dựa trên cơ sở vùng

2.3.3.1. Giới thiệu

Mục đích của phân đoạn là phân chia bức ảnh ra nhiều vùng. Trong phần trƣớc đã tiếp cận bài toán bằng phƣơng pháp tìm đƣờng biên giữa các vùng trên cơ sở sự không liên tục của độ xám, phân đoạn đƣợc thực hiện qua ngƣỡng. Trong phần này tìm hiểu về kỹ thuật phân đoạn dựa trên tìm kiếm các vùng một cách trực tiếp.

2.3.3.2. Cộng thức cơ bản

Cho R mô tả toàn bộ vùng ảnh. Chúng ta xem phân đoạn ảnh là chia Z Số điểm ảnh

Giá trị độ sáng T

45 thành n vùng nhỏ nhƣ Z1, Z2, …Zn, vì thế: a. Z Z n i i    1 b. Zi liên thông, i = 1, 2, …, n c. Zi Zj =  với mọi i và j, i  j d. P(Zi) = TRUE với i = 1, 2,…, n e. P(Zi Zj) = FALSE với i  j

Với P(Zi) là một hàm logic đƣợc định nghĩa trƣớc cho mọi điểm Zi và 

là tập rỗng.

Điều kiện (a) chỉ ra sự phân đoạn đã kết thúc, điề này có nghĩa mỗi pixel đề đã nằm trong một vùng. Điều kiện (b) yêu cầu những điểm nằm trong một vùng phải liên thông trong một điều kiện giới hạn trƣớc. Điều kiện (c) cho biết các vùng phải rời nhau. Điều kiện (d) đòi hỏi những điểm đã phân đoạn phải thỏa mãn một vài thuộc tính đã đƣợc xác định trƣớc, ví dụ P(Zi) = TRUE nếu tất cả pixel trong Zi có mức xám giống nhau. Điều kiện (e) nghĩa là chân trị của P theo các vùng Zi và Zj khác nhau nếu j khác i.

2.3.3.3. Tăng vùng

Tăng vùng là một thủ tục nhóm các pixel hoặc các miền thành những vùng lớn hơn dựa trên các điều kiện giới hạn trƣớc.

Chọn một tập bắt đầu, gồm một hoặc nhiều điểm, thƣờng dựa trên bản chất tự nhiên. Khi một điều kiện trong những phần trƣớc không có giá trị, thủ thuật này sẽ xem xét mọi pixel giống nhƣ tập thuộc tính ban đầu để cuối cùng gộp các pixel đó vào những vùng trên trong suốt quá trình phát triển vùng. Kết quả xử lý của những cụm điểm những pixel sẽ đƣợc xem là “hạt” (seeds) nếu thuộc tính của chúng gần với tâm thuộc tính của cụm pixel đó.

Việc chọn tiêu chuẩn phụ thuộc vào từng loại ảnh. Ví dụ phân tích ảnh chụp vệ tinh trái đất phụ thuộc vào màu sẳc. Với ảnh trắng đen, phân tích

vùng phải giải thích đƣợc một tập mô tả dựa trên giá trị mức xám và đặc trƣng không gian.

Việc mô tả các thuộc tính một cách rời rạc có thể đƣa ra những kết quả

Phân đoạn ảnh dựa vào ngƣỡng

Phân đoạn theo miền đồng nhất