Những thí nghiệm trên hệ thống thị giác con người HVS (human visual system) cho thấy độ nhạy của mắt người đối với một tác nhân kích thích phụ thuộc rất nhiều vào thành phần tần số của tác nhân kích thích. Những kết quả tương tự cũng đạt được trên những lồi động vật cĩ vú khác. Nhiều thí nghiệm khác cịn cho thấy một ảnh được cảm nhận bởi mắt được phân rã thành nhiều kênh thơng dải (bandpass channel) khi chúng chuyển động về phía chúng ta và truyền đến hệ thống thần kinh thị giác trên võ não. Các thành phần bandpass này tương ứng với những hướng và độ phân giải khác nhau. Trong khi biễu diễn Laplacian chỉ cung cấp một phân rã ở một độ phân giải thì biến đổi wavelet cho phép phân biệt các thành phần theo những hướng khác nhau. Ơû mỗi độ phân giải, cĩ ba kênh tương ứng với các hướng ngang, dọc và chéo. Điều này chưa đủ để giống như các giai đoạn xử lý thơng tin phức tạp của hệ thống thị giác con người, nhưng xấp xỉ như vậy rất hữu ích. Theo G.S Mallat thì mục tiêu của xử lý ảnh đa phân giải khơng phải là thiết kế một phép biến đổi bắt chước theo HVS. Thay vào đĩ, sự tương tự như HVS thúc đẩy việc xử dụng phân rã ảnh đa phân giải như là bước tiền xử lý trong các giải thuật xử lý ảnh phức tạp.
1.5.6 Ứng dụng
Phân rã wavelet được ứng dụng trong nén ảnh và video, khử nhiễu. Cĩ những ứng dụng khác mà wavelet đưa ra một giải pháp hợp lý hơn so với những kỹ thuật phân rã đa phân giải khác. Ví dụ như phân đoạn ảnh và phân tích cấu trúc ảnh, nhận dạng chữ ký viết tay, tái tạo ảnh trong y học.
1.6 Những đa phân giải khác
1.6.1 Biến đổi wavelet khơng giảm tốc độ lấy mẫu
Aûnh và ảnh đã dịch chuyển (translate) nĩi chung sẽ tạo ra những hệ số wavelet khác nhau. Như vậy, phép biến đổi wavelet là khơng bất biến đối với dịch ảnh ngõ vào. Đây là điều bất lợi trong các ứng dụng như làm nổi đường biên và nhận dạng ảnh nĩi chung. Việc thiếu đặc tính bất biến dịch chuyển (translation invariance) cĩ thể tránh được nếu ngõ ra của các băng lọc khơng bị giảm tốc độ lấy mẫu. Biến đổi wavelet khơng giảm tốc độ lấy mẫu tạo ra một tập hợp các ảnh cĩ cùng kích thước với ảnh ban đầu (N x M).
1.6.2 Wavelet packet
Mặc dù biến đổi wavelet thường cung cấp một biễu diễn ảnh thưa nhưng một số ảnh cĩ đặc tính tần số khơng phù hợp với cách biểu diễn wavelet. Trong trường hợp các ảnh dấu vân tay, các lằn vân tay là những đường khá hẹp. Một cách biễu diễn thưa hơn các ảnh như vậy cĩ thể thực hiện bằng cách chia các băng con thích hợp theo cách đệ quy. Cơ chế này được gọi là phân rã băng con (subband decomposition). Cách tiếp cận này đã được phát triển trong xử lý tín
đã phát triển một giải thuật khéo léo tìm ra phân rã băng con cho biễu diễn ảnh thơ nhất. Yù tưởng này được mở rộng để tìm phân rã tốt nhất cho nén ảnh.
CHƯƠNG 2:
PHÂN ĐOẠN ẢNH MÀU ĐA PHÂN GIẢI
2.1 Các tiêu chuẩn đánh giá kết quả của phân đoạn ảnh
Phân đoạn ảnh là một quá trình trong đĩ ảnh ban đầu được chia thành các vùng cĩ ý nghĩa. Nĩi chung, việc nhận ra các vùng như vậy là rất khĩ.
Sau đây là nhiều tiêu chuẩn dùng để đánh giá một kết quả phân đoạn là tốt hay khơng tốt :
1) Các vùng của ảnh đã phân đoạn phải đồng nhất về một số đặc điểm như màu hoặc cấu trúc.
2) Các vùng phải đơn giản và khơng chứa nhiều các lỗ (là các vùng nhỏ lốm đốm).
3) Các vùng lân cận phải cĩ các đặc điểm khác nhau đáng kể.
4) Các đường biên của mỗi vùng phải đơn giản, khơng rời rạc và phải chính xác về khơng gian.
Thỏa mãn tất cả các tính chất trên là rất khĩ bởi vì nếu thỏa mãn một cách nghiêm ngặt những vùng đồng nhất thì lại thường chứa nhiều lỗ và cĩ các đường biên rời rạc. Nếu cứ nhất định thỏa mãn tính chất các vùng lân cận phải khác nhau một cách đáng kể thì cĩ thể làm cho các vùng bị hội tụ và các biên bị mất. Vì vậy, phải luơn cĩ một sự ước lượng, thỏa hiệp để đạt được một kết quả phân đoạn tốt.
Bởi vì các ảnh màu chứa nhiều thơng tin hơn so với ảnh trắng đen nên việc sử dụng một cách hữu ích thơng tin màu là một trong những quan tâm chính trong phân đoạn ảnh màu.
2.2 Phân loại các cách phân đoạn ảnh màu
Các kỹ thuật phân đoạn ảnh màu cĩ thể phân loại thành ba nhĩm là phân đoạn dựa vào histogram, phân đoạn dựa vào vùng lân cận và phân đoạn theo tính chất vật lý.
2.2.1 Phân đoạn dựa vào histogram
Phân đoạn dựa vào histogram sử dụng phương pháp clustering (nhĩm lại, gĩp lại) để xác định rõ một partition (một vùng được phân chia) trong khơng gian đo đạc. Mỗi pixel được gán một nhãn. Một vùng ảnh (region) được xác định là một tập hợp kết nối các pixel cĩ cùng một nhãn.
Phương pháp phân đoạn dựa vào histogram thừa nhận các đối tượng đồng nhất trong ảnh biểu thị như là các cluster trong khơng gian đo đạc. Aûnh phân đoạn được thực hiện bằng cách ánh xạ cluster trở lại ảnh. Các cluster được ánh xạ ngược lại ảnh tạo nên các vùng ảnh. Đối với ảnh đen trắng, việc tính tốn histogram được thực hiện trực tiếp. Việc phân nhĩm trong khơng gian đo đạc cĩ thể được thực hiện bằng cách xác định các ngưỡng trong histogram và khẳng định các cluster là các khoảng giá trị ở giữa các ngưỡng.
Nhược điểm là cách tiếp cận chấp nhận thiếu tin tức về khơng gian cục bộ. Hậu quả là các vùng tạo ra cĩ biên khơng trơn và thường cĩ nhiều lỗ, gọi là hiệu ứng nhiễu “muối tiêu” (salt-and-pepper).
Các phương pháp thống kê được sử dụng khá phổ biến trong phân đoạn ảnh. Tuy nhiên, những phương pháp này yêu cầu phải cho biết trước những thơng tin tồn cục về nội dung và cấu trúc của ảnh.
Trường ngẫu nhiên Markov MRF (Markov Random Fields), do S. Geman và D. Geman [8] đưa ra năm 1984, cung cấp một phương tiện để xác định mối liên hệ giữa các lân cận và thể hiện sự phụ thuộc lẫn nhau giữa các pixel. Với việc sử dụng mối liên hệ giữa các lân cận, chúng ta khơng cần biết trước thơng tin tồn cục của ảnh. MRFs đã được ứng dụng trong khơi phục và phân đoạn ảnh.
MRF (Markov Random Fields) đưa ra nhiều đặc điểm rất cĩ lợi trong phân đoạn ảnh màu. Những yêu cầu như độ trơn và độ liên lục của các vùng màu trên tồn bộ ảnh cĩ thể được đáp ứng nghiêm ngặt nếu chỉ sử dụng sự phụ thuộc giữa các vùng lân cận. Sự khơng liên tục, sẽ chia ảnh thành các vùng cĩ màu đồng nhất, được tính tốn trong khi phát hiện các vùng trơn của ảnh. Thêm vào đĩ, sự phân bố xác suất trước và sau (theo định lý Bayes) thiết lập mối quan hệ giữa các ảnh trong pyramid và đưa ra kết quả phân đoạn.
Phân đoạn dựa vào histogram và dựa vào lân cận đều khơng sử dụng các tính chất vật lý của các định dạng ảnh màu trong những vật liệu màu khác nhau. Các giải thuật dựa vào tính chất vật lý cho kết quả phân đoạn tốt với những ảnh màu trong những điều kiện xác định.
2.2.3 Phân đoạn theo tính chất vật lý
Klinker, Shafer và Kanade [9] đã đề xuất cách phân đoạn dựa theo tính chất vật lý. Họ thiết lập mơ hình gọi là mơ hình phản ảnh hai sắc thái DRM (Dichromatic Reflection Model).
Theo mơ hình, vật liệu cĩ thể chia làm hai loại theo những thuộc tính cơ bản về quang học. Đĩ là vật liệu đồng nhất về quang học và khơng đồng nhất về quang học. Những vật liệu đồng nhất về quang học cĩ độ khúc xạ khơng thay đổi. Kim loại, thủy tinh và những tinh thể là những ví dụ thơng dụng nhất của vật liệu đồng nhất. Những vật liệu khơng đồng nhất là sự kết hợp, trộn lẫn các hạt, phần tử cĩ tính chất quang học khác nhau. Ví dụ vật liệu khơng đồng nhất như : nhựa, giấy, thuốc nhuộm, vải.
Khi ánh sáng chiếu đến bề mặt của một đối tượng, một số trong đĩ được phản xạ. Phần phản xạ tại bề mặt của đối tượng sao cho gĩc phản xạ bằng gĩc tới được gọi là phản ánh bề mặt. Phần ánh sáng tới được thu lại sau khi đi qua đối tượng được gọi là phản ảnh bên trong.
DRM mơ tả tồn bộ phản ánh này. Aùnh sáng phản ánh L(λ,g) là một kết hợp tuyến tính của phản ánh bề mặt và phản ánh bên trong được tính theo biểu thức sau: ) ( ) ( ) ( ) ( ) , (λ g ms g Cs λ mb g Cb λ L = + (2.1)
trong đĩ λ là bước sĩng, g là hệ số hình học, ms và mb lần lượt là phân bố phổ cơng suất của phản ánh bề mặt và phản ánh bên trong. Cs và Cb là các hệ số phạm vi hình học. Từ ánh sáng phản ánh L(λ,g), Klinker, Shafer và Kanade [22] tiến hành phân đoạn ảnh.
Phương pháp này cĩ nhiều hạn chế. Mơ hình DRM chỉ cĩ thể sử dụng để phân tích ảnh được quan sát trong những điều kiện hết sức nghiêm ngặt.
2.3 Phân đoạn ảnh màu đa phân giải theo trực quan 2.3.1 Các cách tiếp cận 2.3.1 Các cách tiếp cận
Đề tài phân tích cấu trúc và phân đoạn màu đã thu hút sự chú ý của nhiều nhà nghiên cứu. Để giải quyết vấn đề phân đoạn ảnh màu cĩ cấu trúc, những nghiên cứu trước đây đều kết hợp những kiến thức đạt được trong nghiên cứu lĩnh vực cấu trúc ảnh với những kiến thức đạt được trong lĩnh vực màu. Cĩ một đặc tính cơ bản mơ tả đặc điểm của cấu trúc màu là: Cảm nhận về màu của con người phụ thuộc vào tần số của các thành phần màu. Zhang và Wandell [6] đã đề xuất một hệ thống màu mới, gọi là SCIE-Lab, sau khi đã xem xét một cách cẩn thận đặc điểm này của hệ thống thị giác.
Ít nhất cĩ hai vấn đề liên quan ở đây. Thứ nhất, hệ thống thị giác con người cĩ thể tách cấu trúc màu như là một thực thể riêng lẻ khơng chút khĩ khăn. Thứ hai, những đặc điểm về kết cấu của ảnh ở một độ phân giải nhất định cĩ thể hồn tồn khác với những đặc điểm về kết cấu của cùng ảnh đĩ ở một độ phân giải khác. Một đặc điểm quan trọng khác của hệ thống thị giác con người là nĩ làm việc như một tiến trình, với việc phân tích một frame hiện tại dựa vào việc phân tích những frame trước đĩ.
Lý do mà chúng ta phải quan tâm đến sự cảm nhận màu của con người là bởi vì những tiêu chuẩn mà chúng ta đánh giá một phân đoạn là tốt hay khơng tốt là chủ quan. Khi khơng cĩ những yêu cầu thực tế riêng biệt, chúng ta mong muốn quá trình phân đoạn ảnh của chúng ta giống như những gì được thực hiện trong hệ thống thị giác của chúng ta. Vì vậy, mối quan tâm của chúng ta trong phân đoạn theo cảm nhận của cấu trúc màu cĩ liên quan đến cách mà nhiều cấu trúc khác nhau được cảm nhận như những vùng đồng nhất riêng biệt trong hệ thống thị giác.
Hứng thú với những quan sát, nhận định trên, một cơ chế phân đoạn cấu trúc màu được đề xuất, bằng cách xây dựng một quan hệ nhân quả (causal) và các phiên bản tower đa phân giải của ảnh (multiscale tower) dựa trên những nghiên
cứu về cảm nhận màu. Lý do chúng ta gọi nĩ là “tower” mà khơng phải là “pyramid” là bởi vì chúng ta khơng thực hiện giảm tốc độ lấy mẫu và vì vậy chúng ta cĩ số pixel giống nhau ở mọi mức. Mỗi mức của tower được xây dựng bởi một mặt nạ mờ (blurring mask) được Zhang và Wandell trong báo cáo [6] đưa ra, bằng cách giả sử xem xét một đối tượng ảnh ở các khoảng cách 1, 2, 3, ... mét. Vì vậy, mỗi phiên bản thơ hơn của ảnh trong sơ đồ tower mơ phỏng cho một phiên bản ảnh bị mờ bởi hệ thống thị giác khi ảnh được xem ở một khoảng cách tương ứng nào đĩ. Việc phân tích ảnh bắt đầu từ mức thơ nhất và tiến về mức mịn nhất. Điều này tương tự như những gì xảy ra khi con người đang quan sát và chầm chậm tiến về phía đối tượng từ một khoảng cách xa. Cơ chế mà thơng tin truyền từ mức thơ hơn đến mức mịn hơn là lý thuyết xác suất bao gồm những mối quan hệ nhân quả. Cơ chế trên chưa hẳn là cơ chế thực hiện trong hệ thống thị giác nhưng chúng ta sử dụng cách tiếp cận này bởi vì những cơng cụ tốn học của nĩ cho phép kết hợp cả những đặc điểm và những kết luận cĩ liên quan đến việc phân tích ở nhiều mức phân giải đã nêu trong phần trên.
Tính chất mới mẻ, sáng tạo trong nghiên cứu này được chia làm hai phần: trong khi hình tháp đa phân giải (multiresolution pyramid) được đề xuất và giải quyết thành cơng nhiều vấn đề, bao gồm phân đoạn ảnh, thì đây là lần đầu tiên một biễu diễn ảnh đa phạm vi, đa cấp (multiscale/multilevel) bắt chước theo sự cảm nhận của mắt người được sử dụng cho phân đoạn. Ý nghĩa nổi bật của sơ đồ biễu diễn ảnh đa phân giải này là ở chỗ cĩ xem xét sự cảm nhận của mắt người theo các thành phần tần số. Thứ hai, mặc dù vấn đề truyền thơng tin từ một mức phân giải đến mức kế tiếp đã được giải quyết bởi nhiều nhà nghiên cứu, và cơ chế hồi phục theo xác suất (probabilistic relaxation) đã được sử dụng trong biễu diễn hình tháp đa phân giải của dữ liệu, thì đây là lần đầu tiên một lý thuyết hồi
khác nhau của đa phân giải, và việc sử dụng một từ điển cho phép cấu hình các nhãn tương ứng với các nhãn của các vùng được xem xét.
Mục kế tiếp sẽ mơ tả phương pháp làm thế nào một tower theo cảm nhận của các ảnh được tạo ra. Mục 2.3.3 sẽ trình bày cơ chế truyền thơng tin theo xác suất giữa các lớp của tower theo hướng từ mức thơ đến mức mịn hơn.
2.3.2 Xây dựng Tower theo trực quan
Độ phân giải của một ảnh tương ứng với kích thước vật lý của một pixel. Khi đối tượng được quan sát cĩ một kích thước cố định, khơng thay đổi; lúc này một pixel được biểu diễn bởi một kích thước vật lý lớn hơn thì cần ít pixel hơn để biểu diễn cho đối tượng được quan sát này. Ví dụ, 1 pixel = 3×3 mm2 trong một cảnh. Khi cùng một đối tượng vật lý đĩ được quan sát ở những khoảng cách khác nhau thì độ phân giải của ảnh thay đổi, ví dụ 1 pixel = 3×3 cm2. Cùng lúc này, số lượng pixel của ảnh của đối tượng vật lý này chiếm trong võng mạc sẽ giảm. Mỗi pixel bây giờ mang thơng tin đã bị mờ đi từ những pixel trong những phiên bản mịn hơn của ảnh. Vì vậy khi làm mờ các ảnh đi như trong hệ thống thị giác của chúng ta, thì chúng ta cũng nên lần lượt giảm tốc độ lấy mẫu ảnh. Theo cách này, một sơ đồ hình tháp (pyramid) của ảnh phân giải được tạo ra. Ta khơng chọn cách thực hiện giảm tốc độ lấy mẫu này, vì vậy ở đây ta đã tạo ra một tower của các ảnh thay vì là một pyramid. Lý do là bởi vì: (1) muốn giữ thơng tin dư thừa ở các mức thơ để tăng độ mạnh, độ chính xác của hệ thống, (2) muốn duy trì một sự tương quan trực tiếp giữa các pixel dọc theo các ảnh phân giải tức là bảo tồn mối tương quan giữa các pixel của các mức phân giải khác nhau. Bởi vì ta khơng thực hiện giảm tốc độ lấy mẫu, kích thước của ma trận làm mờ mà ta sử dụng trở nên lớn theo số lượng của các pixel khi chúng ta tiến hành tính tốn tạo ra các
ảnh thơ hơn của tower. Nhìn nhận từ khía cạnh này, các tiếp cận của chúng ta là đa phân giải bởi vì chúng ta sử dụng các bộ lọc ở nhiều kích thước. Vì vậy , ta cĩ