Phân vùng ảnh là một thao tác cần thiết trong toàn bộ quá trình xử lý ảnh. Quá trình này thực hiện việc phân vùng ảnh thành các vùng rời rạc và đồng nhất với nhau hay nói cách khác là xác định các biên của các vùng ảnh.
Phân vùng ảnh, trong đó có thuật toán DRM, đóng vai trò quan trọng trong nhiều ứng dụng thực tế về khoa học kĩ thuật cũng như trong cuộc sống thường ngày như: sản xuất và kiểm tra chất lượng, sự di chuyển của robot, các phương tiện tự động di chuyển, công cụ hướng dẫn cho người mù, ứng dụng trong an ninh và giám sát, nhận dạng đối tượng, nhận dạng mặt, các ứng dụng trong y học, sản xuất, hiệu chỉnh video.
2.5. Kết luận chƣơng 2
Phần này trình bày đánh giá thuật toán phân vùng ảnh bằng cách sát nhập các miền động (Dynamic Region Merging – DRM). Bắt đầu từ một tập hợp của các vùng đầu tiên, phân vùng được thực hiện bằng việc tiếp tục sát nhập các miền lân cận tương tự theo một điền kiện xác định. Đó là ý tưởng thuật toán DRM. Chương sau thử nghiệm thuật toán DRM với một số ví dụ tiêu biểu.
Chƣơng 3
CÀI ĐẶT THỬ NGHIỆM 3.1. Môi trƣờng cài đặt
Chương trình được cài đặt trên Môi trường Microsoft Windows Ultimate Edition 32-bit Service Pack 1, sử dụng ngôn ngữ C++ MS visual studio với máy tính có cấu hình như sau:
CPU: Intel(R) Core(TM) i3 CPU - M 370@ 2.40 GHz Memory Type: DDR3
Memory Size: 4096 Mbytes (4 GB) HDD: 320 GB
Mã nguồn có tại Department of Computing, HK Polytechnic University.
3.2. Lựa chọn các thông số
Trong phương pháp DRM được đề xuất, có năm tham số tự do{m, λ1, λ2, α, β} để kiểm soát việc đánh giá giả thuyết thống nhất. Khi thực hiện, ta cố định bốn tham số trong số chúng (ví dụ, m, λ2, α, β) là không đổi. Tuy nhiên, nó vẫn là giá trị điều tra tác động của sự ổn định và sự vững mạnh của toàn bộ quá trình phân vùng.
Trong SPRT, m được sử dụng để quyết định chất lượng của dữ liệu đã chọn cho các thử nghiệm ngẫu nhiên. Ta chọn nó là một nửa kích thước của vùng, như trong các thí nghiệm ta thấy rằng các kết quả phân chia không nhạy cảm với những thay đổi vừa phải m.
Sau đó, ta kiểm tra sự lựa chọn các thông số α và β, để đại diện cho khả năng chấp nhận một mô hình "không phù hợp" cũng như "phù hợp" và từ chối một mô hình "phù hợp" cũng như là "không phù hợp", tương ứng. Trong việc thực hiện này, cả α và β được thiết lập để được một giá trị cố định 0.05. Về mặt lý thuyết, các giá trị của α và β cũng sẽ ảnh hưởng đến số lần kiểm tra cần thiết cho SPRT, được thể hiện trong phương trình (9) được đề xuất bởi Wald. Ràng buộc trên về số lượng các bài kiểm tra N0 được thiết lập dựa trên SPRT.
Các thử nghiệm cuối cùng được thực hiện để kiểm tra sự lựa chọn của tham số λ1, mà chỉ người sử dụng tham số đầu vào trong việc thực hiện. Theo định nghĩa trong phương trình (4) và phương trình (5), nếu ta đặt λ2 = 1, thì λ1 có thể được sử
dụng để cân bằng trọng số tương đối của P0 và P1 để chỉ λ1 cần phải điều chỉnh. Đối với một giá trị nhỏ của λ1, nó đòi hỏi phải có chứng minh thuyết phục cho một biên. Nói cách khác, sát nhập trên là không có khả năng xảy ra với giá trị nhỏ của λ1.
Nói chung, làm giảm giá trị của λ1 sẽ tạo ra nhiều miền hơn trong kết quả phân vùng. Việc kiểm soát tham số này dẫn đến một hệ thống các phân vùng ở các quy mô khác nhau. Khi λ1 tăng, số lượng các miền có xu hướng giảm. Trong các thí nghiệm, giá trị của λ1 được chọn từ 0.1 đến 5. Chú ý rằng rất khó để tìm thấy một λ1 phù hợp nói chung cho tất cả các ảnh, vì sự đa dạng và giải thích đa hình các nội dung ảnh.
3.3. Kết quả thực nghiệm
Khi thử nghiệm thử nghiệm, tham số λ1 có thể đặt giữa 0.1 và 5. Hình 3.1 cho thấy các kết quả phân vùng của một ảnh ví dụ với các giá trị khác nhau của λ1. Khi λ1 là lớn( λ1 =[3,5]), thuật toán có nhiều khả năng để mất hai miền lân cận tương ứng. Do đó có thể tạo ra các miền sát nhập quá mức. Khi λ1 nhỏ, trường hợp ngược lại và kết quả là tạo ra miền sát nhập thấp (khi λ1= [0.1, 1]).
Ảnh đầu vào Điểm ảnh lớn với đường biên
Sát nhập động, λ1=0.2 Sát nhập động, λ1=0.6
Nhiều khi phải lặp quá trình sát nhập cho đến khi đạt được kết quả mong muốn. Dưới đây là một số trường hợp thử nghiệm.
Dưới đây là kết quả thuật toán DRM trong một số ví dụ. Rõ ràng là các miền lân cận với màu sắc thống nhất được sát nhập thành một, trong khi biên cũng được nằm trên các địa điểm thích hợp. Một số miền lớn có các biến thể đáng kể bên trong. Tuy nhiên, với những thay đổi tương đối chậm của màu sắc dọc theo các biên. Điều này cho thấy rằng thuật toán DRM có thể chứa đựng một số biến thể cho các nhóm miền có nghĩa trong một ảnh.
Ảnh đầu vào Điểm ảnh lớn với đường biên
Điểm ảnh lớn Sát nhập động
Ảnh đầu vào Điểm ảnh lớn với đường biên
Điểm ảnh lớn Sát nhập động
Hình 3.3: Phân vùng “thấp” – under segment
Ảnh đầu vào Điểm ảnh lớn với đường biên
Điểm ảnh lớn Sát nhập động
Ảnh đầu vào Điểm ảnh lớn với đường biên
Điểm ảnh lớn Sát nhập động
Hình 3.5: Có thể sát nhập các miền với biên có độ tƣơng phản ngắn
Ảnh đầu vào Điểm ảnh lớn với đường biên
Điểm ảnh lớn Sát nhập động
Ảnh đầu vào Điểm ảnh lớn với đường biên
Điểm ảnh lớn Sát nhập động
Hình 3.7: Một số miền lớn có các biến thể đáng kể bên trong
Ảnh đầu vào Điểm ảnh lớn với đường biên
Điểm ảnh lớn Sát nhập động
Ảnh đầu vào Điểm ảnh lớn với đường biên
Điểm ảnh lớn Sát nhập động
Hình 3.9: Ví dụ lỗi của phƣơng pháp DRM
3.4. Đánh giá chất lƣợng phân vùng
Đánh giá chất lượng phân vùng có thể là khá khó như chính phân vùng. Trong những thập kỷ trước, nhiều nhà nghiên cứu đã tìm phương pháp đánh giá giám sát: các ảnh được phân vùng được so sánh với một ảnh nền thật. Tuy nhiên, trong phân vùng ảnh không được giám sát, thường không sẵn có nền thật.
Để xây dựng một nền tảng chung cho các nhà nghiên cứu để đánh giá các phương pháp phân vùng ảnh khác nhau, một nhóm các ảnh phân vùng con người cho mỗi mẫu thử nghiệm được cung cấp trong bộ dữ liệu phân vùng Berkeley (BSDS), và một phương pháp đánh giá dựa trên biên được đề xuất bởi Martin và cộng sự. Trong một khuôn khổ chính xác – sự phản hồi được áp dụng kết hợp với các biên được đánh dấu của con người. Độ chính xác – phản hồi là một biện pháp được đánh giá tốt trong phân vùng ảnh, trong đó xem xét hai khía cạnh của biên: phần chính xác là phần nhỏ của sự phát hiện lớn hơn lỗi, trong khi phản hồi là phần không được phát hiện chứ không phải là bị bỏ qua. Một sự kết hợp của hai đại lượng này được định nghĩa là độ đo (F):
F = PR / (tR + (1- t)P) (15) Trong đó t là một chi phí tương đối giữa P và R. Một đường cong độ đo F có thể thu được bằng cách thay đổi các thông số thuật toán. Đường cong độ đo (F) tối đa có thể được dùng như là đánh giá của hiệu suất của thuật toán.
Độ đo (F) được thử nghiệm trên bộ dữ liệu BSDS. Với phân vùng băng tay, độ đo (F) trung bình là 0.79. Thuật toán DRM có độ đo (F) trung bình là 0.65.
3.5. Kết luận chƣơng 3
Phần này trình bày một khuôn khổ cho sát nhập vùng. Tín hiệu đơn giản, tức là, màu sắc miền, được sử dụng trong việc thực hiện. Đương nhiên, những tín hiệu khác nhau (ví dụ như màu sắc, kết cấu, hình dạng, vv) hoặc một sự kết hợp của chúng có thể được khám phá bằng cách thay đổi định nghĩa của xác suất có điều kiện trong SPRT (phương trình (5)). Vị từ sát nhập miền sử dụng các cạnh trọng số tối thiểu giữa hai miền để đo sự khác biệt giữa chúng. Nó được đảm bảo rằng một số tính chất toàn ảnh có thể đạt được theo vị từ này. Tuy nhiên, vị từ có thể dẫn đến
một giới hạn để chụp những khác biệt nhận thức giữa hai miền cục bộ lân cận. Một số ví dụ lỗi được đưa ra trong hình 3.9. Ta có thể thấy rằng thuật toán DRM có thể bỏ đi một số biên dài nhưng yếu, và nó cũng có thể sát nhập các miền với biên có độ tương phản ngắn.
Một vấn đề khác có thể quan tâm là bản chất ngẫu nhiên của SPRT có thể dẫn đến phân vùng không phải duy nhất tới một ảnh. Để đánh giá số lượng ảnh hưởng trên các kết quả phân vùng, ta chọn ngẫu nhiên 20 ảnh và chạy thuật toán này cho 10 lần trên mỗi một ảnh trong số chúng. Phân vùng của cùng một ảnh được so sánh bằng cách tính toán tỷ lệ khác biệt với số lượng điểm ảnh biên cho một ảnh. Kết quả là 0.88% trên trung bình chung, đã chỉ ra một sự không thích hợp của tính ngẫu nhiên của SPRT.
Có một vài khả năng mở rộng DRM để giải quyết những vấn đề trên. Ví dụ, ta có thể thêm một bước sàng lọc toàn ảnh để cho đúng các miền phân vùng có lỗi do các quyết định cục bộ. Nhiều lỗi sát nhập trong DRM là do không đủ thông tin cục bộ (nhận thức) được sử dụng để đưa ra quyết định sát nhập.
Tuy nhiên, nếu chúng ta xem các nhãn xuất ra của DRM là nhãn đầu tiên của nội dung ảnh, thì các dấu hiệu ban đầu này có thể được sử dụng để tính toán một số thống kê toàn ảnh của ảnh để một sàng lọc toàn ảnh có thể được xác định để làm chỉnh các sai số DRM theo một số tiêu chí. Một DRM với chương trình sàng lọc có thể khai thác cả tính năng ảnh toàn ảnh và cục bộ, và do đó kết quả được dự kiến có thể tốt hơn.
Mở rộng khác là việc tương tác người dùng. Với một số hướng dẫn sử dụng, nhãn ban đầu của một phần các miền ảnh có thể được chỉ định trước, sẽ cung cấp thông tin hữu ích cho quá trình sát nhập miền. Một thuật toán DRM tương tác sau đó có thể được phát triển để thực hiện các phân vùng ảnh.
KẾT LUẬN
Luận văn này mô tả lý thuyết và kết quả thử nghiệm phương pháp để phân vùng một ảnh màu thành các vùng riêng biệt. Thuật toán được đề xuất được thực hiện theo kiểu sát nhập miền. Thuật toán xác định một vị từ sát nhập P để chứng minh về việc sát nhập giữa hai miền lân cận. Vị từ này được xác định bằng cách kiểm tra tỷ lệ xác suất liên tục (SPRT) và tối đa các tiêu chuẩn. Thuật toán sát nhập miền động (DRM) đã được trình bày để tự động nhóm nhiều miền nhỏ đã được phân vùng ban đầu. Mặc dù miền được sát nhập được lựa chọn một cách cục bộ tại mỗi giai đoạn sát nhập, một số tính chất toàn ảnh được lưu giữ trong các phân vùng cuối.
Tuy nhiên trong quá trình thực hiện, với thời gian không có nhiều, năng lực chuyên môn, điều kiện thực nghiệm còn hạn chế, nên việc đánh giá tổng hợp các phương pháp còn khiếm khuyết. Tôi rất mong nhận được sự đóng góp ý kiến của các Thầy Cô cùng bạn bè đồng nghiệp.
TÀI LIỆU THAM KHẢO I. Tiếng Việt
1. Đỗ Năng Toàn, Phạm Việt Bình (2007). Giáo trình xử lý ảnh, Nhà xuất bản Đại học Hà nội.
2. Lương Mạnh Bá, Nguyễn Thanh Thủy. Nhập môn xử lý ảnh số, Nhà xuất bản Khoa học kỹ thuật, Hà Nội.
3. Nguyễn Kim Sách (1977). Xử lý ảnh và video số, Nhà xuất bản Khoa học kỹ thuật, Hà Nội.
4. Võ Đức Khánh, GS.TSKH. Hoàng Kiếm (2007). Giáo trình xử lý ảnh. Nhà xuất bản Đại học Quốc Gia TP Hồ Chí Minh.
II. Tiếng Anh
5. B. Paul, L. Zhang and X. Wu, “Canny edge detection enhancement by scale
multiplication,” IEEE. Trans. on Pattern Analysis and Machine Intelligence, vol.
27, pp. 1485-1490, Sept. 2005
6. Bo Peng, Lei Zhang, Zhang D. Automatic Image Segmentation by Dynamic
Region Merging, Page (s): 3592 - 3605. 2011
7. D.A. Forsyth and J. Ponce, Computer Vision: A Modern Approach. Prentice Hall, 2002
8. F, Lecumberry, A, Pardo and G. Sapiro. Simultaneous object classification and
segmentation with high-order multiple shape models. IEEE Transactions on
Image Processing. pp: 625 - 635, 2010
9. H. D Cheng, Y. Sun. A hierarchical approach to color image segmentation using
homogeneity. IEEE Transactions on Image Processing. Volume: 9, Issue: 12,
page (s): 2071-2082, 2000
10.Shilpa Kamdi, R.K.Krishna, “Image Segmentation and Region Growing
Algorithm”, International Journal of Computer Technology and Electronics
Engineering (IJCTEE), Volume 2, Issue 1, 103, 2012
11.J. Canny. A Computational Approach to Edge Detection, IEEE Trans. Pattern Analysis and Machine Intelligence, vol. 8, pp. 679-698, 1986
12.J. Shi and J. Malik. Normalized Cuts and Image Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI) 2000
13.L. Ladicky, C. Russell, P. Kohli, P. Torr. Associative Hierarchical CRFs for
Object Class Image Segmentation. In: ICCV 2009
14.Luis Garcia Ugarriza, Eli Saber, Sreenath Rao Vantaram, Vincent Amuso, Mark Shaw, and Ranjit Bhaskar, “Automatic Image Segmentation by Dynamic Region
Growth and Multiresolution Merging”, 2009, IEEE
15.L. Zhang, B. Paul, et al, “Edge detection by scale multiplication in wavelet
domain,” Pattern Recognition Letters, vol. 23, pp. 1771-1784, 2002
16.Moore, S. J. D. Prince, J. Warrell, U. Mohammed, and G. Jones. Superpixel
lattices. CVPR, 2008
17.Moore, S. J. D. Prince, J. Warrell, U. Mohammed, and G. Jones. Scene shape
priors for superpxiel segmentation. ICCV, 2009
18.Moore, S. Prince."Lattice Cut" - Constructing superpixels using layer
constraints. CVPR 2010
19.R.C. Gonzalez and R.E. Woods. Digital Image Processing. Addison Wesley, Reading, MA, 1992
20.S. Lee; M.M. Crawford. Unsupervised multistage image classification using hierarchical clustering with a bayesian similarity measure. IEEE Transactions on Image Processing. Page (s): 312 -320, 2005
21.S. Wang, J. M. Siskind. Image Segmentation with Ratio Cut, IEEE Transactions on Pattern Analysis and Machine Intelligence, 25 (6):675-690, 2003
22.X. Munoz, J.freixenet, X. Cufi, J. Marti, Strategies for image segmentation
combining region and boundary information, Pattern Recognition Letters 24, 2003
23.Z. Wu and R. Leahy. An optimal graph theoretic approach to data clustering
Theory and its application to image segmentation. IEEE Transactions on Pattern