Nhận xét, giải pháp đề xuất

Xem xét hình 3.11, chúng ta nhận thấy các core cluster ở các mức thơ kém chính xác hơn so với các core cluster ở mức mịn hơn. Điều này là do các core cluser ở mức mịn hơn là kết quả của quá trình giãn nở kết hợp thơng tin từ mức thơ trước đĩ và ảnh mờ ở mức hiện tại.

Xem xét các kết quả đạt được hình 3.12 và 3.13, chúng ta thấy kết quả phân đoạn càng chính xác khi số cluster khởi tạo ban đầu K càng lơn. Như vậy, giá trị khởi tạo cho k-means clustering cĩ ý nghĩa quyết định đến kết quả phân đoạn cuối cùng bởi vì số cluster ban đầu là cơ sở cho giải thuật phân đoạn đề xuất và khi k-means clustering thực hiện xong thì khơng cĩ thêm cluster mới nào được thêm vào. Tuy nhiên, khi chúng ta tăng K thì thời gian chạy chương trình rất lâu

Xem xét hình 3.13 (a) và hình 3.14 cĩ cùng số cluster k nhưng khác nhau về khoảng cách ds, chúng ta thấy khi ds nhỏ (200 inches) thì kết quả phân đoạn kém chính xác hơn và thời gian chạy chương trình gần bằng nhau. Điều này cho thấy mặc dù khi khoảng cách ds lớn sẽ dẫn đến số lượng các mức của tiến trình giãn nỡ nhiều hơn nhưng bù lại, việc tìm các cluster chung ở mức thơ nhất sẽ nhanh hơn. Do đĩ, thời gian thực hiện tồn bộ chương trình là gần bằng nhau.

Phân đoạn ảnh berries.jpg với k =10000 Ds = 10: 50: 200 Ds = 10: 50 : 300 Ds = 10 : 50 : 400 Thời gian thực hiện chương

trình (s) 2.5354e+003 2.6917e+003 2.7094e+003

Trong vấn đề phân đoạn ảnh, rất khĩ đánh giá một cách khách quan kết quả mà một chương trình đạt được. Tuy nhiên, so với các cách tiếp cận khác, giải thuật của này là rất mới mẻ và thú vị. Điểm nổi bật của giải thuật là cĩ sử dụng các kiến thức về hệ thống thị giác con người và nỗ lực thực hiện phân đoạn giống như quá trình thực hiện trong hệ thống thị giác của con người. Do đĩ, việc tính tốn cũng khá phức tạp.

Ví dụ: Với ảnh berries.jpg cĩ kích thước là 128x128 pixel = 16 384 pixel và số clusters khởi tạo K = 25000 thì số vịng lặp phải thực hiện trong chương trình kclassify.c là 409 600 000 lần. Đây là một con số rất lớn mà chương trình được viết bằng C chạy cũng rất lâu.

Tiến trình relaxation được lặp lại thơng qua tất cả các ảnh được làm trơn. Vì vậy, làm tăng tính tốn. Quá trình làm trơn cũng xử lý rất lâu do kích thước các bộ lọc của Zhang và Wandell rất lớn.

Giải pháp đề xuất

Nhiều giải thuật phân đoạn hướng đến việc xử lý các loại ảnh riêng biệt như ảnh trong y học, trong thiên văn học, v…v (xem [20], [4]). Các ảnh này đều cĩ những đặc điểm riêng và cĩ thể sử dụng các cách xử lý riêng biệt.

Khác với các giải thuật trên, giải thuật đề xuất hướng đến việc xử lý ảnh tự nhiên. Aûnh trong tự nhiên cĩ đặc điểm là ngẫu nhiên, khơng biết trước các tính chất của ảnh. Đây là lý do để chúng ta giải thích tại sao hai GS. M. Petrou và M. Mirmehdi [14] lại phân bố một cách ngẫu nhiên các means ban đầu trong khơng gian (x, y, L, a, b) khi bắt đầu tiến trình phân nhĩm các pixel. Để cĩ kết quả phân đoạn càng chính xác, chúng ta phải khởi tạo số cluster ban đầu rất lớn. Điều này dẫn đến số vịng lặp rất lớn như một ví dụ chúng ta đưa ra trong phần kết luận. Đồng thời, qua nhiều lần chạy chương trình, chúng ta nhận thấy là chương trình chạy nhanh hay chậm cũng cĩ phần tùy thuộc vào các giá trị means ngẫu nhiên ban đầu. Điều thứ ba là khi số cluster lớn, chúng ta nhận thấy mâu thuẫn là số cluster lại lớn hơn số pixel rất nhiều.

Từ những nhận định trên, một giải pháp giải quyết vấn đề này được đề xuất nhằm giải quyết yêu cầu giảm tính tốn (Giải pháp như hình 3.16, 3.17). Trong giải pháp này, chúng ta thực hiện phân nhĩm cho các pixel dựa vào khoảng cách giữa các pixel trong khơng gian (x, y, L, a, b) thay vì xét khoảng cách giữa pixel và các means của các cluster ban đầu như trong giải thuật cũ. Giải thuật phân nhĩm cho các pixel được cho trong hình 3.17. Một nhĩm được thành lập khi khoảng cách giữa các pixel lân cận nhau nhỏ hơn mức ngưỡng β cho trước. Sau khi phân nhĩm các pixel, chúng ta thực hiện hội tụ các cluster nếu khoảng cách của các cluster gần nhau nhỏ hơn mức ngưỡng là 8 (giống như mức ngưỡng trong giải thuật của M. Petrou và M. Mirmehdi) và xĩa những cluster khơng cĩ ý nghĩa.

Những cluster khơng cĩ ý nghĩa là những cluster rất nhỏ. Nếu để những cluster này tồn tại, kết quả phân đoạn cuối cùng của giải thuật sẽ bị lốm đốm các vùng rất nhỏ. Cuối cùng, chúng ta thực hiện sắp xếp lại các cluster bởi vì lúc này một pixel cĩ thể thuộc nhiều cluster và như vậy thì kết quả phân đoạn sẽ cĩ biên khơng rõ ràng, chính xác. Với các pixel này, chúng ta tính tốn khoảng cách của pixel này đến từng cluster của chúng. Pixel này sẽ thuộc cluster nào cĩ khoảng cách đến nĩ nhỏ nhất. Kết quả là mỗi pixel chỉ cĩ thể thuộc một cluster duy nhất. Về mặt tính tốn, với cách phân nhĩm như trên, chúng ta cĩ tối đa 8 pixel lân cận đối với mỗi pixel. Như vậy, đối với ảnh cĩ kích thước 128x128 pixels, chúng ta cĩ tối đa là 128x128x8 = 131 072 lần lặp, nhỏ hơn rất nhiều so với giải thuật chưa cải tiến (409 600 000 lần). Cách phân nhĩm mới này đã giảm lượng tính tốn đi rất nhiều lần.

Chúng ta cịn phải xác định chính xác mức ngưỡng β là bao nhiêu? Do điều kiện thời gian cĩ hạn nên chưa thể thực nghiệm xác định mức ngưỡng β cho hợp lý đối với mọi loại ảnh và cụ thể hĩa ý tưởng trên để lấy kết quả kiểm chứng, so sánh.

Begin Đọc file ảnh, Hệ số k và khoảng cách (Tạo tower) Gọi createpyramid.m Hiển thị pyramid Phân nhĩm các pixel thành các cluster (Hình thành các cluster lõi) Gọi formCoreCluster.m

Hiển thị các cluster lõi

Trả lại các giá trị ngõ ra pyr, masks, confidences, stds, means.

End

Begin

Lấy ma trận ảnh LAB và số cluster

Sắp xếp lại ảnh theo vector imageVect

i : = 1

Tính và trả lại các giá trị means, clusters, map, groups

End

Tính các khoảng cách từ pixel này đến các pixel lân cận của nĩ.

Nhĩm các pixel này thành một nhĩm

i := i+1 < numPixels

Đúng

Sai

Hình vẽ 3.17. Lưu đồ giải thuật phân nhĩm cải tiến Dists(j) < mức ngưỡng β

Hội tụ các nhĩm

KẾT LUẬN

Từ cơ sở tốn học và các ứng dụng của biến đổi đa phân giải đã trình bày, chúng ta rút ra một số kết luận sau:

1. Biến đổi đa phân giải rất đa dạng, phong phú, nhưng đều được xây dựng trên cơ sở thõa mãn 6 tiên đề đã nêu. Những tiên đề này được đưa ra trên cơ sở liên hệ với quá trình xử lý trong hệ thống thị giác con người.

2. Qua tổng kết nhiều tài liệu viết về các ứng dụng của đa phân giải, cĩ thể nhận định biến đổi đa phân giải ứng dụng trong nhiều vấn đề của lĩnh vực xử lý tín hiệu và xử lý ảnh như nén ảnh, phân đoạn ảnh, tách biên, khử nhiễu, xử lý tín hiệu âm thanh, phân tích dữ liệu về địa chấn... Trong đĩ, biểu diễn Gaussian pyramid, Laplacian pyramid và nhất là biểu diễn đa phân giải dựa trên wavelet đĩng vai trị chủ đạo.

3. Từ những cuốn sách tham khảo [1], [3], [4], [5] và các bài báo đăng trên tạp chí IEEE gần đây nhất [21], [22], [23] chúng ta thấy mặc dù ý tưởng về phép biến đổi đa phân giải đã cĩ từ rất lâu (khoảng hai chục năm nay) nhưng lý thuyết tốn học về đa phân giải vẫn được quan tâm nghiên cứu để tạo nên những cơng cụ xử lý tín hiệu hiệu quả. Nhiều phép biến đổi đa phân giải vẫn được phát triển, sáng tạo để giải quyết những vấn đề rất cụ thể.

Qua những nội dung trình bày trong chương 1 của luận án, mục tiêu nghiên cứu những đặc điểm và những ứng dụng chính của đa phân giải đã được hồn thành. Để thực hiện một ứng dụng cụ thể của đa phân giải, luận án đã chọn lĩnh vực phân đoạn ảnh theo trực quan bởi vì phân đoạn ảnh là một xử lý ảnh căn bản,

trực quan là giải thuật phức tạp nhất trong các giải thuật phân đoạn và được áp dụng với mọi loại ảnh (ảnh tự nhiên). Qua các kết quả thực nghiệm của chương trình trong luận án, chúng ta thấy rõ:

1. Chương trình đã làm sáng tỏ kết quả áp dụng bộ lọc được xây dựng từ cơ sở đo đạc thực nghiệm trên hệ thống thị giác con người do Zhang và Wandell [6] đưa ra. So với hầu hết các giải thuật làm trơn hiện nay đều áp dụng bộ lọc Gaussian khi làm trơn ảnh, kết quả đạt được rất đáng khích lệ và mở ra nhiều thử nghiệm mới.

2. Luận án cho thấy các quá trình xử lý như tạo các cluster lõi, relaxtion là rất chặt chẽ và thích hợp với việc xử lý ảnh tự nhiên (cĩ các đặc điểm ngẫu nhiên) thơng qua các kết quả phân đoạn của nhiều ảnh con.

3. Hạn chế của chương trình là xuất phát từ việc khởi tạo một số lượng rất lớn cluster một cách ngẫu nhiên. Khi số cluster càng lớn thì kết quả phân đoạn càng chính xác nhưng tốc độ thực hiện chương trình càng chậm và dễ xảy ra tràn bộ nhớ. Luận án cũng đã đề nghị ý tưởng khắc phục.

Đề tài xử lý ảnh đa phân giải cịn rất mới mẽ, chuyên sâu đối với các học viên chúng ta và do nguồn tài liệu để tiếp cận rất ít cho nên chắc chắn luận án cần được tiếp tục nghiên cứu, bổ xung ở nhiều điểm.

HƯỚNG PHÁT TRIỂN

Xử lý đa phân giải vẫn đang tiếp tục phát triển về lý thuyết cũng như ứng dụng thực tế. Trong luận án chỉ trình bày những điểm chính của đa phân giải và đi sâu nghiên cứu một ứng dụng đa phân giải trong phân đoạn ảnh. Từ kết quả của luận án, chúng ta cĩ thể phát triển nhiều ứng dụng dùng xử lý đa phân giải, cụ thể như:

1. Thực hiện giải thuật ở bài báo [21] đăng trên tạp chí IEEE và so sánh với kết quả của luận án. Sự so sánh sẽ cho nhiều cải tiến vượt bậc bởi vì cả hai giải thuật cùng hướng đến phân đoạn ảnh màu tự nhiên.

2. Ứng dụng xử lý đa phân giải trong các vấn đề đánh giá chuyển động và bám theo chuyển động. Đây là đề tài cịn mới mẻ và đang được nhiều người quan tâm bởi vì đánh giá chuyển động của ảnh ở mức thơ đạt kết quả gần giống với đánh giá chuyển động trên ảnh gốc trong khi việc xử lý, tính tốn ít phức tạp hơn.

3. Áp dụng bộ lọc đa phân giải của Zhang và Wandell vào các giải thuật phân đoạn ảnh đa phân giải khác và mã hĩa ảnh. Kết quả đạt được sẽ cĩ nhiều cải tiến bất ngờ hơn nữa (xem [16]).

4. Ứng dụng phân đoạn ảnh đa phân giải trong việc nhận dạng như nhận dạng dấu vân tay, chữ ký điện tử… Lĩnh vực này cũng đang được rất nhiều các trung tâm, viện nghiên cứu về robot đang rất quan tâm.

5. Ứng dụng các bộ lọc moment đa phân giải trong phân đoạn ảnh. Đây là hướng gợi mở như trong bài báo của tạp chí IEEE đã đăng (xem [22]).

Phân tích đa phân giải đang giữ vai trị quan trọng ngày càng quan trọng trong xử lý tín hiệu và xử lý ảnh. Nhiều phép phân tích đa phân giải mới đang được liên tục nghiên cứu, làm cho ứng dụng của phân tích đa phân giải càng thêm phong phú và thú vị.

TÀI LIỆU THAM KHẢO

[1] Martin Vetterli and Jelena Kovacevic, Wavelets and Subband Coding,

(Prentice Hall, Englewood Cliffs, NJ, 1995).

[2] PGS. TSKH Nguyễn Kim Sách, “Xử lý ảnh và Video số ”, Nhà xuất bản Khoa học và Kỹ thuật, 1997.

[3] Handbook of Image and Video Processing, Academic Press, (2000).

[4] S. G. Mallat, “ A theory for multiresolution signal decomposition: The

wavelet transform”, IEEE Trans. Pattern Anal. Machine Intell. 11,

674-693 (1989).

[5] PGS. TS Lê Tiến Thường, “Tập bài giảng chuyên đề về wavelets và

ứng dụng”, 4-2003.

[6] X. Zhang and B.A. Wandell, “A spatial extension of CIELAB for

digital color image reproduction”. WWW address:

ftp://white.stanford.edu/scielab/spie97.ps.gz.

[7] R. R. Coifman and M. V. Wickerhauser, “Entropy-based algorithms

for best basis selections”, IEEE Trans. Inf. Theory, Special Issue on

Wavelet Transforms and Multiresolution Signal Analysis, Vol. 38, No. 2, (1992).

[8] S. Geman and D. Geman, “Stochastic relaxation, Gibbs distribution,

and the Bayesian restoration of images”, IEEE Trans. Pattern Anal.

Machine Intell. 6, (1984).

[9] G. J. Klinker, S. A. Shafer, and T. Kanade, “Image segmentation and

reflection analysis through colour”, Proc. Of Image Understanding

[10] A. Rosenfeld, R. Hummel, and S. Zucker, “Scene labeling by

relaxation operations”, IEEE Trans. Systems, Man, and Cybernetics,

June 1976.

[11] S. Peleg, “A new probabilistic relaxation scheme”, IEEE Trans. Pattern Analysis and Machine Intell. 7, 1980.

[12] D. Terzopoulos, “Image analysis using multigrid relaxation methods”,

IEEE Trans. Pattern Anal. Machine Intell. 8, 1986.

[13] D. Zhang, J. Liu and F. Wan, “Multiresolution relaxation: Experiments

and evaluations”, Proceedings of International Conference on Pattern

Recognition, 1988.

[14] M. Petrou, M. Mirmehdi, and M. Coors, “Perceptual Smoothing and

Segmentation of colour textures”. Technical report, University of

Surrey, 1997.

[15] M. Petrou, M. Mirmehdi, and M. Coors, “Multi – Level Probabilistic

Relaxation”. Technical report, Centre for Vision, Speech, and Signal

Processing University of Survey.

[16] M. Petrou and M. Mirmehdi, “Perceptual versus Gaussian smoothing

for pattern-colour separability”. Technical report, University of

Surrey.

[17] Duane Hanselman and Bruce Littlefield, “Mastering MATLAB ® 5: A

Comprehensive Tutorial and Reference”, Prentice Hall, New Jersey,

1998.

[18] “ Creating C Language MEX-Files”. WWW address:

www.mathworks.com\techdoc\matlab_external\ch03crea.html.

[19] Quách Tuấn Ngọc, “Ngơn ngữ lập trình C”, Nhà xuất bản Giáo Dục, 1998.

[20] J. L. Starck, “Multiresolution and its Applications: an Overview”. Technical report, (2000).

[21] A. Petrovic, O. D. Escoda and P. Vandergheynst, “Multiresolution Segmentation of Natural Images: From linear to nonlinear Scale-Space

Representations”, IEEE Transactions on Image Processing, Vol. 13,

No. 8, August 2004.

[22] M. Suehling, M. Arigovindan and M. Unser, “ Multiresolution Moment

Filters: Theory and Applications”, IEEE Transactions on Image

Processing, Vol. 13, No. 4, April 2004.

[23] Ming-Shing Su, Wen-Liang Hwang and Kuo-Young Cheng, “Analysis

on Multiresolution Mosaic Images”, IEEE Transactions on Image

Processing, Vol. 13, No. 7, July 2004.

[24] Wei Ma and B.S. Majunath "Edge Flow Segmenatation". WWW adress: www-iplab.ece.ucsb.edu.

LÝ LỊCH TRÍCH NGANG

Họ và tên: NGUYỄN NGỌC HẢI

Ngày, tháng, năm sinh: 28/04/1980 Nơi sinh: Quảng Nam Liên lạc: 177 Trưng Nữ Vương, thị xã Tam Kỳ, tỉnh Quảng Nam. Email : ngochai98@yahoo.com

Quá trình đào tạo:

1998 – 2003: Học Đại học tại Học Viện Cơng Nghệ Bưu Chính Viễn Thơng, hệ chính quy, chuyên ngành Điện Tử Viễn Thơng. 2003 – 2005: Học Cao học tại Trường Đại Học Bách Khoa, Đại học

Quốc Gia TP. Hồ Chí Minh, hệ chính quy, chuyên ngành Kỹ Thuật Vơ Tuyến Điện Tử.

Quá trình cơng tác:

Từ 2004 đến nay: là giáo viên của Trường Trung Học Phát Thanh Truyền Hình II, thuộc Đài Tiếng Nĩi Việt Nam.

Phân đoạn theo tính chất vật lý