Chƣơng này đã trình bày một số kỹ thuật tra cứu và biểu diễn phƣơng pháp tra cứu ảnh dựa vào phân cụm ảnh. Sau đó, tôi đã trình bày kỹ thuật tra cứu ảnh sử dụng đặc trƣng màu, vị trí không gian và cỡ. Kỹ thuật này gồm các bƣớc: phân cụm ảnh thành các vùng, trích rút véc tơ đặc trƣng của mỗi vùng và tính tổng tất cả các khoảng cách của hai ảnh theo mỗi vùng.
𝛽 = 𝛽 + 𝜔 ×𝐷𝐴𝑖𝐵𝑗
Chƣơng 3: ỨNG DỤNG 3.1Giới thiệu bài toán tra cứu ảnh dựa vào nội dung
Trong thực tế, ảnh phong cảnh rất đa dạng và phong phú. Số lƣợng ảnh phong cảnh trên Internet là rất lớn. Khi có một ảnh phong cảnh, ngƣời sử dụng muốn tìm một bộ ảnh phong cảnh tƣơng tự với một ảnh phong cảnh đã biết (ảnh truy vấn). Vấn đề làm thế nào xác định đƣợc một tập các phong cảnh tƣơng tự với một ảnh mà ngƣời sử dụng đã biết là không dễ dàng, ngay cả việc số lƣợng ảnh trong tập ảnh không lớn.
Ngày nay với sự phát triển mạnh mẽ của công nghệ thông tin ngƣời ta đã có thể thu thập đƣợc bộ ảnh lâm nghiệp theo mục đích nào đó. Tuy nhiên khi cơ sở dữ liệu trên Internet có kích cỡ cực lớn thì việc thu thập này trở nên cực kỳ khó khăn. Để giải quyết vấn đề này chúng ta có thể sử dụng công nghệ tra cứu ảnh dựa vào nội dung để tìm ra những ảnh tƣơng tự với ảnh truy vấn nhất. Các kết quả tìm đƣợc sẽ giúp ngƣời sử dụng nhanh chóng thực hiện đƣợc mục tiêu của mình.
Từ những thực tế trên đặt ra một bài toán tra cứu ảnh nhƣ sau: tìm trong một cơ sở dữ liệu ảnh phong cảnh, những ảnh có nội dung (màu sắc, hình dạng) giống với một ảnh phong cảnh đúng nhất, sau đó phân loại theo thứ tự giảm dần của độ tương tự.
3.2Phân tích bài toán
Nhiệm vụ bài toán là xây dựng hệ thống tra cứu ảnh có các chức năng sau:
Khi ngƣời sử dụng sƣu tầm đƣợc một hoặc một số ảnh, Hệ thống cho phép đƣa một hoặc một tập ảnh này vào lƣu trữ một cách thuận lợi.
Khi ngƣời sử dụng cung cấp một ảnh mẫu cần tra cứu. Hệ thống có nhiệm vụ tìm kiếm trong một cơ sở dữ liệu ảnh đã có và đƣa ra danh sách các ảnh tƣơng tự nhƣ ảnh mẫu theo thứ tự ảnh nào tƣơng tự với ảnh mẫu hơn thì đƣợc phân hạng ở phía trên.
Hoặc ngƣời sử dụng có thể qui định số lƣợng ảnh kết quả trả lại.
3.3Thiết kế hệ thống 3.3.1 Thiết kế hệ thống 3.3.1 Thiết kế hệ thống
Hệ thống đƣợc thiết kế và thực hiện trên hệ điều hành Windows 7, sử dụng ngôn ngữ lập trình C# trên môi trƣờng Visual Studio 2010. Kiến trúc toàn bộ hệ thống đƣợc chỉ ra trong Hình 3.1. Mô tả chi tiết hoạt động của hệ thống đƣợc thể hiện trên Hình
3.2. Kiến trúc này gồm hai module chính: module tiền xử lý đƣợc thực hiện ngoại tuyến và module tra cứu đƣợc thực hiện trực tuyến.
Ban đầu, CSDL ảnh đƣợc tiền xử lý (bởi module tiền xử lý) để trích rút các véc tơ đặc trƣng. Module tra cứu nhận ảnh truy vấn từ ngƣời sử dụng thông qua giao diện đồ hoạ, trích rút các véc tơ đặc trƣng từ ảnh truy vấn, so sánh với các cụm ảnh trong CSDL ảnh và trả về các ảnh có độ tƣơng tự lớn nhất với ảnh truy vấn.
Hình 3.1: Kiến trúc tổng quát của hệ thống tra cứu ảnh. Hình 3.2: Mô hình chi tiết của hệ thống tra cứu ảnh.
Modul tiền xử lý đƣợc thực hiện nhƣ sau: 1. Phân cụm ảnh thành các vùng ảnh.
Module tiền xử lý
Phân cụm ảnh Trích rút các đặc
trƣng Tập ảnh
Module tra cứu
Phân cụm ảnh Trích rút các đặc trƣng Hệ thống truy vấn Cơ sở dữ liệu đặc trƣng
Giao diện đồ họa
2. Trích rút vector đặc trƣng của các vùng ảnh. Modul tra cứu đƣợc thực hiện nhƣ sau:
Ngƣời sử dụng cung cấp cho hệ thống ảnh truy vấn thông qua giao diện đồ họa. Sau đó hệ thống phân đoạn ảnh truy vấn thành các vùng ảnh và trích rút các véc tơ đặc trƣng của từng vùng ảnh gồm màu sắc, vị trí không gian, và cỡ vùng. Véc tơ đặc trƣng
của ảnh truy vấn sẽ đƣợc so sánh với véc tơ đặc trƣng của các ảnh trong cơ sở dữ liệu. Kết quả trả về là tập ảnh có độ tƣơng tự với ảnh truy vấn nhất. Tập ảnh kết quả đƣợc phân hạng theo thứ tự giảm dầnkhoảng cách các ảnh trong cơ sở dữ liệu so với ảnh truy vấn.
Chƣơng trình đƣợc xây dựng với mục đích tra cứu các ảnh trong CSDL tƣơng tự nhất với ảnh truy vấn. Vì vậy chƣơng trình xây dựng phải bao gồm các chức năng chính sau: Kết quả Véc tơ đặc trƣng Cơ sở dữ liệu đặc trƣng Ảnh truy vấn Tập ảnh So sánh độ tƣơng tự Tra cứu Trích rút đặc trƣng Trích rút đặc trƣng
- Phần tra cứu: Đây là phần dành cho ngƣời sử dụng, ngƣời sử dụng chọn bức ảnh cần tìm kiếm.
- Phần xây dựng cơ sở dữ liệu ảnh: Đây là phần dành cho ngƣời quản trị hệ thống. Nhƣng trong luận văn này, không phân quyền cho ngƣời sử dụng hay quản trị nên trong quá trình tìm kiếm, ngƣời sử dụng hệ thống có thể thêm ảnh vào CSDL khi mà họ muốn lƣu trữ bức ảnh cũng nhƣ các đặc trƣng của ảnh trong cơ sở dữ liệu để tiện cho viêc tìm kiếm sau này.
Biểu đồ USECASE
Hình 3.3:Biểu đồ UseCase tổng quát hệ thống.
Xác định Actor và Use-Case
Danh sách Actor của mô hình:
STT Actor Vai trò
1 Ngƣời sử dụng
Quản lý tập ảnh trong cơ sở dữ liệu
Tra cứu ảnh
Danh sách các Use-Case của mô hình:
STT Use-Case Chức năng
dựa vào ảnh mẫu truy vấn.
2 Phân cụm ảnh
Thực hiện phân chia ảnh thành từng vùng dựa theo khoảng cách euclide giữa các pixel về màu
Trích rút đặc trƣng của từng vùng, cụ thể là đặc trƣng về màu sắc, kích cỡ và vị trí không gian của từng vùng
3 Lƣu ảnh vào csdl Lƣu thông tin cơ bản về ảnh và các véc tơ đặc trƣng sau khi trích rút của ảnh đó
4 Xóa ảnh khỏi csdl Xoá một ảnh cùng các đặc trƣng ra khỏi csdl
Biểu đồ trình tự
Hình3.6:Biểu đồ trình tự xoá ảnh khỏi cơ sở dữ liệu.
3.3.2 Thiết kế cơ sở dữ liệu
Tên trƣờng Kiểu dữ liệu Khóa Mô tả
Image_ID Int X ID ảnh ImageName Nvarchar(500) Tên của ảnh
ImageClus Image Dữ liệu ảnh sau khi phân cụm Width Int Chiều rộng của ảnh Height Int Chiều cao của ảnh Threshold Int Ngƣỡng màu
Bảng 3.1 : Bảng cơ sở dữ liệu Image.
Tên trƣờng Kiểu dữ liệu Khóa Mô tả
Cluster_ID Int X ID Cụm ảnh
ID_Image Int ID ảnh
TotalPixel Float
Tổng số pixel trong cụm hay cỡ cụm
Centroid_X Float Trọng tâm cụm theo hƣớng X
Centroid_Y Float Trọng tâm cụm theo hƣớng Y
RMean Float Giá trị đặc trƣng của kênh màu Red
GMean Float Giá trị đặc trƣng của kênh màu Green
BMean Float Giá trị đặc trƣng của kênh màu Blue
Bảng 3.2 : Bảng cơ sở dữ liệu Cluster Mối quan hệ giữa các bảng:
Hình 3.7: Mối quan hệ giữa các bảng.
3.4 Mô tả chƣơng trình
Chƣơng trình đƣợc xây dựng với mục đích tra cứu ảnh dựa trên đặc trƣng màu, cỡ và vị trí không gian. Sử dụng hai ảnh có trong tập ảnh cơ sở dữ liệu và hai ảnh không có trong tập ảnh cơ sở dữ liệu để so sánh, đánh giá hiệu quả của hệ thống.
Không gian màu sử dụng trong chƣơng trình là không gian màu RGB, do khuôn dạng của không gian màu RGB là định dạng phổ biến nhất của ảnh số.
Tập ảnh thử nghiệm
CSDL gồm 1000 ảnh jpeg. CSDL ảnh này là tập con của tập ảnh của GS Wang [15] và chúng tôi tập hợp từ Internet đƣợc sử dụng để đánh giá hiệu năng tra cứu. Các ảnh trong CSDL có kích cỡ là 128× 85 điểm ảnh hoặc 85×128 điểm ảnh. Các ảnh gồm
256 màu. CSDL gồm các loại ảnh chính: ngựa, cảnh hoàng hôn, vƣờn hoa, rừng, phong cảnh, nhà cửa và các loại ảnh khác. Bảng 3.3 là số liệu cụ thể về từng loại ảnh trong cơ sở dữ liệu:
STT Loại ảnh Số lƣợng
1 Ngựa 71
2 Cảnh hoàng hôn 85 3 Vƣờn hoa 121
4 Rừng 130
5 Bầu trời, phong cảnh 356 6 Nhà cửa 115
Bảng 3.3:Số liệu các loại ảnh trong cơ sở dữ liệu
3.5Kết quả đạt đƣợc
Qua quá trình tìm hiểu và phân tích thiết kế hệ thống nhƣ đã trình bày ở trên, cùng thời gian nghiên cứu tìm hiểu thuật toán em đã xây dựng một hệ thống tra cứu ảnh thử nghiệmvới một tập ảnh cơ sở dữ liệu thử nghiệm nhƣ đã trình bày phần trê. Hệ thống thử nghiệm đã cho một số kết quả khá tốt.
Giao diện tra cứu ảnh:
Ngƣời sử dụng có thể lựa chọn ảnh truy vấnvà nhấn nút tra cứu.
Hình 3.8: Giao diện chính hệ thốngtra cứu ảnh. Giao diện hiển thị ảnh kết quả:
Hệ thống sẽ tiến hành tìm kiếm ảnh và hiển thị kết quả ra màn hình. 7 Các loại ảnh khác 122
Hình 3.9: Giao diện hiển thị kết quả truy vấn. Các vùng của ảnh sau khi được phân cụm
Hình 3.10:Các vùng ảnh sau khi phân cụm Giao diện chính thao tác cơ sở dữ liệu
Hình 3.11: Giao diện chính tab cơ sở dữ liệu. Thêm một ảnh vào cơ sở dữ liệu:
Hình3.12: Giao diện thêm một ảnh vào cơ sở dữ liệu. Xoá một ảnh khỏi cơ sở dữ liệu:
Hình 3.13: Giao diện xoá một ảnh khỏi cơ sở dữ liệu.
Trong luận văn này, chúng ta sử dụnghai ảnh ở trong tập cơ sở dữ liệu và hai ảnh ở ngoài tập cơ sở dữ liệu để làm ảnh mẫu truy vấnđể xem hiệu quả của chƣơng trình đạt đƣợc. Hệ thống sẽ đƣa ra bẩy ảnh kết quả gần nhất với ảnh mẫu truy vấn.
Sử dụng hai ảnh trong cơ sở dữ liệu làm ảnh truy vấn:
+ Ảnh truy vấn thứ nhất :
Hình 3.14: Ảnh mẫu truy vấn thứ nhất.
+ Ảnh kết quả thu đƣợc lần thứ nhất:
Hình 3.15: Kết quả truy vấn lần thứ nhất.
Hình 3.16: Ảnh mẫu truy vấn thứ hai.
+ Ảnh kết quả thu đƣợc lần thứ hai:
Hình 3.17: Kết quả truy vấnlần thứ hai.
+ Ảnh truy vấn lần thứ 3 :
Hình 3.18: Ảnh mẫu truy vấn thứ ba.
+ Ảnh kết quả thu đƣợc lần thứ ba:
Hình 3.19: Kết quả truy vấn lần thứba.
Hình 3.20: Ảnh mẫu truy vấn thứ ba.
+ Ảnh kết quả thu đƣợc lần thứ 4:
Ở trên chúng ta đã thấy đƣợc sự hiệu quả của hệ thống khi truy vấn ảnh mẫu không có trong CSDL và có trong CSDL. Tiếp theo chúng ta sẽ đánh giá hệ thống theo chủ đề với những tham số ngƣỡng khác nhau bằng cách thay đổi ngƣỡng đầu vào của một ảnh mẫu truy vấn thuộc một số chủ đề nhất định.
Ngƣỡng màu Ngƣỡng cỡ Số cụm Kết quả 9 0,1 45 50% 10 0,1 31 65% 11 0,1 26 50% 12 0,1 16 55% 13 0,05 12 65% 13 0,1 13 70% 13 0,15 13 65%
Bảng 3.4 : Bảng kết quả tra cứu với chủ đề Ngựa
Ngƣỡng màu Ngƣỡng cỡ Số cụm Kết quả 10 0,1 19 70% 11 0,05 23 60% 11 0,1 23 90% 11 0,15 24 65% 12 0,1 21 70% 13 0,1 22 90%
Bảng 3.5 : Bảng kết quả tra cứu với chủ đề Hoa
Kết quả trong hai bảng trên cho ta thấy với ngƣỡng màu hay ngƣỡng cỡ khác nhau sẽ cho kết quả tra cứu khác nhau. Kết quả tra cứu tốt hay không phụ thuộc rất nhiều vào cách chọn ngƣỡng màu và ngƣỡng cỡ cho phù hợp
3.6Kết quả đạt đƣợc
Trong chƣơng cuối này, tôi đã trình bày về phân tích thiết kế hệ thống tra cứu ảnh dựa vào phân cụm và một số kết quả thử nghiệm đạt đƣợc. Qua các kết quả thu
đƣợc ta có thể nhận thấy rằngphƣơng pháp tra cứu dựa vào đặc trƣng màu cho kết quả khá tốt so với mong muốn tra cứu của ngƣời dùng.
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
Tra cứu ảnh dựa theo nội dung hiện nay đang là một lĩnh vực nghiên cứu mở. Những công nghệ đang rất còn non trẻ và còn nhiều vấn đề cần phải tiếp tục nghiên cứu. Trong giới hạn của luận văn, tôi đã trình bày tổng quan về công nghệ tra cứu ảnh dựa theo nội dung cùng với các phƣơng pháp thƣờng đƣợc sử dụng. Đặc biệt tôi đã xây dựng thử nghiệm chƣơng trình tra cứu ảnh với cơ sở dữ liệu ảnh tự nhiên dựa vào đặc trƣng của từng vùngđã thu đƣợc những kết quả nhất định. Qua đó ta cũng thấy đƣợc hiệu quả của phƣơng pháp đãcho kết quả khá hiệu quảmặt khác thời gian tìm kiếm cũngnhanh. Nhƣng do tra cứu ảnh theo nội dung dựa trên các đặc trƣng từng vùnggồmmàu sắc, vị trí không gian và cỡ nên chỉ phản ánh đƣợc một khía cạnh nào đó của ảnh chứ không thể phản ánh đƣợc hếtngữ nghĩa của bức ảnh.
Mặc dù vậy hệ thống vẫn đáp ứng đƣợc phần lớn các yêu cầu của ngƣời sử dụng. Ở Việt Nam, các công việc quản lý, tìm kiếm các bức ảnh, biểu trƣng(logo) chủ yếu là thủ công làm mất khá nhiều thời gian và công sức. Nếu chúng ta có thể đầu tƣ xây dựng đƣợc một hệ thống tra cứu ảnh tốt thì sẽ thu đƣợc những lợi ích to lớn trên mọi lĩnh vực nhƣ hình sự, giáo dục, văn hóa…Đặc biệt có lợi khi các hệ thống này có thể tìm kiếm đƣợc những bức ảnh trên Internet vì đây là một kho dữ liệu vô cùng lớnvà phong phú.
Luận văn đã thực hiện đƣợc các công việc sau:
- Tìm hiểu đƣợc tổng quan về tra cứu ảnh dựa vào nội dung.
- Nghiên cứu đƣợc phƣơng pháp tra cứu ảnh dựa vào phân cụm các pixel của ảnh.
- Tìm hiểu và sƣu tầm đƣợc tập ảnh thử nghiệm.
TÀI LIỆU THAM KHẢO Tiếng Việt:
1. Nguyễn Đức Nghĩa – Nguyễn Tô Thành, Toán rời rạc, NXB Đại học Quốc gia Hà nội, 2003.
2. Nguyễn Thị Thu Chung, Xây dựng danh bạ web tiếng việt với phân cụm phân cấp văn bản, khoá luận tốt nghiệp đại học chính quy, Trƣờng đại học công nghệ- Đại học quốc gia Hà Nội, 2009.
Tiếng Anh:
3. Beckmann, N., Kriegel, H.-P., Schneider, R., and Seeger, B. (1990), The R*Tree: An efficient and robust access method for points and rectangles. In Proc. of ACM SIGMOD.
4. David M. Blei, Hierarchical clustering, COS424 Princeton University, February 28, 2008.
5. Flickner.M, Sawhney.H, Niblack.W, Ashley.J, Huang.Q, Dom.B, Gorkani.D, Hafner.J, Lee. D, Petkovic. D, Steele.D, Yanker.D, Query by Image and Video Content: The QBIC System. IEEE Computer 1995, september, pp. 23-32.
6. H. Tamura, S. Mori, and T. Yamawaki. Texture features corresponding to visual perception. IEEE Transactionson Systems,Man, and Cybernetics, SMC- 8(6):460–473, 1978.
7. J.Z. Wang, J. Li, and G. Wiederhold. Simplicity: Semantics-sensitive integrated matching for picture libraries. IEEE Trans. on Pattern Analysis and Machine Intelligence, 23(9):947–963, 2001.
8. R. Haralick, K. Shanmugam, and I. Dinstein. Texture feature for image classification. IEEE Transactions on Systems, Man, and Cybernetics, SMC- 3(6):610–621, 1973.
9. R.C. Gonzalez and R.E. Woods, Digital Image Processing.Addison-Wesley, third edition, 1992.
10. R.O. Stehling, M.A. Nascimento, and A.X Falc˜ao. An adaptive and efficient clustering-based approach for content based image retrieval in image databases. In Proc. of the Intl. Data Engineering and Application Symposium, pages 356– 365, 2001.
11. T. Kanungo, D. M. Mount, N. Netanyahu, C. Piatko, R. Silverman, & A. Y.Wu (2002) An efficient k-means clustering algorithm: Analysis and implementation Proc. IEEE Conf. Computer Vision and Pattern Recognition, pp.881-892.
12. Veena Sridhar (2002), Region-based Image Retrieval Using Multiple Features, Technical Report Technical Report TR 02-10, University of Alberta, Edmonton, Alberta, Canada.
13. Geusebroek, J. M., van den Boomgaard, R., Smeulders, A. W. M., and Geerts, H. (2001). Color invariance. IEEE Trans. on Pattern Analysis and Machine Intelligence, 23(12):1338–1350.
Các tài liệu khác:
14. http://www.ics.uci.edu/~eppstein/280/tree.html 15. http://vi.wikipedia.org/wiki/Không_gian_Euclide.