Trong xử lý ảnh, truy vấn ảnh có thể nói là lĩnh vực đòi hỏi sự nghiên cứu tổng hợp như: nghiên cứu xử lý ảnh để rút trích các đặc trưng, áp dụng các tính toán toán học cao cấp để xác đị
Trang 1
_
NGUYỄN PHÁT LỘC
NGHIÊN CỨU CÁC ĐẶC TRƯNG
VỀ HÌNH THÁI VÀ MÀU SẮC TRONG
TRUY VẤN ẢNH
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
ĐỒNG NAI - 2012
Trang 2
NGUYỄN PHÁT LỘC
NGHIÊN CỨU CÁC ĐẶC TRƯNG
VỀ HÌNH THÁI VÀ MÀU SẮC TRONG
TRUY VẤN ẢNH
Chuyên ngành: CÔNG NGHỆ THÔNG TIN
Mã số: 60.48.02.01
LUẬN VĂN THẠC SĨ NGÀNH CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS.TS ĐỖ NĂNG TOÀN
ĐỒNG NAI - 2012
Trang 3Xin chân thành cảm ơn các anh chị đồng nghiệp trong cơ quan công tác
đã tạo điều kiện thuận lợi, đóng góp những ý kiến quý báu ; Xin cảm ơn bạn
bè đã chỉ bảo tôi cùng cho tôi trong suốt quá trình học tập và hoàn thành luận văn này;
Đặc biệt tôi xin gởi lời cảm ơn sâu sắc đến Thầy hướng dẫn khoa học - PGS.TS ĐỖ NĂNG TOÀN đã tận tình hướng dẫn, đôn đốc cho tôi trong quá trình nghiên cứu và thực hiện luận văn này;
Cuối cùng, tôi xin biết ơn gia đình đã tạo điều kiện thuận lợi cho tôi yên tâm trong suốt thời gian học tập cũng như thời gian nghiên cứu và hoàn thành luận văn cao học Mặc dù rất cố gắng, song luận văn này không thể tránh khỏi những thiếu sót, kính mong được sự chỉ dẫn của các quý thầy cô
và các bạn
Đồng Nai, ngày 20 tháng 10 năm 2012
Nguyễn Phát Lộc
Trang 4
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân Các số liệu, kết quả trình bày trong luận văn này là trung thực Những tư liệu được sử dụng trong luận văn có nguồn gốc và trích dẫn rõ ràng, đầy đủ
Tác giả luận văn
Nguyễn Phát Lộc
Trang 5Tên đề tài luận văn: NGHIÊN CỨU CÁC ĐẶC TRƯNG VỀ HÌNH THÁI
VÀ MÀU SẮC TRONG TRUY VẤN ẢNH
Học viên thực hiện: Nguyễn Phát Lộc sinh ngày: 01/4/1979
Người hướng dẫn khoa học: PGS.TS Đỗ Năng Toàn
1 Mục tiêu của luận văn:
Hiểu rõ lý thuyết về xử lý ảnh và các kỹ thuật về màu sắc và hình thái trong truy vấn ảnh Xây dựng chương trình để ứng dụng các kỹ thuật trên trong truy vấn ảnh
2 Nội dung thực hiện:
- Tìm hiểu khái quát về xử lý ảnh và bài toán truy vấn ảnh bằng nội dung;
- Nghiên cứu một số kỹ thuật truy vấn ảnh truy vấn ảnh bằng màu sắc ;
- Nghiên cứu một số kỹ thuật truy vấn ảnh truy vấn ảnh bằng hình thái
- Nghiên cứu một số kỹ thuật truy vấn ảnh kết hợp
- Thiết kế, phát triển chương trình thử nghiệm;
3 Phương pháp thực hiện:
- Nghiên cứu nội dung lý thuyết về xử lý ảnh trong giáo trình “Xử lý ảnh” của PGS TS Đỗ Năng Toàn và TS Phạm Việt Bình, năm 2008; Nghiên cứu các tài liệu trên mạng, sách và các luận văn thạc sĩ về kỹ thuật truy vấn ảnh bằng màu sắc và hình thái
Trang 6
TÓM TẮT LUẬN VĂN
MỤC LỤC
DANH MỤC CÁC TỪ VIẾT TẮT i
DANH MỤC BẢNG BIỂU VÀ HÌNH ẢNH ii
PHẦN MỞ ĐẦU 1
Chương 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ BÀI TOÁN TRUY VẤN ẢNH 9
1.1 KHÁI QUÁT VỀ XỬ LÝ ẢNH 9
1.1.1 Xử lý ảnh là gì? 9
1.1.2 Các vấn đề cơ bản trong xử lý ảnh 16
1.2 TRUY VẤN ẢNH 24
1.2.1 Giới thiệu 24
1.2.2 Các cách tiếp cận trong truy vấn ảnh 30
1.2.2.1 Truy vấn ảnh dựa vào chú thích ( annotation, key word) 30
1.2.2.2 Truy vấn ảnh dựa vào nội dung (CBIR) 30
1.2.2.3 Truy vấn ảnh theo ngữ nghĩa 33
1.2.3 Một số hệ thống truy vấn ảnh thông dụng 34
Chương 2: TRUY VẤN ẢNH DỰA VÀO ĐẶC TRƯNG HÌNH THÁI VÀ MÀU SẮC 37
2.1 CÁC ĐẶC TRƯNG ĐƯỢC SỬ DỤNG ĐỂ TRUY VẤN ẢNH 37
2.1.1 Các đặc trưng về màu sắc 37
2.1.1.1 Lược đồ màu (histogram) 44
2.1.1.2 Vector liên kết màu (Color Coherence Vector) 47
2.1.1.3 Đặc trưng tự tương quan màu (AutoCorrelogram) 50
2.1.2 Các đặc trưng về hình thái 54
2.1.2.1 Lược đồ hệ số góc (Edge Direction Histogram) 54
Trang 7
2.1.1 Truy vấn theo màu sắc 59
2.1.1.1 Truy vấn theo lược đồ màu ( histogram) 59
2.1.1.2 Truy vấn theo vector liên kết màu 60
2.1.1.3 Truy vấn theo đặc trưng tương quan màu (Correlogram) 60
2.1.2 Truy vấn theo hình thái 61
2.1.2.1 Truy vấn theo lược đồ hệ số góc 61
2.1.2.2 Truy vấn theo vector liên kết hệ số góc 61
2.1.3 Truy vấn kết hợp 62
2.1.3.1 Truy vấn kết hợp các đặc trưng với nhau dùng toán tử BOOL62 2.1.3.2 Truy vấn kết hợp các đặc trưng với nhau dùng trọng số 63
Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM 65
3.1 BÀI TOÁN 65
3.2 PHÂN TÍCH, THIẾT KẾ CHƯƠNG TRÌNH 65
3.2.1 Các đặc trưng sử dụng cho chương trình 65
3.2.2 Chức năng truy vấn ảnh 72
3.3 CHƯƠNG TRÌNH TRUY VẤN ẢNH CBIR_IMAGE 1.0 72
3.3.1 Truy vấn ảnh dựa theo lược đồ màu 74
PHẦN KẾT LUẬN 78
TÀI LIỆU THAM KHẢO
Trang 8for Information Interchange
Trang 9
Retrieval
30 RGB (red/ đỏ; green/xanh lá cây; Blue/xanh lam
blue
Trang 10
DANH MỤC HÌNH ẢNH
Hình 1.1 Hệ thống truy vấn ảnh của Google 3
Hình 1.1.1.1 Các bước cơ bản trong một hệ thống xử lý ảnh 9
Hình 1.1.1.2 hệ thống truy vấn ảnh QBIC của IBM 11
Hình 1.1.1.3 hệ thống truy vấn ảnh VISUALSEEK 12
Hình 1.1.1.4 hệ thống truy vấn ảnh WEBSEEK 13
Hình 1.1.1.5 hệ thống truy vấn ảnh BLOBWORLD 14
Hình 1.1.1.6 hệ thống truy vấn ảnh VIRAGE 15
Hình 1.1.2.1 Biểu diễn ảnh với độ phân giải khác nhau 17
Hình 1.1.2.2 Ví dụ về nắn chỉnh biến dạng 19
Hình 1.2.1 Hệ thống tìm kiếm thông tin trực quan thế hệ mới 27
Hình 1.2.2.2 Thống kê lựa chọn đặc trưng của một số hệ thống truy vấn ảnh 31
Hình 2.1.1 Hệ màu RGB 40
Hình 2.1.2 Hệ màu CMY 41
Hình 2.1.3 Hệ màu HSI 43
Hình 2.1.4 Không gian màu HSI 43
Hình 2.1.5 Minh họa sự thay đổi cường độ sáng trong hệ màu HSI 44
Hình 2.1.1.1.1a Ảnh minh họa lượt đồ màu RGB và HSI 45
Hình 2.1.1.1.1b Minh họa 2 lược đồ giống nhau 46
Hình 2.1.1.1.1c Lược đồ màu thể hiện phần giao của 2 lược đồ màu trên 46 Hình 2.1.1.1.1d Lược đồ màu thể hiện độ khác nhau giữa 2 lược đồ màu trên 46
Trang 11
Hình 2.1.1.1.2d Lược đồ cector liên kết màu của ảnh sau khi được lượng hóa 48 Hình 2.1.1.1.2e Minh họa 2 ảnh có lược đồ màu giống nhau nhưng khác nhau
về ngữ nghĩa 49
Hình 2.1.1.1.2f Minh họa 2 ảnh có lược đồ màu khắc phục tính không duy nhất của lược đồ màu 49
Hình 2.1.1.1.3 Minh họa 2 ảnh có đặc trưng tương quan màu giống ngau 80% 54 Hình 2.1.2.1a Ví dụ minh hoạ về lược đồ hệ số góc của ảnh 55
Hình 2.1.2.1b Ảnh minh họa lược đồ hệ số góc Đường biên của ảnh 55
Hình 2.1.2.1c Lược đồ hệ số góc của ảnh 55
Hình 2.1.2.1d Minh họa 2 ảnh có lược đồ hệ số góc giống nhau 56
Hình 2.1.2.2a Ảnh minh họa vector liên kết hệ số góc 57
Hình 2.1.2.2b Ảnh minh họa sự liên kết giữa các biên cạnh 57
Hình 2.1.2.2c Lược đồ vector liên kết hệ số góc của ảnh 58
Hình 2.1.2.2d minh họa 2 ảnh có lược đồ màu giống nhau 80% 58
Hình 2.1.2.2e minh họa 2 ảnh có Vector liên kết hệ số góc giống nhau 59
Hình 2.1.3.1 Minh họa 2 ảnh giống nhau về lược đồ màu và lược đồ hệ số góc 63 Hình 3.2.1.1 Minh họa 2 ảnh có lược đồ màu giống nhau 89% 65
Hình 3.2.1.2 minh họa 2 ảnh có vector liên kết màu giống nhau 75% 66
Hình 3.2.1.3 minh họa 2 ảnh có đặc trưng Correlogram giống nhau 75% 66
Hình 3.2.1.4 minh họa 2 ảnh có lược đồ hệ số góc giống nhau 88% 67
Hình 3.2.1.5 minh họa 2 ảnh có Vector liên kết hệ số góc giống nhau 78% 67
Hình 3.2.1.6 Giải thuật và các bước trong modun truy vấn ảnh dựa vào lược đồ màu 68
Trang 12
Hình 3.3c Cập nhật đường dẫn thành công 74
Hình 3.3.1.1a Truy vấn ảnh theo màu xanh dương 74
Hình 3.3.1.1b Kết quả truy vấn ảnh theo màu xanh dương 75
Hình 3.3.1.1c Kết quả truy vấn ảnh theo màu vàng 75
Hình 3.3.1.2a Kết quả truy vấn ảnh theo lược đồ histogram với ngưởng 70% 76 Hình 3.3.1.2b Kết quả truy vấn ảnh theo lược đồ histogram với ngưởng 90% 77 Hình 3.3.1.2c Kết quả truy vấn ảnh theo lược đồ histogram với ngưởng 100% 77
Trang 13PHẦN MỞ ĐẦU
Việc sử dụng hình ảnh trong giao tiếp của con người là hầu như không mới , tổ tiên của chúng ta sống trong hang động đã vẽ hình ảnh trên các bức tường của hang động của họ, và việc sử dụng các bản đồ và kế hoạch xây dựng để truyền tải thông tin đã có từ thời tiền La Mã Nhưng thế kỷ XX đã chứng kiến
sự phát triển chưa từng có của khoa học kỹ thuật về nghiên cứu vũ trụ, chẩn đoán y khoa, bảo mật hệ thống… Điều này đã nói lên tầm quan trọng của hình ảnh trong tất cả các lĩnh vực của tầng lớp xã hội Hình ảnh bây giờ đóng một vai trò quan trọng trong các lĩnh vực khác nhau như y học, báo chí, quảng cáo, giáo dục, thiết kế, giải trí và công nghệ truyền thông
Các công nghệ mới được phát minh cho lĩnh vực nhiếp ảnh, truyền hình và truyền thông đa phương tiện đã đóng một vai trò quan trọng trong việc tạo điều kiện thuận lợi cho việc nắm bắt và thông tin liên lạc và truyền tải dữ liệu Nhưng động cơ thực sự của cuộc cách mạng hình ảnh đã được các máy tính mang theo nó một loạt các kỹ thuật chụp ảnh kỹ thuật số, xử lý, lưu trữ và truyền tải đã cho chúng ta phải bất ngờ Sự tham gia của máy tính trong việc
lưu trữ hình ảnh có từ 1965 của thiên niên kỷ trước, với dự án Sketchpad Ivan
Sutherland, đã chứng minh tính khả thi của thao tác trên máy vi tính, tạo ra và lưu trữ các hình ảnh, mặc dù chi phí cao và lúc bấy giờ phần cứng máy tính còn giới hạn sử dụng cho đến giữa những năm 1980 Một khi máy tính hình
ảnh đã trở thành giá cả phải chăng (nhờ phần lớn vào sự phát triển của thị
trường các trò chơi máy tính mang tính đại chúng), nó nhanh chóng thâm
nhập vào các khu vực truyền thống phụ thuộc rất nhiều vào hình ảnh để giao tiếp, chẳng hạn như kiến trúc, kỹ thuật và y học Chụp hình thư viện, phòng trưng bày nghệ thuật và viện bảo tàng, cũng bắt đầu nhìn thấy những ưu điểm của việc lưu trữ và truy vấn ảnh trên máy tính Việc tạo ra các World-Wide Web vào đầu những năm 1990, cho phép người dùng truy cập dữ liệu từ bất
Trang 14cứ nơi nào trên hành tinh từ các phương tiện truyền thông, nó đã cung cấp một kích thích lớn hơn nữa để khai thác các hình ảnh kỹ thuật số Số hình ảnh có sẵn trên web gần đây đã được ước tính là từ 10 đến 30 triệu tetrabyte Xử lý ảnh là lĩnh vực nghiên cứu đang phát triển không ngừng bởi tính trực quan sinh động cũng như khả năng áp dụng vào thực tế lớn Hiện xử lý ảnh đang giành được nhiều sự quan tâm của các nhà nghiên cứu trong và ngoài nước Trong xử lý ảnh, truy vấn ảnh có thể nói là lĩnh vực đòi hỏi sự nghiên cứu tổng hợp như: nghiên cứu xử lý ảnh để rút trích các đặc trưng, áp dụng các tính toán toán học cao cấp để xác định mức độ tương đồng giữa hai ảnh và sự
tổ chức sắp xếp chỉ mục cho cơ sở dữ liệu ảnh Chính vì thế truy vấn ảnh là lĩnh vực nghiên cứu đem lại nhiều thú vị Hơn nữa, cùng với sự phát triển của phần mềm và phần cứng, khối lượng ảnh phát triển không ngừng và ngày càng lớn Một số lượng lớn các ảnh đang được sử dụng ở trong thư viện ảnh
số và trên web Vì vậy nhu cầu tìm kiếm ảnh là một nhu cầu tất yếu Hiện tại, truy vấn ảnh ứng dụng trong khá nhiều lĩnh vực như: quản lý nhãn hiệu logo, truy bắt tội phạm, ứng dụng trong y khoa, quân sự… bởi vì nó mang tính trực quan cao cho người sử dụng
Vấn đề truy vấn ảnh trong Cơ Sở Dữ Liệu (CSDL) ảnh được đưa ra từ cuối năm 1970 của thiên niên kỷ trước và có nhiều cách giải quyết khác nhau Cho đến ngày nay đã có rất nhiều hệ thống truy vấn ảnh (cả thương mại lẫn thực nghiệm) đã và đang được phát triển Hiệ nay có hai dạng CSDL ảnh để truy
vấn là: CSDL ảnh tĩnh và CSDL ảnh động (ảnh video…) Trong nghiên
cứu này, tôi chỉ xin xem xét đến phạm vi ảnh tĩnh
Trang 15Hình 1.1: Hệ thống truy vấn ảnh của Google
Để mô tả quá trình lấy hình ảnh mong muốn từ một bộ sưu tập lớn trên cơ
sở các tính năng (chẳng hạn như kết cấu, màu sắc và hình dạng) có thể được
tự động chiết xuất từ những hình ảnh tương tự Các tính năng được sử dụng để thu hồi có thể là nguyên thủy hoặc ngữ nghĩa, nhưng quá trình khai thác phải được chủ yếu là tự động Thu hồi các hình ảnh bằng từ khóa hay truy vấn ảnh dựa trên nội dung (Content-Based Image Retrieval viết tắt là CBIR ) CBIR khác tìm kiếm thông tin cổ điển trong đó cơ sở dữ liệu hình ảnh về cơ bản không có cấu trúc, từ hình ảnh số hóa hoàn toàn bao gồm các mảng của các cường độ điểm ảnh, không có ý nghĩa vốn có Một trong những vấn đề quan trọng với bất kỳ loại xử lý hình ảnh là cần thiết để trích xuất thông tin hữu ích
từ các dữ liệu thô (chẳng hạn như công nhận sự hiện diện của hình dạng cụ thể hoặc kết cấu) trước khi bất kỳ loại lý luận về nội dung của hình ảnh có thể
Cơ sở dữ liệu hình ảnh do đó khác nhau về cơ bản từ cơ sở dữ liệu văn bản, các nguyên liệu thô (các từ được lưu trữ như các chuỗi ký tự ASCII) đã được hợp lý cấu trúc Không có tương đương với mức thu hồi 1 trong một cơ sở dữ liệu văn bản CBIR thu hút nhiều các phương pháp của nó từ lĩnh vực xử lý hình ảnh và tương lai máy tính, và được xem bởi một số như là một tập hợp con của lĩnh vực đó Nó khác từ các lĩnh vực này chủ yếu thông qua sự nhấn
Trang 16mạnh vào việc thu hồi các hình ảnh với các đặc tính mong muốn từ một bộ sưu tập có kích thước đáng kể Xử lý hình ảnh bao gồm một lĩnh vực rộng lớn hơn nhiều, bao gồm cả nâng cao hình ảnh, nén, truyền tải, và giải thích Trong khi có những vùng màu xám (chẳng hạn như công nhận đối tượng bằng cách phân tích tính năng), sự khác biệt giữa phân tích hình ảnh chủ đạo và CBIR thường khá rõ ràng Một ví dụ : Nhiều lực lượng cảnh sát trên thế giới
sử dụng hệ thống nhận dạng khuôn mặt tự động Hệ thống như vậy có thể được sử dụng trong một trong hai cách Thứ nhất, hình ảnh ở phía trước của máy ảnh có thể được so sánh với bản ghi cơ sở dữ liệu một cá nhân để xác minh danh tính của mình Trong trường hợp này, chỉ có hai hình ảnh phù hợp, các nhà khoa học gọi đó là quá trình gọi CBIR Thứ hai, toàn bộ cơ sở
dữ liệu có thể được tìm kiếm để tìm thấy những hình ảnh gần nhất phù hợp Đây là một ví dụ đích thực của CBIR Các nghiên cứu và phát triển các vấn
đề trong CBIR bao gồm nhiều chủ đề, chia sẻ với xử lý hình ảnh chính thống
và phục hồi thông tin Một số quan trọng nhất là:
- Nhu cầu của người sử dụng hình ảnh 'sự hiểu biết và hành vi tìm kiếm thông tin
- Xác định các cách thức thích hợp để mô tả nội dung hình ảnh
- Chiết xuất các tính năng như vậy từ hình ảnh thô
- Cung cấp lưu trữ nhỏ gọn cho các cơ sở dữ liệu hình ảnh lớn
- Phù hợp với hình ảnh truy vấn và được lưu trữ trong một cách phản ánh tương tự như con người bản án
- Hiệu quả truy cập hình ảnh được lưu trữ theo nội dung
- Cung cấp các giao diện có thể sử dụng con người để các hệ thống CBIR Căn cứ tình hình nêu ra, cũng như nhu cầu thực tế để luận giải vì sao cần phải thực hiện đề tài này
Trong lĩnh vực phòng chống tội phạm cảnh sát sử dụng thông tin trực
quan để xác định những người hoặc để ghi lại những cảnh của tội phạm để
Trang 17làm bằng chứng trong quá trình thời gian, những hồ sơ này chụp ảnh trở thành một kho lưu trữ có giá trị Tại Anh, nó được phổ biến thực hành để chụp ảnh tất cả những người bị bắt giữ và lấy dấu vân tay của họ Bức ảnh này sẽ được lưu với các hồ sơ chính cho người liên quan, mà trong một hệ thống hướng dẫn sử dụng là một tập tin trên giấy Trong một hệ thống dựa trên máy tính, hình ảnh sẽ được số hóa và liên kết với các hồ sơ văn bản tương ứng Cho đến khi bị kết án và truy cập thông tin hình ảnh bị hạn chế, nếu bị cáo được tuyên bố trắng án, tất cả các bức ảnh và dấu vân tay sẽ bị xóa Nếu bị kết tội, các dấu vân tay được thông qua Cục lưu trữ dấu vân tay Hiện nay, có một sáng kiến ở một quốc gia điều tra một hệ thống mạng công nhận vân tay tự động Các ứng dụng khác của hình ảnh trong thực thi pháp luật bao gồm nhận diện khuôn mặt phù hợp với DNA và hệ thống giám sát phục vụ công tác điều tra
Trong lĩnh vực Y học Các ngành nghề y tế và liên quan đến sử dụng và
lưu trữ thông tin hình ảnh với các hình thức của siêu âm, X-quang, Chụp cộng
hưởng từ hay MRI (Magnetic Resonance Imaging) hoặc các hình ảnh quét
khác, cho mục đích chẩn đoán và theo dõi Có những quy tắc nghiêm ngặt về bảo mật thông tin đó Các hình ảnh được lưu giữ theo hồ sơ sức khỏe của bệnh nhân, trong các tập tin chính dẫn sử dụng, được lưu trữ bằng định danh duy nhất Thông tin hình ảnh không có lưu theo tên của bệnh nhân, có thể được sử dụng cho mục đích nghiên cứu và giảng dạy Phần lớn các nỗ lực nghiên cứu liên quan đến hình ảnh được thực hiện trong lĩnh vực vật lý y tế Các khía cạnh của mối quan tâm bao gồm xử lý hình ảnh hiệu quả (ví dụ như ranh giới / tính năng phát hiện) các hệ thống hỗ trợ học viên trong việc phát hiện và chẩn đoán tổn thương và các khối u và theo dõi tiến độ / tốc độ tăng trưởng
Trong lĩnh vực thời trang và thiết kế đồ họa hình ảnh là rất quan trọng
đối với thời trang, đồ họa và thiết kế công nghiệp Hình dung hay mường
Trang 18tượng như là một phần của quá trình sáng tạo Trong khi có sự khác biệt cá nhân trong cách thiết kế phương pháp tiếp cận công việc của họ, hình ảnh sử dụng nhiều thiết kế trước đây trong các hình thức của hình ảnh, hình ảnh và
đồ họa, cũng như các đối tượng và thông tin hình ảnh khác từ thế giới thực, để cung cấp nguồn cảm hứng và hình dung sản phẩm cuối cùng Phác họa 2-D, 3-D mô hình hình học được sử dụng để trình bày ý tưởng cho các khách hàng
và các đồng nghiệp khác Ngoài ra còn có một nhu cầu để đại diện cho các hàng may mặc
Các bức ảnh trong xuất bản và quảng cáo hình ảnh được sử dụng rộng
rãi trong ngành công nghiệp xuất bản, để minh họa cho cuốn sách và bài viết trên các tờ báo và tạp chí Nhiều nhà xuất bản tờ báo quốc gia và khu vực duy trì thư viện ảnh của riêng mình, hoặc sẽ sử dụng những người có sẵn từ Hiệp hội Báo chí, Reuters và các cơ quan khác Các bộ sưu tập ảnh sẽ được lập chỉ mục và nộp theo, thông thường, các nhóm chủ đề rộng (ví dụ như cảnh địa phương, các tòa nhà hoặc tính cách cũng như hình ảnh bao gồm quốc gia và quốc tế chủ đề) Ngày càng có nhiều, phương pháp lưu trữ và truy cập điện tử xuất hiện, cùng với sự phát triển trong các phương pháp tự động sản xuất tờ báo, giúp cải thiện tốc độ và tính chính xác của quá trình phục hồi Quảng cáo
và chiến dịch quảng cáo phụ thuộc rất nhiều vào vẫn còn và di chuyển hình ảnh để quảng bá các sản phẩm hoặc dịch vụ Sự phát triển của thư viện ảnh thương mại cổ phần, chẳng hạn như hình ảnh Getty và Corbis, phản ánh bản chất sinh lợi của ngành công nghiệp
Hình ảnh kiến trúc và thiết kế kỹ thuật được sử dụng trong kiến trúc để
ghi lại các dự án hoàn thành, bao gồm cả ảnh chụp nội thất và ngoại thất của các tòa nhà cũng như các tính năng đặc biệt của thiết kế Theo truyền thống, những tấm ảnh này sẽ được lưu trữ như là bản in hoặc định dạng trượt, số dự
án và tên truy cập, có lẽ, và được sử dụng để tham khảo các kiến trúc sư trong việc đưa ra các bài thuyết trình cho khách hàng và cho mục đích giảng dạy
Trang 19Thực hành với các kiến trúc sư lớn hơn 'hơn nguồn tài nguyên phong phú, đã giới thiệu máy ảnh kỹ thuật số và lưu trữ điện tử của bức ảnh
Các hình ảnh được sử dụng trong hầu hết các ngành kỹ thuật bao gồm các bản vẽ, kế hoạch, các bộ phận máy, và như vậy Computer Aided Design (CAD) được sử dụng rộng rãi trong quá trình thiết kế Cần chú trọng nhiều ứng dụng là cần thiết để làm cho việc sử dụng có hiệu quả của bộ phận tiêu chuẩn, để duy trì giá cả cạnh tranh do đó nhiều công ty kỹ thuật duy trì lưu trữ thiết kế rộng CAD và mô hình 2-D cũng được sử dụng rộng rãi trong thiết kế kiến trúc, với 3-D mô hình và kỹ thuật các mô hình khác ngày càng được sử dụng để giao tiếp với khách hàng Thống trị của CAD (đặc biệt là 2-D) trong quá trình thiết kế, mặc dù nó đã kết luận rằng dựa trên đối tượng, thông minh
hệ thống mô hình 3-D hoặc 4D sẽ trở nên quan trọng hơn trong tương lai
Các nhà sử học nghiên cứu lịch sử từ nhiều ngành nghệ thuật, xã hội
học, y học… sử dụng các nguồn thông tin trực quan để hỗ trợ các hoạt động nghiên cứu của họ Các nhà khảo cổ cũng phụ thuộc rất nhiều vào hình ảnh Trong một số trường hợp (đặc biệt, nhưng không độc quyền, nghệ thuật), hồ
sơ hình ảnh có thể là bằng chứng duy nhất có sẵn Trường hợp truy cập đến tác phẩm gốc của nghệ thuật là hạn chế hoặc không thể, có lẽ do khoảng cách địa lý hạn chế quyền sở hữu, hoặc các yếu tố để làm với điều kiện thể chất của
họ, các nhà nghiên cứu đã sử dụng người đại diện trong hình thức các bức ảnh, slide hoặc hình ảnh khác của các đối tượng, có thể được thu thập trong một thư viện đặc biệt, bảo tàng hay phòng trưng bày nghệ thuật Bộ sưu tập chụp ảnh và trượt được duy trì bởi một loạt các tổ chức, bao gồm các thư viện đại học và công chúng
Việc nghiên cứu các đặc trưng về hình thái và màu sắc trong truy vấn ảnh
là một việc làm không chỉ có ý nghĩa khoa học và còn mang đậm tính thực tiễn nhất là trong hoàn cảnh Việt Nam chưa có nhiều hệ thống truy vấn ảnh trong khi thực tế đang đặt ra những yêu cầu đòi hỏi
Trang 20Với mong muốn tìm hiểu và nghiên cứu về chủ đề này em đã mạnh dạn
lựa chọn đề tài: "Nghiên cứu các đặc trưng về hình thái và màu sắc trong
truy hồi ảnh " Bố cục của luận văn bao gồm phần mở đầu, ba chương chính,
phần kết luận, tài liệu tham khảo và phụ lục Nội dung các chương được tổ chức như sau:
- Phần mở đầu gồm 03 chương:
+ Chương 1: Khát quát về xử lý ảnh và các bài toán truy vấn ảnh Chương này trình bày về truy vấn ảnh và các hướng tiếp cận Tình hình nghiên cứu trong và ngoài nước về lĩnh vực truy vấn ảnh cũng như các thuận lợi, khó khăn và thách thức của việc giải bài toán truy vấn ảnh
+ Chương 2: Nghiên cứu các đặc trưng truy vấn ảnh dựa vào đặc trưng hình thái và màu sắc của ảnh Chương này trình bày các đặc trưng về màu sắc
và các kỹ thuật như : Lược đồ màu (histogram); Vector liên kết màu (Color Coherence Vector); Đặc trưng tự tương quan màu (AutoCorrelogram) Cùng với các đặc trưng về hình thái như: Lược đồ hệ số góc (Edge Direction Histogram); Vector liên kết hệ số góc (Edge Direction Coherence Vector); truy vấn kết hợp các đặc trưng bằng đại số BOOl và trong số để truy vấn ảnh cần tìm
+ Chương 3: Phân tích thiết kế và giới thiệu chương trình ứng dụng truy vấn ảnh dựa vào đặc trưng hình thái và màu sắc của ảnh
- Phần kết luận tóm lược các kết quả đã đạt được và nêu rõ đóng góp của khóa luận, đồng thời định hướng một số hướng nghiên cứu tiếp theo trong thời gian sắp tới và tài liệu tham khảo
Trang 21Chương 1: KHÁI QUÁT VỀ XỬ LÝ ẢNH VÀ BÀI TOÁN TRUY VẤN ẢNH
1.1 KHÁI QUÁT VỀ XỬ LÝ ẢNH
1.1.1 Xử lý ảnh là gì?
Xử ký ảnh là một ngành khoa học còn tương đối mới mẽ so với các ngành khoa học khác Song trong xử lý ảnh đã bắt đầu xuất hiện trên những máy tính chuyên dụng, để có thể hình dung cấu hình một hệ thống xử lý ảnh chuyên dụng hay một hệ thống xử lý ảnh dùng trong nghiên cứu, đào tạo, trước hết chúng ta sẽ xem xét các bước cần thiết trong xử lý ảnh
Sơ đồ tổng quát của một hệ thống xử lý ảnh:
Hình 1.1.1.1 Các bước cơ bản trong một hệ thống xử lý ảnh
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ
và có nhiều ứng dụng trong cuộc sống Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy Quá trình xử lý ảnh được xem như
là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh “tốt hơn” hoặc một kết luận
Trang 22Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào
đó của đối tượng trong không gian và nó có thể xem như một hàm n biến P(c1,
c2, , cn) Do đó, ảnh trong xử lý ảnh có thể xem như ảnh n chiều
Ngày nay ảnh có thể thu nhận từ các vệ tinh trinh thám, vệ tinh đánh giá môi trường, các máy bay trinh thám qua các bộ cảm biến ( sensor ); từ ảnh, tranh được quét trên máy scanner Tiếp theo là giai đoạn tiền xử lý để biến đổi tín hiệu tương tự sang tín hiệu rời rạc và trích chọn các đặc điểm của ảnh trước khi chuyển sang giai đoạn hậu xử lý, phân tích hay lưu trữ lại
Quá trình phân tích ảnh bao gồm nhiều công đoạn nhỏ Trước hết là tăng cường ảnh để nâng cao chất lượng ảnh do những nguyên nhân khác nhau như
do chất lượng thiết bị thu nhận ảnh, do nguồn sáng hay bị nhiễu, ảnh bị suy biến Do đó cần phải tăng cường và khôi phục lại ảnh để làm nổi bật một số đặc tính chính của ảnh, hoặc làm cho ảnh gần giống với trạng thái ban đầu tức
là trạng thái trước khi ảnh bị biến dạng Tiếp theo là giai đoạn phát hiện các đặc tính của ảnh như biên, phân vùng ành, trích chọn các đặc trưng khác v.v…
Cuối cùng là tùy theo mục đích của ứng dụng sẽ là giai đoạn nhận dạng, phân lớp hay các quyết định khác Mỗi hệ thống sẽ truy vấn dựa trên một số đặc trưng nhất định nào đó và có nhiều tùy chọn khác nhau để người dùng có thể truy vấn ảnh theo màu sắc, kết cấu, hình dạng hay thậm chí là theo từ khóa Trên thế giới hiện nay có các hệ thống truy vấn ảnh như sau:
Hệ thống Query Based Image Content (QBIC) là hệ thống truy vấn dựa
trên sự phác thảo do IBM phát triển Người sử dụng xây dựng một phác thảo, vẽ ra và lựa chọn màu cùng kết cấu dựa theo ảnh truy vấn Các đặc trưng màu sử dụng là giá trị màu trung bình trong không gian RGB Các đặc trưng về hình dạng sử dụng là dạng tròn, độ lệch tâm và hướng của trục
chính Hệ thống chỉ mục xây dựng dựa vào cấu trúc cây R* Tree Độ đo
Trang 23tương đồng về màu trung bình là:
d2avg(x,y)=(xavg- yavg) t(xavg-yavg)
còn về hình dạng thì sử dụng độ đo Euclide có trọng số
Đây là hệ thống chuẩn cho truy vấn bởi nội dung ảnh, là hệ thống tra cứu ảnh dựa vào nội dung được thương mại đầu tiên QBIC hỗ trợ chính các truy vấn dựa vào các ảnh mẫu, các phác thảo và các bản vẽ được người sử dụng xây dựng, và các mẫu kết cấu và màu được lựa chọn QBIC là kỹ thuật flood-fill tăng cường Một công cụ phác thảo để trợ giúp những người sử dụng theo dõi các điểm biên đối tượng dựa trên khái niệm “snakes” được phát triển trong nghiên cứu thị giác máy tính Công cụ này nhận một đường cong phác thảo của người sử dụng và căn lề tự động nó với các điểm biên ảnh gần cạnh Nó tìm đường cong cực đại hoá độ lớn gradient ảnh dọc đường cong Sau khi nhận biết đối tượng, QBIC sẽ tính toán các đặc trưng của mỗi đối tượng và ảnh Các đặc trưng như sau:Màu, Kết cấu, Hình, Phác thảo
Hình 1.1.1.2 hệ thống truy vấn ảnh QBIC của IBM
Ngay khi các đặc trưng được mô tả, các độ đo tương tự được sử dụng để nhận các ảnh tương tự Trong bước tìm kiếm, QBIC phân biệt giữa “các
Trang 24ảnh” và “các đối tượng” Một ảnh là một ảnh màu đầy đủ hoặc frame đơn của video và một đối tượng là một phần của ảnh QBIC tính toán các đặc trưng sau: Các đối tượng, các ảnh QBIC là một trong số ít các hệ thống nhận vào bản miêu tả đánh chỉ số đặc trưng nhiều chiều
Hệ thống VisualSeek là hệ thống truy vấn dựa vào các đặc trưng trực
quan của ảnh, sử dụng không gian 166 màu HSV Sự tương đồng giữa hai ảnh được xác định theo sự tương đồng của các vùng trong ảnh Để tiến hành truy vấn, trước tiên người dùng phải phác họa một số vùng trên ảnh
Hình 1.1.1.3 hệ thống truy vấn ảnh VISUALSEEK
Sau đó chọn màu cho mỗi vùng, đồng thời xác định vị trí, độ lớn của vùng Hệ thống sẽ sử dụng hàm so khớp sau để tìm các hình giống với ảnh
truy vấn d(cq,ct)=(cq-ct) tA(cq-ct), trong đó cq,ct là hai tập màu của hai ảnh
và A=(a[i,j]) là ma trận độ tương đồng của các màu
Hệ thống WebSeek là hệ thống truy vấn ảnh trên web theo danh mục ảnh
cho trước và sử dụng phép biến đổi wavelet: sưu tập ảnh sau đó phân lớp ảnh, tạo chỉ mục và cuối cùng là tìm kiếm và hiển thị
Trang 25Hình 1.1.1.4 hệ thống truy vấn ảnh WEBSEEK
Người dùng phải chọn chủ đề trong danh mục, hệ thống sẽ sử dụng hàm
so khớp sau:
d(h q ,h t ) = + 2∑
để tìm kiếm trong chủ đề tương ứng ảnh giống nhất
Hệ thống BlobWorld là hệ thống truy tìm theo ảnh mẫu dựa trên việc
rút trích các dữ liệu điểm nguyên thủy cùng các đặc tính giống nhau về màu sắc, kết cấu và hình dạng Màu sắc sẽ được biểu diễn dưới dạng histogram 218 màu, kết cấu đặc trưng bởi sự tương phản và tính không thẳng đứng; còn các đặc trưng hình dạng tính theo vùng với trọng tâm và hướng Ảnh truy vấn theo sự phác thảo của các vùng riêng biệt Hàm đo sự
tương đồng là d(h1, h2)=(h1-h2) TA(h1-h2), với A=(aij) là ma trận đối xứng
thể hiện sự tương đồng giữa màu i và j
Trang 26
Hình 1.1.1.5 hệ thống truy vấn ảnh BLOBWORLD
Hệ thống Virage của công ty Virage là một máy tìm kiếm ảnh dựa vào
nội dung được phát triển tại liên hợp Virage Tương tự với QBIC, Virage hỗ trợ các truy vấn trực quan dựa trên màu, thành phần cấu tạo (bố cục màu), kết cấu và cấu trúc (thông tin đường bao đối tượng) Nhưng Virage tiến một bước
xa hơn QBIC Nó cũng hỗ trợ các kết hợp tùy ý của các truy vấn trên Người
sử dụng có thể điều chỉnh các trọng số được kết hợp với các đặc trưng theo sự nhấn mạnh riêng của họ
Jeffrey và cộng sự đã đề xuất tiếp một khuôn khổ mở cho quản lý ảnh Họ
đã phân loại các đặc trưng trực quan thành tổng quát (như màu, hình, hoặc kết cấu) và lĩnh vực cụ thể (nhận dạng mặt người, phát hiện khối u, v.v )
Trang 27Hình 1.1.1.6 hệ thống truy vấn ảnh VIRAGE
Hệ thống RetrievalWare là một máy tra cứu ảnh dựa vào nội dung được phát
triển bởi tập đoàn công nghệ Excalibur Máy tìm kiếm gần đây của họ sử dụng màu, hình, kết cấu, độ sáng, bố cục màu, và hướng tỷ lệ của ảnh, như các đặc trưng truy vấn Người sử dụng có thể điều chỉnh các trọng số kết hợp với mỗi đặc trưng này trong quá trình tìm kiếm
Hệ thống Photobook của phòng thí nghiệm truyền thông MIT Photobook
là một tập các công cụ tương tác để duyệt và tìm kiếm các ảnh được phát triển tại phòng thí nghiệm MIT Media Hệ thống này cho phép người sử dụng tra cứu ảnh dựa trên màu sắc, hình dạng và kết cấu Hệ thống như một công cụ bán tự động và có thể sinh ra một mẫu truy vấn dựa vào những ảnh mẫu được cung cấp bởi người sử dụng Cho phép người sử dụng trực tiếp đưa những yêu cầu truy vấn của họ với những lĩnh vực khác nhau, mỗi lĩnh vực thì họ có thể thu được những mẫu truy vấn tối ưu Trong phiên bản Photobook gần đây nhất của nó, Picard và cộng sự đã đề xuất gồm những người sử dụng trong lặp và chú thích tra cứu ảnh
Hệ thống Netra của Đại học California Netra sử dụng thông tin màu, kết
cấu, hình, và vị trí không gian trong các vùng ảnh được phân đoạn để tìm
Trang 28kiếm và tra cứu các vùng tương tự từ cơ sở dữ liệu Các đặc trưng nghiên cứu chính của hệ thống Netra là phân tích kết cấu dựa trên lọc Gabor, xây dựng từ điển ảnh dựa trên mạng neural và phân đoạn vùng dựa vào luồng biên
Ở Việt nam chúng ta có:
Truy vấn ảnh kết hợp với máy học nhằm cải thiện hiệu quả truy vấn,
người ta xây dựng hệ thống truy vấn ảnh kết hợp với máy học có khả năng nhận phản hồi từ người dùng Nâng cao hiệu quả truy vấn qua quá trình huấn luyện Ví dụ như truy vấn CSDL ảnh áp dụng mô hình Mediator Markov Model (MMM) của tác giả Nguyễn Hữu Lộc Kết quả của hệ thống này cho thấy: trong 1048 ảnh thử nghiệm với 40 truy vấn mẫu sau khi đã có 200 phản hồi: số ảnh tìm được gần bằng 795, số ảnh tìm được đúng gần 510 và số ảnh đúng trong CSDL 670 (Nghĩa là tỷ lệ Precision=0.64 và tỷ lệ Recall là 0.76) [3]
Phương pháp truy vấn ảnh dùng hệ thống liên mạng meta-Nơron của tác giả Trần Sơn Hải dùng Mạng Nơron con với đầu vào là các vector đặc
trưng dạng lượng tử gồm đặc trưng gồm thông tin về màu sắc, hình dạng và vị trí đã đề xuất, sẽ kết hợp các đặc trưng này cho ra kết quả đánh giá của mạng con Sau đó, để nâng cao độ chính xác của hệ thống mạng meta-Nơron toàn cục sẽ kết hợp kết quả của các mạng con cho ra kết quả cuối cùng của toàn hệ thống liên mạng
Để có thể xử lý ảnh bằng máy tính thì cần phải tiến hành số hóa ảnh Tức là biến đổi tín hiệu liên tục sang tín hiệu rời rạc ( rời rạc hóa về không gian ) và
Trang 29lượng hóa thành phần giá trị mà đối với con chúng ta không thể nhìn thấy được hai điểm kề nhau Trong quán trình này người ta dùng khái niệm là Picture Element hay còn gọi là pixel – phần tử ảnh Chúng ta cũng cần phân biệt khái niệm pixel hay được nói đến trong đồ họa máy tính Cho nên để tránh nhầm lẫn ta gọi khái miện pixel trên là pixel thiết bị Tức là khi ta quan sát màn hình trong chế độ đồ họa màn hình không liên tục mà gồm nhiều điểm nhỏ Mỗi điểm nhỏ đó gọi là pixel Mỗi pixel gồm một cặp tọa độ x, y
và màu
Ảnh với độ phân giải 200x200 Ảnh với độ phân giải 128x128
Hình 1.1.2.1 Biểu diễn ảnh với độ phân giải khác nhau
Cặp tọa độ x, y tạo nên độ phân giải (resolution) Như màn hình máy tính hay các lại màn hình khác có độ phân giải khác nhau: Màn hình CGA có độ phân giải là 320x200 Màn hình VGA có độ phân giải là 640x350 Vậy ảnh là tập hợp các điểm ảnh, khi được số hóa thì ảnh được biểu diễn bởi bẳng hai chiều I(d,c): d dòng và c cột vậy ta nói ảnh có d x c pixel Người ta thường ký hiệu I(x,y) để chỉ 01 pixel trên ảnh Thường giá trị của d chọn bằng c và bằng
256 Một pixel có thể lưu trữ trên 1,4,8 hay 24 bit
Cặp tọa độ x, y tạo nên độ phân giải (resolution) Như màn hình máy tính hay các lại màn hình khác có độ phân giải khác nhau: Màn hình CGA có độ phân giải là 320x200 Màn hình VGA có độ phân giải là 640x350 Vậy ảnh là tập hợp các điểm ảnh, khi được số hóa thì ảnh được biểu diễn bởi bẳng hai
Trang 30chiều I(d,c): d dòng và c cột vậy ta nói ảnh có d x c pixel Người ta thường ký hiệu I(x,y) để chỉ 01 pixel trên ảnh Thường giá trị của d chọn bằng c và bằng
256 Một pixel có thể lưu trữ trên 1,4,8 hay 24 bit
* Mức xám, màu
Là số các giá trị có thể có của các pixel của ảnh Mức xám là kết quả củ
sự mã hóa tương ứng một cường độ sáng của mỗi điểm ảnh với một giá trị số ( kết quả của quá trình lượng hóa Cách mã hóa kinh điển thường dùng 16,
32 hay 64 mức Mã hóa 256 mức là thông dụng nhất vì lý do kỹ thuật Tức là
28 =256 ( 0,1…,255)nên với 256 mức mỗi pixel được mã hóa 8 bit
Ảnh đen trắng: là ảnh có hai màu đen, trắng (không chứa màu khác) với
mức xám ở các điểm ảnh có thể khác nhau
Ảnh nhị phân: ảnh chỉ có 2 mức đen trắng phân biệt tức dùng 1 bit mô tả
21 mức khác nhau Nói cách khác: mỗi điểm ảnh của ảnh nhị phân chỉ có thể
là 0 hoặc 1
Ảnh màu: trong khuôn khổ lý thuyết ba màu (Red, Blue, Green) để tạo
nên thế giới màu, người ta thường dùng 3 byte để mô tả mức màu, khi đó các
giá trị màu: 28*3=224≈ 16,7 triệu màu
Trang 31việc nắn chỉnh chỉ áp dụng trên một số vùng ảnh, các vùng khác giữ nguyên Các thuật toán nắn chỉnh toàn cục có tốc độ xử lý tương đối nhanh Tuy nhiên chỉ áp dụng được đối với các yêu cầu đơn giản như co, giản ảnh, bóp méo cả ảnh thành tứ giác hay một số hiệu ứng khác như mắt cá, kính lúp v.v Thuật toán nắn chỉnh cục bộ cho kết quả ấn tượng hơn Tuy nhiên để có thể nắn chỉnh theo từng vùng, phải xác định thêm tập các đặc trưng Ngoài ra việc xây dựng thuật toán cũng tương đối phức tạp
Hình 1.1.2.2 Ví dụ về nắn chỉnh biến dạng
Để khắc phục người ta sử dụng các phép chiếu, các phép chiếu thường được xây dựng trên tập các điểm điều khiển
Giả sử (Pi, Pi’) i= 1, n có n các tập điều khiển
Tìm hàm f: Pi a f (Pi) sao cho:
∑
Trang 32Giải hệ phương trình tuyến tính tìm được a1,b1,c1;
Tương tự tìm được a2,b2,c2 Xác định được hàm f
Nắn chỉnh biến dạng bằng hình học thực chất là một khâu trong xử lý ảnh Với mỗi một dạng ảnh tuỳ theo mức độ, hiện trạng và chủng loại ảnh mà người ta sử dụng ứng dụng nào phù hợp nhất để xử lý Thông thường người ta phân kỹ thuật nắn chỉnh thành 4 loại cơ bản:
- Kỹ thuật nắn chỉnh dựa trên phân vùng ảnh: Trước tiên miền không gian của ảnh nguồn được chia thành một tập các vùng nhỏ Tương tự như vậy, ảnh đích cũng được chia thành tập các vùng nhỏ tương ứng Sau đó ảnh được nắn chỉnh bằng cách chuyển đổi tương ứng mỗi vùng của ảnh nguồn thành mảnh của ảnh đích Một trong những phương thức đầu tiên của kỹ thuật dựa trên phân mảnh là thuật toán nắn chỉnh 2-pass mesh Với phương thức này, mỗi chuyển đổi 2-pass sẽ thay thế một chuyển đổi 2-D thành một dãy các chuyển đổi 1-D trực giao Ngoài ra còn có các phương thức nắn chỉnh dựa trên phân vùng khác như phân vùng dựa trên phân hình tam giác v.v
- Kỹ thuật nắn chỉnh dựa trên các điểm đặc trưng: Người ta dùng các điểm quan trọng làm ánh xạ cơ sở, tức là đã xác định được trước ánh xạ của các điểm đặc trưng Từ các cặp điểm đặc trưng tương ứng ở trên ảnh nguồn và ảnh đích ta xác định được ánh xạ của các điểm còn lại xuất phát từ vị trí
Trang 33của nó trên ảnh gốc Một số phương thức dựa trên điểm đặc trưng coi nắn chỉnh như là một hàm nội suy dữ liệu thưa Sử dụng hàm nội suy để nội suy tất cả các điểm còn lại
- Kỹ thuật nắn chỉnh dựa trên vector: Kỹ thuật này sử dụng các cặp vector làm cơ sở để biến đổi ảnh Beier và Neely là những người đầu tiên đề xuất kỹ thuật này Mỗi cặp vector định nghĩa một ánh xạ tọa độ giữa chúng Độ dịch chuyển của bất kỳ điểm nào trong ảnh sẽ bằng tổng trọng số của các ánh xạ
do tất cả các cặp vector đã được xác định
- Kỹ thuật nắn chỉnh dựa trên khung lưới: Sử dụng các hàm biến đổi nhằm đưa ra cách thức xác định tất cả các điểm tương ứng với từng điểm ảnh thuộc ảnh A có khung lưới là Ma trong ảnh N có khung lưới là Mb Đây là công việc cần thiết khi thực hiện nắn chỉnh một ảnh hay đối tượng ảnh bất kỳ
1.1.2.3 Khử nhiễu
Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh
- Nhiễu hệ thống: là nhiễu có quy luật có thể khử bằng các phép biến đổi
- Nhiễu ngẫu nhiên: vết bẩn không rõ nguyên nhân khắc phục bằng các phép lọc
1.1.2.4 Chỉnh mức xám:
Nhằm khắc phục tính không đồng đều của hệ thống gây ra Thông thường
có 2 hướng tiếp cận:
- Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần nhau thành một bó Trường hợp chỉ có 2 mức xám thì chính là chuyển về ảnh đen trắng Ứng dụng: In ảnh màu ra máy in đen trắng
- Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng kỹ thuật nội suy Kỹ thuật này nhằm tăng cường độ mịn cho ảnh
1.1.2.5 Trích chọn đặc điểm
Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận dạng trong quá trình xử lý ảnh Có thể nêu ra một số đặc điểm của ảnh sau
Trang 34đây:
Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ,
điểm uốn v.v
Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc thực
hiện lọc vùng (zonal filtering) Các bộ vùng được gọi là “mặt nạ đặc điểm” (feature mask) thường là các khe hẹp với hình dạng khác nhau (chữ nhật, tam giác, cung tròn v.v )
Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng
và do vậy rất hữu ích trong việc trích trọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờ toán tử gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không” (zero crossing) v.v…Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống
1.1.2.6 Nhận dạng
Nhận dạng tự động (automatic recognition), mô tả đối tượng, phân loại và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, được ứng dụng trong nhiều ngành khoa học khác nhau Tuy nhiên, một câu hỏi đặt ra là: mẫu (pattern) là gì? Watanabe, một trong những người đi đầu trong lĩnh vực này đã định nghĩa: “Ngược lại với hỗn loạn (chaos), mẫu là một thực thể (entity), được xác định một cách ang áng (vaguely defined) và
có thể gán cho nó một tên gọi nào đó” Ví dụ mẫu có thể là ảnh của vân tay, ảnh của một vật nào đó được chụp, một chữ viết, khuôn mặt người hoặc một ký đồ tín hiệu tiếng nói Khi biết một mẫu nào đó, để nhận dạng hoặc phân loại mẫu đó có thể:
Hoặc phân loại có mẫu (supervised classification), chẳng hạn phân
tích phân biệt (discriminant analyis), trong đó mẫu đầu vào được định danh như một thành phần của một lớp đã xác định
Trang 35Hoặc phân loại không có mẫu (unsupervised classification hay
clustering) trong đó các mẫu được gán vào các lớp khác nhau dựa trên một tiêu chuẩn đồng dạng nào đó Các lớp này cho đến thời điểm phân loại vẫn chưa biết hay chưa được định danh
Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn chủ yếu sau đây:
1 Thu nhận dữ liệu và tiền xử lý
2 Biểu diễn dữ liệu
3 Nhận dạng, ra quyết định
Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:
1 Đối sánh mẫu dựa trên các đặc trưng được trích chọn
2 Phân loại thống kê
3 Đối sánh cấu trúc
4 Phân loại dựa trên mạng nơ-ron nhân tạo
Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp cận đơn lẻ để phân loại “tối ưu” do vậy cần sử dụng cùng một lúc nhiều phương pháp và cách tiếp cận khác nhau Do vậy, các phương thức phân loại tổ hợp hay được sử dụng khi nhận dạng và nay đã có những kết quả có triển vọng dựa trên thiết kế các hệ thống lai (hybrid system) bao gồm nhiều mô hình kết hợp
Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy sinh trong cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra những yêu cầu về tốc độ tính toán Đặc điểm chung của tất cả những ứng dụng đó là những đặc điểm đặc trưng cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải được trích chọn dựa trên các thủ tục phân tích dữ liệu
1.1.2.7 Nén ảnh
Nhằm giảm thiểu không gian lưu trữ Thường được tiến hành theo cả hai
Trang 36cách khuynh hướng là nén có bảo toàn và không bảo toàn thông tin Nén không bảo toàn thì thường có khả năng nén cao hơn nhưng khả năng phục hồi thì kém hơn Trên cơ sở hai khuynh hướng, có 4 cách tiếp cận cơ bản trong nén ảnh:
- Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất xuất hiện của giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thích hợp Một ví dụ điển hình cho kỹ thuật mã hóa này là *.TIF
- Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian của các điểm ảnh để tiến hành mã hóa Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh trong các vùng gần nhau Ví dụ cho kỹ thuật này là mã nén *.PCX
- Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng nén không bảo toàn và do vậy, kỹ thuật thướng nến hiệu quả hơn
*.JPG chính là tiếp cận theo kỹ thuật nén này
- Nén ảnh Fractal: Sử dụng tính chất Fractal của các đối tượng ảnh, thể hiện sự lặp lại của các chi tiết Kỹ thuật nén sẽ tính toán để chỉ cần lưu trữ phần gốc ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal
1.2 TRUY VẤN ẢNH
1.2.1 Giới thiệu
Truy vấn ảnh dựa vào nội dung là tìm kiếm thông tin trực quan Truy vấn thông tin trực quan là chủ đề nghiên cứu mới trong lĩnh vực công nghệ thông tin Tương tác với nội dung trực quan là cách thiết yếu nhất để truy vấn thông tin trực quan Các yếu tố trực quan như màu sắc, vân, hình dáng đối tượng và các yếu tố không gian trực tiếp liên quan đến khía cạnh của cảm nhận nội dung ảnh, cùng với các khái niệm ở mức cao như ý nghĩa đối tượng, khung cảnh trong ảnh, được dùng như là manh mối cho tìm kiếm hình ảnh với nội dung tương tự từ cơ sở dữ liệu
Truy vấn ảnh dựa vào nội dung đòi hỏi phải có sự đóng góp từ các lĩnh vực nghiên cứu khác là rất lớn và đặt ra nhiều thử thách trong nghiên cứu đối với
Trang 37các nhà khoa học và kỹ sư Các lĩnh vực nghiên cứu khác nhau, được phát triển một các độc lập, đóng góp rất lớn cho chủ đề nghiên cứu mới mẽ này Truy vấn thông tin, mô hình hóa và thể hiện dữ liệu trực quan, phân tích và xử
lý phim/ảnh, nhận dạng và thị giác máy tính (computer vision), tổ chức cơ sở
dữ liệu đa phương tiện (multimedia), lập chỉ mục đa chiều, mô hình hóa tâm lí hành vi người dùng, hệ tương tác người-máy và trực quan hóa dữ liệu, là các lĩnh vực nghiên cứu quan trọng nhất đóng góp cho truy vấn thông tin trực quan
Các yếu tố mô tả nội dung có liên quan đến các đặc trưng cảm nhận như màu sắc, vân, hình dạng, cấu trúc, mối liên hệ về không gian và chuyển động Các yếu tố cơ sở nguồn gốc của màu sắc như đối tượng, vai trò, sự kiện, hay các thông tin có liên hệ với màu sắc như cảm giác, cảm tưởng hay ý nghĩa của hình ảnh Do vậy, phân tích ảnh, nhận dạng và thị giác máy tính đóng vai trò cơ bản trong các hệ thống truy vấn thông tin trực quan Nó cho phép
tự động trích chọn hầu hết các thông tin cảm nhận, thông qua việc phân tích phân bố điểm ảnh và rút ra các độ đo nội dung trực quan
- Hệ thống tìm kiếm ảnh thế hệ đầu tiên (dựa vào văn bản):
Thế hệ đầu tiên của hệ thống tìm kiếm ảnh dựa vào nội dung cho phép truy cập trực tiếp đến ảnh thông qua thuộc tính chuỗi Kho ngữ liệu của hệ thống trong thế hệ đầu tiên dựa trên chuỗi, sơ đồ trình bày, mô hình quan hệ, cấu trúc khung Dữ liệu mô tả và phụ thuộc nội dung được thể hiện thông qua từ khoá hay nguyên bản Từ khoá rất thích hợp cho việc xác định: Các thực thể quan trọng trong hình ảnh (như đối tượng, con người…), các khái niệm hay thuật ngữ phụ thuộc ngữ cảnh (như: mắt, miệng, gương mặt…) hay khung cảnh thể hiện (cảnh bãi biển, cảnh núi non, cảnh hoàng hôn…) Nguyên bản là các mô tả bao quát hơn, thường được viết bởi các chuyên gia, tóm tắt vào từ ngữ những gì thể hiện được và ý nghĩa của ảnh Truy vấn thông tin dựa trên các hệ thống tìm kiếm truyền thống làm việc trên văn bản dùng
Trang 38ngôn ngữ truy vấn như SQL hay tìm kiếm toàn văn bản
Do hệ thống tìm kiếm này là dựa vào từ khóa được chú thích bằng văn bản
do đó có những hạn chế sau: Việc tạo từ khóa cho một số lượng lớn ảnh tốn thời gian, từ khóa thì ngắn không thể mô tả hết các nét cảm nhận nổi bật của các đặc trưng trực quan và không duy nhất, văn bản không thích hợp cho việc xây dựng độ đo tương tự về giác quan, những mô tả bằng văn bản chỉ phản ánh quan điểm của người chú thích chứ không phải người dùng cuối tương tác với hệ thống nhưng việc nhận thức là một vấn đề chủ quan của từng người Do những hạn chế trên đã dẫn đến sự ra đời của hệ thống tìm kiếm ảnh dựa vào nội dung Thế hệ mới của hệ thống tìm kiếm ảnh dựa vào nội dung hỗ trợ đầy đủ việc lấy thông tin dựa vào nội dung thuộc về thị giác Chúng cho phép phân tích đối tượng, tự động rút trích đặc trưng
Những tìm kiếm đặc thù cho những hệ thống dạng này là “ tìm tất cả những hình ảnh có hình con voi “ hay “ tìm kiếm tất cả những tấm ảnh về biển
ở Việt Nam”
Những khuyết điểm mà tìm kiếm theo văn bản không thực hiện được khi người dùng muốn tìm kiếm những tấm ảnh có nội dung “ảnh có hoa màu xanh xanh” hay “hoa màu vàng có nhụy màu tím ” việc tìm kiếm theo văn bản không thực hiện được vì có rất nhiều loại hoa màu xanh cũng như hoa màu vàng nhụy màu tím Vả lại từ khóa là do quan điểm của người chú thích chứ không phải của người dùng
Trang 39Hình 1.2.1 Hệ thống tìm kiếm thông tin trực quan thế hệ mới
Hệ thống tìm kiếm thông tin trực quan thế hệ mới hỗ trợ tìm kiếm hoàn toàn bằng nội dung trực quan Truy cập đến thông tin không chỉ ở mức khái niệm dùng từ khoá và văn bản, mà còn thông qua mức độ cảm nhận dùng các
độ đo khách quan của nội dung trực quan và các mô hình tương tự thích hợp Trong các hệ thống này thì xử lý ảnh, nhận dạng và thị giác máy tính làm một phần được tích hợp vào kiến trúc và vận hành hệ thống Nó cho phép phân tích khách quan sự phân bố điểm ảnh và tự động rút trích độ đo từ
dữ liệu nhập thô
- Các hệ thống truy vấn ảnh tĩnh
Nội dung của ảnh tĩnh bao gồm:
+ Thuộc tính cảm nhận: màu sắc, vân, hình dạng, yếu tố không gian + Các yếu tố nội dung cơ sở: đối tượng, quang cảnh
+ Cảm giác, cảm nhận và ý nghĩa được kết hợp với tập các đặc trưng cảm nhận
Để tìm ảnh tương ứng với các thuộc tính cảm nhận, mô hình tìm kiếm đòi hỏi với mỗi ảnh các đặc trưng tiêu biểu (tham số) được tính trước Truy
Trang 40vấn được thông qua các mẫu trực quan Để khởi tạo truy vấn, người dùng chọn các đặc trưng và phạm vi của các tham số quan trọng và chọn độ đo tương tự Mẫu có thể được soạn thảo bởi người dùng hay rút từ các ảnh mẫu
Hệ thống kiểm tra độ tương tự giữa nội dung trực quan được ngừơi dùng truy vấn và ảnh trong cơ sở dữ liệu Vì không thể dự đoán được kết quả trả về tương ứng với truy vấn có thoả mãn hay không nên kỹ thuật để cải thiện chất lượng truy vấn là giữ đến mức thấp nhất có thể số thất thoát (do chi phí của số lượng lớn hơn các truy vấn thất bại) và cho phép một hình thức tương tác gọi là hồi đáp thích hợp (relevance feedback) Trong đó các mẫu rất cứng nhắc, thiếu độ linh động cần thiết để giải quyết các khái niệm và yếu tố màu sắc của hình ảnh Vì thế, để tìm kiếm ảnh dựa trên các thuộc tính cấp cao thì phải thực hiện truy vấn lại bằng văn bản
- Các hệ thống tìm kiếm phim ảnh (video):
Khác với ảnh tĩnh, ảnh phim truyền các thông điệp có nhiều thông tin hơn thông qua nhiều khía cạnh thông tin Bao gồm cách các khung ảnh liên kết lại với nhau sử dụng các hiệu ứng soạn thảo (cắt, giảm, phân rã, làm mờ…) và nội dung thể hiện trong ảnh (nhân vật, nội dung câu chuyện, thông điệp câu chuyện) Sự thay đổi về màu sắc, vân, hình dạng và chuyển động (của cả thiết bị thu nhận ảnh, nhân vật và đối tượng) được quan sát trong nhiều khung ảnh, là quan trọng hơn thông tin được nhúng vào các khung ảnh đơn Kỹ thuật dùng để thu nhận phim ảnh cũng góp phần quan trọng vào thông tin của luồng phim ảnh Mỗi loại phim ảnh có các đặc trưng riêng Điều này được thể hiện trong cách mỗi đơn vị phim ảnh được rút trích, tổ chức trong cấu trúc kiến thức, chỉ mục và truy cập bởi người dùng Trong hệ thống tìm kiếm video việc truy cập có thể được thực hiện thông qua
cả mức cấu trúc lẫn nội dung
- Các hệ thống tìm kiếm ảnh 3 chiều và video:
Tập h ợ p các ảnh 3 chiều và video h i ện n a y được dùng rất nhiều trong