Mục lục Mở đầu ............................................................................................................................ 1 Chương 1. Khái quát vềcác thuật toán tính hạng ..................................................... 3 1.1. Giới thiệu vềbài toán tính hạng ......................................................................... 3 1.2. Tính hạng trang Web ......................................................................................... 4 1.2.1. Tính hạng theo liên kết ................................................................................ 4 1.2.2. Tính hạng định hướng ngữcảnh ............................................................... 15 1.3. Tính hạng thực thể........................................................................................... 17 1.4. Sơbộvềtính hạng ảnh ..................................................................................... 18 1.5. Một sốcông trình nghiên cứu liên quan .......................................................... 20 Tóm tắt chương một..................................................................................................... 22 Chương 2. Một sốthuật toán tính hạng ảnh phổbiến ............................................. 23 2.1. Giới thiệu ......................................................................................................... 23 2.2. VisualRank ....................................................................................................... 23 2.3. Multiclass VisualRank ..................................................................................... 26 2.4. Visual contextRank .......................................................................................... 28 2.5. Nhận xét ........................................................................................................... 32 Tóm tắt chương hai ...................................................................................................... 32 Chương 3. Mô hình máy tìm kiếm ảnh lớp trên ....................................................... 34 3.1. Kiến trúc chung của máy tìm kiếm lớp trên .................................................... 34 3.1.1. Giao diện người dùng ................................................................................ 35 3.1.2. Bộ điều vận ............................................................................................... 35 3.1.3. Bộxửlý kết quả........................................................................................ 36 3.1.4. Mô đun tính hạng ...................................................................................... 36 3.2. Mô hình máy tìm kiếm ảnh lớp trên MetaSEEk .............................................. 37 3.2.1. Truy vấn trực quan dựa trên nội dung ....................................................... 38 3.2.2. Giao diện truy vấn ..................................................................................... 38 3.2.3. Bộ điều vận ............................................................................................... 40 3.2.4. Thành phần hiển thị................................................................................... 42 3.2.5. Đánh giá .................................................................................................... 43 3.3. Xếp hạng ảnh trong máy tìm kiếm ảnh lớp trên .............................................. 43 Tóm tắt chương ba ....................................................................................................... 45 Chương 4. Thửnghiệm ............................................................................................... 46 4.1. Mô hình thửnghiệm ......................................................................................... 46 4.1.1. Cách tiếp cận ............................................................................................. 46 4.1.2. Mô hình đềxuất và các thành phần trong mô hình ................................... 47 4.2. Môi trường và các thành phần trong hệthống phần mềm ............................... 50 4.2.1. Cấu hình phần cứng................................................................................... 50 4.2.2. Các thành phần trong hệthống phần mềm ................................................ 50 4.3. Xây dựng tập dữliệu ........................................................................................ 52 4.3.1. Tập truy vấn .............................................................................................. 52 4.3.2. Tập máy tìm kiếm nguồn .......................................................................... 53 4.3.3. Từ điển ...................................................................................................... 53 4.4. Quy trình, các phương án thửnghiệm ............................................................. 53 4.5. Kết quảthửnghiệm và đánh giá ...................................................................... 54 Kết luận ........................................................................................................................ 60 Tài liệu tham khảo ....................................................................................................... 62
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thị Kim Dung MỘT SỐ THUẬT TOÁN PHÂN HẠNG ẢNH PHỔ BIẾN VÀ ÁP DỤNG TRONG HỆ THỐNG TÌM KIẾM ẢNH LỚP TRÊN THỬ NGHIỆM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2010 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thị Kim Dung MỘT SỐ THUẬT TOÁN PHÂN HẠNG ẢNH PHỔ BIẾN VÀ ÁP DỤNG TRONG HỆ THỐNG TÌM KIẾM ẢNH LỚP TRÊN THỬ NGHIỆM KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS Nguyễn Cẩm Tú HÀ NỘI - 2010 Lời cảm ơn Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư Tiến sĩ Hà Quang Thụy và Thạc sĩ Nguyễn Cẩm Tú, người đã tận tình chỉ bảo và hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp. Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học tập và nghiên cứu tại trường Đại h ọc Công nghệ. Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm “Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để hoàn thành tốt khoá luận. Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp. Tôi xin chân thành cảm ơn! Sinh viên Lê Thị Kim Dung Tóm tắt Sự tăng không ngừng về lượng ảnh trên Web tạo nguồn ảnh phong phú đáp ứng được nguồn cung ảnh cho nhu cầu của con người. Mặc dù một số máy tìm kiếm ảnh đã ra đời đáp ứng phần nào nhu cầu tìm kiếm ảnh, song nâng cao chất lượng tìm kiếm luôn là vấn đề được đặt ra. Bài toán xếp hạng ảnh là bài toán cốt lõi của các máy tìm kiếm ảnh, và nâng cao chất lượng xếp hạng ả nh đã và đang nhận được sự quan tâm đặc biệt. Đầu tiên, khóa luận khảo sát các thuật toán tính hạng ảnh, đặc biệt là VisualRank [39] theo độ đo tương đồng giữa các ảnh được tính theo các đặc trưng nội dung văn bản và nội dung hiển thị. Sau đó, khóa luận đề xuất một mô hình hệ thống tìm kiếm ảnh lớp trên (image meta-search engine [18] [11]), trong đó sử dụng thuật toán nói trên làm thành phần xếp hạng ảnh. H ệ thống tìm kiếm ảnh này sử dụng một cơ sở dữ liệu lưu trữ các câu truy vấn và các ảnh tương ứng với chúng như một giải pháp nhằm rút ngắn thời gian đáp ứng yêu cầu truy vấn. Đồng thời, hệ thống sử dụng một bộ từ điển dùng trong việc hỗ trợ các truy vấn dạng tiếng Việt. Thực nghiệm do khóa luậ n tiến hành bước đầu đã thu được những kết quả tương đối khả quan, độ chính xác của hệ thống khi áp dụng thuật toán với đặc trưng văn bản và đặc trưng hiển thị đạt 81.2%. Trong phạm vi các thử nghiệm của khóa luận, kết quả này là tốt hơn so với hai máy tìm kiếm ảnh lớn là Google và Yahoo và đã khẳng định được tính khả thi của mô hình. Mục lục Mở đầu 1 Chương 1. Khái quát về các thuật toán tính hạng . 3 1.1. Giới thiệu về bài toán tính hạng . 3 1.2. Tính hạng trang Web . 4 1.2.1. Tính hạng theo liên kết 4 1.2.2. Tính hạng định hướng ngữ cảnh . 15 1.3. Tính hạng thực thể . 17 1.4. Sơ bộ về tính hạng ảnh . 18 1.5. Một số công trình nghiên cứu liên quan 20 Tóm tắt chương một . 22 Chương 2. Một số thuật toán tính hạng ảnh phổ biến . 23 2.1. Giới thiệu . 23 2.2. VisualRank . 23 2.3. Multiclass VisualRank . 26 2.4. Visual contextRank 28 2.5. Nhận xét . 32 Tóm tắt chương hai 32 Chương 3. Mô hình máy tìm kiếm ảnh lớp trên . 34 3.1. Kiến trúc chung của máy tìm kiếm lớp trên 34 3.1.1. Giao diện người dùng 35 3.1.2. Bộ điều vận . 35 3.1.3. Bộ xử lý kết quả 36 3.1.4. Mô đun tính hạng 36 3.2. Mô hình máy tìm kiếm ảnh lớp trên MetaSEEk 37 3.2.1. Truy vấn trực quan dựa trên nội dung . 38 3.2.2. Giao diện truy vấn . 38 3.2.3. Bộ điều vận . 40 3.2.4. Thành phần hiển thị . 42 3.2.5. Đánh giá 43 3.3. Xếp hạng ảnh trong máy tìm kiếm ảnh lớp trên 43 Tóm tắt chương ba . 45 Chương 4. Thử nghiệm . 46 4.1. Mô hình thử nghiệm . 46 4.1.1. Cách tiếp cận . 46 4.1.2. Mô hình đề xuất và các thành phần trong mô hình . 47 4.2. Môi trường và các thành phần trong hệ thống phần mềm . 50 4.2.1. Cấu hình phần cứng . 50 4.2.2. Các thành phần trong hệ thống phần mềm 50 4.3. Xây dựng tập dữ liệu 52 4.3.1. Tập truy vấn 52 4.3.2. Tập máy tìm kiếm nguồn 53 4.3.3. Từ điển 53 4.4. Quy trình, các phương án thử nghiệm . 53 4.5. Kết quả thử nghiệm và đánh giá 54 Kết luận 60 Tài liệu tham khảo . 62 Danh sách các bảng Bảng 1. Ví dụ về bản ghi của một ảnh trong cơ sở dữ liệu . 42 Bảng 2. Cấu hình phần cứng sử dụng trong thực nghiệm . 50 Bảng 3. Một số phần mềm sử dụng . 50 Bảng 4. Một số thư viện sử dụng . 50 Bảng 5. Độ chính xác trung bình trên 35 truy vấn 56 Danh sách hình vẽ Hình 1. Mô tả tính chất authority và hub . 13 Hình 2. Mở rộng tập cơ sở T từ tập nhân S . 14 Hình 3. Một mô hình học xếp hạng trong máy tìm kiếm thực thể 18 Hình 4. Một minh họa về đồ thị độ tương đồng của ảnh . 24 Hình 5. Biến đổi ma trận kề . 27 Hình 6. Kết quả xếp hạng của 3 phương pháp với truy vấn “Notre Dame” 28 Hình 7. Mô hình xếp hạng ảnh sử dụng thuật toán ContextRank . 29 Hình 8. Một ví dụ về biểu diễn visual words 32 Hình 9. Kiến trúc của một máy tìm kiếm lớp trên điển hình 34 Hình 10. Một thiết kế của bộ điều vận . 35 Hình 11. Kiến trúc tổng thể của MetaSEEk . 37 Hình 12. Giao diện hiển thị của MetaSEEk 39 Hình 13. Cấu trúc phân cấp của cơ sở dữ liệu . 42 Hình 14. Mô hình đề xuất 48 Hình 15. Giao diện của chương trình 52 Hình 16. Biểu đồ so sánh độ chính xác trung bình giữa các hệ thống 57 Hình 17. Biểu đồ độ chính xác mức K của một số truy vấn tiếng Việt . 58 Hình 18. 10 kết quả đầu tiên của truy vấn “sun” trong các máy tìm kiếm 59 Danh sách các từ viết tắt CSDL Cơ sở dữ liệu AP Average Precision Google CSE Google Custom Search Engine HIST Hypertext Induced Topic Search MAP Mean Average Precision SIFT Scale Invariant Feature Transform Danh sách các thuật ngữ STT Thuật ngữ tiếng Anh Nghĩa tiếng Việt 1 Content-based Image Ranking Xếp hạng ảnh dựa trên nội dung hiển thị 2 Content-based visual query Truy vấn trực quan dựa trên nội dung hiển thị 3 Display interface Thành phần hiển thị 4 Edge Cạnh 5 Image tag Thẻ ảnh 6 Inter-image Context Modeling Mô hình ngữ cảnh ngoại ảnh 7 Intra-mage Context Modeling Mô hình ngữ cảnh nội ảnh 8 Local features Các thuộc tính cục bộ 9 Offline Ngoại tuyến 10 Online Trực tuyến 11 Performance database Cơ sở dữ liệu hiệu suất 12 Performance score Điểm số hiệu suất 13 Query dispatcher Bộ điều vận truy vấn 14 Query translator Bộ dịch truy vấn 15 Random surfer model Mô hình duyệt ngẫu nhiên 16 Re-rank Xếp hạng lại 17 Scoring module Mô đun tính hạng 18 Text-based Image Ranking Xếp hạng ảnh dựa trên văn bản 19 Texture Kết cấu 20 Title Tiêu đề 21 Topic Sensitive PageRank PageRank theo chủ đề 22 Visual hyperlink Siêu liên kết trực quan 23 Visual vocabulary Tập từ vựng trực quan . Average Precision Google CSE Google Custom Search Engine HIST Hypertext Induced Topic Search MAP Mean Average Precision SIFT Scale Invariant Feature Transform. nhiên 16 Re-rank Xếp hạng lại 17 Scoring module Mô đun tính hạng 18 Text-based Image Ranking Xếp hạng ảnh dựa trên văn bản 19 Texture Kết cấu 20 Title Tiêu