ĐỀ tài một số THUẬT TOÁN PHÂN HẠNG ẢNH PHỔ BIẾN và áp DỤNG TRONG hệ THỐNG tìm KIẾM ẢNH lớp TRÊN THỬ NGHIỆM

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thị Kim Dung MỘT SỐ THUẬT TOÁN PHÂN HẠNG ẢNH PHỔ BIẾN VÀ ÁP DỤNG TRONG HỆ THỐNG TÌM KIẾM ẢNH LỚP TRÊN THỬ NGHIỆM KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng tin HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Thị Kim Dung MỘT SỐ THUẬT TOÁN PHÂN HẠNG ẢNH PHỔ BIẾN VÀ ÁP DỤNG TRONG HỆ THỐNG TÌM KIẾM ẢNH LỚP TRÊN THỬ NGHIỆM KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán hướng dẫn: PGS.TS Hà Quang Thụy Cán đồng hướng dẫn: ThS Nguyễn Cẩm Tú HÀ NỘI - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Lời cảm ơn Trước tiên, xin gửi lời cảm ơn lòng biết ơn sâu sắc tới Phó Giáo sư Tiến sĩ Hà Quang Thụy Thạc sĩ Nguyễn Cẩm Tú, người tận tình bảo hướng dẫn tơi suốt q trình thực khố luận tốt nghiệp Tơi chân thành cảm ơn thầy, cô tạo điều kiện thuận lợi cho học tập nghiên cứu trường Đại học Công nghệ Tôi xin gửi lời cảm ơn tới anh chị bạn sinh viên nhóm “Khai phá liệu” giúp tơi nhiều việc hỗ trợ kiến thức chuyên môn để hồn thành tốt khố luận Cuối cùng, tơi muốn gửi lời cảm vơ hạn tới gia đình bạn bè, người thân yêu bên cạnh động viên tơi suốt q trình thực khóa luận tốt nghiệp Tôi xin chân thành cảm ơn! Sinh viên Lê Thị Kim Dung LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tóm tắt Sự tăng khơng ngừng lượng ảnh Web tạo nguồn ảnh phong phú đáp ứng nguồn cung ảnh cho nhu cầu người Mặc dù số máy tìm kiếm ảnh đời đáp ứng phần nhu cầu tìm kiếm ảnh, song nâng cao chất lượng tìm kiếm ln vấn đề đặt Bài toán xếp hạng ảnh tốn cốt lõi máy tìm kiếm ảnh, nâng cao chất lượng xếp hạng ảnh nhận quan tâm đặc biệt Đầu tiên, khóa luận khảo sát thuật tốn tính hạng ảnh, đặc biệt VisualRank [39] theo độ đo tương đồng ảnh tính theo đặc trưng nội dung văn nội dung hiển thị Sau đó, khóa luận đề xuất mơ hình hệ thống tìm kiếm ảnh lớp (image meta-search engine [18] [11]), sử dụng thuật tốn nói làm thành phần xếp hạng ảnh Hệ thống tìm kiếm ảnh sử dụng sở liệu lưu trữ câu truy vấn ảnh tương ứng với chúng giải pháp nhằm rút ngắn thời gian đáp ứng yêu cầu truy vấn Đồng thời, hệ thống sử dụng từ điển dùng việc hỗ trợ truy vấn dạng tiếng Việt Thực nghiệm khóa luận tiến hành bước đầu thu kết tương đối khả quan, độ xác hệ thống áp dụng thuật toán với đặc trưng văn đặc trưng hiển thị đạt 81.2% Trong phạm vi thử nghiệm khóa luận, kết tốt so với hai máy tìm kiếm ảnh lớn Google Yahoo khẳng định tính khả thi mơ hình LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Mục lục Mở đầu 1 Chương Khái quát thuật toán tính hạng .3 1.1. Giới thiệu tốn tính hạng 3 1.2. Tính hạng trang Web 4 1.2.1. Tính hạng theo liên kết 4 1.2.2. Tính hạng định hướng ngữ cảnh .15 1.3. Tính hạng thực thể 17 1.4. Sơ tính hạng ảnh .18 1.5. Một số cơng trình nghiên cứu liên quan 20 Tóm tắt chương 22 Chương Một số thuật tốn tính hạng ảnh phổ biến .23 2.1. Giới thiệu 23 2.2. VisualRank .23 2.3. Multiclass VisualRank .26 2.4. Visual contextRank 28 2.5. Nhận xét 32 Tóm tắt chương hai 32 Chương Mô hình máy tìm kiếm ảnh lớp .34 3.1. Kiến trúc chung máy tìm kiếm lớp 34 3.1.1. Giao diện người dùng 35 3.1.2. Bộ điều vận .35 3.1.3. Bộ xử lý kết 36 3.1.4. Mơ đun tính hạng 36 3.2. Mơ hình máy tìm kiếm ảnh lớp MetaSEEk 37 3.2.1. Truy vấn trực quan dựa nội dung .38 3.2.2. Giao diện truy vấn .38 3.2.3. Bộ điều vận .40 3.2.4. Thành phần hiển thị 42 3.2.5. Đánh giá 43 3.3. Xếp hạng ảnh máy tìm kiếm ảnh lớp 43 Tóm tắt chương ba .45 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Chương Thử nghiệm .46 4.1. Mơ hình thử nghiệm .46 4.1.1. Cách tiếp cận .46 4.1.2. Mơ hình đề xuất thành phần mơ hình 47 4.2. Môi trường thành phần hệ thống phần mềm .50 4.2.1. Cấu hình phần cứng 50 4.2.2. Các thành phần hệ thống phần mềm 50 4.3. Xây dựng tập liệu 52 4.3.1. Tập truy vấn 52 4.3.2. Tập máy tìm kiếm nguồn 53 4.3.3. Từ điển 53 4.4. Quy trình, phương án thử nghiệm .53 4.5. Kết thử nghiệm đánh giá 54 Kết luận 60 Tài liệu tham khảo .62 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách bảng Bảng Ví dụ ghi ảnh sở liệu 42 Bảng Cấu hình phần cứng sử dụng thực nghiệm .50 Bảng Một số phần mềm sử dụng .50 Bảng Một số thư viện sử dụng 50 Bảng Độ xác trung bình 35 truy vấn 56 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách hình vẽ Hình Mơ tả tính chất authority hub .13 Hình Mở rộng tập sở T từ tập nhân S 14 Hình Một mơ hình học xếp hạng máy tìm kiếm thực thể 18 Hình Một minh họa đồ thị độ tương đồng ảnh .24 Hình Biến đổi ma trận kề 27 Hình Kết xếp hạng phương pháp với truy vấn “Notre Dame” 28 Hình Mơ hình xếp hạng ảnh sử dụng thuật toán ContextRank 29 Hình Một ví dụ biểu diễn visual words 32 Hình Kiến trúc máy tìm kiếm lớp điển hình 34 Hình 10 Một thiết kế điều vận 35 Hình 11 Kiến trúc tổng thể MetaSEEk 37 Hình 12 Giao diện hiển thị MetaSEEk 39 Hình 13 Cấu trúc phân cấp sở liệu .42 Hình 14 Mơ hình đề xuất 48 Hình 15 Giao diện chương trình 52 Hình 16 Biểu đồ so sánh độ xác trung bình hệ thống 57 Hình 17 Biểu đồ độ xác mức K số truy vấn tiếng Việt .58 Hình 18 10 kết truy vấn “sun” máy tìm kiếm 59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách từ viết tắt CSDL Cơ sở liệu AP Average Precision Google CSE Google Custom Search Engine HIST Hypertext Induced Topic Search MAP Mean Average Precision SIFT Scale Invariant Feature Transform LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Danh sách thuật ngữ STT Thuật ngữ tiếng Anh Nghĩa tiếng Việt Content-based Image Ranking Content-based visual query Display interface Xếp hạng ảnh dựa nội dung hiển thị Truy vấn trực quan dựa nội dung hiển thị Thành phần hiển thị Edge Cạnh Image tag Thẻ ảnh Inter-image Context Modeling Mơ hình ngữ cảnh ngoại ảnh Intra-mage Context Modeling Mơ hình ngữ cảnh nội ảnh Local features Các thuộc tính cục Offline Ngoại tuyến 10 Online Trực tuyến 11 Performance database Cơ sở liệu hiệu suất 12 Performance score Điểm số hiệu suất 13 Query dispatcher Bộ điều vận truy vấn 14 Query translator Bộ dịch truy vấn 15 Random surfer model Mô hình duyệt ngẫu nhiên 16 Re-rank Xếp hạng lại 17 Scoring module Mơ đun tính hạng 18 Text-based Image Ranking Xếp hạng ảnh dựa văn 19 Texture Kết cấu 20 Title Tiêu đề 21 Topic Sensitive PageRank PageRank theo chủ đề 22 Visual hyperlink Siêu liên kết trực quan 23 Visual vocabulary Tập từ vựng trực quan LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Jama-1.0.2 Geoffrey Fox http://math.nist.gov/javanumerics/jama Json-simple-1.1 Douglas Crockford http://www.json.org/java/ nusoap NuSphere & Dietrich Ayala http://sourceforge.net/projects/nusoap/ google-apitranslate-java0.92.jar http://code.google.com/p/google-apitranslate-java/downloads/list Ngồi cơng cụ trên, tiến hành cài đặt mô đun xử lý dựa ngôn ngữ Java, bao gồm gói phần mềm sau: ‐ searcher: Sử dụng cho việc thu thập liệu từ máy tìm kiếm ảnh Google Yahoo ‐ CBIRMetaSearch: Thực nhiệm vụ thành phần máy tìm kiếm lớp trên: xử lý truy vấn, xử lý kết quả, tính hạng ‐ Translator: Kiểm tra ngơn ngữ truy vấn Nếu truy vấn tiếng Việt gửi đến Google Translate để dịch sang tiếng Anh Ngồi ra, mơ đun giao diện viết dựa ngôn ngữ PHP bao gồm file ImageMetaSearch.php hiển thị giao diện cho phép người dùng nhập vào chuỗi truy vấn hiển thị kết Tôi tạo web service để thực giao tiếp mô đun giao diện mô đun xử lý 51 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com • Giao diện chương trình Hình 15 Giao diện chương trình 4.3 Xây dựng tập liệu 4.3.1 Tập truy vấn Để tạo tập truy vấn mẫu phục vụ cho việc đánh giá chất lượng hệ thống, tơi tiến hành tìm truy vấn sử dụng thường xuyên Nhận thấy người dùng thường sử dụng thẻ ảnh để tìm kiếm ảnh cách xác Vì tơi thực trích rút tập truy vấn từ thẻ ảnh phổ biến mà người dùng hay sử dụng Flickr1 liệt kê Trong khóa luận này, tơi trọng vào việc tìm ảnh có nội dung hiển thị gần giống Qua trình khảo sát thực tế, thấy truy vấn kiện “autumn festival” hay truy vấn mang nghĩa chung chung “architecture” ảnh thuộc chủ đề thường đa dạng Đối với ảnh này, đặc trưng văn thường biểu diễn chủ đề ảnh nhiều http://www.flickr.com/photos/tags/ 52 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com đặc trưng hiển thị Do việc sử dụng đặc trưng hiển thị để xếp hạng cho ảnh thuộc chủ đề không hiệu Vì vậy, thẻ ảnh phổ biến thẻ liên quan đến chúng, lấy thẻ vật, nơi chốn… cụ thể để làm truy vấn mẫu Theo cách làm trên, tơi trích rút tập 35 truy vấn từ thẻ ảnh phổ biến thẻ ảnh liên quan đến thẻ để sử dụng vào việc đánh giá hệ thống 4.3.2 Tập máy tìm kiếm nguồn Tập máy tìm kiếm nguồn mà tơi sử dụng để gửi u cầu đến lấy liệu từ hai máy tìm kiếm ảnh Google Yahoo Việc chọn hai máy tìm kiếm để tìm kiếm hai lý Thứ nhất, Google Yahoo hai máy tìm kiếm ảnh dựa văn lớn có chất lượng tìm kiếm tốt Thứ hai, hai máy tìm kiếm nhận đầu vào từ khóa truy vấn, việc truy vấn chúng dễ dàng 4.3.3 Từ điển Bộ từ điển sử dụng thực nghiệm công cụ Google dịch Google dịch cơng cụ trực tuyến miễn phí Google, hỗ trợ phát ngôn ngữ chức dịch đa ngơn ngữ (trong có dịch từ tiếng Việt sang tiếng Anh) Bộ công cụ tương đối dễ sử dụng có chất lượng dịch từ tiếng Việt sang tiếng Anh tốt 4.4 Quy trình, phương án thử nghiệm Quy trình thử nghiệm tiến hành sau: Thực truy vấn: Lần lượt thực truy vấn mẫu vào máy tìm kiếm Mỗi câu truy vấn thực hai lần để đánh giá chất lượng hai phương pháp xếp hạng dựa văn xếp hạng dựa nội dung hiển thị nội dung văn Thu thập liệu: Với truy vấn, hệ thống trích rút 64 ảnh trả từ máy tìm kiếm ảnh Google1 50 ảnh trả từ máy tìm kiếm ảnh Yahoo2 Sau tổng hợp ảnh danh sách tiến hành xếp hạng lại cho tập ảnh http://www.google.com/uds/samples/apidocs/image.html http://images.search.yahoo.com/ 53 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Xếp hạng: Quá trình xếp hạng chia thành hai giai đoạn: Giai đoạn 1: Đối với truy vấn mới, xếp hạng dựa đặc trưng văn Giai đoạn thực trực tuyến Sử dụng độ đo khoảng cách xâu ký tự để tính độ tương đồng cho chuỗi văn Các đặc trưng văn sử dụng khóa luận là: tên file ảnh, nhan đề ảnh (title) vùng văn nhỏ kèm mô tả ảnh (content) Qua trình thực nghiệm, trọng số cho tên file ảnh 0.3, nhan đề ảnh 0.1 trọng số cho vùng văn kèm ảnh 0.6 cho kết xếp hạng tốt Thực thuật toán visualRank cho độ đo tương đồng dựa văn với số vòng lặp 100, hệ số hãm d = 0.85 Ngoài ra, qua khảo sát thực tế, nhận thấy thứ hạng ảnh máy tìm kiếm nguồn xếp hạng có tầm quan trọng lớn, chất lượng tìm kiếm Google tốt hẳn chất lượng tìm kiếm Yahoo Vì thế, với ảnh tơi cộng thêm điểm số thứ hạng cũ (là thứ hạng máy tìm kiếm nguồn tính được) với tỉ lệ 0.2 cho điểm số thứ hạng cũ 0.8 cho điểm số tính dựa độ đo tương đồng ảnh Các hệ số có từ trình thực nghiệm Giai đoạn 2: Xếp hạng lại cho tập ảnh Giai đoạn thực ngoại tuyến Tải ảnh loại bỏ ảnh trùng lặp lưu vào sở liệu Sử dụng Lire để trích xuất đặc trưng hiển thị ảnh, đánh mục cho ảnh dựa vào đặc trưng Các đặc trưng hiển thị sử dụng là: màu sắc đặc trưng cạnh (edge) Tính độ tương đồng ảnh dựa đặc trưng nói Kết hợp độ đo tương đồng dựa đặc trưng văn độ đo tương đồng dựa nội dung hiển thị với tỉ lệ: 0.3 cho độ đo dựa đặc trưng văn 0.7 cho độ đo dựa nội dung hiển thị Với hệ số tỉ lệ cho kết xếp hạng tốt Thực tính tốn giai đoạn độ đo tương đồng tổng hợp 4.5 Kết thử nghiệm đánh giá Khóa luận sử dụng độ xác trung bình (Average Precision) [4] để đánh giá kết xếp hạng hệ thống so với kết xếp hạng hai máy tìm kiếm nguồn 54 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Google Yahoo Khóa luận so sánh kết hai lần xếp hạng truy vấn Tôi thử nghiệm với tập 35 truy vấn sau đánh giá độ xác cho 50 ảnh trả Giả sử ta có đối tượng là: a, b, c, d, e Trong a, b, c đối tượng phù hợp d, e đối tượng không phù hợp Một xếp hạng đối tượng cần đánh giá là: c, a, d, b, e Độ xác trung bình định nghĩa sau: ∑ @ ∑ Trong đó: n số đối tượng xét @ @ (Match@K = số đối tượng phù hợp K vị trí đầu tiên) I(K) = đối tượng vị trí K phù hợp, ngược lại I(K) = Ví dụ: P@1 = 1/1, P@2 = 2/2, P@3 = 2/3, P@4 = 3/4 Thì độ xác trung bình là: 1 2 3 0.92 Giá trị trung bình m xếp hạng (với tốn tìm kiếm giá trị trung bình AP truy vấn): ∑ Bảng thống kê độ xác 50 ảnh truy vấn máy tìm kiếm cho thấy hệ thống có độ xác trung bình cao (MAP=81.2%) Đặc biệt truy vấn vật thể có hình dạng, màu sắc xác định “candle” (AP=100%), “guitar” (AP=90.1%), “iphone” (AP=93.0%)… Ngồi ra, độ xác hệ thống sử dụng thuật toán xếp hạng dựa đặc trưng văn 55 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com cao (MAP=79.7%) MAP Google 76.1% Yahoo 66.8% Điều cho thấy hệ thống hoạt động tốt cho truy vấn cũ Tuy nhiên, truy vấn mà đối tượng tìm kiếm khơng rõ ràng truy vấn “cloud”, “wave” kết xếp hạng hệ thống chưa thực tốt Đối với “wave”, độ xác hệ thống xếp hạng dựa nội dung hiển thị 43.0% độ xác xếp hạng dựa nội dung văn 60.7% độ xác Google 55.5 % Bảng Độ xác trung bình 35 truy vấn ball beach bicycle bike bird bridge cake candle car cat christmas tree church cloud cloud gate cup drums duck feathers guitar iphone kids kitten lake leaves lemon monkey railway river road snow sun Google 53.8 95.5 71.5 53.5 70.0 91.3 76.8 89.2 92.6 97.2 95.7 69.1 56.9 86.9 33.1 87.7 70.4 56.0 76.2 95.4 51.2 83.8 93.1 84.3 70.9 86.2 61.2 72.7 78.9 87.6 70.1 Yahoo 24.0 40.4 68.3 41.1 60.1 85.5 92.0 84.0 76.9 81.5 91.3 34.7 49.6 55.4 51.4 70.2 72.8 57.3 73.0 96.6 82.0 93.9 65.5 80.1 38.7 83.1 92.5 66.5 81.2 91.7 45.1 MS_Text 71.8 97.4 86.0 81.2 66.8 81.7 84.9 94.9 91.1 86.2 100 65.2 42.5 73.1 39.4 95.5 79.0 65.0 80.2 96.3 70.9 91.4 95.8 82.6 79.4 89.2 72.4 69.7 91.3 86.8 70.9 MS_Content 76.0 88.5 88.8 79.0 82.8 91.8 92.3 100 94.2 97.1 96.3 76.9 40.8 70.5 52.0 90.5 82.8 63.7 90.1 93.0 75.1 82.9 87.7 95.0 79.5 95.6 68.0 78.3 83.0 80.3 73.6 56 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com sunrise train tree wave MAP 85.2 92.5 70.6 55.5 76.1 17.6 86.5 74.6 34.1 66.8 91.1 78.1 84.4 60.7 79.7 78.6 85.6 88.4 43.0 81.2 100% 80% 60% Google Yahoo 40% MS_Text MS_Content 20% 0% Sun Guitar Bicycle Cat Car Leaves Hình 16 Biểu đồ so sánh độ xác trung bình hệ thống Để đánh giá khả tìm kiếm xếp hạng hệ thống từ khóa tiếng Việt, tơi thử nghiệm với truy vấn tiếng Việt đo độ xác 50 kết truy vấn Các truy vấn tiếng việt chọn là: “Bác Hồ”, “quả táo”, “con ong”, “máy bay”, “hoa hồng” 57 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 100% 80% Bác Hồ 60% Quả táo Con ong 40% Máy bay Hoa Hồng 20% 0% P@5 P@10 P@20 P@30 P@40 P@50 Hình 17 Biểu đồ độ xác mức K số truy vấn tiếng Việt Biểu đồ thể độ xác mức K số truy vấn tiếng Việt thực hệ thống tìm kiếm ảnh lớp Biểu đồ cho thấy hệ thống xếp hạng xác cho 20 ảnh đầu Tuy độ xác trung bình cho 50 ảnh khơng thực tốt người dùng thường quan tâm 10 đến 20 kết Do tập 20 ảnh đầu quan trọng Để đánh giá tốc độ thực thi hệ thống, đo thời gian xếp hạng truy vấn thử nghiệm Thời gian xếp hạng trung bình cho truy vấn 40 giây Khoảng thời gian bao gồm thời gian trích xuất thành phần đặc trưng, tìm xử lý ảnh trùng lặp, tính ma trận tương đồng dựa nội dung hiển thị nội dung văn bản, tính hạng cho ảnh ghi kết vào file Tôi đo thời gian phản hồi hệ thống truy vấn Thời gian tính từ lúc hệ thống nhận câu truy vấn đến lúc trả lại kết cho người dùng Thời gian hồi đáp trung bình cho truy vấn 20 giây Như vậy, thấy thời gian thực thi hệ thống mức cho phép máy tìm kiếm ảnh 58 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình 18 10 kết truy vấn “sun” máy tìm kiếm 59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Kết luận Với lượng liệu ảnh đa dạng phong phú Internet, nhu cầu hệ thống xếp hạng ảnh cần thiết Tuy nghiên cứu tìm kiếm xếp hạng ảnh Web quan tâm từ lâu, lĩnh vực nhiều vấn đề cần phải giải Nắm bắt nhu cầu đó, khóa luận tíến hành nghiên cứu thuật toán xếp hạng ảnh dựa văn kèm ảnh nội dung hiển thị ảnh tiến hành áp dụng thử nghiệm mơ hình máy tìm kiếm ảnh lớp Các kết đạt ‐ Tìm hiểu thuật toán xếp hạng trang Web thuật tốn xếp hạng ảnh điển hình Từ đề xuất áp dụng thuật toán VisualRank cho đặc trưng văn đặc trưng hiển thị ảnh xếp hạng ‐ Đưa mơ hình máy tìm kiếm ảnh lớp áp dụng thử nghiệm thuật toán đề xuất Mơ hình máy tìm kiếm quan tâm đến trạng thái câu hỏi người dùng hỗ trợ truy vấn tiếng Việt Do đó, nghiên cứu hữu ích cho người dùng Việt Nam ‐ Tiến hành thử nghiệm mơ hình với tập 35 câu truy vấn trích rút từ thẻ phổ biến Flickr Kết mơ hình khả quan hai phương pháp xếp hạng ảnh sử dụng Độ xác phương pháp xếp hạng dựa nội dung văn 79.7% độ xác phương pháp xếp hạng dựa nội dung hiển thị nội dung văn 81.2%, tốt so với độ xác Google (76.1%) Yahoo (66.8%) Khóa luận thử nghiệm với số câu truy vấn tiếng Việt Kết thử nghiệm cho thấy mơ hình xếp hạng tốt cho tập 20 ảnh Từ kết ban đầu cho thấy tính đắn mơ hình Một số vấn đề cần tiếp tục giải ‐ Tuy mơ hình bước đầu đạt số kết khả quan tập liệu thử nghiệm, truy vấn kiện đối tượng không cụ thể thuật tốn xếp hạng chưa giải tốt ‐ Hơn nữa, vấn đề thời gian xếp hạng lại không gian lưu trữ ảnh cần quan tâm sở liệu hệ thống mở rộng Cần có giải pháp thích hợp để vừa lưu trữ liệu cho nhiều câu truy 60 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com vấn tốt, vừa thực xếp hạng lại cho tất câu truy vấn ‐ Một vấn đề khác truy vấn tên riêng (tên người, tên địa danh,…) tiếng Việt việc dịch truy vấn sang tiếng anh làm cho kết tìm kiếm khơng cịn Hơn nữa, kết dịch từ điển khơng xác dẫn đến nhiều sai lệch việc tìm kiếm Do đó, tìm kiếm trực tiếp tiếng Việt có kết tốt Hướng nghiên cứu Trong thời gian tới, việc tiếp tục giải vấn đề cịn tồn tại, tơi định hướng số nghiên cứu tiếp theo: ‐ Nghiên cứu thêm thuật tốn trích xuất thành phần đặc trưng ảnh để nâng cao hiệu việc tính độ tương đồng ảnh ‐ Nghiên cứu phương pháp xử lý tiếng Việt để tìm kiếm ảnh trực tiếp tiếng Việt ‐ Sử dụng phản hồi người dùng để nâng cao chất lượng hệ thống 61 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Tài liệu tham khảo Tiếng Việt [1] Đỗ Thị Diệu Ngọc, Nguyễn Hoài Nam, Nguyễn Thu Trang, Nguyễn Yến Ngọc (2004) Giải pháp tính hạng trang Modified Adaptive PageRank máy tìm kiếm Chun san “Các cơng trình nghiên cứu CNTT Truyền thơng”, Tạp chí BCVT, 14: 65-71, 4-2005 [2] Nguyễn Hồi Nam (2004) Thuật tốn tính hạng trang xây dựng mơ đun thử nghiệm Khóa luận đại học, Trường ĐHKHTN, ĐHQGHN [3] Nguyễn Thu Trang (2006) Link spam với đồ thị Web hạng trang Web Khóa luận đại học, Trường ĐHCN, ĐHQGHN [4] Nguyễn Thu Trang (2009) Học xếp hạng tịnh hạng đối tượng phân cụm tài liệu Luận văn Thạc sỹ, Trường ĐHCN, ĐHQGHN [5] Nguyễn Hoàng Trung (2009) Xây dựng search engine Luận văn Thạc sỹ, Trường ĐHCN, ĐHQGHN Tiếng Anh [6] Mehmet S Aktas, Mehmet A Nacar, Filippo Menczer (2004) Personalizing PageRank based on domain profiles WebKDD 2004: 83-90 [7] Allan Borodin, Gareth O Roberts, Jeffrey S Rosenthal, Panayiotis Tsaparas (2005) Link analysis ranking: algorithms, theory, and experiments ACM Trans Inter Tech., 5(1):231-297 [8] Amy N.Langville and Carl D.Meyer (2005) Deeper inside pagerank Internet Mathematics Journal, 1(3):335-380 [9] Amy N.Langville, Carl D Meyer (2004) A Reodering for the PageRank problem SIAM J Sci Comput., 27(6): 2112-2120 [10] Anselm Spoerri (2004) RankSpiral: Toward Enhancing Search Results Visualizations IEEE Symposium on Information Visualization: 215.18 [11] Benitez A.B., Beigi M., Shih-Fu Chang (1998) Using relevance feedback in content-based image metasearch IEEE Internet Computing, 2(4): 59-69 62 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [12] B Uygar Oztekin, George Karypis, Vipin Kumar (2002) Expert agreement and content based reranking in a meta search environment using Mearf WWW 2002: 333-344 [13] Baoning Wu and Brian D Davison (2005) Identifying link farm spam pages WWW (Special interest tracks and posters) 2005: 820-829 [14] Bo Luo, Xianogang Wang, and Xiaoou Tang (2003) A World Wide Web Based Image Search Engine Using Text and Image Content Features IS&T/SPIE Electronic Imaging 2003, Internet Imaging IV, 5018: 123-130 [15] Chik Ching Yiu, Ip Che Yin (2002) Image Ranking Schemes Using LinkStructure Analysis Algorithm WWW2002, http://www2002.org/CDROM/poster/ 114/ [16] Cam-Tu Nguyen, Xuan-Hieu Phan, Susumu Horiguchi, Thu-Trang Nguyen, Quang-Thuy Ha (2009) Web Search Clustering and Labeling with Hidden Topics ACM Trans Asian Lang Inf Process 8(3): 1-40 [17] Eva Horster, Malcolm Slaney, Marc’ Aurelio Ranzato, Kilian Weinberger (2009) Unsupervised image ranking LS-MMRM '09: 81-88 [18] Eric J Glover (2001) Using Extra-Topical User Preferences To Improve WebBased Metasearch PhD Thesis, The University of Michigan [19] G Park, Y Baek, and H Lee (2003) Majority based ranking approach in web image retrieval CIVR 2003: 111-120 [20] Hsinchun Chen, Haiyan Fan, Michael Chau, and Daniel Zeng (2001) MetaSpider: Meta-Searching and Categorization on the Web JASIST, 52(13):1134–1147 [21] Hervé Jégou, Matthijs Douze, Cordelia Schmid (2010) Product quantization for nearest neighbor search 2010 IEEE TPAMI, http://www.irisa.fr/texmex/ people/jegou/publications.php [22] Herve Jegou, Matthijs Douze, Cordelia Schmid (2008) Recent Advances in Large Scale Image Search ETVC 2008: 305-326 [23] Jon M Kleinberg (1999) Authoritative Sources in a Hyperlinked Environment J.ACM, 46(5): 604-632 63 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [24] Kamarul Hawari Ghazali (2007) Feature Extraction technique using SIFT keypoints descriptors The International Conference on Electrical and Engineering and Informatics Institut technology, Bandung, Indonesia, June 17-19, 2007 [25] Lowe David (2004) Distinctive image features from scale-invariant keypoints Inter J Computer Vision 2004, 60(2):91–110 [26] Liangliang Cao, Andrey Del Pozo, Xin Jin, Jiebo Luo, Jiawei Han and Thomas S Huang (2010) RankCompete: simultaneous ranking and clustering of web photos WWW 2010: 1071-1072 [27] L.S Kennedy and M Naaman (2008) Generating diverse and representative image search results for landmarks ACM Multimedia 2008: 349-358 [28] Manoj M., Elizabeth Jacob (2008) Information retrieval on Internet using metasearch engines: A review J Scientific & Industrial Research, 67(10):739-746 [29] Mitsuru Ambai, Yuichi Yoshida (2009) Multiclass VisualRank: Image Ranking Method in Clustered Subsets Based on Visual Features SIGIR 2009: 732-733 [30] Page, L., Brin, S., Motwani, R and Winograd, T (1998) The PageRank citation ranking: bringing order to the Web Technical report, Stanford University [31] Ritendra Datta, Dhiraj Joshi, Jia Li, and James Z Wang (2008) Image Retrieval: Ideas, Influences, and Trends of the New Age ACM Computing Surveys, 40(2), April 2008 [32] Sepandar Kamvar, Taher Haveliwala, and Gene Golub (2003) Adaptive Methods for the Computation of PageRank Technical report, Stanford University [33] Shiliang Zhang, Qi Tian, Gang Hua, Qingming Huang, Shipeng Li (2009) Descriptive Visual Words and Visual Phrases for Image Applications ACM Multimedia 2009: 75-8484 [34] Shuhui Wang, Quingming Huang, Shuqiang Jiang, Lei Qin, Qi Tian (2009) Visual ContextRank for web image re-ranking The First ACM workshop on Large-scale multimedia retrieval and mining: 121-128 [35] Taher H Haveliwala (2002) Topic-sensitive PageRank Technical report, Stanford University May 7–11, 2002, Honolulu, Hawaii, USA 64 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com [36] T.L Berg, A.C Berg (2009) Finding iconic images The 2nd Internet Vision Workshop at Conference on Computer Vision and Pattern Recognition (CVPR):18 [37] Viswanathan, M., Chang, C.-K., Moon, J.-H Patlolla, A., (2009) Goggle (or Gist on the Google Phone): A Content-Based Image Retrieval System for the gPhone CSCI-546 Project http://ilab.usc.edu/~kai/projects/cs546-Spring2009Google.pdf [38] Xinmei Tian, Dacheng Tao (2010) Active Reranking for Web Image Search IEEE Transactions on Image Processing, 19(3): 805-820 (2010) [39] Yushi Jing, Shumeet Baluja (2008) Pagerank for product image search, WWW08:307-316 [40] Yushi Jing, Shumeet Baluja (2008) VisualRank: Applying PageRank to LargeScale Image Search IEEE Trans Pattern Anal Mach Intell., 30(11): 1877-1890 [41] Z Gyongyi and H Garcia-Molina (2005) Web Spam Taxonomy AIRWeb 2005: 39-47 [42] Z Gyongyi, H Garcia-Molina, and J Pendersen (2004) Combating Web Spam with TrustRank VLDB 2004: 576-587 65 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... HỌC CÔNG NGHỆ Lê Thị Kim Dung MỘT SỐ THUẬT TOÁN PHÂN HẠNG ẢNH PHỔ BIẾN VÀ ÁP DỤNG TRONG HỆ THỐNG TÌM KIẾM ẢNH LỚP TRÊN THỬ NGHIỆM KHỐ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Cơng nghệ thơng... tiến hành số nghiên cứu liên quan cơng trình nghiên cứu khoa học sinh viên Khóa luận tốt nghiệp với đề tài Một số thuật toán phân hạng ảnh phổ biến áp dụng hệ thống tìm kiếm ảnh lớp thử nghiệm nhằm... máy tìm kiếm lớp trên, đồng thời giới thiệu mơ hình máy tìm kiếm ảnh lớp sau giới thiệu sơ vấn đề xếp hạng ảnh máy tìm kiếm ảnh lớp 3.1 Kiến trúc chung máy tìm kiếm lớp Hình Kiến trúc máy tìm kiếm

Định dạng
Số trang	75
Dung lượng	1,87 MB