Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
1,84 MB
Nội dung
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Thị Kim Dung
MỘT SỐTHUẬTTOÁNPHÂNHẠNGẢNH
PHỔ BIẾNVÀÁPDỤNGTRONGHỆTHỐNG
TÌM KIẾMẢNHLỚPTRÊNTHỬNGHIỆM
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2010
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Thị Kim Dung
MỘT SỐTHUẬTTOÁNPHÂNHẠNGẢNH
PHỔ BIẾNVÀÁPDỤNGTRONGHỆTHỐNG
TÌM KIẾMẢNHLỚPTRÊNTHỬNGHIỆM
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS.TS Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS Nguyễn Cẩm Tú
HÀ NỘI - 2010
Lời cảm ơn
Trước tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới Phó Giáo sư
Tiến sĩ Hà Quang Thụy và Thạc sĩ Nguyễn Cẩm Tú, người đã tận tình chỉ bảo và
hướng dẫn tôi trong suốt quá trình thực hiện khoá luận tốt nghiệp.
Tôi chân thành cảm ơn các thầy, cô đã tạo những điều kiện thuận lợi cho tôi học
tập và nghiên cứu tại trường Đại h
ọc Công nghệ.
Tôi cũng xin gửi lời cảm ơn tới các anh chị và các bạn sinh viên trong nhóm
“Khai phá dữ liệu” đã giúp tôi rất nhiều trong việc hỗ trợ kiến thức chuyên môn để
hoàn thành tốt khoá luận.
Cuối cùng, tôi muốn gửi lời cảm vô hạn tới gia đình và bạn bè, những người thân
yêu luôn bên cạnh và động viên tôi trong suốt quá trình thực hiện khóa luận tốt nghiệp.
Tôi xin chân thành cảm ơn!
Sinh viên
Lê Thị Kim Dung
Tóm tắt
Sự tăng không ngừng về lượng ảnhtrên Web tạo nguồn ảnh phong phú đáp ứng
được nguồn cung ảnh cho nhu cầu của con người. Mặc dù một số máy tìmkiếmảnh đã
ra đời đáp ứng phần nào nhu cầu tìmkiếm ảnh, song nâng cao chất lượng tìmkiếm
luôn là vấn đề được đặt ra. Bài toán xếp hạngảnh là bài toán cốt lõi của các máy tìm
kiếm ảnh, và nâng cao chất lượng xếp hạng ả
nh đã và đang nhận được sự quan tâm
đặc biệt.
Đầu tiên, khóa luận khảo sát các thuậttoán tính hạng ảnh, đặc biệt là VisualRank
[39] theo độ đo tương đồng giữa các ảnh được tính theo các đặc trưng nội dung văn
bản và nội dung hiển thị. Sau đó, khóa luận đề xuất một mô hình hệthốngtìmkiếm
ảnh lớptrên (image meta-search engine [18] [11]), trong đó sử dụngthuậttoán nói trên
làm thành phần xếp hạng ảnh. H
ệ thốngtìmkiếmảnh này sử dụng một cơ sở dữ liệu
lưu trữ các câu truy vấn và các ảnh tương ứng với chúng như một giải pháp nhằm rút
ngắn thời gian đáp ứng yêu cầu truy vấn. Đồng thời, hệthống sử dụng một bộ từ điển
dùng trong việc hỗ trợ các truy vấn dạng tiếng Việt.
Thực nghiệm do khóa luậ
n tiến hành bước đầu đã thu được những kết quả tương
đối khả quan, độ chính xác của hệthống khi ápdụngthuậttoán với đặc trưng văn bản
và đặc trưng hiển thị đạt 81.2%. Trong phạm vi các thửnghiệm của khóa luận, kết quả
này là tốt hơn so với hai máy tìmkiếmảnh lớn là Google và Yahoo và đã khẳng định
được tính khả thi của mô hình.
Mục lục
Mở đầu 1
Chương 1. Khái quát về các thuậttoán tính hạng 3
1.1.
Giới thiệu về bài toán tính hạng 3
1.2.
Tính hạng trang Web 4
1.2.1.
Tính hạng theo liên kết 4
1.2.2.
Tính hạng định hướng ngữ cảnh 15
1.3.
Tính hạng thực thể 17
1.4.
Sơ bộ về tính hạngảnh 18
1.5.
Một số công trình nghiên cứu liên quan 20
Tóm tắt chương một 22
Chương 2. Một sốthuậttoán tính hạngảnhphổbiến 23
2.1.
Giới thiệu 23
2.2.
VisualRank 23
2.3.
Multiclass VisualRank 26
2.4.
Visual contextRank 28
2.5.
Nhận xét 32
Tóm tắt chương hai 32
Chương 3. Mô hình máy tìmkiếmảnhlớptrên 34
3.1.
Kiến trúc chung của máy tìmkiếmlớptrên 34
3.1.1.
Giao diện người dùng 35
3.1.2.
Bộ điều vận 35
3.1.3.
Bộ xử lý kết quả 36
3.1.4.
Mô đun tính hạng 36
3.2.
Mô hình máy tìmkiếmảnhlớptrên MetaSEEk 37
3.2.1.
Truy vấn trực quan dựa trên nội dung 38
3.2.2.
Giao diện truy vấn 38
3.2.3.
Bộ điều vận 40
3.2.4.
Thành phần hiển thị 42
3.2.5.
Đánh giá 43
3.3.
Xếp hạngảnhtrong máy tìmkiếmảnhlớptrên 43
Tóm tắt chương ba 45
Chương 4. Thửnghiệm 46
4.1.
Mô hình thửnghiệm 46
4.1.1.
Cách tiếp cận 46
4.1.2.
Mô hình đề xuất và các thành phầntrong mô hình 47
4.2.
Môi trường và các thành phầntronghệthốngphần mềm 50
4.2.1.
Cấu hình phần cứng 50
4.2.2.
Các thành phầntronghệthốngphần mềm 50
4.3.
Xây dựng tập dữ liệu 52
4.3.1.
Tập truy vấn 52
4.3.2.
Tập máy tìmkiếm nguồn 53
4.3.3.
Từ điển 53
4.4.
Quy trình, các phương án thửnghiệm 53
4.5.
Kết quả thửnghiệmvà đánh giá 54
Kết luận 60
Tài liệu tham khảo 62
Danh sách các bảng
Bảng 1. Ví dụ về bản ghi của một ảnhtrong cơ sở dữ liệu 42
Bảng 2. Cấu hình phần cứng sử dụngtrong thực nghiệm 50
Bảng 3. Một sốphần mềm sử dụng 50
Bảng 4. Một sốthư viện sử dụng 50
Bảng 5. Độ chính xác trung bình trên 35 truy vấn 56
Danh sách hình vẽ
Hình 1. Mô tả tính chất authority và hub 13
Hình 2. Mở rộng tập cơ sở T từ tập nhân S 14
Hình 3. Một mô hình học xếp hạngtrong máy tìmkiếm thực thể 18
Hình 4. Một minh họa về đồ thị độ tương đồng của ảnh 24
Hình 5. Biến đổi ma trận kề 27
Hình 6. Kết quả xếp hạng của 3 phương pháp với truy vấn “Notre Dame” 28
Hình 7. Mô hình xếp hạngảnh sử dụngthuậttoán ContextRank 29
Hình 8. Một ví dụ về biểu diễn visual words 32
Hình 9. Kiến trúc của một máy tìmkiếmlớptrên điển hình 34
Hình 10. Một thiết kế của bộ điều vận 35
Hình 11. Kiến trúc tổng thể của MetaSEEk 37
Hình 12. Giao diện hiển thị của MetaSEEk 39
Hình 13. Cấu trúc phân cấp của cơ sở dữ liệu 42
Hình 14. Mô hình đề xuất 48
Hình 15. Giao diện của chương trình 52
Hình 16. Biểu đồ so sánh độ chính xác trung bình giữa các hệthống 57
Hình 17. Biểu đồ độ chính xác mức K của một số truy vấn tiếng Việt 58
Hình 18. 10 kết quả đầu tiên của truy vấn “sun” trong các máy tìmkiếm 59
Danh sách các từ viết tắt
CSDL Cơ sở dữ liệu
AP Average Precision
Google CSE Google Custom Search Engine
HIST Hypertext Induced Topic Search
MAP Mean Average Precision
SIFT Scale Invariant Feature Transform
Danh sách các thuật ngữ
STT Thuật ngữ tiếng Anh Nghĩa tiếng Việt
1 Content-based Image Ranking Xếp hạngảnh dựa trên nội dung hiển thị
2 Content-based visual query
Truy vấn trực quan dựa trên nội dung
hiển thị
3 Display interface Thành phần hiển thị
4 Edge Cạnh
5 Image tag Thẻ ảnh
6 Inter-image Context Modeling Mô hình ngữ cảnh ngoại ảnh
7 Intra-mage Context Modeling Mô hình ngữ cảnh nội ảnh
8 Local features Các thuộc tính cục bộ
9 Offline Ngoại tuyến
10 Online Trực tuyến
11 Performance database Cơ sở dữ liệu hiệu suất
12 Performance score Điểm số hiệu suất
13 Query dispatcher Bộ điều vận truy vấn
14 Query translator Bộ dịch truy vấn
15 Random surfer model Mô hình duyệt ngẫu nhiên
16 Re-rank Xếp hạng lại
17 Scoring module Mô đun tính hạng
18 Text-based Image Ranking Xếp hạngảnh dựa trên văn bản
19 Texture Kết cấu
20 Title Tiêu đề
21 Topic Sensitive PageRank PageRank theo chủ đề
22 Visual hyperlink Siêu liên kết trực quan
23 Visual vocabulary Tập từ vựng trực quan
[...]... hạngảnhphổbiếnvàápdụngtronghệthốngtìmkiếmảnhlớptrênthửnghiệm nhằm khảo sát, phân tích các giải pháp phânhạng ảnh, đồng thời trình bày một mô hình máy tìmkiếmảnhlớptrênvà thi hành giải pháp phânhạngảnhtrong máy tìmkiếmảnhlớptrênthửnghiệm Khóa luận gồm những nội dung chính cơ bản như sau: Chương 1: Khái quát về các thuậttoán tính hạng trình bày một sốthuậttoán tính hạng. .. hiển thị của ảnh Mỗi thuậttoán đều được phân tích, đánh giá, đưa ra các ưu nhược điểm Từ đó, khóa luận đề xuất thuậttoán tính hạngảnhápdụng VisualRank cho các đặc trưng hiển thị và đặc trưng văn bản của ảnh Chương 3: Mô hình máy tìmkiếmảnhlớptrên trình bày mô hình tổng quan của một máy tìmkiếmlớptrên Đồng thời, chương 3 đi chi tiết vào một mô hình tìmkiếmảnhlớptrên MetaSEEk để tìm hiểu... điển hình đã và đang được sử dụng rộng rãi trong các máy tìmkiếm Cùng với đó, chương này cũng nêu lên một số nét cơ bản về bài toán xếp hạng thực thể và xếp hạngảnh Đồng thời, chương 1 cũng đề cập đến một số công trình nghiên cứu liên quan ở trong nước vàtrên thế giới Chương 2: Giới thiệu một sốthuậttoán tính hạngảnhphổbiến tập trung trình bày một sốthuậttoán tính hạngảnh dựa trên nội dung... các thành phần cần thiết tronghệthống máy tìmkiếmảnh 1 lớptrên Từ đó, định hình ra những thành phần cần phải xây dựng mô hình máy tìmkiếmảnhlớptrên định xây dựng Chương 4: Thực nghiệm đưa ra mô hình máy tìmkiếmảnhlớptrênápdụngthửnghiệmthuậttoán đã được đề xuất ở chương 2 Chương này trình bày các thành phần của mô hình và các công việc thực nghiệm mà khóa luận đã tiến hành Từ những... lớn công việc tìmkiếm sẽ trở nên vô cùng khó khăn Để giải quyết vấn đề này, đã có các hệthốngtìmkiếmảnh ra đời như: Yahoo, MSN, Google Image Search, Bing… Cũng như đối với các hệthốngtìmkiếmthông thường và các hệthốngtìmkiếm thực thể khác, mô đun xếp hạng là một phần quan trọng cốt lõi trong máy tìmkiếmảnh Hiện nay, bài toán xếp hạngảnh đã trở thành một trong những bài toán điển hình... của bức ảnh Dựa vào hai loại đặc trưng này của các ảnhtrên Web, các thuậttoán xếp hạngảnh cũng phân thành hai hướng là: xếp hạngảnh dựa theo nội dung hiển thị và xếp hạngảnh dựa theo văn bản Các máy tìmkiếmảnhthôngdụng hiện nay như: Google Image Search, Yahoo! Image Search, MSN, AltaVista, … xếp hạng các ảnh trả về dựa trên vùng văn bản đi kèm với ảnh Các hệthống này cho phép người sử dụng nhập... trích rút tập N ảnh trả về đầu tiên khi truy vấn vào các máy tìmkiếm thương mại thông thường, sau đó tiến hành xây dựng đồ thị tương đồng và tính VisualRank chỉ trên tập con N ảnh này Thuậttoán VisualRank trình bày một kỹ thuật đơn giản để kết hợp các lợi điểm trong việc sử dụng liên kết vàphân tích mạng cho tìmkiếm trang Web vào tìmkiếmảnhThuậttoán đã được các tác giả thửnghiệmvà cho kết quả... khảo sát, phân tích các phương pháp học xếp hạng đang được quan tâm hiện nay và từ đó đưa ra mô hình xếp hạng thực thể ápdụng vào máy tìmkiếm thực thể trong tiếng Việt, cụ thể là tìmkiếm thực thể thuốc và học xếp hạng để tạo nhãn cho cụm tài liệu Các kết quả thu được đã chứng minh vai trò và hiệu quả của học xếp hạngápdụng vào máy tìmkiếm Nguyễn Hoàng Trung [5] đã tiến hành xây dựngthửnghiệm một... cứu về các thuậttoán tính hạngảnhvà sau đó ápdụng vào việc xây dựng 1 http://vietnamnet.vn/cntt/2005/11/517349/ 21 một mô hình máy tìmkiếmlớptrênthửnghiệm cho ảnh Tôi tin rằng những nghiên cứu của mình là rất thiết thực và sẽ là nền tảng cho những nghiên cứu tiếp theo của mình Tóm tắt chương một Trong chương một, khóa luận đã tập trung khảo sát, phân tích một sốthuậttoán tính hạng trang... được sử dụng rộng rãi hiện nay Đồng thời khóa luận cũng đã trình bày sơ bộ về vấn đề xếp hạng đối tượng nói chung và xếp hạngảnh nói riêng Trong chương tiếp theo, khóa luận sẽ giới thiệu chi tiết hơn về các thuậttoán tính hạngảnh theo nội dung hiển thị 22 Chương 2 Một sốthuậttoán tính hạngảnhphổbiến 2.1 Giới thiệu Như đã trình bày ở chương trước, xếp hạngảnh là một bài toán điển hình trong lĩnh .
Khóa luận tốt nghiệp với đề tài Một số thuật toán phân hạng ảnh phổ biến và áp
dụng trong hệ thống tìm kiếm ảnh lớp trên thử nghiệm nhằm khảo sát, phân. ĐẠI HỌC CÔNG NGHỆ
Lê Thị Kim Dung
MỘT SỐ THUẬT TOÁN PHÂN HẠNG ẢNH
PHỔ BIẾN VÀ ÁP DỤNG TRONG HỆ THỐNG
TÌM KIẾM ẢNH LỚP TRÊN THỬ NGHIỆM