Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 50 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
50
Dung lượng
1,66 MB
Nội dung
Đề tài: Tìm hiểunguyênlý SE frameworkLucene & ứngdụngNutch GVHD: Ths Hoàng Anh Việt Nguyễn Thế Anh 20080070 Trần Anh Thơ 20082569 Nguyễn Vương Quyền 20082142 Nguyễn Văn Hưng 20081293 Nhóm sinh viên: 1 Nội dung Nguyênlývà mô hình SE (Search engine) Lucene Nutch 2 Nguyênlývà mô hình SE 3 1. Giới thiệu 4 1. Giới thiệu SE là phần mềm nhằm tìm ra các trang trên mạng Internet có nội dung theo yêu cầu người dùng. Crawler-Based Search Engines: lần tìm các trang trên mạng, rồi tự động phân tích các trang lấy về và đưa vào cơ sở dữ liệu của nó. Human-Powered Directories: các thư mục Internet hoàn toàn phụ thuộc vào sự quản lý của con người. 5 2. Phân loại 2.1. Máy tìm kiếm thông thường Tìm kiếm theo qui trình thu thập tài liệu, phân loại và tạo chỉ mục. Gồm hai loại, Search Engine sử dụng thư mục chủ đềvà Search Engine tạo chỉ mục tự động. Các Search Engine sử dụng thư mục chủ đề phân lớp sẵn các trang trên Internet vào các thư mục chủ đềvà theo các cấp chi tiết hơn của chủ đề. 6 2. Phân loại 2.2. Máy siêu tìm kiếm 7 2. Phân loại 2.2. Máy siêu tìm kiếm Là loại máy truy tìm ảo, hoạt động dựa trên sự tồn tại của các Search Engine sẵn có. Không có cơsở dữ liệu của riêng mình. Khi có yêu cầu tìm kiếm gửi từ khóa đến các Search Engine khác phân tích và phân hạng lại các kết quả tìm được. 8 3. Nguyênlý 9 3. Nguyênlý Robot đi thu thập thông tin trên mạng. Robots phải liên tục cập nhật các site cũ. Tiến hành phân tích, tìm trong cơ sở dữ liệu chỉ mục & trả về những tài liệu thoả yêu cầu. 10 [...]... Ngoài chiến lược tìm chính xác theo từ khoá, các search engine còn cố gắng hiểu ý nghĩa thực sự của câu hỏi 21 4 Mô hình 4.5 Phân hạng trang 22 Lucene Giới thiệu Lucene trong các thành phần của ứng dụngtìm kiếm Các lớp chính trong Lucene Demo 23 Giới thiệu Lucene là một thư viện mã nguồn mở viết bằng java cho phép dễ dàng tích hợp thêm chức năng tìm kiếm đến bất cứ ứngdụng nào Được phát... phát triển bởi Dough Cutting (cũng là tác giả của Hadoop, Nutch ) Cung cấp các API hỗ trợ cho việc đánh chỉ mục vàtìm kiếm Hiện tại, Lucene đã được mở rộng ra nhiều ngôn ngữ khác nhau như C#, PHP, C, C++, Python, Ruby… 24 Giới thiệu (tiếp) Lucene có thể được sử dụngđể tích hợp chức năng tìm kiếm vào ứngdụng sẵn có hoặc xây dựng một search engine hoàn chỉnh Hỗ trợ thực hiện Phân tích dữ... câu truy vấn vàtìm kiếm trong chỉ mục: Build query, run query 25 Lucene trong ứng dụngtìm kiếm Users Search user interface Build Query Build Query Render result Render result Run query Run query Các chức năng Lucene hỗ trợ Index Index Document Index Document Analyze Document Analyze Document Build Document Build Document Acquire content Acquire content Raw content 26 Acquire content Sử dụng một crawler... query.setBoost() 31 Run query Tìm kiếm chỉ mục và lấy ra các kết quả được xếp hạng Có 3 mô hình tìm kiếm Pure boolean model: Các tài liệu chỉ có một trong 2 trạng thái là khớp và không khớp với truy vấn, không được đánh trọng số Vector space model: Truy vấn vàtài liệu được mô hình hóa như các vector trong không gian vector Tìm kiếm dựa vào khoảng cách giữa các vector Probabilistic model: Tìm. .. số xuất hiện của mục từ trong toàn bộ tài liệu Lập chỉ mục tự động cho tài liệu là xác định tự động mục từ chỉ mục cho các tài liệu Bước tiếp theo là chuẩn hoá mục từ 20 4 Mô hình 4.4 Bộ tìm kiếm thông tin Search engine tương tác với user thông qua giao diện web, có nhiệm vụ tiếp nhận & trả về những tài liệu thoả yêu cầu của user Tìm kiếm theo từ khóa là tìm kiếm các trang mà những từ trong câu... chứa chỉ mục của Lucene Analyzer: Xử lý, biến đổi text thành các tokens trước khi đánh chỉ mục Document: Đặc trưng cho một tài liệu Field: Các thuộc tính của một tài liệu 35 Các lớp tìm kiếm IndexSearcher: Tìm kiếm chỉ mục Term: Là một đơn vị cơ bản của tìm kiếm Query: Là lớp trừu tượng mô tả truy vấn TopDocs: Là lớp chứa danh sách các tham chiếu đến tài liệu trả về Các tài liệu trả về...4 Mô hình 4.1 Bộ tìm duyệt Crawler Page selection Interest Driven: dựa vào mức độ quan tâm của người sử dụng với các trang đó Popularity Driven: dựa vào mức độ phổ biến của trang Location Driven: xác định mức độ quan trong của trang P dựa vào địa chỉ của nó 11 4 Mô hình 4.1 Bộ tìm duyệt Crawler Mô hình crawler Crawl & stop:Trong số k trang... addition/insertion), truy cập tuần tự tốc độ cao, và truy cập ngẫu nhiên Cách tổ chức các trang theo kiểu vật lýtại mỗi nút chính là việc xem xét xem mức độ hỗ trợ mỗi thao tác trên của nút đó 16 4 Mô hình 4.2 Kho dữ liệu repository Chiến lược cập nhật Batch-mode: Được xử lý định kỳ mỗi tháng một lần, và cho phép duyệt một số lần nhất định Steady Crawler: Nó liên tục cập nhật và bổ xung các... Probabilistic model: Tìm kiếm dựa trên xác suất Lucene kết hợp mô hình Vector space model và Pure boolean model 32 Render result Trả lại các kết quả phù hợp với truy vấn Các kết quả được phân hạng theo mức độ phù hợp 33 Một số lớp chính trong Lucene Các lớp đánh chỉ mục IndexWriter Directory Analyzer Document Field Các lớp tìm kiếm IndexSearcher Term Query TopDocs 34 Các lớp... Indexer Xác định mục từ quan trọng Dựa vào chính nội dung của văn bản đó, hoặc tiêu đề hay tóm tắt nội dung của văn bản đó Các bước: Cho một tập hợp n tài liệu, thực hiện tính toán tần số xuất hiện của các mục từ trong tài liệu đó Xác định tổng tần số xuất hiện TFk (Total Frequency) cho mỗi từ bằng cách cộng những tần số của mỗi mục từ duy nhất trên tất cả n tài liệu 19 4 Mô hình 4.3 Bộ lập chỉ . 20081293 Nhóm sinh viên: 1 Nội dung Nguyên lý và mô hình SE (Search engine) Lucene Nutch 2 Nguyên lý và mô hình SE 3 1. Giới thiệu 4 1. Giới thiệu SE là phần mềm nhằm tìm ra các trang trên mạng. Đề tài: Tìm hiểu nguyên lý SE framework Lucene & ứng dụng Nutch GVHD: Ths Hoàng Anh Việt Nguyễn Thế Anh 20080070 Trần Anh Thơ. chủ đề và Search Engine tạo chỉ mục tự động. Các Search Engine sử dụng thư mục chủ đề phân lớp sẵn các trang trên Internet vào các thư mục chủ đề và theo các cấp chi tiết hơn của chủ đề. 6 2.