Hệ thống máy tìm kiếm

5 463 4
Hệ thống máy tìm kiếm

Đang tải... (xem toàn văn)

Thông tin tài liệu

Hệ thống máy tìm kiếm

Phần 1: Tìm hiểu vấn đềCác vấn đề và hướng giải quyết.Chương 7: Thu thập thông tin7.1 Cách thức thu thập thông tin7.2 Trích xuất dữ liệu từ tập tin HTML7.2.1 Giới thiệu các loại node trong tập tin HTML7.2.2 Các phương pháp phân tích cấu trúc file HTML 7.2.2.a Phương pháp lấy tiêu đề 7.2.2.b Phương pháp lấy nội dung 7.2.2.c Phương pháp lấy thời điểm đăng tải bài viết 7.2.2.d Phương pháp xác định chuyên mục bài viếtChương 8: Lập chỉ mục8.1 Tính trọng số của mục từ (!) >>>Tính trọng số của mục từ nhằm mục đích để thực hiện đánh chỉ mục cho mục từ theo độ ưu tiên của trọng số để sau này xử lý kết quả trả về là chủ yếu. Nhưng Lucene có nói rõ ràng trong phần giới thiệu, chúng ta ko cần hiểu công việc index là như thế nào mà chỉ cần biết cách sử dụng. Nếu đưa các phần này vào thì sẽ làm mất đi tính sử dụng của Lucene.8.2 Tối ưu hóa tiến trình ghi chỉ mục8.3 Xử lý stemming (!)>>> Tương tự tính trọng số.8.4 Xử lý đa tiến trình trong quá trình lập chỉ mụcChương 9: Tìm kiếm thông tin9.2 Xác định ngôn ngữ câu truy vấn9.3 Highlight kết quả tìm kiếmPhần 3: thiết kế và cài đặt.- Sơ đồ UML.Chương 10: Các module,package,lớp chính của chương trình 10.1 Các module,package của chương trình 10.2 Các lớp đối tượng chính trong từng modulePhần 3: Kết quả,đánh giá và hướng phát triển(Cài đặt và thử nghiệm – đánh giá và hướng phát triển – các ứng dụng được xây dựng)1. Kết quả thử nghiệm2. Hoạt động của chương trình2.1 Giao diện chương trình đánh chỉ mục2.2 Giao diện website tìm kiếm thông tin 3. Kết quả đạt được3.1 Về mặt lý thuyết3.2 Về mặt thực nghiệm4. Đánh giá4.1 Ưu điểm > thay thành các phần làm được.4.2 Khuyết điểm5. Hướng phát triển5.1 Đối với từng module5.2 Đối với toàn luận văn6. Phụ lục6.1 Danh sách các bảng6.2 Danh sách các hình vẽ7. Tài liệu tham khảo7.1 Sách,ebook7.2 Luận văn,luận án7.3 Bài báo7.4 Website- Bộ analyzer tiếng việt.(làm gì đây?)- Các bộ analyzer các ngôn ngữ khác.- Sắp xếp kết quả trả về. (xong).- Scoring của Lucene.- Số liệu đánh giá các hướng giải quyết của xử lý câu truy vấn tiếng việt.(xong)-------------------------------------- Khó khăn về dữ liệu lớn, giải quyết bằng lưu trên nhiều máy csdl chỉ mục, Lucene có hỗ trợ lấy chỉ mục trên ổ cứng để tìm kiếm.- Trùng lấp dữ liệu. hiện tai chỉ giới thiệu các thuật toán > nhớ cập nhật, nhớ nêu các vấn đề trùng lấp trong trang web thằng B đưa.- Khó khăn về tìm kiếm crawler. > chổ dừng lâu nhất.- Tài liệu tham khảo.- Cấu trúc dữ liệu lưu trữ index của Lucene.o Ưu điểm khuyết điểm.- Khó khăn của crawler tìm được và cách khắc phục là RSS.- Khó khăn trong việc lấy URL của site.* Phần Thi ế t k ế và cài đ ặ t. (chủ yếu làm thấy rõ kết quả mình đạt được từ xây dựng ứng dụng).- Các package xử lý chính. o Mỗi đứa ghi cái của mình làm. - Các ứng dụng đã xây dựng. o Danh sách các màn hình của mỗi ứng dụng. o Mô tả các màn hình giao diện. (màn hình tìm kiếm chính, phân tích tại sao lại thiết kế màn hình như vậy.) và hướng dẫn sử dụng.o Bảng Danh sách các chức năng làm được của mỗi ứng dụng. o Hướng dẫn cách cài đặt. (khỏi làm). o >>> mỗi phần cho mỗi ứng dụng. - Kết quả thử nghiệm, đánh giá và hướng phát triển. o Các kết quả của các ứng dụng, mô tả chi tiết cấu hình phần cứng.o Bảng các chức năng làm được.(ở phần trên rồi.)o Bảng đánh giá, so sánh với các search engine tìm kiếm thông tin báo chí khác.Cấu trúc luận văn:Phần 1: Tìm hiểu.Phần 2: Các khó khăn, vấn đề và hướng giả quyết.(nêu khó khăn tại các mục tìm hiểu và cách giải quyết cụ thể trong phần này).Phần 3: Thiết kế và cài đặt. Crawler- Dùng làm gì?- Hoạt động thế nào? Độ sâu bao nhiêu là thích hợp.- Tự động phát hiện tài nguyên hay là bằng tay.- Cách thức giải quyết vấn đề làm quá tải server.- Cách thức crawler cập nhật tài nguyên như thế nào, có đảm bảo tin được cập nhật nhanh chống, chi phí lúc cập nhật.(lam the nao de biet 1 page da thay doi noi dung?chu ky thoi gian cap nhat bao nhiu la thich hop?)- Làm thế nào để lấy lại được đường dẫn thực sự của trang.- Tổ chức thư mục crawler như thế nào?(crawler lam the nao de lay duoc cau truc thu muc website?)- Chu kỳ để crawl RSS. - Hướng xử lý trùng lấp khi Crawl RSS và Crawl HTML. - Lý do chọn crawl RSS mà ko crawl bằng HTML. - Crawl nội dung trong một chuyên mục nhất định.- Vấn đề Distributed crawl: o Vì sao chọn phương án này. o Cách thức hoạt động, xử lý thế nào? o Một số mô hình đã tồn tại. - Vấn đề lưu trữ tài nguyên lớn(dùng bigtable…) (hạn chế chưa xử lý được.) - Cách parse html và cách xử lý độ nhiễu thông tin.-Index- Đánh chỉ mục là gì? Tại sao phải cần đánh chỉ mục?- Cách thức xử lý tiếng Việt khi đánh chỉ mục.- Quy trình đanh chỉ mục, các công việc xử lý của tiến trình analyzing. - Tùy chỉnh cấu hình index. - Xử lý đa tiểu trình. - Cấu trúc dữ liệu index lưu trữ của Lucene. - Xác định chuyên bài báo bằng tay, hay tự động. (hiện tại bằng tay.)- Các vấn đề liên quan đến lập lịch:o Index html và RSS.o RSS index tự động sau mỗi h.o HTML index tự động sau mỗi ngày, tự động sau khi index xong xóa dữ liệu index của RSS. (nen ve mo hinh trinh bay).o Tìm hiểu rõ lại crawl và update của Crawler.Search- Tiến trình tìm kiếm của Lucene như thế nào?- Xử lý câu truy vấn người dùng như thế nào?- Xếp hạng kết quả trả về. o Có 2 tiêu chí lớn. o Lucene thiếu 1 tiêu chí. - Phát hiện ngôn ngữ. - Cho phép người dùng tìm kiếm với các toán tử được hỗ trợ.Misc- Tại sao phải xử lý trùng lấp? (coi các mô hình).- Các thuật toán xử lý trùng lấp? so sánh các thuật toán vì sao chọn thuật toán. - Định nghĩa trùng lấp, các trường hợp trùng lấp, trường hợp trùng lấp phổ biến ở webstie báo chí. (neu vo phan fingerprint tu do cho thay giup tang do chinh xac va giam thoi gian xu ly trung lap) ( Viết Simhash B.) - So sánh, đánh giá với các website khác. - Nêu các vấn đề của search engine.Hướng phát triển- index trên nhiều máy.- Cache page. - Đo tần suất click của link, đo tính thỏa mãn của người dùng. . trong quá trình lập chỉ mụcChương 9: Tìm kiếm thông tin9.2 Xác định ngôn ngữ câu truy vấn9.3 Highlight kết quả tìm kiếmPhần 3: thiết kế và cài đặt.- Sơ. engine tìm kiếm thông tin báo chí khác.Cấu trúc luận văn:Phần 1: Tìm hiểu.Phần 2: Các khó khăn, vấn đề và hướng giả quyết.(nêu khó khăn tại các mục tìm hiểu

Ngày đăng: 23/01/2013, 09:54

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan