Phần 1: Tìm hiểu vấn đề Các vấn đề và hướng giải quyết. Chương 7: Thu thập thông tin 7.1 Cách thức thu thập thông tin 7.2 Trích xuất dữ liệu từ tập tin HTML 7.2.1 Giới thiệu các loại node trong tập tin HTML 7.2.2 Các phương pháp phân tích cấu trúc file HTML 7.2.2.a Phương pháp lấy tiêu đề 7.2.2.b Phương pháp lấy nội dung 7.2.2.c Phương pháp lấy thời điểm đăng tải bài viết 7.2.2.d Phương pháp xác định chuyên mục bài viết Chương 8: Lập chỉ mục 8.1 Tính trọng số của mục từ (!) >>>Tính trọng số của mục từ nhằm mục đích để thực hiện đánh chỉ mục cho mục từ theo độ ưu tiên của trọng số để sau này xử lý kết quả trả về là chủ yếu. Nhưng Lucene có nói rõ ràng trong phần giới thiệu, chúng ta ko cần hiểu công việc index là như thế nào mà chỉ cần biết cách sử dụng. Nếu đưa các phần này vào thì sẽ làm mất đi tính sử dụng của Lucene. 8.2 Tối ưu hóa tiến trình ghi chỉ mục 8.3 Xử lý stemming (!) >>> Tương tự tính trọng số. 8.4 Xử lý đa tiến trình trong quá trình lập chỉ mục Chương 9: Tìm kiếm thông tin 9.2 Xác định ngôn ngữ câu truy vấn 9.3 Highlight kết quả tìm kiếm Phần 3: thiết kế và cài đặt. - Sơ đồ UML. Chương 10: Các module,package,lớp chính của chương trình 10.1 Các module,package của chương trình 10.2 Các lớp đối tượng chính trong từng module Phần 3: Kết quả,đánh giá và hướng phát triển (Cài đặt và thử nghiệm – đánh giá và hướng phát triển – các ứng dụng được xây dựng) 1. Kết quả thử nghiệm 2. Hoạt động của chương trình 2.1 Giao diện chương trình đánh chỉ mục 2.2 Giao diện website tìm kiếm thông tin
3. Kết quả đạt được 3.1 Về mặt lý thuyết 3.2 Về mặt thực nghiệm 4. Đánh giá 4.1 Ưu điểm > thay thành các phần làm được. 4.2 Khuyết điểm 5. Hướng phát triển 5.1 Đối với từng module 5.2 Đối với toàn luận văn 6. Phụ lục 6.1 Danh sách các bảng 6.2 Danh sách các hình vẽ 7. Tài liệu tham khảo 7.1 Sách,ebook 7.2 Luận văn,luận án 7.3 Bài báo 7.4 Website - Bộ analyzer tiếng việt.(làm gì đây?) - Các bộ analyzer các ngôn ngữ khác. - Sắp xếp kết quả trả về. (xong). - Scoring của Lucene. - Số liệu đánh giá các hướng giải quyết của xử lý câu truy vấn tiếng việt.(xong) ------------------------------------- - Khó khăn về dữ liệu lớn, giải quyết bằng lưu trên nhiều máy csdl chỉ mục, Lucene có hỗ trợ lấy chỉ mục trên ổ cứng để tìm kiếm. - Trùng lấp dữ liệu. hiện tai chỉ giới thiệu các thuật toán > nhớ cập nhật, nhớ nêu các vấn đề trùng lấp trong trang web thằng B đưa. - Khó khăn về tìm kiếm crawler. > chổ dừng lâu nhất. - Tài liệu tham khảo. - Cấu trúc dữ liệu lưu trữ index của Lucene. o Ưu điểm khuyết điểm. - Khó khăn của crawler tìm được và cách khắc phục là RSS. - Khó khăn trong việc lấy URL của site. * Phần Thi ế t k ế và cài đ ặ t. (chủ yếu làm thấy rõ kết quả mình đạt được từ xây dựng ứng dụng). - Các package xử lý chính. o Mỗi đứa ghi cái của mình làm. - Các ứng dụng đã xây dựng. o Danh sách các màn hình của mỗi ứng dụng. o Mô tả các màn hình giao diện. (màn hình tìm kiếm chính, phân tích tại sao lại thiết kế màn hình như vậy.) và hướng dẫn sử dụng. o Bảng Danh sách các chức năng làm được của mỗi ứng dụng. o Hướng dẫn cách cài đặt. (khỏi làm).
o >>> mỗi phần cho mỗi ứng dụng. - Kết quả thử nghiệm, đánh giá và hướng phát triển. o Các kết quả của các ứng dụng, mô tả chi tiết cấu hình phần cứng. o Bảng các chức năng làm được.(ở phần trên rồi.) o Bảng đánh giá, so sánh với các search engine tìm kiếm thông tin báo chí khác. Cấu trúc luận văn: Phần 1: Tìm hiểu. Phần 2: Các khó khăn, vấn đề và hướng giả quyết. (nêu khó khăn tại các mục tìm hiểu và cách giải quyết cụ thể trong phần này). Phần 3: Thiết kế và cài đặt.
Crawler - Dùng làm gì? - Hoạt động thế nào? Độ sâu bao nhiêu là thích hợp. - Tự động phát hiện tài nguyên hay là bằng tay. - Cách thức giải quyết vấn đề làm quá tải server. - Cách thức crawler cập nhật tài nguyên như thế nào, có đảm bảo tin được cập nhật nhanh chống, chi phí lúc cập nhật.(lam the nao de biet 1 page da thay doi noi dung? chu ky thoi gian cap nhat bao nhiu la thich hop?) - Làm thế nào để lấy lại được đường dẫn thực sự của trang. - Tổ chức thư mục crawler như thế nào?(crawler lam the nao de lay duoc cau truc thu muc website?) - Chu kỳ để crawl RSS. - Hướng xử lý trùng lấp khi Crawl RSS và Crawl HTML. - Lý do chọn crawl RSS mà ko crawl bằng HTML. - Crawl nội dung trong một chuyên mục nhất định. - Vấn đề Distributed crawl: o Vì sao chọn phương án này. o Cách thức hoạt động, xử lý thế nào? o Một số mô hình đã tồn tại. - Vấn đề lưu trữ tài nguyên lớn(dùng bigtable…) (hạn chế chưa xử lý được.) - Cách parse html và cách xử lý độ nhiễu thông tin. - Index - Đánh chỉ mục là gì? Tại sao phải cần đánh chỉ mục? - Cách thức xử lý tiếng Việt khi đánh chỉ mục. - Quy trình đanh chỉ mục, các công việc xử lý của tiến trình analyzing. - Tùy chỉnh cấu hình index. - Xử lý đa tiểu trình. - Cấu trúc dữ liệu index lưu trữ của Lucene. - Xác định chuyên bài báo bằng tay, hay tự động. (hiện tại bằng tay.) - Các vấn đề liên quan đến lập lịch: o Index html và RSS. o RSS index tự động sau mỗi h. o HTML index tự động sau mỗi ngày, tự động sau khi index xong xóa dữ liệu index của RSS. (nen ve mo hinh trinh bay). o Tìm hiểu rõ lại crawl và update của Crawler. Search - Tiến trình tìm kiếm của Lucene như thế nào? - Xử lý câu truy vấn người dùng như thế nào? - Xếp hạng kết quả trả về. o Có 2 tiêu chí lớn. o Lucene thiếu 1 tiêu chí. - Phát hiện ngôn ngữ.
- Cho phép người dùng tìm kiếm với các toán tử được hỗ trợ. Misc - Tại sao phải xử lý trùng lấp? (coi các mô hình). - Các thuật toán xử lý trùng lấp? so sánh các thuật toán vì sao chọn thuật toán. - Định nghĩa trùng lấp, các trường hợp trùng lấp, trường hợp trùng lấp phổ biến ở webstie báo chí. (neu vo phan fingerprint tu do cho thay giup tang do chinh xac va giam thoi gian xu ly trung lap) ( Viết Simhash B.) - So sánh, đánh giá với các website khác. - Nêu các vấn đề của search engine. Hướng phát triển - index trên nhiều máy. - Cache page. - Đo tần suất click của link, đo tính thỏa mãn của người dùng.
. Danh sách các bảng 6.2 Danh sách các hình vẽ 7. Tài liệu tham khảo 7.1 Sách,ebook 7.2 Luận văn,luận án 7.3 Bài báo 7.4 Website - Bộ analyzer tiếng việt.(làm