Giao diện của trang web tổng hợp thông tin

Một phần của tài liệu Luận văn:Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin doc (Trang 57 - 60)

51

CHƯƠNG 3: KẾT LUẬN

Trong khoảng thời gian ba tháng từ khi nhận đề tài đến khi hồn thành xong khóa luận, tơi đã có những cố gắng nhất định và đã đạt được một số kết quả bước đầu. Bằng sự nỗ lực của bản thân và sự giúp đỡ tận tình của thầy Hồng Xn Huấn tơi đã hồn thành xong khóa luận tốt nghiệp với đề tài: “Tìm hiểu trình thu thập web và xây dựng trang web tổng hợp thông tin”.

3.1. CÁC KẾT QUẢ ĐÃ ĐẠT ĐƯỢC

- Tìm hiểu được kiến trúc của trình thu thập web, cơ chế hoạt động của một trình thu thập web cơ bản, các chiến lược thu thập dữ liệu, cơ chế đánh giá các trang web của các trình thu thập.

- Từ những kiến thức thu được trong quá trình tìm hiểu về trình thu thập web, tôi

đã hướng đến xây dựng một ứng dụng sử dụng trình thu thập web để thu thập bài viết

tự động từ các trang báo điện tử lớn của Việt Nam. Ứng dụng bước đầu là thu thập các bài viết từ trang Dân trí đã hoạt động tốt, đảm bảo được các tiêu chí: tốc độ thu thập nhanh, cơ sở dữ liệu gọn nhẹ, đảm bảo tính tồn vẹn của các bài viết gốc.

- Giao diện phần quản trị được thiết kế trực quan, dễ sử dụng, thuận lợi cho

người sử dụng, có độ tùy biến cao. Người dùng có thể lựa chọn thu thập bài viết từ một hoặc nhiều chủ đề, cũng có thể chọn chủ đề mình thích hoặc lựa chọn thu thập tất cả các chủ đề.

- Giao diện của trang web được thiết kế đơn giản, đẹp mắt, bố cục khoa học,

thuận tiện cho việc tìm kiếm.

3.2. HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI

Do thời gian thực hiện khóa luận có hạn nên tơi chưa thể thực hiện trọn vẹn ý tưởng tổng hợp các bài viết từ nhiều trang báo khác nhau. Nếu được phát triển thêm tôi sẽ nghiên cứu thêm cách tổng hợp các chuyên mục một cách tự động từ đó sẽ hồn

thành ý tưởng của mình một cách trọn vẹn. Về mặt lý thuyết tơi sẽ tìm hiểu kỹ hơn về trình thu thuật web, các kỹ thuật mới để cải tiến hiệu suất, nâng cao tốc độ thu thập.

52

Hướng phát triển tiếp theo của đề tài là xây dựng một hệ thống máy tìm kiếm thơng tin dựa trên cơ sở dữ liệu thu thập được.

53

TÀI LIỆU THAM KHẢO

[1] Gautam Pant, Padmini Srinivasan, Filippo Menczer. Crawling the Web. Web Dynamics 2004, pp 153-178

[2] Sriram Raghavan, Hector Garcia-Molina. Crawling the Hidden Web. Computer Science Department, Stanford University, USA 2001.

[3] Soumen Chakrabarti. Mining the Web: Discovering knowledge from hypertext

data. Elsevier Science, Morgan Kaufmann Publishers 2003.

[4] Hồ Đắc Phương. Mạng máy tính. NXB Đại học Quốc gia Hà Nội 2007. [5] Đinh mạnh Tường. Cấu trúc dữ liệu và thuật toán. Nhà xuất bản khoa học và kỹ thuật 2000.

[6] Wikipedia, http://en.wikipedia.org

[7] World Wide Web Consortium (W3C), http://www.w3.org [8] Bách khoa toàn thư tiếng Việt, http://vi.wikipedia.org

[9] Biểu thức chính quy, http://www.phpvn.org/index.php?topic=204.0 [10] Google, http://www.google.com.vn

[11] Hàm xử lý chuỗi, http://www.aweb.vn/xem-thiet-ke-web/61.Ham-tim-kiem- chuoi.html

[12] MySQL, http://phpcodevn.com

[13] Robot Exclusion Protocol, http://www.vietseo.net/indexability/googlebot- va-robotstxt/

Một phần của tài liệu Luận văn:Tìm hiểu về trình thu thập web và xây dựng trang web tổng hợp thông tin doc (Trang 57 - 60)

Tải bản đầy đủ (PDF)

(60 trang)