Cấu trúc cơ sở dữ liệu

2.4.1.1. Danh sách các bảng

STT Tên Mô tả

1 category Bảng các category

2 news Bảng nội dung các bài viết được thu thập

2.4.1.2. Chi tiết các bảng

- Bảng category trong cấu trúc cơ sở dữ liệu

1 cate_id int 11 Khóa chính

2 cate_name varchar 30

3 cate_code varchar 11 Quan hệ với bảng news

4 cate_path varchar 30

5 cate_parent int 11

- Ý nghĩa của các thuộc tính:

+ cate_id: Số thự tự của category trong bảng category, tự động tăng dần + cate_name: Tên của category

+ cate_code: Mã của category

+ cate_path: Đường dẫn tương đối của category + cate_parent: Số category cha

- Bảng news trong cấu trúc cơ sở dữ liệu

STT Thuộc tính Kiểu Miền giá trị Ghi chú

1 news_id int 11 Khóa chính

2 news_title varchar 1000

3 news_img text 1000

4 news_link varchar 1000

5 news_intro text

6 news_num varchar double

- Ý nghĩa các thuộc tính:

+ news_id: Số thự tự của bài viết trong bảng news, tự động tăng dần + news_title: Tiêu đề của bài viết

+ news_img: Đường dẫn ảnh trong bài viết + news_link: Đường dẫn của bài viết + news_intro: Phần giới thiệu của bài viết + news_num: Mã bài viết

2.4.2. Phần quản trị cơ sở dữ liệu

Phần quản trị cơ sở dữ liệu được thiết kế trực quan, rất dễ sử dụng. Người dùng có thể lựa chọn thu thập bài viết từ một hoặc nhiều chủ đề, cũng có thể chọn chủ đề mình thích hoặc lựa chọn thu thập tất cả các chủ đề. Đây là giao diện chính của phần quản trị:

Hình 13: Giao diện phần quản trị cơ sở dữ liệu 2.4.3. Phần giao diện chính trang web

Giao diện chính được thiết kế đơn giản, đẹp mắt, dễ sử dụng. Cấu trúc trang web giống với cấu trúc của các trang báo điện tử lớn nên thuận tiện cho việc tra cứu, các chủ đề được sắp xếp một cách khoa học.

Hình dưới đây mô tả giao diện chính của trang web tổng hợp thông tin:

Hình 14: Giao diện của trang web tổng hợp thông tin

Trong khoảng thời gian ba tháng từ khi nhận đề tài đến khi hoàn thành xong khóa luận, tôi đã có những cố gắng nhất định và đã đạt được một số kết quả bước đầu. Bằng sự nỗ lực của bản thân và sự giúp đỡ tận tình của thầy Hoàng Xuân Huấn tôi đã hoàn thành xong khóa luận tốt nghiệp với đề tài: “Tìm hiểu trình thu thập web và xây dựng trang web tổng hợp thông tin”.

3.1. CÁC KẾT QUẢ ĐÃ ĐẠT ĐƯỢC

- Tìm hiểu được kiến trúc của trình thu thập web, cơ chế hoạt động của một trình thu thập web cơ bản, các chiến lược thu thập dữ liệu, cơ chế đánh giá các trang web của các trình thu thập.

- Từ những kiến thức thu được trong quá trình tìm hiểu về trình thu thập web, tôi đã hướng đến xây dựng một ứng dụng sử dụng trình thu thập web để thu thập bài viết tự động từ các trang báo điện tử lớn của Việt Nam. Ứng dụng bước đầu là thu thập các bài viết từ trang Dân trí đã hoạt động tốt, đảm bảo được các tiêu chí: tốc độ thu thập nhanh, cơ sở dữ liệu gọn nhẹ, đảm bảo tính toàn vẹn của các bài viết gốc.

- Giao diện phần quản trị được thiết kế trực quan, dễ sử dụng, thuận lợi cho người sử dụng, có độ tùy biến cao. Người dùng có thể lựa chọn thu thập bài viết từ một hoặc nhiều chủ đề, cũng có thể chọn chủ đề mình thích hoặc lựa chọn thu thập tất cả các chủ đề.

- Giao diện của trang web được thiết kế đơn giản, đẹp mắt, bố cục khoa học, thuận tiện cho việc tìm kiếm.

3.2. HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI

Do thời gian thực hiện khóa luận có hạn nên tôi chưa thể thực hiện trọn vẹn ý tưởng tổng hợp các bài viết từ nhiều trang báo khác nhau. Nếu được phát triển thêm tôi sẽ nghiên cứu thêm cách tổng hợp các chuyên mục một cách tự động từ đó sẽ hoàn thành ý tưởng của mình một cách trọn vẹn. Về mặt lý thuyết tôi sẽ tìm hiểu kỹ hơn về trình thu thuật web, các kỹ thuật mới để cải tiến hiệu suất, nâng cao tốc độ thu thập. Hướng phát triển tiếp theo của đề tài là xây dựng một hệ thống máy tìm kiếm thông tin dựa trên cơ sở dữ liệu thu thập được.

[1] Gautam Pant, Padmini Srinivasan, Filippo Menczer. Crawling the Web. Web Dynamics 2004, pp 153-178

[2] Sriram Raghavan, Hector Garcia-Molina. Crawling the Hidden Web. Computer Science Department, Stanford University, USA 2001.

[3] Soumen Chakrabarti. Mining the Web: Discovering knowledge from

hypertext data. Elsevier Science, Morgan Kaufmann Publishers 2003.

[4] Hồ Đắc Phương. Mạng máy tính. NXB Đại học Quốc gia Hà Nội 2007. [5] Đinh mạnh Tường. Cấu trúc dữ liệu và thuật toán. Nhà xuất bản khoa học và kỹ thuật 2000.

[6] Wikipedia, http://en.wikipedia.org

[7] World Wide Web Consortium (W3C), http://www.w3.org [8] Bách khoa toàn thư tiếng Việt, http://vi.wikipedia.org

[9] Biểu thức chính quy, http://www.phpvn.org/index.php?topic=204.0 [10] Google, http://www.google.com.vn

[11] Hàm xử lý chuỗi, http://www.aweb.vn/xem-thiet-ke-web/61.Ham-tim-kiem- chuoi.html

[12] MySQL, http://phpcodevn.com

[13] Robot Exclusion Protocol, http://www.vietseo.net/indexability/googlebot- va-robotstxt/

ĐÁNH GIÁ CỦA TRÌNH THU THẬP

quan trọng của trang web