Cấu trúc bài viết trong trang báo điện tử

Một phần của tài liệu LUẬN VĂN: TÌM HIỂU VỀ WEB CRAWLER VÀ XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN ppt (Trang 46 - 50)

Cấu trúc bài viết trong các trang báo điện tử luôn được xây dựng giống nhau có thể chia ra làm các phần chính là: phần nội dung bài viết, phần nội dung chuyên mục và phần nội dung trang chủ.

- Phần nội dung bài viết:

Phần nội dung bài viết có thể chia thành bốn trường thông tin chính bao gồm : + Trường tiêu đề (title): Chứa tiêu đề bài viết.

+ Trường giới thiệu (introduction): Chứa nội dung phần giới thiệu bài viết. + Trường nội dung (content): Chứa nội dung bài viết bao gồm văn bản và hình ảnh.

+ Trường thời gian (date time): Chứa ngày tháng và thời gian bài viết được đăng

39

Hình 10: Cấu trúc phần bài viết

- Phần nội dung chuyên mục (category):

Chuyên mục bao gồm các bài viết về cùng một chủ đề. Phần nội dung chuyên mục sẽ hiển thị ra phần mô tả các bài viết này. Phần mô tả bài viết bao gồm: trường tiêu đề, trường giới thiệu, trường hình ảnh.

40

Hình 11: Cấu trúc phần chuyên mục

- Phần nội dung trang chủ:

Trang chủ bao gồm các chuyên mục lớn (còn gọi là các chuyên mục cha). Phần nội dung trang chủ sẽ hiển thị ra phần mô tả các chuyên mục cha. Trong mỗi phần mô tả này sẽ có phần mô tả bài viết mới nhất trong chuyên mục và tiêu đề các bài viết khác trong chuyên mục.

41

Hình 12: Cấu trúc phần trang chủ

Thông qua cấu trúc bài viết ở trên ta thấy rằng để xây dựng thành công trang web thu thập tin tự động ta cần phải thu thập được phần nội dung bài viết và phần nội dung các chuyên mục. Cách làm phổ biến hiện nay là thu thập toàn bộ nội dung bài viết lưu vào cơ sở dữ liệu để tiện cho việc xây dựng trang web, tôi gọi đây là cách làm truyền thống. Trong quá trình tìm hiểu và xây dựng trang web, tôi đã nhận ra một số khuyết điểm của cách làm này, từ đó đã tìm ra một cách làm mới có một số cải tiến sáng tạo có thể hạn chế được các khuyết điểm của cách làm truyền thống. Ở phần sau của khóa luận tôi sẽ lần lượt trình bày hai cách làm và phân tích ưu nhược điểm của chúng.

42

Một phần của tài liệu LUẬN VĂN: TÌM HIỂU VỀ WEB CRAWLER VÀ XÂY DỰNG WEBSITE TỔNG HỢP THÔNG TIN ppt (Trang 46 - 50)

Tải bản đầy đủ (PDF)

(61 trang)