Các chức năng chính của ứng dụng đọc tin nhanh

Một phần của tài liệu 28012_171220200190175LUANVAN (Trang 48 - 49)

6. Bố cục của luận văn

2.3.1. Các chức năng chính của ứng dụng đọc tin nhanh

Thông qua ứng dụng, ngƣời dùng có thể đọc từng mẩu tin hoặc đọc toàn bộ thông tin của trang web. Ứng dụng tiến hành xây dựng trang tin thông qua trích rút một mẩu tin từ trang web hoặc thông qua lấy toàn bộ nội dung trang web dựa vào RSS mà ngƣời dùng cung cấp. Từ trang web cần trích rút thông tin, ứng dụng sẽ tiến hành trích rút thông tin dựa trên việc phân tích mã HTML và xây dựng cấu trúc cây DOM. Thông tin sau khi đƣợc trích rút sẽ đƣợc lƣu lại trong CSDL để tiến hành xử lý và sau đó hiển thị lên trang tin của ứng dụng. Ứng dụng cũng tiến hành lấy toàn bộ nội dung trang web dựa vào RSS mà ngƣời dùng cung cấp sau đó hiển thị lên các trang tin khác của ứng dụng.

Các chức năng chính của chƣơng trình bao gồm:

- Thu thập các URL cần trích rút nội dung, là đầu vào của bài toán trích rút thông tin.

- Trích nội dung chính của trang tin tức dựa vào phân tích HTML và xây dựng cây DOM.

- Lƣu nội dung trích rút đƣợc vào cơ sở dữ liệu. - Chọn lựa và hiển thị kết quả thu đƣợc ra màn hình.

Cấu trúc chi tiết các module trích rút thông tin từ trang tin tức trong ứng dụng đọc tin nhanh đƣợc mô tả theo bảng sau:

Bảng 2.1. Cấu trúc chi tiết trích rút thông tin từ trang tin tức

Main class Functions

Crawlers

Thu thập dữ liệu từ một website tin tức

Thu thập các URL chứa nội dung chi tiết của tin tức

Extracting

Nhập URL vào, xử lý để lấy đƣợc mã HTML của toàn bộ trang tin tức

Phân tích mã HTML và cấu trúc cây DOM.

Trích xuất nội dung chính của trang web.

Storing Lƣu nội dung vừa trích xuất đƣợc ở trên vào hệ quản trị cơ sở dữ liệu SQLite

Displaying Hiển thị nội dung sau khi trích rút cho ngƣời dùng xem

* Đánh giá kết quả thu được của chương trình thử nghiệm

Về mặt nội dung, phƣơng pháp trích rút thông tin từ một website là tốt và khả quan. Tuy nhiên nếu trích rút từ nhiều website khác nhau thì nội dung trích rút đƣợc có thể bị trùng lặp nhiều. Vì các trang tin tức lớn đều đƣa lên những tin tức tƣơng đồng nhau về một số mặt nhƣ cuộc sống, chính trị, giáo dục.

Một phần của tài liệu 28012_171220200190175LUANVAN (Trang 48 - 49)

Tải bản đầy đủ (PDF)

(110 trang)