Các phƣơng pháp xây dựng trang tin cho ứng dụng

Một phần của tài liệu Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web (Trang 49 - 51)

6. Bố cục của luận văn

2.3.2. Các phƣơng pháp xây dựng trang tin cho ứng dụng

Luận văn tiến hành xây dựng trang tin thông qua hai phƣơng pháp:

Phương pháp 1: Lấy toàn bộ nội dung trang web dựa vào cấu trúc RSS của trang web.

Phương pháp 2: Lấy một phần nội dung trang web bằng cách trích rút thông tin bằng phân tích HTML và xây dựng cấu trúc cây DOM.

Bảng 2.2. Các phương pháp xây dựng trang tin cho ứng dụng

Phƣơng pháp Thuật toán

Xây dựng trang tin

Lấy toàn bộ nội dung trang web dựa vào cấu trúc RSS của trang web

Lấy một phần nội dung trang web bằng cách trích rút thông tin (dựa trên phân tích mã HTML và cấu trúc cây DOM.

a. Xây dựng trang tin từ RSS của trang web

Luận văn tiến hành lấy toàn bộ nội dung của trang web dựa vào cấu trúc RSS của trang web để góp phần vào tính đa dạng của ứng dụng. Các bƣớc để tiến hành nhƣ sau:

Bước 1: Ngƣời dùng nhập vào RSS của trang web

Bước 2: Hệ thống phân tích cấu trúc của trang web dựa vào RSS

Bước 3: Hệ thống tiến lấy tin tức của trang web và lƣu vào CSDL

Bước 4: Hệ thống hiển thị các mấu tin lên trang tin của ứng dụng

Để lấy tin tức từ trang web thông qua RSS có rất nhiều phƣơng pháp, nhƣng trong khuôn khổ của luận văn, để lấy tin từ trang web thông qua RSS trên điện thoại di động, chúng ta có thể sử dụng thƣ viện Stax XML API trong Java đê lấy tin.

b. Xây dựng trang tin dựa vào trích rút thông tin

Luận văn sử dụng phƣơng pháp trích rút thông tin dựa trên phân tích mã HTML và cấu trúc cây DOM để tiến hành trích rút một phần nội dung của trang web và hiển thị lên trang tin của ứng dụng.

c. So sánh phương pháp xây dựng trang tin

Trích rút thông tin nói chung mà cụ thể là trích rút thông tin bằng phân tích mã HTML và xây dựng cấu trúc cây DOM có nhiều ƣu điểm so với lấy

toàn bộ thông tin từ trang web thông qua RSS của trang web. Phƣơng pháp xây dựng trang tin bằng cách trích rút thông tin giúp cho ngƣời dùng có thể lựa chọn thông tin lấy về, vì vậy tránh trƣờng hợp tin rác, tin dƣ thừa. Nhƣ vậy cũng là tiền đề cho việc tổng hợp và xử lý thông tin.

Tuy nhiên còn một số hạn chế đó là ngƣời dùng phải có kiến thức về HTML, và một số thông tin không thể tiến hành trích rút đó là các website dạng flash không tổ chức theo dạng HTML. Trƣờng hợp này chúng ta phải tiến hành trích rút toàn bộ tập tin flash từ website và xử lý lại để hiển thị trên ứng dụng.

Một phần của tài liệu Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web (Trang 49 - 51)