6. Bố cục của luận văn
2.3.2. Các phƣơng pháp xây dựng trang tin cho ứng dụng
Luận văn tiến hành xây dựng trang tin thông qua hai phƣơng pháp:
Phương pháp 1: Lấy toàn bộ nội dung trang web dựa vào cấu trúc RSS của trang web.
Phương pháp 2: Lấy một phần nội dung trang web bằng cách trích rút thông tin bằng phân tích HTML và xây dựng cấu trúc cây DOM.
Bảng 2.2. Các phương pháp xây dựng trang tin cho ứng dụng
Phƣơng pháp Thuật toán
Xây dựng trang tin
Lấy toàn bộ nội dung trang web dựa vào cấu trúc RSS của trang web
Lấy một phần nội dung trang web bằng cách trích rút thông tin (dựa trên phân tích mã HTML và cấu trúc cây DOM.
a. Xây dựng trang tin từ RSS của trang web
Luận văn tiến hành lấy toàn bộ nội dung của trang web dựa vào cấu trúc RSS của trang web để góp phần vào tính đa dạng của ứng dụng. Các bƣớc để tiến hành nhƣ sau:
Bước 1: Ngƣời dùng nhập vào RSS của trang web
Bước 2: Hệ thống phân tích cấu trúc của trang web dựa vào RSS
Bước 3: Hệ thống tiến lấy tin tức của trang web và lƣu vào CSDL
Bước 4: Hệ thống hiển thị các mấu tin lên trang tin của ứng dụng
Để lấy tin tức từ trang web thông qua RSS có rất nhiều phƣơng pháp, nhƣng trong khuôn khổ của luận văn, để lấy tin từ trang web thông qua RSS trên điện thoại di động, chúng ta có thể sử dụng thƣ viện Stax XML API trong Java đê lấy tin.
b. Xây dựng trang tin dựa vào trích rút thông tin
Luận văn sử dụng phƣơng pháp trích rút thông tin dựa trên phân tích mã HTML và cấu trúc cây DOM để tiến hành trích rút một phần nội dung của trang web và hiển thị lên trang tin của ứng dụng.
c. So sánh phương pháp xây dựng trang tin
Trích rút thông tin nói chung mà cụ thể là trích rút thông tin bằng phân tích mã HTML và xây dựng cấu trúc cây DOM có nhiều ƣu điểm so với lấy
toàn bộ thông tin từ trang web thông qua RSS của trang web. Phƣơng pháp xây dựng trang tin bằng cách trích rút thông tin giúp cho ngƣời dùng có thể lựa chọn thông tin lấy về, vì vậy tránh trƣờng hợp tin rác, tin dƣ thừa. Nhƣ vậy cũng là tiền đề cho việc tổng hợp và xử lý thông tin.
Tuy nhiên còn một số hạn chế đó là ngƣời dùng phải có kiến thức về HTML, và một số thông tin không thể tiến hành trích rút đó là các website dạng flash không tổ chức theo dạng HTML. Trƣờng hợp này chúng ta phải tiến hành trích rút toàn bộ tập tin flash từ website và xử lý lại để hiển thị trên ứng dụng.