6. Bố cục của luận văn
2.3. ÁP DỤNG PHƢƠNG PHÁP TRÍCH RÚT THÔNG TIN ĐỂ XÂY
DỰNG ỨNG DỤNG ĐỌC TIN NHANH
Nhƣ đã trình bày ở phần trƣớc, có rất nhiều thuật toán cũng nhƣ phƣơng pháp để trích rút thông tin nhƣ nhƣ phƣơng pháp trích rút thông tin dựa trên phân tích mã HTML và cấu trúc cây DOM, thuật toán Body Text Extraction, trích rút thông tin sử dụng biểu thức chính quy. Các phƣơng pháp đều có mặt hạn chế và ƣu điểm riêng. Tuy nhiên trong khuôn khổ xây dựng một ứng dụng trên điện thoại di động, trích rút thông tin từ trang web dựa trên việc phân tích mã HTML dựa vào cấu trúc cây DOM là cách đơn giản và hiệu quả nhất.
Phƣơng pháp sử dụng biểu thức chính quy cũng rất hiệu quả, tuy nhiên, thời gian để viết biểu thức chính quy để lấy tin cho từng trang tin là không khả quan, vì phƣơng pháp này đòi hỏi ngƣời dùng phải có hiểu biết sâu rộng về biểu thức chính quy và mất nhiều thời gian để viết các biểu thức chính quy cho từng trang tin tức khác nhau.
Luận văn đã lựa chọn việc phân tích mã HTML dựa trên cấu trúc cây DOM để trích rút dữ liệu cho bài toán xây dựng ứng dụng đọc tin nhanh trên thiết bị android.
Ứng dụng đƣợc xây dựng dựa trên ngôn ngữ lập trình Java và hệ quản trị cơ sở dữ liệu SQLite. Dựa vào cấu trúc các thẻ HTML lấy về từ trang web, luận văn sẽ tiến hành phân tích mã HTML, và xây dựng cây DOM qua đó trích rút thông tin, tổng hợp thông tin cho ứng dụng đọc tin nhanh.
Phƣơng pháp trích rút thông tin bằng cách phân tích mã HTML và cấu trúc cây DOM của trang web tiến hành truy xuất trực tiếp vào nội dung toàn
diện rồi tiến hành trích rút. Sau đó những đặc tả dữ liệu (meta data) đƣợc xây dựng tự động trên nền nội dung trích rút. Sau quy trình khai thác, nội dung sẽ trở thành độc lập với website nguồn, đƣợc lƣu trữ vào CSDL và tái sử dụng cho nhiều mục đích khác nhau (sắp xếp, lọc dữ liệu, tổng hợp, hiển thị lên các trang tin của ứng dụng,…)