Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

110 8 0
Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN THỊ KHUYẾN NGHIÊN CỨU, XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH BẰNG CÁCH TRÍCH RÚT VÀ TỔNG HỢP THƠNG TIN TỪ CÁC TRANG WEB LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng - Năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN THỊ KHUYẾN NGHIÊN CỨU, XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH BẰNG CÁCH TRÍCH RÚT VÀ TỔNG HỢP THƠNG TIN TỪ CÁC TRANG WEB Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Ngƣời hƣớng dẫn khoa học: TS HUỲNH CÔNG PHÁP Đà Nẵng - Năm 2016 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi hướng dẫn trực tiếp thầy TS Huỳnh Công Pháp Các số liệu kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả NGUYỄN THỊ KHUYẾN MỤC LỤC MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nhiệm vụ 3 Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Ý nghĩa khoa học thực tiễn đề tài Bố cục luận văn CHƢƠNG CƠ SỞ LÝ THUYẾT 1.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.1.1 Giới thiệu xử lý ngôn ngữ tự nhiên 1.1.2 Khái niệm ngôn ngữ tự nhiên 1.1.3 Khái niệm xử lý ngôn ngữ tự nhiên 1.2 KHAI PHÁ DỮ LIỆU 12 1.2.1 Định nghĩa khai phá liệu 12 1.2.2 Các dạng liệu khai phá liệu 13 1.2.3 Các hƣớng nghiên cứu khai phá liệu 14 1.2.4 Các ứng dụng khai phá liệu 14 1.3 KHAI PHÁ DỮ LIỆU WEB 15 1.3.1 Khái quát khai phá liệu web 15 1.3.2 Các bƣớc trình khai phá liệu web 16 1.3.3 Các lĩnh vực khai phá liệu web 18 1.3.4 Những khó khăn thuận lợi khai phá liệu web 19 1.4 TỔNG KẾT CHƢƠNG 20 CHƢƠNG GIẢI PHÁP TRÍCH RÚT VÀ TỔNG HỢP THƠNG TIN ĐỂ XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH 21 2.1 BÀI TỐN TRÍCH RÚT THƠNG TIN 21 2.1.1 Giới thiệu sơ lƣợc tốn trích rút thơng tin 21 2.1.2 Dữ liệu tốn trích rút thơng tin 24 2.1.3 Hƣớng tiếp cận giải tốn trích rút thơng tin 25 2.1.4 Phân loại hệ thống trích rút thông tin 26 2.2 BÀI TỐN TRÍCH RÚT THƠNG TIN TỪ TRANG WEB 27 2.2.1 Trích rút thơng tin từ trang web dựa cấu trúc DOM 28 2.2.2 Giới thiệu trích rút thơng tin sử dụng biểu thức quy 35 2.3 ÁP DỤNG PHƢƠNG PHÁP TRÍCH RÚT THƠNG TIN ĐỂ XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH 37 2.3.1 Các chức ứng dụng đọc tin nhanh 38 2.3.2 Các phƣơng pháp xây dựng trang tin cho ứng dụng 39 2.3.3 Sử dụng DOM để trích rút thông tin cho ứng dụng đọc tin nhanh 41 2.3.4 Giới thiệu thuật tốn trích rút thân văn Body Text Extraction 49 2.3.5 Các giải pháp tổng hợp thông tin cho ứng dụng 50 2.4 TỔNG KẾT CHƢƠNG 51 CHƢƠNG PHÁT TRIỂN ỨNG DỤNG ĐỌC TIN NHANH BẰNG CÁCH TRÍCH RÚT THƠNG TIN TỪ CÁC TRANG WEB 52 3.1 CÀI ĐẶT MÔI TRƢỜNG PHẦN CỨNG VÀ PHẦN MỀM 52 3.1.1 Một số hệ thống đọc tin nhanh đƣợc xây dựng 52 3.1.2 Xây dựng ứng dụng chạy độc lập thiết bị di động 54 3.1.3 Lựa chọn công cụ môi trƣờng lập trình android 55 3.1.4 Cài đặt JDK cấu hình biến mơi trƣờng 56 3.1.5 Cài đặt phần mềm Android Studio 57 3.1.6 Cài đặt máy ảo Genymotion 58 3.1.7 Các công cụ phần mềm khác 62 3.2 CÁC CHỨC NĂNG CƠ BẢN CỦA HỆ THỐNG ĐỌC TIN NHANH 62 3.2.1 Chức tạo tài khoản đăng nhập hệ thống 63 3.2.2 Chức xem thông tin tài khoản 63 3.2.3 Chức cập nhật thông tin tài khoản 63 3.2.4 Chức quản lý trang tin tức 64 3.2.5 Chức đọc tin dựa vào trang tin ngƣời dùng lƣu 64 3.2.6 Chức đọc tin dựa việc ngƣời dùng cung cấp RSS 64 3.2.7 Chức đọc tin mặc định hệ thống 65 3.3 PHÂN TÍCH THIẾT KẾ HỆ THỐNG ĐỌC TIN NHANH 65 3.3.1 Xác định tác nhân ca sử dụng 65 3.3.2 Biểu đồ Use Case 67 3.3.3 Sơ đồ hoạt động ứng dụng đọc tin nhanh 70 3.3.4 Mơ hình thực thể liên kết 74 3.3.5 Thiết kế sở liệu ứng dụng 76 3.4 CÀI ĐẶT VÀ THỬ NGHIỆM ỨNG DỤNG 78 3.4.1 Giao diện trang đăng nhập 78 3.4.2 Giao diện trang đăng ký tài khoán 79 3.4.3 Giao diện trang danh mục chức 80 3.4.4 Giao diện trang thông tin ngƣời dùng 81 3.4.5 Giao diện trang chủ 82 3.4.6 Giao diện trang đọc tin RSS 83 3.4.7 Giao diện chức quản lý trang 84 3.4.8 Giao diện chức đọc tin tức tổng hợp 85 3.5 TỔNG KẾT CHƢƠNG 90 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 91 DANH MỤC TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (bản sao) PHỤ LỤC DANH MỤC CÁC TỪ VIẾT TẮT Tiếng nƣớc ADV Android Virtual Device CSO Computer Science Ontology DAML DARPA Agent Markup Language DOM Document Object Model DTD Document Type Definition FTP File Transfer Protocol GPRS General Packet Radio Service HTML HyperText Markup Language HTTP The Hypertext Transfer Protocol IE Information Extraction IEEE Institute of Electrical and Electronics Engineers ISBN International Standard Book Number KDD Knowledge Discovery in Database LSI Latent Semantic Indexing NISR National Institute of Standards and Technology RDF Resource Description Framework RDFS Resource Description Framework Schema URL Uniform Resource Locator URI Uniform Resource Identifier XHTML Extensible HyperText Markup Language XML eXtensible Markup Language WWW World Wide Web Tiếng Việt CSDL Cơ sở liệu ĐH Đại học STT Số thứ tự DANH MỤC CÁC BẢNG Số hiệu Tên bảng bảng Trang 2.1 Cấu trúc chi tiết trích rút thơng tin từ trang tin tức 39 2.2 Các phƣơng pháp xây dựng trang tin cho ứng dụng 40 3.1 Yêu cầu phần cứng để cài đặt Android Studio chạy máy ảo 56 3.2 Danh sách phần mềm cần cài đặt để lập trình android 57 3.3 Một số phần mềm sử dụng thực nghiệm 62 3.4 Quan hệ tác nhân ca sử dụng 66 3.5 Các thành phần mơ hình Use Case hệ thống 68 DANH MỤC CÁC HÌNH Số hiệu Tên hình hình Trang 1.1 Cấu trúc nội dung văn web 16 1.2 Các bƣớc trình khai phá liệu web 17 2.1 Bài tốn trích rút thơng tin cho liệu khơng có cấu trúc 22 2.2 Ví dụ tính cấu trúc trang web bán cấu trúc 25 2.3 Dạng biểu diễn DOM mã HTML 28 2.4 Ví dụ xây dựng DOM sử dụng hộp ảo 30 2.5 Mô tả mẫu trích tiêu đề nội dung báo 31 2.6 Các bƣớc trích rút thơng tin dựa cấu trúc DOM 42 2.7 Truy vấn nội dung trang web CSS Selector Queries 43 2.8 Cây DOM để trích rút thông tin bảng xếp hạng 44 2.9 Nội dung trang web thethao247 45 2.10 Cấu trúc HTML trang web thethao247 46 2.11 Thơng tin Bảng Xếp Hạng Bóng Đá trang web thethao247 47 2.12 Cấu trúc mã HTML Bảng Xếp Hạng trang web thethao247 47 3.1 Sơ đồ ứng dụng đọc tin nhanh thiết bị di động 53 3.2 Một số ứng dụng đọc tin tức kho ứng dụng Play Store 55 3.3 Cửa sổ tạo biến môi trƣờng 57 3.4 Cửa sổ cài đặt Plugin Android Studio 59 3.5 Cửa sổ đăng nhập Genymotion 60 3.7 Kết chạy ứng dụng máy ảo 61 3.8 Biểu đồ Use Case hệ thống đọc tin nhanh 67 3.9 Sơ đồ hoạt động đăng ký tài khoản 70 3.10 Sơ đồ hoạt động đăng nhập 71 Số hiệu Tên hình hình Trang 3.11 Sơ đồ hoạt động xem thông tin tài khoản 71 3.12 Sơ đồ hoạt động ngƣời dùng quản lý trang lƣu 71 3.13 Sơ đồ hoạt động ngƣời dùng xem tin từ trang lƣu 72 3.14 Sơ đồ hoạt động ngƣời dùng xem tin mặc định hệ thống 72 3.15 Sơ đồ hoạt động ngƣời dùng xem tin cách cung cấp URL 73 3.16 Sơ đồ hoạt động admin quản lý tài khoản ngƣời dùng 73 3.17 Sơ đồ hoạt động admin quản lý viết mặc định 74 3.18 Mơ hình thực thể liên kết hệ thống 74 3.19 Giao diện trang đăng nhập 79 3.20 Giao diện trang đăng ký tài khoản 80 3.21 Giao diện trang danh mục chức 81 3.22 Giao diện trang thông tin ngƣời dùng 82 3.23 Giao diện trang chủ 82 3.24 Giao diện trang chủ chi tiết 83 3.25 Giao diện trang đọc tin RSS 84 3.26 Giao diện chức quản lý trang 84 3.27 Giao diện chức xem tin tức giá vàng 85 3.28 Giao diện chức xem tin dự báo thời tiết 86 3.29 Giao diện chức xem thông tin tỉ giá ngoại tệ 87 3.30 Giao diện chức xem kết xổ số 87 3.31 Giao diện trang đọc tin tức bảng xếp hạng bóng đá 88 3.32 Trang đọc tin tức lịch thi đấu bóng đá 89 3.33 Trang đọc tin tức kết bóng đá 89 ... Cứu, Xây Dựng Ứng Dụng Đọc Tin Nhanh Bằng Cách Trích Rút Và Tổng Hợp Thông Tin Từ Các Trang Web? ?? Luận văn tập trung nghiên cứu phƣơng pháp trích rút tổng hợp thông tin từ trang web Trên sở xây dựng. .. pháp trích rút thông tin cho ứng dụng đọc tin nhanh Chương 3, “Phát triển ứng dụng đọc tin nhanh cách trích rút thông tin từ trang web? ?? tập trung nghiên cứu phân tích xây dựng kiến trúc tổng. .. GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN THỊ KHUYẾN NGHIÊN CỨU, XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH BẰNG CÁCH TRÍCH RÚT VÀ TỔNG HỢP THƠNG TIN TỪ CÁC TRANG WEB Chuyên ngành: Hệ thống thông tin Mã

Ngày đăng: 24/04/2022, 15:14

Hình ảnh liên quan

DANH MỤC CÁC HÌNH Số hiệu  - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

hi.

ệu Xem tại trang 9 của tài liệu.
hình Tên hình Trang - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

h.

ình Tên hình Trang Xem tại trang 10 của tài liệu.
Hình 1.1. Cấu trúc nội dung của một văn bản web - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 1.1..

Cấu trúc nội dung của một văn bản web Xem tại trang 26 của tài liệu.
Hình 2.1 minh họa quá trình trích rút thông tin từ văn bản không có cấu trúc và tổ chức lại thành dữ liệu có cấu trúc - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 2.1.

minh họa quá trình trích rút thông tin từ văn bản không có cấu trúc và tổ chức lại thành dữ liệu có cấu trúc Xem tại trang 32 của tài liệu.
Hình 2.6. Các bước trích rút thông tin dựa trên cấu trúc cây DOM - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 2.6..

Các bước trích rút thông tin dựa trên cấu trúc cây DOM Xem tại trang 52 của tài liệu.
Hình 2.7. Truy vấn nội dung trang web bằng CSS Selector Queries - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 2.7..

Truy vấn nội dung trang web bằng CSS Selector Queries Xem tại trang 53 của tài liệu.
Hình 2.8. Cây DOM để trích rút thông tin bảng xếp hạng * Bộ dữ liệu mẫu trích rút các thông tin  - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 2.8..

Cây DOM để trích rút thông tin bảng xếp hạng * Bộ dữ liệu mẫu trích rút các thông tin Xem tại trang 54 của tài liệu.
Hình 2.9. Nội dung trang web thethao247 - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 2.9..

Nội dung trang web thethao247 Xem tại trang 55 của tài liệu.
Hình 2.10. Cấu trúc HTML của trang web thethao247 - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 2.10..

Cấu trúc HTML của trang web thethao247 Xem tại trang 56 của tài liệu.
Hình 2.12. Cấu trúc mã HTML Bảng Xếp Hạng trang web thethao247 - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 2.12..

Cấu trúc mã HTML Bảng Xếp Hạng trang web thethao247 Xem tại trang 57 của tài liệu.
Hình 2.11. Thông tin Bảng Xếp Hạng Bóng Đá của trang web thethao247 - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 2.11..

Thông tin Bảng Xếp Hạng Bóng Đá của trang web thethao247 Xem tại trang 57 của tài liệu.
Hình 3.1. Sơ đồ ứng dụng đọc tin nhanh trên thiết bị di động [11] - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.1..

Sơ đồ ứng dụng đọc tin nhanh trên thiết bị di động [11] Xem tại trang 63 của tài liệu.
một cửa sổ xuất hiện nhƣ Hình 3.4. - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

m.

ột cửa sổ xuất hiện nhƣ Hình 3.4 Xem tại trang 69 của tài liệu.
- Sau đó hộp thoại sẽ hiển thị danh sách máy ảo cấu hình sẵn dành cho smartphone  hoặc  tablet - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

au.

đó hộp thoại sẽ hiển thị danh sách máy ảo cấu hình sẵn dành cho smartphone hoặc tablet Xem tại trang 71 của tài liệu.
Hình 3.8. Biểu đồ Use Case của hệ thống đọc tin nhanh - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.8..

Biểu đồ Use Case của hệ thống đọc tin nhanh Xem tại trang 77 của tài liệu.
Hình 3.9. Sơ đồ hoạt động đăng ký tài khoản mới - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.9..

Sơ đồ hoạt động đăng ký tài khoản mới Xem tại trang 80 của tài liệu.
Hình 3.11. Sơ đồ hoạt động xem thông tin tài khoản - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.11..

Sơ đồ hoạt động xem thông tin tài khoản Xem tại trang 81 của tài liệu.
Hình 3.10. Sơ đồ hoạt động đăng nhập - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.10..

Sơ đồ hoạt động đăng nhập Xem tại trang 81 của tài liệu.
Hình 3.14. Sơ đồ hoạt động người dùng xem tin mặc định của hệ thống - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.14..

Sơ đồ hoạt động người dùng xem tin mặc định của hệ thống Xem tại trang 82 của tài liệu.
Hình 3.16. Sơ đồ hoạt động admin quản lý tài khoản của người dùng - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.16..

Sơ đồ hoạt động admin quản lý tài khoản của người dùng Xem tại trang 83 của tài liệu.
Hình 3.19. Giao diện trang đăng nhập - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.19..

Giao diện trang đăng nhập Xem tại trang 89 của tài liệu.
Hình 3.20. Giao diện trang đăng ký tài khoản - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.20..

Giao diện trang đăng ký tài khoản Xem tại trang 90 của tài liệu.
Hình 3.21. Giao diện trang danh mục chức năng - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.21..

Giao diện trang danh mục chức năng Xem tại trang 91 của tài liệu.
Hình 3.22. Giao diện trang thông tin người dùng - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.22..

Giao diện trang thông tin người dùng Xem tại trang 92 của tài liệu.
Hình 3.24. Giao diện trang chủ chi tiết - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.24..

Giao diện trang chủ chi tiết Xem tại trang 93 của tài liệu.
Hình 3.25. Giao diện trang đọc tin RSS - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.25..

Giao diện trang đọc tin RSS Xem tại trang 94 của tài liệu.
Hình 3.28. Giao diện chức năng xem tin dự báo thời tiết - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.28..

Giao diện chức năng xem tin dự báo thời tiết Xem tại trang 96 của tài liệu.
Hình 3.30. Giao diện chức năng xem kết quả xổ số - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.30..

Giao diện chức năng xem kết quả xổ số Xem tại trang 97 của tài liệu.
Hình 3.29. Giao diện chức năng xem thông tin tỉ giá ngoại tệ - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Hình 3.29..

Giao diện chức năng xem thông tin tỉ giá ngoại tệ Xem tại trang 97 của tài liệu.
Giao diện của trang tin Bảng Xếp hạng cho phép xem tin về Tên Đội, Thứ Hạng, Điểm.  - Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

iao.

diện của trang tin Bảng Xếp hạng cho phép xem tin về Tên Đội, Thứ Hạng, Điểm. Xem tại trang 98 của tài liệu.

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan