Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1Các kỹ thuật phân tích và lấy tin tự động từ website 1
1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CƠNG NGHỆ TRẦN HỮU DỰ CÁC KỸ THUẬT PHÂN TÍCH VÀ LẤY TIN TỰ ĐỘNG TỪ WEBSITE LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN Hà Nội -2016 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ TRẦN HỮU DỰ CÁC KỸ THUẬT PHÂN TÍCH VÀ LẤY TIN TỰ ĐỘNG TỪ WEBSITE Ngành: Công nghệ Thông tin Chuyên ngành: Kỹ Thuật Phần Mềm Mã số: 60 48 0103 LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN KHOA HỌC: TS TÔ VĂN KHÁNH Hà Nội -2016 LỜI CAM ĐOAN Tôi xin cam đoan, cơng trình nghiên cứu thân, số liệu đoạn mã chƣơng trình ứng dụng, kết trình bày luận văn trung thực chƣa đƣợc công bố cơng trình luận văn trƣớc Tác giả luận văn Trần Hữu Dự LỜI CẢM ƠN Trƣớc tiên xin chân thành cảm ơn đến thầy giáo TS Tơ Văn Khánh ngƣời tận tình bảo giúp đỡ tơi suốt q trình thực đề tài luận văn thạc sĩ hoàn thành đề tài Tơi xin bày tỏ lịng biết ơn chân thành tới thầy cô giáo khoa Công nghệ thông tin, trƣờng Đại học Công nghệ, Đại học Quốc Gia Hà Nội - nơi theo học năm qua Các thầy cô dạy cung cấp kiến thức quý báu, tạo điều kiện tốt cho tơi suốt q trình học tập nghiên cứu trƣờng Sau xin chân thành cảm ơn ngƣời thân gia đình, cảm ơn bạn bè khóa, đồng nghiệp quan giúp đỡ tơi q trình học tập nghiên cứu thực luận văn Tuy nhiên, trình làm luận văn cố gắng nghiên cứu, tìm hiểu vấn đề liên quan song luận văn chƣa thực đƣợc hồn chỉnh, cịn thiếu sót định Tơi mong nhận đƣợc ý kiến đánh giá, góp ý thầy giáo, bạn để luận văn đƣợc hồn thiện Hà nội, tháng 11 năm 2016 Học viên Trần Hữu Dự MỤC LỤC LỜI CAM ĐOAN LỜI CẢM ƠN DANH MỤC HÌNH VẼ MỞ ĐẦU CHƢƠNG GIỚI THIỆU 11 1.1 Nhu cầu cập nhật tin tức ngƣời dùng 11 1.2 Ứng dụng đọc tin tự động 11 CHƢƠNG CÁC KỸ THUẬT PHÂN TÍCH VÀ LẤY TIN TỰ ĐỘNG 13 2.1 Giới thiệungôn ngữ mở rộng đánh dấu XML 13 2.2 Giới thiệu Kỹ thuật RSS 17 2.3 Phƣơng pháp Interface DOM phân tích RSS 2.0 22 2.4 Phƣơng pháp Interface SAX phân tích RSS 2.0 24 2.5 Phân tích nội dung XML Android sử dụng XmlPullParser 26 CHƢƠNG KỸ THUẬT PHÂN TÍCH WEBSITE VỚI JSOUP 29 3.1 Giới thiệu 29 3.2 Định nghĩa Jsoup 29 3.3 Thành phần Jsoup API 30 3.4 Các phƣơng thức DOM 32 3.5 Các phƣơng thức giống Css, jQuery 34 CHƢƠNG XÂY DỰNG VÀ PHÁT TRIỂN ỨNG DỤNG TỰ ĐỘNG CẬP NHẬT TIN TỨC 37 4.1 Một số ứng dụng hỗ trợ đọc tin tức từ file RSS có 37 4.2 Phân tích thiết kế hệ thống đọc tin tự động từ website 39 4.3 Các chức ứng dụng 50 4.4 Kết thực nghiệm nhận xét 54 TÀI LIỆU THAM KHẢO 57 BẢNG CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT STT 10 11 12 13 14 15 Thuật ngữ viết tắt Thuật ngữ đầy đủ API CSS DOM HTML JAXP JDK LISP MathML Application Programming Interface Cascading Style Sheets Document Object Model HyperText Markup Language Java API for XML Processing Java Deverlopment Kit LISt Processing Math Markup Language RDF RSS SAX 16 WHATWG 17 18 19 XHTML Resource Description Framework Really Simple Syndication Simple API for XML Standard Generalized Markup Language Streaming API cho XML Scalable Vector Graphics Uniform Resource Locator Web Hypertext Application Technology Working Group Extensible HyperText Markup Language XML CSS Extensible Markup Language Cross Site Scripting SGML StAX SVG URL DANH MỤC HÌNH VẼ STT Số hiệu Hình 2.1 Hình 2.2 Hình 2.3 Hình 4.1 Hình 4.2 Hình 4.3 Hình 4.4 Hình 4.5 Hình 4.6 10 10 11 12 13 Hình 4.7 Hình 4.8 Hình 4.9 Hình 4.10 Hình 4.11 14 Hình 4.12 15 16 17 18 19 20 21 22 Hình 4.13 Hình 4.14 Hình 4.15 Hình 4.16 Hình 4.17 Hình 4.18 Hình 4.19 Hình 4.20 Tên hình vẽ Mơ hình hoạt động DOM Mơ hình tổng thể DOM Mơ hình SAX xử lý parser XML Giao diện Bao Moi Giao diện TinMoi24h Giao diện News Feed Mơ hình Client-Server-Website Mơ hình Client-Website Thiết kế giao diện hiển thị danh sách website, danh mục nhân tin Thiết kế giao diện hiển thị nội dung tin tức Thiết kế giao diện đăng ký website nhân tin Biểu đồ User-Case Biểu đồ tồn hệ thống Mơ hình quan hệ thực thể(ER) Sơ đồ giải thuật kiểm tra tồn website danh mục tin tức Sơ đồ giải thuật kiểm tra tồn tin tức Chức đăng ký website nhận tin Chức tùy biến cài đặt nhận tin Chức danh sách website nhận tin Chức danh mục website nhận tin Chức danh danh sách tin Chức danh nội dung tin tức Chức tự động thông báo tin DANH MỤC HÌNH BẢNG BIỂU STT Số hiệu Bảng 3.1 Bảng 3.2 Bảng 3.3 Bảng 3.4 Bảng 3.5 Bảng 3.6 Bảng 4.1 Bảng 4.2 Bảng 4.3 Tên bảng Các phƣơng thức lớp Jsoup.java Các phƣơng thức lớp Document.java Các phƣơng thức lấy liệu Element Các Selector Unit Các Selector kết hợp Các Pseudo Selector Bảng website_url (địa website) Bảng news_category(Mục nhận tin mới) Bảng news (Các tin tức nhận đƣợc) MỞ ĐẦU Trong thực tế, tất ngƣời, tất ngành nghề, lĩnh vực có nhu cầu thu thập cập nhật thông tin, tin tức nhanh Nguồn cung cấp thơng tin đến từ nhiều nguồn nhau, nhiều địa điểm khác việc cập nhật tin tức từ website số nguồn cung cấp thông tin cần thiết quan trọng Việc cập nhật thơng tin khó khăn tốn mặt thời gian, công sức phải thƣờng trực thƣờng xuyên máy tính điện thoại liên tục truy cập trang mạng để đọc tin từ website Do thúc đẩy nghiên cứu kỹ thuật phân tích lấy tin tự động từ website Đây ứng dụng đƣợc xây dựng để chạy thiết bị điện thoại di động, yêu cầu thiết bị di động có kết nối với mạng Internet thơng qua wifi 3G website phải hỗ trợ RSS Tuy nhiên thực tế tất ngƣời dùng có thiết bị di động thơng minh, địa điểm có Internet Wifi đƣợc phủ sóng 3G, khơng phải tất website có hỗ trợ RSS nên việc cập nhật tin tức có hạn chế định Với thuận lợi khó khăn thiết kế, triển khai hệ thống phân tích lấy tin tự động từ website đặt nhiều hƣớng nghiên cứu để hồn chỉnh ứng dụng Trong nhà khoa học quan tâm mạnh mẽ hƣớng nghiên cứu phân tích đƣợc cấu trúc website, nhận biết đƣợc website có hỗ trợ RSS tiến hành lấy liệu tin tức đƣợc cập nhật thông qua file RSS mà website cung cấp Vấn đề đọc lấy tin tức website vấn đề định xem ứng dụng có phát tin tức thông báo Notification cho ngƣời dùng cách kịp thời Chính nghiên cứu kỹ thuật phân tích lấy tin tự động từ website tới ngƣời dùng cách kịp thời có ý nghĩa lý luận thực tiễn Mục tiêu luận văn nghiên cứu tổng thể kỹ thuật phân tích đọc tin tự động từ website Mục đích nhằm nắm bắt đƣợc cơng nghệ kỹ thuật phân tích lấy tin tự động từ file RSS website để xây dựng ứng dụng chạy thiết bị di động thơng báo cho ngƣời dùng biết có tin cách tự động thời gian nhanh 10 Bố cục luận văn tuân theo mẫu trƣờng Đại Học Công NghệĐHQGHN Luận văn gồm có chƣơng ngồi cịn có phần mở đầu, kết luận tài liệu tham khảo Trong chƣơng nêu lên nhu cầu cập nhật tin tức ngƣời dùng ứng dụng việc đọc tin tự động Chƣơng giới thiệu cấu trúc kỹ thuật làm việc với XML, RSS 2.0, phƣơng pháp kỹ thuật Interface DOM, Interface SAXđể phân tích RSS 2.0 Chƣơng trình bày chi tiết hàm đƣợc cung cấp dùng kỹ thuật phân tích website với Tool Jsoup Chƣơng phần thực nghiệm xây dựng ứng dụng tự động cập nhật thông báo nội dung từ website Kết luận tóm lƣợc lại kết nghiên cứu đƣợc kỹ thuật phân tích XML đọc tin tự đông Tài liệu tham khảo: nguồn tài liệu sử dụng thực luận văn Xin trân trọng cảm ơn Tác giả: Trần Hữu Dự ... tìm hiểu trình bàycác kỹ thuật phân tích lấy tin tự động từ website với kết đạt đƣợc là: · Hệ thống lại kỹ thuật phân tích cấu trúc website để lấy đƣợc tin tức cách tự động từ website · Phát triển... nghiên cứu kỹ thuật phân tích lấy tin tự động từ website tới ngƣời dùng cách kịp thời có ý nghĩa lý luận thực tiễn Mục tiêu luận văn nghiên cứu tổng thể kỹ thuật phân tích đọc tin tự động từ website. .. tính tự động quét phát tin tức sau tự động gửi thông báo cho ngƣời dùng - Ứng dụng phân tích lấy tin tốt với hầu hết website có cung cấp RSS · Nhận xét: Đối với tốn phân tích lấy tin tự động từ website