Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

110 9 0
Nghiên cứu, xây dựng ứng dụng đọc tin nhanh bằng cách trích rút và tổng hợp thông tin từ các trang web

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN THỊ KHUYẾN NGHIÊN CỨU, XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH BẰNG CÁCH TRÍCH RÚT VÀ TỔNG HỢP THƠNG TIN TỪ CÁC TRANG WEB LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Đà Nẵng - Năm 2016 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN THỊ KHUYẾN NGHIÊN CỨU, XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH BẰNG CÁCH TRÍCH RÚT VÀ TỔNG HỢP THƠNG TIN TỪ CÁC TRANG WEB Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ HỆ THỐNG THÔNG TIN Ngƣời hƣớng dẫn khoa học: TS HUỲNH CÔNG PHÁP Đà Nẵng - Năm 2016 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu riêng tơi hướng dẫn trực tiếp thầy TS Huỳnh Công Pháp Các số liệu kết nêu luận văn trung thực chưa công bố cơng trình khác Tác giả NGUYỄN THỊ KHUYẾN MỤC LỤC MỞ ĐẦU 1 Lý chọn đề tài Mục tiêu nhiệm vụ 3 Đối tƣợng phạm vi nghiên cứu Phƣơng pháp nghiên cứu Ý nghĩa khoa học thực tiễn đề tài Bố cục luận văn CHƢƠNG CƠ SỞ LÝ THUYẾT 1.1 XỬ LÝ NGÔN NGỮ TỰ NHIÊN 1.1.1 Giới thiệu xử lý ngôn ngữ tự nhiên 1.1.2 Khái niệm ngôn ngữ tự nhiên 1.1.3 Khái niệm xử lý ngôn ngữ tự nhiên 1.2 KHAI PHÁ DỮ LIỆU 12 1.2.1 Định nghĩa khai phá liệu 12 1.2.2 Các dạng liệu khai phá liệu 13 1.2.3 Các hƣớng nghiên cứu khai phá liệu 14 1.2.4 Các ứng dụng khai phá liệu 14 1.3 KHAI PHÁ DỮ LIỆU WEB 15 1.3.1 Khái quát khai phá liệu web 15 1.3.2 Các bƣớc trình khai phá liệu web 16 1.3.3 Các lĩnh vực khai phá liệu web 18 1.3.4 Những khó khăn thuận lợi khai phá liệu web 19 1.4 TỔNG KẾT CHƢƠNG 20 CHƢƠNG GIẢI PHÁP TRÍCH RÚT VÀ TỔNG HỢP THƠNG TIN ĐỂ XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH 21 2.1 BÀI TỐN TRÍCH RÚT THƠNG TIN 21 2.1.1 Giới thiệu sơ lƣợc tốn trích rút thơng tin 21 2.1.2 Dữ liệu tốn trích rút thơng tin 24 2.1.3 Hƣớng tiếp cận giải tốn trích rút thơng tin 25 2.1.4 Phân loại hệ thống trích rút thông tin 26 2.2 BÀI TỐN TRÍCH RÚT THƠNG TIN TỪ TRANG WEB 27 2.2.1 Trích rút thơng tin từ trang web dựa cấu trúc DOM 28 2.2.2 Giới thiệu trích rút thơng tin sử dụng biểu thức quy 35 2.3 ÁP DỤNG PHƢƠNG PHÁP TRÍCH RÚT THƠNG TIN ĐỂ XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH 37 2.3.1 Các chức ứng dụng đọc tin nhanh 38 2.3.2 Các phƣơng pháp xây dựng trang tin cho ứng dụng 39 2.3.3 Sử dụng DOM để trích rút thông tin cho ứng dụng đọc tin nhanh 41 2.3.4 Giới thiệu thuật tốn trích rút thân văn Body Text Extraction 49 2.3.5 Các giải pháp tổng hợp thông tin cho ứng dụng 50 2.4 TỔNG KẾT CHƢƠNG 51 CHƢƠNG PHÁT TRIỂN ỨNG DỤNG ĐỌC TIN NHANH BẰNG CÁCH TRÍCH RÚT THƠNG TIN TỪ CÁC TRANG WEB 52 3.1 CÀI ĐẶT MÔI TRƢỜNG PHẦN CỨNG VÀ PHẦN MỀM 52 3.1.1 Một số hệ thống đọc tin nhanh đƣợc xây dựng 52 3.1.2 Xây dựng ứng dụng chạy độc lập thiết bị di động 54 3.1.3 Lựa chọn công cụ môi trƣờng lập trình android 55 3.1.4 Cài đặt JDK cấu hình biến mơi trƣờng 56 3.1.5 Cài đặt phần mềm Android Studio 57 3.1.6 Cài đặt máy ảo Genymotion 58 3.1.7 Các công cụ phần mềm khác 62 3.2 CÁC CHỨC NĂNG CƠ BẢN CỦA HỆ THỐNG ĐỌC TIN NHANH 62 3.2.1 Chức tạo tài khoản đăng nhập hệ thống 63 3.2.2 Chức xem thông tin tài khoản 63 3.2.3 Chức cập nhật thông tin tài khoản 63 3.2.4 Chức quản lý trang tin tức 64 3.2.5 Chức đọc tin dựa vào trang tin ngƣời dùng lƣu 64 3.2.6 Chức đọc tin dựa việc ngƣời dùng cung cấp RSS 64 3.2.7 Chức đọc tin mặc định hệ thống 65 3.3 PHÂN TÍCH THIẾT KẾ HỆ THỐNG ĐỌC TIN NHANH 65 3.3.1 Xác định tác nhân ca sử dụng 65 3.3.2 Biểu đồ Use Case 67 3.3.3 Sơ đồ hoạt động ứng dụng đọc tin nhanh 70 3.3.4 Mơ hình thực thể liên kết 74 3.3.5 Thiết kế sở liệu ứng dụng 76 3.4 CÀI ĐẶT VÀ THỬ NGHIỆM ỨNG DỤNG 78 3.4.1 Giao diện trang đăng nhập 78 3.4.2 Giao diện trang đăng ký tài khoán 79 3.4.3 Giao diện trang danh mục chức 80 3.4.4 Giao diện trang thông tin ngƣời dùng 81 3.4.5 Giao diện trang chủ 82 3.4.6 Giao diện trang đọc tin RSS 83 3.4.7 Giao diện chức quản lý trang 84 3.4.8 Giao diện chức đọc tin tức tổng hợp 85 3.5 TỔNG KẾT CHƢƠNG 90 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN 91 DANH MỤC TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (bản sao) PHỤ LỤC DANH MỤC CÁC TỪ VIẾT TẮT Tiếng nƣớc ADV Android Virtual Device CSO Computer Science Ontology DAML DARPA Agent Markup Language DOM Document Object Model DTD Document Type Definition FTP File Transfer Protocol GPRS General Packet Radio Service HTML HyperText Markup Language HTTP The Hypertext Transfer Protocol IE Information Extraction IEEE Institute of Electrical and Electronics Engineers ISBN International Standard Book Number KDD Knowledge Discovery in Database LSI Latent Semantic Indexing NISR National Institute of Standards and Technology RDF Resource Description Framework RDFS Resource Description Framework Schema URL Uniform Resource Locator URI Uniform Resource Identifier XHTML Extensible HyperText Markup Language XML eXtensible Markup Language WWW World Wide Web Tiếng Việt CSDL Cơ sở liệu ĐH Đại học STT Số thứ tự DANH MỤC CÁC BẢNG Số hiệu Tên bảng bảng Trang 2.1 Cấu trúc chi tiết trích rút thơng tin từ trang tin tức 39 2.2 Các phƣơng pháp xây dựng trang tin cho ứng dụng 40 3.1 Yêu cầu phần cứng để cài đặt Android Studio chạy máy ảo 56 3.2 Danh sách phần mềm cần cài đặt để lập trình android 57 3.3 Một số phần mềm sử dụng thực nghiệm 62 3.4 Quan hệ tác nhân ca sử dụng 66 3.5 Các thành phần mơ hình Use Case hệ thống 68 DANH MỤC CÁC HÌNH Số hiệu Tên hình hình Trang 1.1 Cấu trúc nội dung văn web 16 1.2 Các bƣớc trình khai phá liệu web 17 2.1 Bài tốn trích rút thơng tin cho liệu khơng có cấu trúc 22 2.2 Ví dụ tính cấu trúc trang web bán cấu trúc 25 2.3 Dạng biểu diễn DOM mã HTML 28 2.4 Ví dụ xây dựng DOM sử dụng hộp ảo 30 2.5 Mô tả mẫu trích tiêu đề nội dung báo 31 2.6 Các bƣớc trích rút thơng tin dựa cấu trúc DOM 42 2.7 Truy vấn nội dung trang web CSS Selector Queries 43 2.8 Cây DOM để trích rút thông tin bảng xếp hạng 44 2.9 Nội dung trang web thethao247 45 2.10 Cấu trúc HTML trang web thethao247 46 2.11 Thơng tin Bảng Xếp Hạng Bóng Đá trang web thethao247 47 2.12 Cấu trúc mã HTML Bảng Xếp Hạng trang web thethao247 47 3.1 Sơ đồ ứng dụng đọc tin nhanh thiết bị di động 53 3.2 Một số ứng dụng đọc tin tức kho ứng dụng Play Store 55 3.3 Cửa sổ tạo biến môi trƣờng 57 3.4 Cửa sổ cài đặt Plugin Android Studio 59 3.5 Cửa sổ đăng nhập Genymotion 60 3.7 Kết chạy ứng dụng máy ảo 61 3.8 Biểu đồ Use Case hệ thống đọc tin nhanh 67 3.9 Sơ đồ hoạt động đăng ký tài khoản 70 3.10 Sơ đồ hoạt động đăng nhập 71 Số hiệu Tên hình hình Trang 3.11 Sơ đồ hoạt động xem thông tin tài khoản 71 3.12 Sơ đồ hoạt động ngƣời dùng quản lý trang lƣu 71 3.13 Sơ đồ hoạt động ngƣời dùng xem tin từ trang lƣu 72 3.14 Sơ đồ hoạt động ngƣời dùng xem tin mặc định hệ thống 72 3.15 Sơ đồ hoạt động ngƣời dùng xem tin cách cung cấp URL 73 3.16 Sơ đồ hoạt động admin quản lý tài khoản ngƣời dùng 73 3.17 Sơ đồ hoạt động admin quản lý viết mặc định 74 3.18 Mơ hình thực thể liên kết hệ thống 74 3.19 Giao diện trang đăng nhập 79 3.20 Giao diện trang đăng ký tài khoản 80 3.21 Giao diện trang danh mục chức 81 3.22 Giao diện trang thông tin ngƣời dùng 82 3.23 Giao diện trang chủ 82 3.24 Giao diện trang chủ chi tiết 83 3.25 Giao diện trang đọc tin RSS 84 3.26 Giao diện chức quản lý trang 84 3.27 Giao diện chức xem tin tức giá vàng 85 3.28 Giao diện chức xem tin dự báo thời tiết 86 3.29 Giao diện chức xem thông tin tỉ giá ngoại tệ 87 3.30 Giao diện chức xem kết xổ số 87 3.31 Giao diện trang đọc tin tức bảng xếp hạng bóng đá 88 3.32 Trang đọc tin tức lịch thi đấu bóng đá 89 3.33 Trang đọc tin tức kết bóng đá 89 86 b Chức xem tin dự báo thời tiết Ứng dụng cho phép hiển thị mẩu tin dự báo thời tiết ngày số tỉnh nƣớc nhƣ Đà Nẵng, Hải Phòng, Nha Trang, Pleiku, Sơn La, TP HCM, Hà Nội, Vinh, Hình 3.28 Giao diện chức xem tin dự báo thời tiết c Chức xem thông tin tỉ giá ngoại tệ Ứng dụng cho phép hiển thị mẩu tin thông tin tỷ giá ngoại tệ Ngƣời dùng xem thơng tin tỉ giá ngoại tệ nhƣ giá mua vào, bán USD, EUR, GBR, Các mẩu tin tức đƣợc trích rút tự động từ trang web, thông tin giá ngoại tệ thay đổi trang web mẩu tin lấy tự động cập nhật theo 87 Hình 3.29 Giao diện chức xem thông tin tỉ giá ngoại tệ d Chức xem kết xổ số Ứng dụng cho phép hiển thị thông tin kết sổ số từ trang web Hình 3.30 Giao diện chức xem kết xổ số 88 e Chức đọc tin tức thể thao Ứng dụng cho phép thị tin tức bóng đá trang tin Ngƣời dùng chọn mục Bảng Xếp Hạng, Lịch Thi Đấu, Kết Quả để xem nội dung tƣơng ứng Giao diện trang tin Bảng Xếp hạng cho phép xem tin Tên Đội, Thứ Hạng, Điểm Hình 3.31 Giao diện trang đọc tin tức bảng xếp hạng bóng đá Giao diện trang Lịch Thi Đấu cho phép xem thông tin lịch thi đấu nhƣ ngày giờ, tên đội thi đấu 89 Hình 3.32 Trang đọc tin tức lịch thi đấu bóng đá Giao diện trang Kết Quả cho phép xem kết trận đấu diễn Hình 3.33 Trang đọc tin tức kết bóng đá 90 3.5 TỔNG KẾT CHƢƠNG Tồn nơi dung chƣơng luận văn trình bày tồn cách xây dựng cài đặt ứng dụng đọc tin dựa phƣơng pháp trích rút thông tin từ trang web tổng hợp thông tin Hệ thống đọc tin nhanh đƣợc xây dựng thiết bị di động android, công cụ hỗ trợ cho việc đọc tin nhanh, đƣa tin tức đến ngƣời đọc cách nhanh chóng, hiệu Tuy thời gian thƣc nhiều hạn chế nên ứng dụng sổ nhƣợc điểm nhƣ nhiều module hệ thống chƣa đƣợc hoàn thiện, giao diện cịn nhiều điểm chƣa hồn thiện chƣa tối ƣu cho ngƣời dùng Nếu có thời gian, luận văn tiến hành hồn thiện số chức cịn lại ứng dụng, chỉnh sửa giao diện phát triển ứng dụng số môi trƣờng thiết bị di động khác nhƣ iOS, BlackBerry 91 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Luận văn tập trung nghiên cứu phƣơng pháp trích rút thơng tin từ trang web nhƣ trình bày khái niệm liên quan đến xử lý ngơn ngữ tự nhiên Trên cở sở đó, luận văn tiến hành sử dụng phƣơng pháp trích rút thơng tin từ trang web dựa phân tích mã HTML cấu trúc DOM, thuật toán Body Text Extraction để xây dựng ứng dụng đọc tin nhanh Luận văn xây dựng thành công hệ thống đọc tin nhanh điện thoại android, góp phần giúp ngƣời cập nhật tin tức cách nhanh chóng hiệu mở hƣớng việc khám phá tiếp cận tri thức Tuy nhiên, trình thực luận văn, khuôn khổ thời gian nhƣ lƣợng kiến thức có hạn, luận văn cịn vấp phải nhiều hạn chế, nhiều module ứng dụng đƣa mức độ ý tƣởng Luận văn tiếp tục hoàn thiện phát triển thời gian tới Từ nhìn nhận trên, tơi mạnh dạn đề xuất hƣớng nghiên cứu phát triển tiếp luận văn tƣơng lai nhƣ sau: Nghiên cứu thử nghiệm nhiều công cụ khác nhƣ ứng dụng desktop, web lọc tin, điện thoại iOS Nâng cấp giao diện tƣơng tác với ngƣời dùng để thuận tiện cho ngƣời sử dụng Mở rộng trích rút thơng tin nhiều lĩnh vực nghiên cứu khác nhƣ nghiên cứu khoa học, địa lý, du lịch Hoàn thành phát triển module ứng dụng nhƣ quên mật khẩu, đổi mật khẩu, tổng hợp thông tin theo chủ đề,… DANH MỤC TÀI LIỆU THAM KHẢO Tiếng Việt [1] Đinh Điền (2006), Xử lý ngôn ngữ tự nhiên, NXB Đại Học Quốc Gia [2] Ngô Văn Khoa (2013), Nghiên Cứu Kỹ Thuật Phân Tích Và Trích Rút Thuộc Tính Tài Liệu Phục Vụ Cho Các Bài Tốn Tìm Kiếm, Luận văn thạc sỹ kỹ thuật, Đại Học Đà Nẵng [3] Nguyễn Tiến Thành (2009), Bài Tốn Trích Rút Thơng Tin Cho Dữ Liệu Bán Cấu Trúc, Luận văn thạc sỹ kỹ thuật, Đại Học Quốc Gia - Đại Học Công Nghệ, Hà Nội [4] Nguyễn Minh Thành (2011), Text Categorization - Phân Loại Văn Bản, Đồ Án Môn Học Xử Lý Ngôn Ngữ Tự Nhiên, Đại Học Quốc Gia TP Hồ Chí Minh, Trƣờng Đại Học Khoa Học Tự Nhiên, Khoa CNTT [5] Phạm Thị Lý (2014), Khai Phá Tập Mục Thường Xun Đóng Trên Dịng Dữ Liệu, Luận văn thạc sỹ khoa học máy tính, Đại học Thái Nguyên, Trƣờng Đại Học CNTT & Truyền Thông [6] Dƣơng Văn Dũng (2013), Nghiên cứu lựa chọn mơ hình giải pháp đảm bảo an tồn thơng tin điện tốn đám mây Việt Nam, Luận văn thạc sỹ truyền liệu mạng máy tính, Học viện Cơng Nghệ Bƣu Chính Viễn Thơng, Hà Nội [7] Nguyễn Huy Kiên (2013), Nghiên cứu khai phá liệu web ứng dụng xây dựng website tích hợp thơng tin, Luận văn thạc sỹ truyền liệu mạng máy tính, Học viện Cơng Nghệ Bƣu Chính Viễn Thơng, Hà Nội [8] Trƣơng Tài Ba (2013), Nghiên cứu xây dựng hệ thống hỏi đáp hướng miền ứng dụng, Luận văn thạc sỹ khoa học máy tính, Học viện Cơng Nghệ Bƣu Chính Viễn Thơng, Hà Nội [9] Nguyễn Thị Trang (2013), Nghiên cứu phương pháp trích rút văn từ trang web ứng dụng, Luận văn thạc sỹ hệ thống thơng tin, Học viện Cơng Nghệ Bƣu Chính Viễn Thông, Hà Nội [10] Phan Thị Hà (2013), Nghiên cứu việc xây dựng, chuẩn hóa khai thác kho liệu từ nguồn internet cho xử lý Tiếng Việt, Luận án tiến sĩ Hệ Thống Thông Tin, Học viện Công Nghệ Bƣu Chính Viễn Thơng, Hà Nội [11] Vũ Ngọc Anh (2006), Nghiên cứu công nghệ khai phá liệu văn áp dụng cho trang tin tức thiết bị cầm tay (PDAS & Smartphones), Luận văn thạc sỹ khoa học, Đại Học Quốc Gia - Đại Học Cơng Nghệ, Hà Nội Tiếng nƣớc ngồi [12] Rajkumar Buyya, Chee Shin Yeo, and Srikumar Venugopal (2008), Market-Oriented Cloud Computing: Vision, Hype, and Reality for Delivering IT Services as Computing Utilities, International Conference on High Performance Computing [13] Jaeyoung Yang, Heekuck Oh, Kyung-Goo Doh and Joongmin Choi A (2002), Knowledge-Based Information Extraction System for Semistructured Labeled Documents, Proceedings of the Third International Conference on Intelligent Data Engineering and Automated Learning [14] Cunningham H.Et Al (2003), Developing language processincomponents with GATE- version 2.1 Trang Web [15] https://vi.wikipedia.org/wiki/Xử_lý_ngôn_ngữ_tự_nhiên [16] https://vi.wikipedia.org/wiki/Nhận_dạng_Ký_tự_Thông_minh [17] http://www.w3c.org [18] https://sites.google.com/site/ngo2uochung/research/webcontent PHỤ LỤC PHỤ LỤC - BẢNG DANH MỤC THUẬT NGỮ TIẾNG ANH STT Tên Chú Thích Information Retrieval Tìm kiếm thơng tin Text Summarization Tóm lƣợc văn Information Extraction Trích rút văn Smart Phone Điện thoại di động thông minh PlayBook Thiết bị đọc sách thông minh Tablet Máy tính cầm tay thơng minh World Wide Web, Cơng nghệ web nói chung Website, Web 3G Third generation technology Là công nghệ truyền thông hệ thứ ba, cho phép truyền liệu thoại liệu thoại (tải liệu, gửi email, tin nhắn nhanh, hình ảnh, ) GPRS Dịch vụ vơ tuyến gói tổng hợp (viết tắt từ tiếng Anh General Packet Radio Service) Là dịch vụ liệu di động dạng gói dành cho ngƣời dùng Hệ thống thơng tin di động tồn cầu (GSM) điện thoại di động IS136 Nó cung cấp liệu tốc độ từ 56 đến 114 kbps 10 Internet Là hệ thống thơng tin tồn cầu đƣợc truy nhập cơng cộng gồm STT Tên Chú Thích mạng máy tính đƣợc liên kết với Hệ thống truyền thơng tin theo kiểu nối chuyển gói liệu (packet switching) dựa giao thức liên mạng đƣợc chuẩn hóa (giao thức IP) Hệ thống bao gồm hàng ngàn mạng máy tính nhỏ doanh nghiệp, viện nghiên cứu trƣờng đại học, ngƣời dùng cá nhân phủ tồn cầu 11 Android Android hệ điều hành điện thoại di động số đầu phát HD, HD Player, Tivi Phát triển Google dựa tảng Linux Trƣớc đây, Android đƣợc phát triển công ty liên hợp Android sau đƣợc Google mua lại vào năm 2005 12 Banner Cửa sổ, biển quảng cáo thƣờng thấy ứng dụng 13 Oracle Oracle tên hãng phần mềm, hệ quản trị sở liệu phổ biến giới Hãng Oracle đời đầu năm 70 kỷ 20 nƣớc Mỹ Khởi đầu với phần mềm quản trị CSDL cách 50 năm STT 14 Tên Google Translation Chú Thích Là cơng cụ dịch thuật trực tuyến đƣợc Google cung cấp Dùng để dịch tự động đoạn ngắn, nguyên trang web sang ngôn ngữ khác 15 Machine Translate Dịch tự động 16 Character Recognition Nhận dạng chữ viết 17 Optical Character Nhận dạng chữ in Recognition - OCR Intelligent Character Nhận dạng chữ viết tay hay ký tự thông Recognition - ICR minh 19 Speech Recognition Nhận dạng tiếng nói 20 Text To Speech Tổng hợp tiếng nói 21 Query Truy vấn 22 Documents Các tài liệu 23 Indexing Lập mục 24 Interrogation Tìm kiếm 25 Text Summarization Tóm tắt văn 26 Text Classification Phân loại văn 27 Spam Mail Thƣ rác 28 Data Mining Khai phá liệu, 29 Web Mining Khai phá liệu web 30 Automatic Inserting Tự động thêm dấu 18 Accents 31 Full Text Văn 32 Hypertext Siêu văn STT Tên Chú Thích 33 Concept Description Mơ tả khái niệm 34 Association Rules Luật kết hợp 35 Classification & Phân lớp dự đoán Prediction 36 Clustering Phân cụm 37 Sequential/Temporal Khai phá chuỗi Patterns 38 TF-IDFs TF-IDFs (term frequency - inverse document frequency) phƣơng pháp phổ biến để đánh giá xếp hạng từ tài liệu 39 Web Content Mining Khai phá nội dung trang web 40 Web Page Content Nội dung trang web 41 Search Engine Result Kết máy tìm kiếm 42 Web Structure Mining Khai phá cấu trúc web 43 Web Usage/Log Mining Khai phá sử dụng web 44 General Access Pattern Một hai xu hƣớng khai phá sử Tracking dụng web Phân tích xu hƣớng cá nhân để chuyên biệt hóa website cho lớp đối tƣợng ngƣời dùng 45 Customized Usage Một hai xu hƣớng khai phá sử Tracking dụng web Phân tích hồ sơ web để biết đƣợc mẫu xu hƣớng truy cập 46 Weblog Entry Bản ghi đầu vào 48 Open Source Software Phần mềm mã nguồn mở STT Tên Chú Thích 49 Open Standard Các tiêu chuẩn mở 56 Tag Thẻ ngôn ngữ HTML, XML 58 Resource Descripble Là nhóm đặc tả tổ Framword (RDF) chức World Wide Web Consortium (W3C) có nguồn gốc đƣợc thiết kế nhƣ mơ hình liệu siêu liên kết RDF đƣợc sử dụng nhƣ phƣơng thức chung cho mơ tả khái niệm mơ hình hóa thông tin đƣợc diễn dịch tài nguyên web, sử dụng định dạng cú pháp khác 59 Graphic Đồ họa 60 Hypertext Document Tài liệu siêu văn 61 Hypertext Link Liên kết siêu văn 62 Font Phông chữ 63 Concept Description Mô tả khái niệm 64 Association Rules Luật kết hợp 65 Classification & Phân lớp dự đoán Prediction 66 Clustering Phân cụm 67 Sequential/Temporal Khai phá chuỗi Patterns 68 Vector Véc tơ 69 Text mining Khai phá liệu dạng văn STT Tên Chú Thích 71 Web Usage/Log Mining Khai phá sử dụng Web 74 URI Liên kết URI 75 Service Dịch vụ 76 IEEE Tổ chức Xã hội máy tính IEEE 77 Google AppEngine Dịch vụ cung cấp ứng dụng kinh doanh trực tuyến thơng thƣờng, truy nhập từ trình duyệt web, cịn phần mềm liệu đƣợc lƣu trữ máy chủ 78 Open Standard Các tiêu chuẩn mở 79 Open Source Software Phần mềm mã nguồn mở 80 KDD Hội nghị KDD 81 Entity Recognition Trích rút thực thể 82 GATE Website http://gate.ac.uk/ie/ 83 Web 2.0 Công nghệ Web 2.0 84 Founder Ngƣời thành lập 85 Attribute Tầng thuộc tính 86 Record Tầng record 87 Attribute Thuộc tính 88 Visual Cue Dấu hiệu trực quan 89 Node Nút 90 Regular Expression Biểu thức quy (Regexp, Regex, Regxp) 91 Deterministic Finite Automation - DFA Một xác định giới hạn tự động STT Tên Chú Thích 92 Backtracking Cơ chế quay lui 93 NIST (National Institute Viện Tiêu chuẩn Kỹ thuật quốc gia of Standards and (Hoa Kỳ) Technology) Từ đơn vị mang nghĩa độc lập; đƣợc 94 Word cấu tạo (các) hình vị; có chức định danh Ví dụ: I-am-reading-my– books 95 Ngữ, gồm hai hay nhiều từ có quan hệ Phrase ngữ pháp hay ngữ nghĩa với Ví dụ nhƣ thƣ, mạng máy tính, computer system,… 96 Câu gồm từ/ngữ có quan hệ ngữ Sentence pháp hay ngữ nghĩa với có chức thơng báo Ví dụ: I am reading my books Văn bản, hệ thống câu đƣợc liên kết 97 Text với mặt hình thức, ngữ pháp, ngữ nghĩa ngữ dụng 98 Grammar Văn phạm 99 Shallow parsing Phân tích sơ 100 101 Fully parsing Text to speech Phân tích đầy đủ, phân tích tầng ngữ nghĩa Tổng hợp tiếng nói ... Cứu, Xây Dựng Ứng Dụng Đọc Tin Nhanh Bằng Cách Trích Rút Và Tổng Hợp Thông Tin Từ Các Trang Web? ?? Luận văn tập trung nghiên cứu phƣơng pháp trích rút tổng hợp thông tin từ trang web Trên sở xây dựng. .. pháp trích rút thông tin cho ứng dụng đọc tin nhanh Chương 3, “Phát triển ứng dụng đọc tin nhanh cách trích rút thông tin từ trang web? ?? tập trung nghiên cứu phân tích xây dựng kiến trúc tổng. .. GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG NGUYỄN THỊ KHUYẾN NGHIÊN CỨU, XÂY DỰNG ỨNG DỤNG ĐỌC TIN NHANH BẰNG CÁCH TRÍCH RÚT VÀ TỔNG HỢP THƠNG TIN TỪ CÁC TRANG WEB Chuyên ngành: Hệ thống thông tin Mã

Ngày đăng: 17/05/2021, 00:25

Tài liệu cùng người dùng

Tài liệu liên quan