Hiện nay ở nước ta báo điện tử phát triển khá mạnh mẽ bên cạnh đó các Bộ ngành trung ương và các tỉnh thành trên cả nước đều có Cổng thông tin điện tử để cung cấp thông tin cho tổ chức và người dân một cách nhanh chóng kịp thời Tuy nhiên với sự phát triển ấy đã làm cho công tác quản lý Nhà nước về báo điện tử gặp nhiều khó khăn đối với cơ quan quản lý báo chí tại địa phương Xuất phát từ yêu cầu trên đề tài Xây dựng ứng dụng tự động trích rút thông tin tỉnh Quảng Ngãi thực hiện việc trích rút thông tin tự động trên các trang thông tin điện tử có bài viết liên quan về tỉnh Quảng Ngãi nhằm cung cấp thông tin đến các cấp chính quyền địa phương để nắm bắt thông tin và có hướng giải quyết kịp thời những vấn đề nóng Đề tài đã tập trung nghiên cứu lý thuyết về khai phá dữ liệu Web các giải pháp kỹ thuật trích rút thông tin tự động từ Web từ đó xây dựng ứng dụng và thử nghiệm hệ thống Kết quả thử nghiệm cho thấy Hệ thống đã trích rút được các thông tin có liên quan về tỉnh Quảng Ngãi trên báo điện tử một cách chính xác khi cấu hình các kênh tin trong hệ thống Với kết quả đạt được trong thời gian đến nếu có thời gian và điều kiện sẽ tiếp tục phát triển hoàn thiện để đưa ứng dụng vào sử dụng tại đơn vị
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - TRẦN DUY LINH XÂY DỰNG ỨNG DỤNG TỰ ĐỘNG TRÍCH RÚT THÔNG TIN TỈNH QUẢNG NGÃI Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số : 60.48.01.01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS.Nguyễn Thanh Bình Đà Nẵng - Năm 2017 LỜI CAM ĐOAN Tôi xin cam đoan: - Những nội dung luận văn thực hướng dẫn trực tiếp thầy PGS.TS.Nguyễn Thanh Bình - Đây cơng trình nghiên cứu riêng tơi Các số liệu, kết nêu luận văn trung thực Tác giả Trần Duy Linh i MỤC LỤC TÓM TẮT LUẬN VĂN DANH MỤC CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ MỞ ĐẦU Chương – CƠ SỞ LÝ THUYẾT 1.1 Tổng quan khai phá liệu 1.1.1 Giới thiệu 1.1.2 Các dạng liệu 1.1.3 Các tốn thơng dụng khai phá liệu 1.1.4 Ứng dụng khai phá liệu 1.2 Khai phá liệu Web 1.2.1 Khái niệm 1.2.2 Đặc điểm khai phá Web 10 1.2.3 Phân loại khai phá Web 11 1.2.4 Hướng khai phá Web luận văn 12 1.3 Thu thập thông tin Web 12 1.3.1 Giới thiệu tổng quan thu thập thông tin Web 12 1.3.2 Q trình thu thập thơng tin Web 12 1.3.3 Các kỹ thuật Crawling Indexing 14 1.4 Cơng cụ hỗ trợ trích rút thơng tin 16 1.4.1 Tổng quan XPath 16 1.4.2 Cú pháp ngữ nghĩa 17 1.5 Khảo sát số ứng dụng tổng hợp tin tự động 22 1.5.1 news.skydoor.net 22 1.5.2 news.google.com.vn 23 1.5.3 www.baomoi.com 23 1.6 Kết chương 24 ii Chương - GIẢI PHÁP HỆ THỐNG TRÍCH RÚT THƠNG TIN TỰ ĐỘNG 25 2.1 Đặt vấn đề 25 2.2 Mơ tả tốn 25 2.3 Giải pháp hệ thống trích rút thơng tin tự động 26 2.4 Thành phần tự động lấy liệu 27 2.5 Thành phần bóc tách liệu 32 2.5.1 Tổng quan xử lý, bóc tách nội dung trang web 32 2.5.2 Các phương pháp xử lý, bóc tách nội dung trang web 33 2.5.3 Đề xuất phương pháp bóc tách liệu luận văn 38 2.6 Thiết kế chức quản lý 41 2.6.1 Chức quản trị, xuất thông tin 41 2.6.2 Chức người dùng 43 2.7 Kết chương 44 Chương – XÂY DỰNG VÀ THỬ NGHIỆM HỆ THỐNG 45 3.1 Thiết kế sở liệu 45 3.1.1 Mơ hình quan hệ sở liệu 45 3.1.2 Thiết kế sở liệu 46 3.2 Công cụ mơi trường lập trình 49 3.3 Thử nghiệm hệ thống 49 3.3.1 Kết từ trang baomoi.com 51 3.3.2 Kết từ trang news.skydoor.net/ 54 3.4 Đánh giá kết 56 3.4.1 Số liệu thống kê kết thử nghiệm 56 3.4.2 Đánh giá kết thử nghiệm hệ thống 56 3.5 Kết chương 56 KẾT LUẬN DANH MỤC TÀI LIỆU THAM KHẢO QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN (bản sao) PHỤ LỤC iii XÂY DỰNG ỨNG DỤNG TỰ ĐỘNG TRÍCH RÚT THƠNG TIN TỈNH QUẢNG NGÃI Học viên: Trần Duy Linh Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 Khóa: 31 Trường Đại học Bách khoa - ĐHĐN Tóm tắt - Hiện nay, nước ta báo điện tử phát triển mạnh mẽ; bên cạnh Bộ, ngành trung ương tỉnh thành nước có Cổng thơng tin điện tử để cung cấp thông tin cho tổ chức người dân cách nhanh chóng, kịp thời Tuy nhiên với phát triển làm cho công tác quản lý Nhà nước báo điện tử gặp nhiều khó khăn quan quản lý báo chí địa phương - Xuất phát từ yêu cầu trên, đề tài: “Xây dựng ứng dụng tự động trích rút thơng tin tỉnh Quảng Ngãi” thực việc trích rút thông tin tự động trang thông tin điện tử có viết liên quan tỉnh Quảng Ngãi, nhằm cung cấp thơng tin đến cấp quyền địa phương để nắm bắt thơng tin có hướng giải kịp thời vấn đề nóng Đề tài tập trung nghiên cứu lý thuyết khai phá liệu Web, giải pháp, kỹ thuật trích rút thơng tin tự động từ Web từ xây dựng ứng dụng thử nghiệm hệ thống - Kết thử nghiệm cho thấy Hệ thống trích rút thơng tin có liên quan tỉnh Quảng Ngãi báo điện tử cách xác cấu hình kênh tin hệ thống Với kết đạt được, thời gian đến có thời gian điều kiện tiếp tục phát triển hoàn thiện để đưa ứng dụng vào sử dụng đơn vị Từ khóa - tự động trích rút thơng tin; khai thác thơng tin tự động; trích rút trang web; trích rút thơng tin Quảng Ngãi BUILDING AN APPLICATION AUTOMATICALLY EXTRACTING INFORMATION IN QUANG NGAI PROVINCE Abstract - Nowsaday, e-journals have been developing quite significantly in our home country; in addition, ministries, central agencies and provinces across the country all have Web portals to quickly provide accurate information to organizations and citizens However, that rapiddevelopment has also confronted local journalism management agencies with many difficulties in ensuring that online newspapers are complying with the state legislations on journalism - Due to that fact, the project of "building an application automaticallyextracting information in Quang Ngai Province" is aimed atautomatically extracting information from various websites with all online articles related to Quang Ngai Province in order to keepthe local authorities updated to the latest issues and as a result, they will be able to provide quick responses or solutions if needed The projecthas been based on the theory of Web data mining, solutions and techniques to automaticallyextract information from Websitesso as to develop and test the application - The test results show that the system has successfully extracted information from diffirentonline newspapers when configuring the news channels in the system Due to the above results, if time and conditions are met, it is hoped that the application will continue to be developed and then, appliedin the next time Key words - Automatically extract information; Automatical Information Extraction, Extract website; Extract information Quang Ngai iv DANH MỤC CÁC CHỮ VIẾT TẮT STT Chữ viết tắt Giải thích DOM HTML URL WWW World Wide Web: Hệ thống trang web Internet CSDL Cơ sở liệu RSS XML XHTML Document Object Model: Mơ hình đối tượng tài liệu HyperText Markup Language: Ngôn ngữ đánh dấu siêu văn Uniform Resource Locator: Tham chiếu đến (địa chỉ) tài nguyên Internet Really Simple Syndication: tiêu chuẩn định dạng tài liệu dựa XML eXtensible Markup Language: gọi ngôn ngữ đánh dấu mở rộng Extensible HyperText Markup Language: Ngôn ngữ đánh dấu siêu văn mở rộng v DANH MỤC CÁC BẢNG Số hiệu bảng Tên bảng Trang 1.1 Một số cú pháp XPath 19 3.1 Bảng liệu tin tức 46 3.2 Bảng liệu chuyên mục (nhóm tin) 46 3.3 Bảng liệu nguồn tin 47 3.4 Bảng liệu người dùng 47 3.5 Bảng liệu thành viên 48 3.6 Bảng liệu vai trò 48 3.7 Bảng liệu phân quyền 49 3.8 Bảng liệu thứ tự báo 49 3.9 Cấu hình yêu cầu máy thử nghiệm 50 3.10 3.11 3.12 Kết trích rút thơng tin trang baomoi.com Kết trích rút thông tin trang news.skydoor.net Kết thử nghiệm hệ thống website khác 52 54 56 vi DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ Số hiệu hình vẽ Tên hình vẽ Trang 1.1 Phân loại khai phá Web 11 1.2 Các bước thu thập thông tin trang web 14 2.1 Mơ hình hệ thống trích rút thơng tin tự động 27 2.2 Thuật tốn thu thập liệu từ URL cho trước 28 2.3 Thuật tốn tìm kiếm ưu tiên theo chiều rộng 30 2.4 Thuật tốn tìm kiếm ưu tiên theo chiều sâu 31 2.5 2.6 2.7 Nội dung thông tin cần xử lý phục vụ mục đích tốn Kết loại bỏ thẻ HTML Kết bóc tách nội dung cách so sánh khung mẫu 33 34 36 2.8 Cây DOM đơn giản minh họa cho đoạn mã HTML 39 2.9 Thuật tốn bóc tách liệu 40 2.10 Thuật tốn quản trị, xuất thơng tin 42 2.11 Thuật tốn chức người dùng 43 3.1 Mơ hình quan hệ sở liệu 45 MỞ ĐẦU Lý lựa chọn đề tài Hiện nay, nước ta báo điện tử phát triển mạnh mẽ, Bộ, ngành trung ương tỉnh thành nước có Cổng thơng tin điện tử để cung cấp thông tin cho tổ chức người dân cách nhanh chóng, kịp thời Báo điện tử đời sau loại hình báo chí khác nhanh chóng phát triển số lượng chất lượng; nhiên phát triển làm cho cơng tác quản lý Nhà nước báo chí gặp nhiều khó khăn Ví dụ nhiều báo điện tử chạy theo xu hướng giật gân, câu khách, xa rời tơn chỉ, mục đích, đối tượng, thơng tin thiếu chuẩn xác Báo điện tử giúp cho người khắp giới tiếp cận tin tức nhanh chóng khơng phụ thuộc vào khơng gian thời gian Chính vậy, để cơng tác quản lý Nhà nước báo chí tỉnh Quảng Ngãi hiệu quả, kịp thời chấn chỉnh sai phạm, đồng thời cung cấp nhanh thông tin nội dung phản ánh tổ chức, cá nhân văn hóa, kinh tế, trị đến cấp quyền địa phương cần xây dựng ứng dụng thu thập thông tin tự động Web phản ánh tỉnh Quảng Ngãi Công tác quản lý báo chí địa phương Bộ Thơng tin Truyền thông, UBND tỉnh giao Sở Thông tin Truyền thông thực Định kỳ tháng Sở Thông tin Truyền thông tổ chức họp báo lần tháng Chủ tịch UBND tỉnh tổ chức họp báo lần để đánh giá tình hình báo chí phản ánh tỉnh Quảng Ngãi sở đạo cấp, ngành rà soát trả lời giải sở thơng tin báo chí đề cập Sở Thông tin Truyền thông tổng hợp hình thức tìm kiếm đọc báo chọn lọc nội dung mà báo chí phản ánh, đề nghị đến cấp quyền tỉnh, từ báo cáo UBND tỉnh đạo quan liên quan giải Để hỗ trợ công tác tự động thu thập, trích rút thơng tin Web phục vụ nhu cầu đồng ý hướng dẫn Thầy PGS.TS Nguyễn Thanh Bình tơi chọn đề tài: "Xây dựng ứng dụng tự động trích rút thơng tin tỉnh Quảng Ngãi" báo điện tử viết tỉnh Quảng Ngãi Mục đích nghiên cứu Nghiên cứu nắm vững vận dụng tốt kỹ thuật khai phá liệu Web, nghiên cứu giải pháp trích rút thơng tin từ Web, từ xây dựng ứng dụng trích rút thơng tin tự động báo điện tử viết tỉnh Quảng Ngãi phục vụ công tác quản lý báo chí địa phương Đối tượng nghiên cứu Trong khuôn khổ luận văn thuộc loại nghiên cứu ứng dụng, giới hạn nghiên cứu vấn đề sau: - Nghiên cứu kỹ thuật khai phá liệu Web - Nghiên cứu giải pháp, kỹ thuật trích rút thơng tin tự động từ Web - Tìm hiểu cơng tác quản lý báo chí theo Luật báo chí - Tìm hiểu ngơn ngữ lập trình Web sở liệu Phương pháp nghiên cứu đề tài Về lý thuyết, tập trung tìm hiểu lý thuyết khai phá liệu Web; tìm hiểu chế hoạt động hệ thống tìm kiếm, thu thập thơng tin; ứng dụng công cụ để xây dựng hệ thống thu thập thông tin như: RSS, Xpath Về nghiên cứu thực nghiệm, dựa lý thuyết nghiên cứu, tiến hành xây dựng hệ thống thu thập thông tin từ kênh tin cấu hình trước; thử nghiệm máy tính có kết nối Internet để kiểm thử số mơ đun Ý nghĩa khoa học thực tiễn đề tài - Ý nghĩa khoa học: + Nắm vững vận dụng tốt kỹ thuật khai phá liệu Web + Nắm vững vận dụng tốt giải pháp trích rút thơng tin tự động + Ứng dụng kết nghiên cứu vào thực tiễn - Ý nghĩa thực tiễn: Ứng dụng kết nghiên cứu vào việc hỗ trợ quản lý thơng tin báo chí địa phương Ngồi ra, hệ thống cịn cung cấp thơng tin tổng hợp nhanh chóng nội dung phản ánh văn hóa, kinh tế, trị địa bàn tỉnh Quảng Ngãi đến cấp lãnh đạo tỉnh Cấu trúc luận văn Luận văn tổ chức thành chương chính: - Chương 1: Trình bày nghiên cứu lý thuyết khai phá liệu, thu thập thơng tin từ Internet - Chương 2: Trình bày giải pháp trích rút thơng tin - Chương 3: Trình bày cài đặt thử nghiệm chương trình i Trích yếu nội dung: Quảng Ngãi: Học sinh xúc với ảnh kỉ yếu xấu chụp điện thoại ================================= Tiêu đề: Don: Món ngon Quảng Ngãi đậm đà tình người Thời gian đăng: ngày trước Thuộc báo: Vietnamnet Trích yếu nội dung: Don: Món ngon Quảng Ngãi đậm đà tình người ================================= Tiêu đề: Mâu thuẫn bàn nhậu, đâm bạn tử vong Thời gian đăng: ngày trước Thuộc báo: Pháp luật Trích yếu nội dung: Mâu thuẫn bàn nhậu, đâm bạn tử vong ================================= Tiêu đề: Những lòng vàng Thời gian đăng: ngày trước Thuộc báo: Thanh niên Trích yếu nội dung: Những lòng vàng ================================= ... tài: ? ?Xây dựng ứng dụng tự động trích rút thơng tin tỉnh Quảng Ngãi? ?? thực việc trích rút thơng tin tự động trang thơng tin điện tử có viết liên quan tỉnh Quảng Ngãi, nhằm cung cấp thông tin đến... ứng dụng vào sử dụng đơn vị Từ khóa - tự động trích rút thơng tin; khai thác thơng tin tự động; trích rút trang web; trích rút thơng tin Quảng Ngãi BUILDING AN APPLICATION AUTOMATICALLY EXTRACTING... Thanh Bình tơi chọn đề tài: "Xây dựng ứng dụng tự động trích rút thông tin tỉnh Quảng Ngãi" báo điện tử viết tỉnh Quảng Ngãi Mục đích nghiên cứu Nghiên cứu nắm vững vận dụng tốt kỹ thuật khai phá