1. Trang chủ
  2. » Luận Văn - Báo Cáo

XÂY DỰNG ỨNG DỤNG THU THẬP các bài VIẾT từ các TRANG báo điện tử CHÍNH THỐNG

72 95 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 72
Dung lượng 7,52 MB

Nội dung

ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN  LÊ PHƯỚC VINH XÂY DỰNG ỨNG DỤNG THU THẬP CÁC BÀI VIẾT TỪ CÁC TRANG BÁO ĐIỆN TỬ CHÍNH THỐNG KHĨA LUẬN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH MÃ SỐ: 60.48.01.01 NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS, TS ĐỖ VĂN NHƠN TP HỒ CHÍ MINH - NĂM 2017 MỤC LỤC LỜI CAM ĐOAN .4 LỜI CẢM ƠN .5 DANH MỤC CÁC TỪ VIẾT TẮT DANH MỤC BẢNG DANH MỤC HÌNH MỞ ĐẦU .9 CHƯƠNG TỔNG QUAN VỀ ĐỀ TÀI 11 1.1 Thực trạng nhu cầu xây dựng ứng dụng hỗ trợ thu thập, phục vụ tìm kiếm thơng tin internet 11 1.2 Vấn đề thu thập tin tức tự động 12 1.3 Định nghĩa trang báo điện tử thống .13 1.4 Mục tiêu giới hạn đề tài 15 CHƯƠNG MƠ HÌNH CỦA TRANG BÁO ĐIỆN TỬ VÀ NGHIÊN CỨU CÁC KỸ THUẬT THU THẬP TỰ ĐỘNG TẤT CẢ CÁC BÀI VIẾT TỪ WEBSITE 18 2.1 Mô hình trang báo điện tử 18 2.1.1 Một số khái niệm sở 18 2.1.2 Mô tả cấu trúc trang báo điện tử .20 2.1.2.1 Tập thuộc tính trang báo điện tử Attr 20 2.1.2.2 Trang chủ H .21 2.1.2.3 Tập webpage lĩnh vực F 21 2.1.2.4 Tập viết thu thập Article 21 2.1.2.5 Tập kiểu cấu trúc trang lĩnh vực FStr 21 2.1.2.6 Tập kiểu cấu trúc trang viết AStr 22 2.1.2.7 Tập quan hệ nội Rels 22 2.2 Các kỹ thuật thu thập tự động tất viết từ website 22 2.2.1 Đối với website chưa biết trước cấu trúc .23 2.2.2 Đối với website biết cấu trúc 25 2.2.3 Các kỹ thuật thu thập văn chứa nội dung từ link HTML .27 2.2.3.1 Tiếp cận theo hướng loại bỏ tag HTML 28 2.2.3.2 Tiếp cận theo hướng rút trích Text node 29 2.2.3.3 Tiếp cận theo hướng so sánh khung mẫu .30 2.2.3.4 Tiếp cận theo hướng xử lý ngôn ngữ tự nhiên .31 2.2.3.5 Tiếp cận theo hướng phân tích mã HTML kết hợp xử lý ngơn ngữ tự nhiên .32 2.2.3.6 Tiếp cận theo hướng phân đoạn web 34 2.2.3.7 Thuật toán BTE - Body Text Extraction 36 CHƯƠNG THIẾT KẾ MÔ HÌNH TỔ CHỨC LƯU TRỮ VÀ THUẬT GIẢI THU THẬP CÁC BÀI VIẾT TỪ CÁC TRANG BÁO ĐIỆN TỬ 39 3.1 Mơ hình tổ chức lưu trữ trang báo viết thu thập .39 3.1.1 Phân tích mơ hình liệu .39 3.1.2 Mơ hình quan hệ bảng liệu 40 3.1.3 Các bảng liệu: gồm bảng liệu .40 3.2 Các vấn đề thuật giải 42 3.2.1 Một số vấn đề thực thu thập thông tin viết từ trang báo giải pháp giải vấn đề 42 3.2.2 điện tử Q trình thu thập thơng tin viết từ trang báo 42 3.2.3 Lưu trữ thông tin trang báo điện tử ta cần thu thập .43 3.2.4 Thu thập lưu trữ thông tin trang lĩnh vực thuộc trang báo điện tử 43 3.2.5 Thu thập thông tin viết đăng tải trang lĩnh vực trang báo điện tử .44 CHƯƠNG CÀI ĐẶT THỬ NGHIỆM 47 4.1 Phân tích thiết kế hệ thống 47 4.1.1 Phân tích chức hệ thống 47 4.1.2 Thiết kế hệ thống 49 4.1.2.1 Cấu trúc tổng quát hệ thống thiết kế sau: .49 4.1.2.2 Một số module chương trình 50 4.1.2.3 Thuật giải số module chương trình 50 4.2 Cài đặt chương trình 53 4.2.1 Các công cụ, hệ quản trị sở liệu sử dụng chương trình demo .53 4.2.2 Giao diện hướng dẫn sử dụng chương trình demo 53 4.3 Chạy thử đánh giá kết 57 4.3.1 Đánh giá chức thu thập viết 57 4.3.2 Kết chạy thử chức tìm kiếm viết 59 4.3.3 Kết chạy thử chức thống kê, lọc viết 61 CHƯƠNG KẾT LUẬN .67 5.1 Kết khóa luận .67 5.1.1 Đóng góp mặt lý thuyết 67 5.1.2 Đóng góp mặt ứng dụng 67 5.1.3 Đánh giá chung 68 5.2 Hạn chế hướng phát triển 69 TÀI LIỆU THAM KHẢO 70 LỜI CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu thân Các số liệu, kết trình bày khóa luận trung thực Những tư liệu sử dụng khóa luận có nguồn gốc trích dẫn rõ ràng, đầy đủ TP Hồ Chí Minh, ngày 08 tháng 02 năm 2017 Lê Phước Vinh LỜI CẢM ƠN Trước tiên, xin chân thành cảm ơn quý thầy, cô Trường Đại học Công nghệ Thông tin - ĐHQG Thành phố Hồ Chí Minh tận tình dạy bảo cung cấp nhiều kiến thức bổ ích thời gian học tập Trường, tạo điều kiện cho em thực đề tài Kính chúc quý thầy, cô dồi sức khoẻ thành công lĩnh vực Đặc biệt, xin bày tỏ lòng biết ơn chân thành sâu sắc đến Thầy PGS TS Đỗ Văn Nhơn, người Thầy tận tâm, nhiệt tình hướng dẫn bảo suốt trình thực đề tài Sự hướng dẫn nhiệt tình Thầy giúp em hồn thành tốt đề tài Em xin kính chúc Thầy gia đình ln mạnh khỏe, hạnh phúc thành cơng Tơi xin gửi tất lời cảm ơn kính trọng đến ông bà, cha mẹ người thân nuôi dạy, bên cạnh động viên ủng hộ đường học tập mà lựa chọn, người cho niềm tin nghị lực vượt qua khó khăn q trình học tập làm việc Xin cảm ơn tất bạn bè, đồng nghiệp động viên, giúp đỡ hỗ trợ tơi nhiều q trình thực đề tài, đóng góp cho tơi nhiều ý kiến q báu Từ đó, giúp tơi hồn thiện cho đề tài Một lần xin chân thành cảm ơn! TP Hồ Chí Minh, ngày 08 tháng 02 năm 2017 Lê Phước Vinh DANH MỤC CÁC TỪ VIẾT TẮT STT Ý nghĩa Từ viết tắt CSDL Cơ sở liệu RSS Really Simple Syndication SQL Structured Query Language URL Uniform Resource Locator DANH MỤC BẢNG Bảng 2.1 Bảng mô tả cấu trúc trang RSS 26 Bảng 3.1 Bảng mô tả trường liệu lưu trữ thông tin trang báo 40 Bảng 3.2 Bảng mô tả trường liệu lưu trữ thông tin lĩnh vực thuộc trang báo 40 Bảng 3.3 Bảng mô tả trường liệu lưu trữ thông tin viết 41 Bảng 4.1 Bảng mô tả module chức chương trình 50 Bảng 4.2 Bảng thống kê kết thu thập link URL từ trang báo 58 Bảng 4.3 Bảng thống kê kết thu thập viết từ link URL định kỳ theo ngày 58 Bảng 4.4 Bảng thống kê kết chạy thử chức tìm kiếm với từ khóa “tuyển sinh” 59 Bảng 4.5 Bảng thống kê kết chạy thử chức tìm kiếm với từ khóa “iphone 7” 60 Bảng 4.6 Bảng thống kê kết chạy thử chức thống kê theo lĩnh vực thuộc trang báo Tuổi trẻ 61 Bảng 4.7 Bảng thống kê kết chạy thử chức thống kê theo lĩnh vực thuộc trang báo VN Express 62 Bảng 4.8 Bảng thống kê kết chạy thử chức thống kê theo lĩnh vực thuộc trang báo Việt Nam Net 63 Bảng 4.9 Bảng thống kê kết chạy thử chức lọc viết theo lĩnh vực thuộc trang báo 65 DANH MỤC HÌNH Hình 2.1 Quy trình xử lý Crawler 24 Hình 2.2 Kiến trúc tổng quát RSS 26 Hình 2.3 Tách nội dung web cách loại bỏ tag HTML 28 Hình 2.4 Hệ thống bóc tách nội dung VietSpider 29 Hình 2.5 Mơ hình bóc tách nội dung so sánh khung mẫu 30 Hình 2.6 Mơ tả bóc tách nội dung kỹ thuật xử lý ngơn ngữ tự nhiên 32 Hình 2.7 Mơ tả node chứa nội dung văn 33 Hình 2.8 Mơ hình thuật tốn VIPS, phân đoạn web dựa cấu trúc DOM 34 Hình 2.9 Mô tả cách phân đoạn khối giải thuật VIPS 36 Hình 3.1 Mơ hình quan hệ sở liệu thu thập viết 38 Hình 4.1 Cấu trúc tổng qt mơ hình hệ thống 49 Hình 4.2 Giao diện form thu thập tin tức 54 Hình 4.3 Giao diện form tìm kiếm viết 55 Hình 4.4 Giao diện form thống kê, lọc viết 56 Hình 4.5 Giao diện form quản lý sở liệu viết 57 MỞ ĐẦU Vào năm 1990, World Wide Web đời nhanh chóng giới thiệu đến giới nhìn lạ cổng thơng tin điện tử, nơi người xuất thứ dạng điện tử tìm kiếm thơng tin cần thiết Tuy nhiên, internet phát triển vũ bảo với số lượng khổng lồ liệu kiến người dùng gặp khó khăn việc truy xuất, tìm kiếm thơng tin cần thiết Vì vậy, hệ thống tìm kiếm thơng tin internet đời hay gọi máy tìm kiếm Nó đem lại tiện lợi cho việc tìm kiếm thơng tin internet Thế nhưng, thông tin đa dạng, phong phú liên quan đến nhiều đối tượng khác Điều tạo nên nhập nhằng cho người dùng muốn tìm thơng tin hay tài liệu cần thiết Vậy nhu cầu thu thập thông tin, liệu từ internet người dùng vô lớn Ở Việt Nam, với bùng nổ thông tin: trang mạng xã hội, trang báo điện tử, trang thông tin, … ngày phát triển Lượng thông tin internet cập nhật liên tục, liệu lớn nguồn gốc phức tạp Các nhà trị, hay Lãnh đạo quan, doanh nghiệp có nhu cầu nắm bắt thơng tin liên quan đến lĩnh vực mà quản lý, hay tin tức trị - xã hội cách nhanh chống, xác, liên tục từ trang báo thống Việt Nam Vì thế, cần thiết phải có cơng cụ thật hiệu để thu thập tin tức thống, xếp, tổ chức, lưu trữ cách hiệu nhằm phục vụ cho công tác tra cứu, điều tra, thống kê số liệu, thông tin, … cấp Lãnh đạo để có điều chỉnh q trình đạo nội dung mang tính chiến lượt,… phục vụ cho công tác điều tra thị trường công ty, doanh nghiệp,… Xuất phát từ nhu cầu thực tế, đề tài tìm hiểu nghiên cứu đề xuất giải pháp cho việc thu thập tổ chức lưu trữ thông tin, nội dung viết trang báo điện tử Bước đầu cho thấy giải pháp đề xuất khả quan có khả ứng dụng tốt Khóa luận có kết cấu gồm chương: Chương Tổng quan đề tài Nội dung chương thực khảo sát tìm hiểu thực trạng tờ báo điện tử thống nhu cầu cần thiết thu Form quản lý sở liệu viết có giao diện sau: Hình 4.5 Giao diện form quản lý sở liệu viết Các thao tác thực chức năng: ▪ Thêm mới: ta nhập thơng tin cần thêm vào dòng cuối (dòng trống) datagirdview, sau chọn “Lưu” Hệ thống thêm thông tin vào sở liệu hiển thị lại datagirdview ▪ Sửa: ta cập nhật thông tin cần sửa chữa dòng cần cập nhật datagirdview, sau chọn “Sửa” Hệ thống cập nhật thông tin vào sở liệu hiển thị lại datagirdview ▪ Xóa: click chọn dòng cần xóa datagirdview, sau chọn “Xóa” Hệ thống xóa thông tin liệu sở liệu hiển thị lại datagirdview 4.3 Chạy thử đánh giá kết 4.3.1 Đánh giá chức thu thập viết Đánh giá chức thu thập viết tiêu chí là: tỷ lệ link URL thu thập tổng số link URL thực tế trang báo, tính đắn thành phần viết thu thập từ link URL thời gian thực việc thu thập viết 57 Kết thu thập viết từ trang báo: VN Express, Việt Nam Net Tuổi trẻ vào ngày 10/9/2016, cụ thể sau: Bảng 4.2 Bảng thống kê kết thu thập link URL từ trang báo Tổng số URL thực Tổng số Tỉ lệ thu Thời gian thu thập chương URL thực tế thập thu thập trình demo (A) (B) (A/B) viết VN Express 1.055 1.134 0.93 10’45 Việt Nam Net 2.423 2.528 0.96 18’00 Tuổi trẻ 1.477 1.495 0.93 27’36 4.955 5.257 0.94 56’21 Trang báo Tổng cộng/ Trung bình Đánh giá hiệu chức thu thập viết từ link URL đánh giá qua hai thông số độ xác độ bao phủ, cụ thể sau: Thử nghiệm với tập liệu 03 trang báo vnexpress.net, vietnamnet.vn, tuoitre.vn Tiến hành thu thập vòng 10 ngày liên tiếp 03 trang báo điện tử Độ xác độ bao phủ ngày chức thu thập viết định kỳ theo ngày tính theo cơng thức sau: PrecisionNewsSummary = S T RecallNewsSummary = S U Trong đó: - S: số viết (bài viết thu thập với thành phần: tiêu đề, mơ tả, nội dung chính, thời gian đăng: có tỷ lệ ký tự 99%) thu thập chương trình demo theo ngày - T: số viết thu thập chương trình demo theo ngày - U: số viết thực tế theo ngày Kết tính độ xác độ bao phủ: Bảng 4.3 Bảng thống kê kết thu thập viết từ link URL định kỳ theo ngày TT Ngày S T U 11/9/2016 299 315 321 58 Độ Độ bao phủ xác (S/T) (S/U) 0.95 0.93 12/9/2016 298 312 319 0.96 0.93 13/9/2016 445 469 475 0.95 0.94 14/9/2016 572 590 599 0.97 0.95 15/9/2016 348 364 378 0.96 0.92 16/9/2016 442 464 472 0.95 0.94 17/9/2016 403 403 414 1.00 0.97 18/9/2016 83 87 88 0.95 0.94 19/9/2016 180 184 185 0.98 0.97 10 20/9/2016 189 194 196 0.97 0.96 3259 3382 3447 0.96 0.95 Tổng số/ Trung bình Độ xác trung bình 96%, độ phủ trung bình 95% Về mặt nội dung, phương pháp thu thập viết từ trang báo điện tử đạt kết tốt Tuy nhiên, thu thập viết từ nhiều trang báo điện tử tin tức khác nội dung thu thập bị trùng lặp Vì trang tin tức lớn đăng tin tức có tính tương đồng nội dung lĩnh vực như: sống, trị, giáo dục, thể thao, … 4.3.2 Kết chạy thử chức tìm kiếm viết Thực tìm kiếm với từ khóa “tuyển sinh” tập liệu viết thu thập, kết cụ thể sau: Bảng 4.4 Bảng thống kê kết chạy thử chức tìm kiếm với từ khóa “tuyển sinh” Trang báo Lĩnh vực Chọn mục tìm kiếm Khoảng thời gian đăng viết Kết (bài viết) Tất Tất Tất 01/9 – 30/9/16 130 Tất Tất Tiêu đề 01/9 – 30/9/16 11 Tất Tất Mô tả 01/9 – 30/9/16 32 Tất Tất Nội dung 01/9 – 30/9/16 125 Tuổi trẻ Tất Tất 01/9 – 30/9/16 45 Tuổi trẻ Home Tất 01/9 – 30/9/16 18 Tuổi trẻ Tất Nội dung 01/9 – 30/9/16 43 59 Ghi VN Express Tất Tất 01/9 – 30/9/16 30 VN Express Tất Tiêu đề 01/9 – 30/9/16 55 VN Express Tất Mô tả 01/9 – 30/9/16 VN Express Tất Nội dung 01/9 – 30/9/16 28 Việt Nam Net Tất Tất 01/9 – 30/9/16 55 Việt Nam Net Trang chủ Tất 01/9 – 30/9/16 Thực tìm kiếm với từ khóa “iphone 7” tập liệu viết thu thập, kết cụ thể sau: Bảng 4.5 Bảng thống kê kết chạy thử chức tìm kiếm với từ khóa “iphone 7” Trang báo Lĩnh vực Chọn mục tìm kiếm Khoảng thời gian đăng viết Kết Ghi (bài viết) Tất Tất Tất 01/9 – 30/9/16 199 Tất Tất Tiêu đề 01/9 – 30/9/16 136 Tất Tất Mô tả 01/9 – 30/9/16 104 Tất Tất Nội dung 01/9 – 30/9/16 186 Tuổi trẻ Tất Tất 01/9 – 30/9/16 12 Tuổi trẻ Home Tất 01/9 – 30/9/16 Tuổi trẻ Tất Nội dung 01/9 – 30/9/16 11 Tuổi trẻ Nhịp sống số Tất 01/9 – 30/9/16 12 Tuổi trẻ Nhịp sống số Tiêu đề 01/9 – 30/9/16 VN Express Tất Tất 01/9 – 30/9/16 102 VN Express Tất Tiêu đề 01/9 – 30/9/16 82 VN Express Tất Mô tả 01/9 – 30/9/16 45 VN Express Tất Nội dung 01/9 – 30/9/16 93 VN Express Số hóa Tất 01/9 – 30/9/16 94 VN Express Số hóa Tiêu đề 01/9 – 30/9/16 78 Việt Nam Net Tất Tất 01/9 – 30/9/16 85 Việt Nam Net Tất Tiêu đề 01/9 – 30/9/16 45 Việt Nam Net Tất Mô tả 01/9 – 30/9/16 50 Việt Nam Net Tất Nội dung 01/9 – 30/9/16 82 60 Việt Nam Net Trang chủ Nội dung 01/9 – 30/9/16 10 Việt Nam Net Tin công nghệ Tất 01/9 – 30/9/16 15 Việt Nam Net Công nghệ Tất 01/9 – 30/9/16 45 4.3.3 Kết chạy thử chức thống kê, lọc viết Kết chạy demo chức thống kê viết theo trang báo thời gian đăng viết từ ngày 01/9/2016 – 30/9/2016 Bảng 4.6 Bảng thống kê kết chạy thử chức thống kê theo lĩnh vực thuộc trang báo Tuổi trẻ Tên trang báo Lĩnh vực Số lượng viết Tuổi trẻ Nhịp sống trẻ Tuổi trẻ Văn hóa - Giải trí Tuổi trẻ Du lịch 60 Tuổi trẻ Giáo dục 66 Tuổi trẻ Sức khỏe - Đời sống 25 Tuổi trẻ Kinh tế 97 Tuổi trẻ Bất động sản 21 Tuổi trẻ Văn học - Sách Tuổi trẻ Ẩm thực Tuổi trẻ Chính trị - Xã hội Tuổi trẻ Biết để khỏe 64 Tuổi trẻ Nhịp sống số 91 Tuổi trẻ Truyền hình Tuổi trẻ Tài - Doanh nghiệp Tuổi trẻ Thể thao Tuổi trẻ Sản phẩm - Công nghệ Tuổi trẻ Sống khỏe 77 Tuổi trẻ Thế giới xe Tuổi trẻ Chuyện thường ngày Tuổi trẻ Phóng - Ký Tuổi trẻ Sống & Yêu Tuổi trẻ Góc ảnh 70 158 122 12 189 61 25 Tuổi trẻ Giáo dục - Hướng nghiệp Tuổi trẻ Pháp luật 83 Tuổi trẻ Thời - Suy nghĩ 11 Tuổi trẻ Thế giới Tuổi trẻ Thị trường Tuổi trẻ Học - Ở đâu? Tuổi trẻ Khoa học Tuổi trẻ Thế giới muôn màu Tuổi trẻ Cần biết Tuổi trẻ Địa ốc Tuổi trẻ Môi trường Tuổi trẻ Tin nóng iTuyển sinh Tuổi trẻ Home Tuổi trẻ Bạn đọc Tuổi trẻ Những miền đất lạ Tuổi trẻ iTuyển sinh 22 Tổng số viết 1945 109 95 13 419 60 Bảng 4.7 Bảng thống kê kết chạy thử chức thống kê theo lĩnh vực thuộc trang báo VN Express Tên trang báo Lĩnh vực Số lượng viết VN Express Cộng đồng VN Express Cười 144 VN Express Du lịch 193 VN Express Gia đình 229 VN Express Giải trí 320 VN Express Giáo dục 212 VN Express Khoa học 178 VN Express Kinh doanh 365 VN Express Pháp luật 171 VN Express Số hóa 219 VN Express Sức khỏe 128 96 62 VN Express Tâm 116 VN Express Thế giới 269 VN Express Thể thao 300 VN Express Thời 157 VN Express Video 272 VN Express Xe 178 Tổng số viết 3547 Bảng 4.8 Bảng thống kê kết chạy thử chức thống kê theo lĩnh vực thuộc trang báo Việt Nam Net Tên trang báo Lĩnh vực Số lượng viết Việt Nam Net Ẩm thực 11 Việt Nam Net An toàn giao thông 69 Việt Nam Net Bạn đọc 62 Việt Nam Net Bảo mật Việt Nam Net Bất động sản Việt Nam Net Bình luận quốc tế Việt Nam Net Bóng đá quốc tế 61 Việt Nam Net Bóng đá nước 61 Việt Nam Net Các bệnh Việt Nam Net Các mơn khác Việt Nam Net Chuyện phòng the Việt Nam Net Clip Nóng Việt Nam Net Cộng đồng mạng Việt Nam Net Công nghệ Việt Nam Net Đầu tư 61 Việt Nam Net Di sản - Mỹ thuật - Sân khấu 21 Việt Nam Net Doanh nhân 38 Việt Nam Net Đời sống Việt Nam Net Dự án 23 Việt Nam Net Du học Việt Nam Net Du lịch 31 163 14 31 172 167 63 Việt Nam Net Gia đình Việt Nam Net Giải trí 150 Việt Nam Net Giáo dục 163 Việt Nam Net Giới trẻ 16 Việt Nam Net Góc phụ huynh 16 Việt Nam Net Gương mặt trẻ Việt Nam Net Hậu trường Việt Nam Net Hồ sơ Việt Nam Net Hồ sơ vụ án Việt Nam Net Khoa học Việt Nam Net Khoẻ đẹp Việt Nam Net Kinh doanh Việt Nam Net Ký pháp đình 10 Việt Nam Net Làm đẹp 12 Việt Nam Net Mẹ bé 12 Việt Nam Net Mẹo vặt Việt Nam Net Nhạc 28 Việt Nam Net Nội thất 21 Việt Nam Net Pháp luật 154 Việt Nam Net Phim Việt Nam Net Quốc hội Việt Nam Net Sách Việt Nam Net Sản phẩm 14 Việt Nam Net Sống lạ 19 Việt Nam Net Sức khỏe Việt Nam Net Sức khoẻ 24h Việt Nam Net Tài Việt Nam Net Tâm lý Việt Nam Net Thế giới Việt Nam Net Thế giới 32 Việt Nam Net Thế giới Sao 65 Việt Nam Net Thể thao Việt Nam Net Thị trường 39 19 40 138 39 111 54 169 177 98 64 Việt Nam Net Thời Việt Nam Net Thời trang 41 Việt Nam Net Tin công nghệ 41 Việt Nam Net Trang chủ Việt Nam Net Truyền hình Việt Nam Net Tư vấn sức khỏe Việt Nam Net Tư vấn tài 18 Việt Nam Net Tuyển sinh 14 Việt Nam Net Ứng dụng Việt Nam Net Video thể thao Việt Nam Net Viễn thông 176 391 17 71 Tổng số viết 3401 Kết chạy demo chức lọc viết theo thời gian đăng sau: Bảng 4.9 Bảng thống kê kết chạy thử chức lọc viết theo lĩnh vực thuộc trang báo Trang báo Lĩnh vực Thời gian đăng Kết (bài viết) Tất Tất 07/10 – 10/10/16 1988 Tuổi trẻ Tất 07/10 – 10/10/16 431 Tuổi trẻ Home 07/10 – 10/10/16 190 07/10 – 10/10/16 37 07/10 – 10/10/16 07/10 – 10/10/16 26 07/10 – 10/10/16 01 Tuổi trẻ Tuổi trẻ Tuổi trẻ Tuổi trẻ Chính trị Xã hội Thời Suy nghĩ Văn hóa – Giải trí Sức khỏe – Đời sống Tuổi trẻ Biết để khỏe 07/10 – 10/10/16 04 Tuổi trẻ Thể thao 07/10 – 10/10/16 37 VN Express Tất 07/10 – 10/10/16 586 VN Express Thời 07/10 – 10/10/16 66 65 Ghi VN Express Thế giới 07/10 – 10/10/16 105 VN Express Thể thao 07/10 – 10/10/16 75 VN Express Sức khỏe 07/10 – 10/10/16 58 VN Express Du học 07/10 – 10/10/16 60 VN Express Số hóa 07/10 – 10/10/16 45 VN Express Cười 07/10 – 10/10/16 14 Việt Nam Net Tất 07/10 – 10/10/16 971 Việt Nam Net Trang chủ 07/10 – 10/10/16 222 Việt Nam Net Thời 07/10 – 10/10/16 41 Việt Nam Net Doanh nhân 07/10 – 10/10/16 01 Việt Nam Net Thế giới 07/10 – 10/10/16 21 Việt Nam Net Du học 07/10 – 10/10/16 01 Việt Nam Net Bất động sản 07/10 – 10/10/16 10 Việt Nam Net Bạn đọc 07/10 – 10/10/16 01 Chức tìm kiếm, lọc thống kê viết dựa viết thu thập hoạt động tốt, nhanh, đảm bảo yêu cầu đặt đề tài 66 CHƯƠNG KẾT LUẬN Nội dung chương tổng kết kết đạt được, tóm tắt lại vấn đề đặt khóa luận cách giải quyết, đóng góp đề xuất số hướng phát triển đề tài tương lai 5.1 Kết khóa luận Khóa luận tìm hiểu nghiên cứu số giải pháp, kỹ thuật thực thu thập thông tin viết từ trang báo điện tử thống tiếng Việt Đồng thời thực cài đặt ứng dụng để thử nghiệm đánh giá kết Nội dung khóa luận đạt so với mục tiêu đề Về mặt lý thuyết ứng dụng, khóa luận có số đóng góp sau: 5.1.1 Đóng góp mặt lý thuyết - Tìm hiểu áp dụng kỹ thuật thu thập viết có, hệ thống đề xuất sử dụng crawler thực thu thập thông tin trang lĩnh vực, thu thập thông tin viết thuộc trang báo điện tử lưu trữ thơng tin vào hệ thống sở liệu Người dùng cần cung cấp địa trang báo mà không cần biết trước cấu trúc trang báo, hệ thống thực thu thập tự động thông tin viết thuộc trang báo - Sử dụng thư viện phân tích mã HTML HtmlAgilityPack kết hợp với giải thuật Body Text Extraction để thực trích xuất nội dung viết cách hiệu - Vì thời gian thu thập trung bình thơng tin 01 viết 0.68 giây, để giảm thời gian thực thi thu thập thông tin viết ta cần giảm thời gian lọc link trùng viết thực thu thập link viết trang báo điện tử Đề xuất tạo 01 bảng tạm sở liệu để lọc link viết trùng nhau, mục đích giảm thời gian chung việc thực thu thập viết ứng dụng 5.1.2 Đóng góp mặt ứng dụng - Hệ thống thực việc thu thập hiển thị tất thông tin viết hiển thị trang lĩnh vực thuộc trang báo điện tử ta cần thu thập 67 - Hệ thống thực thu thập hiển thị viết thu thập thời điểm thực thu thập tất trang báo điện tử cần thu thập - Hệ thống cung cấp chức đặt lịch hẹn tự động để thu thập thông tin viết theo thời gian cho trước Giúp cho việc thu thập viết cập nhật liên tục giảm thời gian thu thập muốn thu thập thêm biết thời điểm - Hiệu chức thu thập viết đánh giá qua hai thơng số độ xác độ bao phủ có giá trị trung bình tương ứng 96% 95% - Hỗ trợ chức tìm kiếm, thống kê lọc viết dựa tập liệu viết thu thập được, đánh giá thực chức nhanh xác đảm bảo yêu cầu đề - Hỗ trợ chức thêm, sửa, xóa số thơng tin tập thông tin trang báo, thông tin trang lĩnh vực thông tin viết thu thập - Thời gian thu thập trung bình thơng tin viết 6.8 giây/ 10 viết trang báo chấp nhận - Giao diện thân thiện dễ dàng sử dụng 5.1.3 Đánh giá chung Tóm lại, hệ thống thực thu thập thông tin viết từ trang báo điện tử mà không cần định nghĩa cấu trúc thông tin trang báo điện tử cần thu thập Tuy nhiên trang báo có chứa hàng nghìn viết nên phạm vi chương trình demo thực thu thập viết hiển thị trực tiếp trang lĩnh vực trang báo Thời gian thu thập trung bình 6.8 giây/ 10 viết trang báo chấp nhận Hiệu chức thu thập viết đánh giá qua hai thơng số độ xác độ bao phủ có giá trị trung bình tương ứng 96% 95% Hi vọng rằng, kết tìm hiểu khóa luận tài liệu hữu ích góp phần vào việc xây dựng ứng dụng hỗ trợ thu thập tin tức, thực chức thống kê, lọc, tìm kiếm khai thác thông tin từ viết trang báo điện tử nguồn liệu từ internet 68 5.2 Hạn chế hướng phát triển Hệ thống chưa thực việc thu thập tất viết từ trang báo điện tử cho trước Vì thế, cần cải tiến kỹ thuật, thuật giải cho thực thu thập thông tin tất viết từ trang báo thời gian thu thập trung bình trang báo nhanh (Thời gian thu thập trung bình 6.8 giây/ 10 viết) Vì trang báo điện tử lớn đăng tin tức, viết có tính tương đồng nội dung lĩnh vực sống, trị, giáo dục, thể thao, thời sự, … Thế nên, cần thiết kế thêm chức lọc viết có nội dung tương đồng nội dung thực thu thập từ trang báo điện tử mà ta cần thu thập 69 TÀI LIỆU THAM KHẢO Tiếng Anh Phan Thi Ha and Ha Hai Nam, “Automatic main text extraction from web pages”, Journal of Science and Technology, Vietnam, Vol 51, No.1, 2013 Phan Thi Ha Nguyen Quynh Chi, Automatic Classification for Vietnamese News, Advances in Computer Science: an International Journal, Vol 4, Issue 4, No.16 , July 2015 WangBin, LiuZhijing, Web Mining Research, IEEE, 2003 Bing Liu, Web Data Mining Exploring Hyperlinks, Contents, and Usage Data, http://www.cs.uic.edu/~liub/WebMiningBook.html ,December, 2006 Andrew Carlson and Charles Schafer, Bootstrapping Information Extraction from Semi-structured Web Pages, ECML/PKDD, 2008 Tiếng Việt Hồ Long Vân, luận văn “Mơ hình thuật giải cho hệ hỗ trợ tìm kiếm thơng tin theo ngữ nghĩa trang báo điện tử”, Đại học Công nghệ thông tin (2014) Nguyễn Thị Trang, luận văn “Nghiên cứu phương pháp trích rút văn từ trang web ứng dụng”, Học viện Bưu Viễn Thơng (2013) Lê Phú, Rút trích tự động khối văn mang tin tức trang báo, Đại học Bách Khoa TP.HCM, TP HCM (2005) Ngô Quốc Hưng, Luận văn Thạc sỹ "Tìm kiếm tự động văn song ngữ Anh - Việt từ Internet", ĐH KHTN TP.HCM (2008) 10 Hoàng Văn Dũng, luận văn “Khai phá liệu web kỹ thuật phân cụm”, Đại học Sư phạm Hà Nội (2007) 11 Vũ Thanh Nguyên, Trang Nhật Quang, Ứng dụng thuật tốn phân lớp rút trích thơng tin văn FSVM internet, Tạp chí Phát triển KH & CN, tập 12, số 05 – 2009 12 Nguyễn Thị Kim Ngân, Phân loại văn tiếng Việt phương pháp support vector machines, Đại học Bách Khoa Hà Nội, Hà Nội, (2004) 13 Nguyễn Đình Bình, luận văn “Nghiên cứu khai phá liệu web ứng dụng tìm kiếm trích chọn thơng tin theo chủ đề”, Đại học Đà Nẵng (2012) 70 Các website 14 https://vi.wikipedia.org 15 http://www.w3.org/DOM/ 16 http://www.w3c.org/XML/ 17 https://sites.google.com/site/ngo2uochung/research/webcontent 18 https://chienuit.wordpress.com/2012/04/15/rut-trich-noi-dung-web-scraping/ 19 https://en.wikipedia.org/wiki/Regular_expression 71 ... Hệ thống đáp ứng chức sau: - Hỗ trợ thu thập quản lý viết: cho phép thu thập viết từ trang báo điện tử quản lý viết thu thập Thu thập tất viết, thực thu thập định kỳ viết từ trang báo cho trước... webpage biểu diễn trang lĩnh vực, chủ đề thu c trang báo điện tử - Article tập các viết thu thập thu c trang báo điện tử - FStr tập kiểu cấu trúc trang lĩnh vực thu c trang báo điện tử - AStr tập... AStr tập kiểu cấu trúc trang viết thu c trang báo điện tử - Rels tập quan hệ nội trang báo điện tử 2.1.2.1 Tập thu c tính trang báo điện tử Attr Một trang báo điện tử có thu c tính phục vụ cho

Ngày đăng: 23/12/2018, 06:11

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w