ĐỀ tài KHOA học và CÔNG NGHỆ cấp TRƯỜNG BIỂU DIỄN kết QUẢ THEO dõi các CHỦ đề TRÊN tạp CHÍ điện tử với THUẬT TOÁN rút TRÍCH từ KHÓA và cơ sở dữ LIỆU đồ THỊ

76 18 0
ĐỀ tài KHOA học và CÔNG NGHỆ cấp TRƯỜNG BIỂU DIỄN kết QUẢ THEO dõi các CHỦ đề TRÊN tạp CHÍ điện tử với THUẬT TOÁN rút TRÍCH từ KHÓA và cơ sở dữ LIỆU đồ THỊ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TỐN RÚT TRÍCH TỪ KHĨA VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ Mã số: Chủ nhiệm đề tài: ThS Võ Thị Hồng Thắm Bình Dương, 06/2019 TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TỐN RÚT TRÍCH TỪ KHÓA VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ Mã số: Xác nhận đơn vị chủ trì đề tài (chữ ký, họ tên) Bùi Thanh Khiết Bình Dương, 08/2019 Chủ nhiệm đề tài (chữ ký, họ tên) Võ Thị Hồng Thắm MỤC LỤC VẤN ĐỀ NGHIÊN CỨU LƯỢC KHẢO TÀI LIỆU 2.1 LUỒNG VĂN BẢN 2.2 BỘ THU THẬP DỮ LIỆU 2.3 KHAI PHÁ LUỒNG VĂN BẢN 2.3.1 Tiền xử lý 2.3.2 Rút trích từ khóa 2.4 TẦN SỐ TỪ VÀ TẦN SỐ TÀI LIỆU NGHỊCH ĐẢO (TF-IDF) 2.5 CƠ SỞ DỮ LIỆU ĐỒ THỊ 2.6 HIỂN THỊ TRỰC QUAN .9 HỆ THỐNG ĐỀ XUẤT 10 3.1 GIỚI THIỆU NGỮ CẢNH 10 3.2 KIẾN TRÚC HỆ THỐNG 11 3.3 THIẾT KẾ HỆ THỐNG .13 3.4 THUẬT TOÁN 17 PHÂN TÍCH KẾT QUẢ THỰC NGHIỆM 19 4.1 CÁC FRAMEWORK DÙNG ĐỂ LẬP TRÌNH .19 4.2 CÁC TÍNH NĂNG CHÍNH 20 4.3 CÁC TẬP DỮ LIỆU 22 4.4 LƯU TRỮ VÀ TRUY VẤN CƠ SỞ DỮ LIỆU ĐỒ THỊ 23 4.5 KIỂM TRA VÀ ĐÁNH GIÁ HỆ THỐNG 24 4.5.1 Bộ thu thập liệu 24 4.5.2 Thêm liệu vào sở liệu đồ thị .25 4.5.3 Bộ xử lý 25 4.5.4 Kiểm tra liệu có số lượng khích thước khác 26 4.5.5 So sánh liệu kết chạy phiên TF-IDF khác .26 4.5.6 Đánh giá tính xác thuật tốn 28 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 30 BẢNG THUẬT NGỮ ANH – VIỆT Tiếng Anh Tiếng Việt Crawler Bộ thu thập liệu Information extraction Rút trích thơng tin Keyword extraction Rút trích từ khóa Preprocess Tiền xử lý Processor Bộ xử lý liệu Stop word Từ dừng Term Frequency Tần số từ Visualize Hiển thị trực quan Visualizer Bộ hiển thị trực quan Word segmentation Tách từ DANH MỤC BẢNG BIỂU Bảng Trang Bảng Số lần xuất từ tài liệu Bảng Tính tốn tầm quan trọng từ Bảng 3a Một ví dụ tính tốn số xếp hạng từ 16 Bảng 3b Một ví dụ tính tổng số xếp hạng từ chuyên mục 17 Bảng Các thuộc tính nút mối quan hệ 24 Bảng Thử nghiệm thời gian thực thi thu thập thông tin 25 Bảng Kiểm tra thời gian thực thi việc thêm liệu vào sở liệu đồ thị 26 Bảng Kiểm tra thời gian chạy xử lý 26 Bảng Thời gian xử lý số lượng viết khác với độ dài khác 26 Bảng Tỷ lệ giống liệu sinh từ thuật toán TF-IDF viết ngơn ngữ lập trình khác 27 Bảng 10 Tần số từ khóa 28 Bảng 11 Kết kiểm tra độ xác 30 DANH MỤC HÌNH Hình Trang Hình Thủ tục xử lý luồng văn Hình 2a Hệ thống đề xuất bối cảnh cơng trình liên quan 11 Hình 2b Kiến trúc hệ thống 12 Hình Luồng văn đến liên tục theo thời gian 13 Hình Cấu trúc lưu trữ dạng 14 Hình Sơ đồ trình tự xử lý hệ thống 14 Hình Một ví dụ bước xử lý 15 Hình Các tính hệ thống 20 Hình GUI cho từ khóa hàng đầu viết 21 Hình GUI cho số lượng viết có sử dụng từ khóa “iphone” 21 Hình 10 GUI rút trích từ khóa hàng đầu từ chun mục 22 Hình 11 GUI cho hiển thị báo dạng xem nội dung 22 báo Hình 12 Cấu trúc lưu trữ chung ví dụ 23 Hình 13 Ảnh hưởng chiều dài viết số lượng viết 26 thời gian chạy xử lý TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT Đơn vị: Khoa Kỹ thuật cơng nghệ THƠNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung: - Tên đề tài: biểu diễn kết theo dõi chủ đề tạp chí điện tử với thuật tốn rút trích từ khóa sở liệu đồ thị - Mã số: - Chủ nhiệm: ThS Võ Thị Hồng Thắm - Đơn vị chủ trì: Khoa Kỹ thuật cơng nghệ - Thời gian thực hiện: 08/2018-08/2019 Mục tiêu: Xây dựng hệ thống phục vụ cho nghiên cứu liên quan đến xử lý văn Bên cạnh đó, xây dựng hệ thống hướng đến việc hỗ trợ người dùng khai thác thông tin từ trang báo điện tử Việt Nam, cho phép tải, phân tích thể kết hiển thị báo, rút trích từ khóa quan trọng báo, giúp người dùng tiết kiệm thời gian cơng sức Tính sáng tạo: Hiện nay, Việt Nam chưa có sở liệu chuẩn tiếng Việt dành cho nhà nghiên cứu Đề tài xây dựng hệ thống sở giúp thu thập liệu cần thiết phục vụ cho nghiên cứu sâu tác giả lĩnh vực khai thác liệu văn Tính chứng minh qua báo khoa học xuất Kết nghiên cứu: Xây dựng hệ thống với 03 thành phần chính: mơ-đun thu thập liệu hàng ngày từ trang tạp chí điện tử (báo điện tử) VnExpress VietnamNet, tổ chức thành 06 chuyên mục Thời sự, Công nghệ, Giáo dục, Pháp luật, Khoa học, Thế giới; Xây dựng mô-đun xử lý liệu bao gồm bước tiền xử lý xử lý rút trích từ khóa quan trọng kỹ thuật rút trích từ khóa TF_IDF; Xây dựng mơ-đun hiển thị số kết cho phép tương tác với người dùng Sản phẩm: 01 báo cáo tóm tắt, 01 báo cáo tổng kết có đính kèm báo khoa học phần phụ lục, 06 báo cáo chuyên đề Hiệu quả, phương thức chuyển giao kết nghiên cứu khả áp dụng: Kết nghiên cứu tiền đề cho nghiên cứu sâu khai thác liệu văn bản, ý tưởng giải pháp thể rõ báo cáo tổng kết đề tài Ngày 05 tháng 06 năm 2019 Đơn vị chủ trì Chủ nhiệm đề tài (chữ ký, họ tên) (chữ ký, họ tên) Bùi Thanh Khiết Võ Thị Hồng Thắm XÁC NHẬN CỦA CƠ QUAN ...TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP TRƯỜNG BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TỐN RÚT TRÍCH... vị: Khoa Kỹ thuật cơng nghệ THƠNG TIN KẾT QUẢ NGHIÊN CỨU Thông tin chung: - Tên đề tài: biểu diễn kết theo dõi chủ đề tạp chí điện tử với thuật tốn rút trích từ khóa sở liệu đồ thị - Mã số: - Chủ. .. thấy từ tài liệu nói phí đại học tài liệu nói chi phí sản xuất cho sản phẩm thủy sản Số lần từ xuất tài liệu tính tốn Bảng Số lần xuất từ tài liệu Tài liệu Từ Tài liệu Tần số Từ Tần số học_ phí

Ngày đăng: 21/06/2021, 21:59

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan