TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TỐN RÚT TRÍCH TỪ KHĨA VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ Mã số: Tên báo cáo chuyên đề: THIẾT KẾ GIAO DIỆN VÀ CHỨC NĂNG PHẦN MỀM HỖ TRỢ NGƯỜI DÙNG SỬ DỤNG THUẬT TOÁN Chủ nhiệm đề tài: ThS Võ Thị Hồng Thắm Người chủ trì thực chuyên đề: ThS Võ Thị Hồng Thắm Bình Dương, 06/2019 THIẾT KẾ GIAO DIỆN Hệ thống xây dựng gồm mô-đun: thu thập thông tin, xử lý hiển thị Ngồi ra, mơ-đun TF-IDF lập trình ngơn ngữ lập trình Python phục vụ cho việc so sánh đầu với đầu hệ thống thực ngơn ngữ lập trình Java Phần 1.1 sau mô tả số kỹ thuật công cụ dùng để xây dựng hệ thống Hệ thống bao gồm chức mô tả phần 1.2 Thu thập liệu kết đầu minh họa phần 1.3 Cấu trúc lưu trữ số truy vấn sở liệu làm rõ phần 1.4 1.1 Các Framework dùng để lập trình Để phát triển hệ thống, số công cụ thư viện sử dụng Phần đề cập ngắn gọn tên phiên công cụ Đó là: Scala 2.10.5, Java 8, Spark 1.6.3, Windows Utilities 2.6.x, Maven 3.3, Neo4j 3.2, Apache-tomcat-9.x, IntelliJ IDEA Vis.js Ngoài ra, hệ thống sử dụng VnTokenizer [13] danh sách từ dừng tải xuống từ github bổ sung thêm số ký tự xuất văn khơng có ý nghĩa vào danh sách (có thể xem danh sách từ dừng phần phụ lục chuyên đề) 1.2 Các tính Hình cho thấy hệ thống có hàm bao gồm: (1) Hiển thị dịng đời từ khóa cụ thể; (2) Lấy N từ khóa viết; (3) Hiển thị dịng thời gian từ khóa chủ đề; (4) Thống kê việc sử dụng từ khóa; (5) Hiển thị n từ khóa hàng đầu chuyên mục; (6) Hiển thị trực quan báo dạng biểu đồ Xem chi tiết hình minh họa tính hình 2, ảnh minh họa đánh số tương ứng (1) - Hiển thị dịng đời từ khóa cụ thể (2) - Lấy N từ khóa viết (4) - Thống kê việc sử dụng từ khóa Các tính hệ thống (3) - Hiển thị dịng thời gian từ khóa chủ đề (5) Hiển thị n từ khóa hàng đầu chuyên mục (6) Hiển thị trực quan báo dạng biểu đồ Hình Các tính hệ thống Có số chức trình bày sau Hình cho thấy danh sách n từ khóa viết (n = 7) Người dùng xác định giá trị cho n Số phần trăm theo sau từ khóa tỷ lệ tần số từ khóa tổng số từ khóa viết Hình GUI cho từ khóa hàng đầu viết Hình minh họa số lượng viết sử dụng từ khóa Có thể thấy từ khóa “iphone” sử dụng 12 lần chuyên mục công nghệ “CongNghe” vào ngày 28 tháng năm 2017, lần chuyên mục thời ‘ThoiSu” vào ngày 30 tháng năm 2017 chuyên mục “PhapLuat” vào ngày 3-4 tháng 10 năm 2017 Hình GUI cho số lượng viết có sử dụng từ khóa “iphone” Hình trình bày danh sách n từ khóa (n = 10) hàng đầu trích xuất từ chuyên mục Có thể thấy chuyên mục "ThoiSu" có từ khóa bao gồm: phó, bệnh_viện, thuốc, rác, ngạch, lao_động, bổ_nhiệm, tổng_cục, vv Hình GUI rút trích từ khóa hàng đầu từ chuyên mục Hình trình bày biểu đồ báo Có thể thấy báo hiển thị đồ thị người dùng xem nội dung viết Hình GUI cho hiển thị báo dạng xem nội dung báo 1.3 Các tập liệu Hệ thống tạo liệu bao gồm: tập liệu báo, tập liệu báo sau bước tiền xử lý, tập liệu n từ khóa quan trọng hàng đầu viết, tập liệu n từ khóa hàng đầu chuyên mục Các liệu cấu trúc sau: Tập liệu báo bao gồm báo thu thập xếp thư mục Ngày/Chuyên mục /Bài báo Các tệp báo tệp văn Tên tệp tiêu đề viết tệp chứa thông tin bao gồm tiêu đề, mô tả nội dung Tập liệu báo qua bước tiền xử lý có cấu trúc tương tự với tập liệu báo Điều khác biệt nội dung báo tiền xử lý cách tách từ loại bỏ từ dừng Tập liệu từ khóa hàng đầu viết lưu tệp văn có cấu trúc trường bao gồm: ngày (Date), mã báo (ArticleID), từ khóa (KeyWord) tần số (Weight) Tập liệu từ khóa hàng đầu chuyên mục có cấu trúc tương tự với tập liệu từ khóa hàng đầu báo Tập liệu lưu dạng tệp văn chứa với trường bao gồm: ngày (Date), mã chuyên mục (ColumnID), từ khóa (KeyWord) số xếp hạng (ImportanceIndex) 1.4 Lưu trữ truy vấn sở liệu đồ thị Hình mơ tả cách liệu lưu trữ với sở liệu đồ thị Cấu trúc lưu trữ chung có nút: Gốc, Ngày, Cột, Bài viết Từ khóa (Root, Day, Column, Article, KeyWord) Ví dụ sau làm rõ cách lưu trữ Hình Cấu trúc lưu trữ chung ví dụ Bảng mơ tả thuộc tính nút mối quan hệ Mỗi nút mối quan hệ có thuộc tính sử dụng để lưu trữ liệu có liên quan Bảng Các thuộc tính nút mối quan hệ STT Tên nút/mối quan hệ Root Thuộc tính ID; Name Node Day Column Article Keyword Presents Written_in ID; Value ID; Name ID; Path; Title ID; Value Weight ImportanceIndex Node Node Node Node Relationship Relationship Mô tả TÀI LIỆU THAM KHẢO Le Hong Phuong, N.T.M., A.R Huyen, and H.T Vinh, A hybrid approach to word segmentation of Vietnamese texts Language and Automata Theory and Applications, 2008: p 240 XÁC NHẬN THỰC HIỆN CHUYÊN ĐỀ Bình Dương, ngày 20 tháng 06 năm 2019 Người chủ trì thực chuyên đề Võ Thị Hồng Thắm ... Java Phần 1.1 sau mô tả số kỹ thuật công cụ dùng để xây dựng hệ thống Hệ thống bao gồm chức mô tả phần 1.2 Thu thập liệu kết đầu minh họa phần 1.3 Cấu trúc lưu trữ số truy vấn sở liệu làm rõ phần. .. minh họa số lượng viết sử dụng từ khóa Có thể thấy từ khóa “iphone” sử dụng 12 lần chuyên mục công nghệ “CongNghe” vào ngày 28 tháng năm 2017, lần chuyên mục thời ‘ThoiSu” vào ngày 30 tháng năm... lưu trữ số truy vấn sở liệu làm rõ phần 1.4 1.1 Các Framework dùng để lập trình Để phát triển hệ thống, số công cụ thư viện sử dụng Phần đề cập ngắn gọn tên phiên công cụ Đó là: Scala 2.10.5, Java