XÂY DỰNG mô HÌNH hệ THỐNG

TRƯỜNG ĐẠI HỌC THỦ DẦU MỘT KHOA KỸ THUẬT CÔNG NGHỆ Tên đề tài: BIỂU DIỄN KẾT QUẢ THEO DÕI CÁC CHỦ ĐỀ TRÊN TẠP CHÍ ĐIỆN TỬ VỚI THUẬT TỐN RÚT TRÍCH TỪ KHĨA VÀ CƠ SỞ DỮ LIỆU ĐỒ THỊ Mã số: Tên báo cáo chuyên đề: XÂY DỰNG MƠ HÌNH HỆ THỐNG Chủ nhiệm đề tài: ThS Võ Thị Hồng Thắm Người chủ trì thực chuyên đề: ThS Võ Thị Hồng Thắm Bình Dương, 06/2019 HỆ THỐNG ĐỀ XUẤT 1.1 Giới thiệu ngữ cảnh Hiện có 20 tờ báo trực tuyến với nhiều báo đăng hàng ngày Việt Nam thu hút lượng lớn độc giả Yêu cầu quan trọng người đọc tìm thơng tin quan trọng có lượng liệu khổng lồ tốn thời gian Độc giả có nhu cầu theo dõi thời gian tiến hóa chủ đề quan trọng Do đó, viết xuất liên tục mơ hình hóa dạng luồng văn Sau đó, tốn đặt chuyên đề thu thập viết để tạo, lưu trữ, trích xuất hiển thị trực quan thơng tin quan trọng biểu đồ Để xây dựng hệ thống này, số khái niệm, thuật toán phương pháp đề cập phần sử dụng, bao gồm: Thu thập liệu, tách từ văn tiếng Việt, loại bỏ từ dừng thuật toán TF-IDF để phát chủ đề (ở xem chủ đề quan trọng tập từ khóa có tần số xuất cao nhất), ứng dụng sở liệu đồ thị để thị trực quan kết tìm kiếm Đây hệ thống Việt Nam dễ dàng áp dụng cho ngôn ngữ khác 1.2 Kiến trúc hệ thống Hệ thống bao gồm ba mơ-đun chính: Bộ thu thập liệu, Bộ xử lý liệu (với bước chính: Tiền xử lý Xử lý) Bộ hiển thị liệu Hình 1a cho thấy mối quan hệ hệ thống cơng trình nghiên cứu khác Natural Language Processing (NLP) VnCoreNLP Breadth first crawler NNVLP Incremental web crawler Information Retrieval (IR) PYVI Focused web crawler Topic Detection VnTokenizer Hidden web crawler VTools Parallel web crawler Word Sense Disambiguation Information Extraction RDRPOSTAGGER Distributed web crawler Social Network Analysis VnTager BỘ THU THẬP DỮ LIỆU Tiền xử lý Sentiment Analysis Vector Space Model Dex Infogrid Infinite Graph HyperGraphDB Trinity and Titan Classification Neo4j Clustering BỘ HIỂN THỊ TRỰC QUAN Xử lý BỘ XƯ LÝ Hình 1a Hệ thống đề xuất bối cảnh cơng trình liên quan Có thể thấy cách cụ thể Hình 1b, liệu thu thập thu thập thông tin chuyển đến xử lý Ở đây, liệu tổ chức theo cấu trúc Tiếp theo, xử lý thực hai nhóm thuật tốn chính: nhóm bao gồm thuật toán xử lý văn bản, bao gồm tách từ văn tiếng Việt, loại bỏ từ dừng phát chủ đề cách sử dụng phương pháp trích xuất từ khóa, nghĩa chủ đề đại diện tập hợp từ khóa Nhóm thuật tốn chịu trách nhiệm xử lý, tính tốn lưu trữ kết Nhóm thứ hai bao gồm thuật toán làm hết hạn liệu lỗi thời, loại bỏ từ dừng khỏi hệ thống, sử dụng cửa sổ trượt thời gian, bao gồm số thuật toán Wjoin, PWJoin, vv Cuối cùng, hiển thị trực quan liệu tương tác với người dùng thông qua giao diện trực quan cho phép người dùng xem, xếp lưu liệu kết theo yêu cầu họ Tạp chí Cửa sổ trượt thời gian Dữ liệu nguồn BỘ THU THẬP THÔNG TIN BỘ HIỂN THỊ TRỰC QUAN Lưu trữ Dữ liệu kết WJoin Stop Word Removal Keyword Extraction VnTokenizer PWJoin Các thuật toán cửa sổ thời gian Các thuật toán xử lý văn BỘ XỬ LÝ Hình 1b Kiến trúc hệ thống 1.3 Thiết kế hệ thống Hàng ngày, hệ thống thu thập, xử lý liệu sau lưu trữ liệu xử lý (xem Hình 3) Mỗi viết xem đối tượng gọi báo (Tiêu đề, Tác giả, Mô tả, Nội dung) Các viết liên tục theo thời gian đưa vào luồng văn lớn Dựa đặc điểm viết, chúng phân nhóm theo ngày, chuyên mục hình 2: Mỗi ngày có n chuyên mục, chuyên mục có n báo Article (Title, Author, Description, Content) Bài báo (Tựa đề, Tác giả, Mô tả, Nội dung) Day Day Day Day Day Ngày Ngày Ngày Ngày Ngày Thời gian Hình Luồng văn đến liên tục theo thời gian R D1 D1 C1 C1 D1 C1 Cj A1 A1 A1 Ak Ap T1 T1 T1 Tk Tp Di Dn TD1 Cm TC1 Hình Cấu trúc lưu trữ dạng Như thể hình 3, liệu thu được lưu trữ trực tuyến (cũng lưu trữ ngoại tuyến cần) chuyển đến cấu trúc lưu trữ dạng Nút gốc (R) có nút Di (i: 1n); nút ngày (Day) Di có nút Cj (j: 1m); Nút chuyên mục (Category) Cj có nút báo (Article) Ak (k: 1p); Mỗi nút Ak có nút chủ đề (Topic) Tk, tập hợp từ khóa (Keywords) quan trọng Kg(g: 1k) Mô-đun 1: Thu thập liệu Thu thập liệu từ tạp chí Tách từ VnTokenizer Mô-đun 3: Hiển thị trực quan Loại bỏ từ dừng Mô-đun 2: Xử lý Thêm liệu vào CSDL đồ thị Tính tần suất dùng TF-IDF Lưu kết Hiển thị trực quan kết truy vấn người dùng Hình Sơ đồ trình tự xử lý hệ thống Hình trình bày sơ đồ trình tự xử lý hệ thống đề xuất Mục tiêu hệ thống để phát chủ đề quan trọng hiển thị trực quan kết với đồ thị mục tiêu làm rõ Hình với ví dụ cụ thể Có năm bước xử lý sơ đồ luồng Hình mơ tả Hình Một ví dụ bước xử lý Đầu tiên, thu thập thông tin thu thập báo từ tạp chí trực tuyến dạng văn Tiếp theo, bước 2, viết xử lý thuật toán tách từ tiếng Việt tên Vntokenizer để tạo từ kết nối có nhiều từ tiếng Vntokenizer chứng minh có độ xác 96% đến 98% việc nhận dạng từ ghép Sau đó, bước ba, viết tiếp tục xử lý cách loại bỏ từ dừng Những từ từ có nghĩa ngữ cảnh xét tính tốn rút trích từ tập hợp lớn văn sử dụng thuật tốn TF-IDF Sau đó, bước 4, tần số từ tính cách sử dụng thuật tốn TF-IDF để trích xuất từ khóa tập hợp từ khóa quan trọng hàng đầu viết tìm từ rút trích chủ đề quan trọng Sau từ khóa hàng đầu viết (như bước hình mơ tả) tìm thấy, chúng xếp thứ tự dựa theo giá trị tần số từ Bảng 1a cho thấy từ khóa hàng đầu báo (bài 2) chuyên mục có tên “Tin tức” vào ngày 01 tháng năm 2018 Bảng cho biết tần số từ tính theo TF_IDF bước số xếp hạng dựa tần suât từ, có nghĩa từ khóa có giá trị tần số từ cao có số xếp hạng cao nhất, bước tăng/giảm số xếp hạng Trường hợp ví dụ lấy danh sách top 5, giá trị trọng số cao Bảng 1a Một ví dụ tính tốn số xếp hạng từ Article Article Keyword Term Weight Keyword Term Weight frequency Frequency nhà_thờ 0.15 Giá 0.229 (church) (price) Ngói 0.09 Vé 0.159 (tile) (ticket) trùng_tu 0.09 3 cơng_trình 0.132 (renovate) (construction) đức_bà 0.07 dịch_vụ 0.125 (notre dame) (service) Phí 0.106 cơng_trình 0.04 (fee) (construction) Sau đó, tổng giá trị số xếp hạng cho từ khóa tính tổng tất giá trị số xếp hạng từ khóa (xem bảng 1b) Và sau đó, từ khóa hàng đầu mà tổng giá trị số xếp hạng cao từ có ý nghĩa toàn chuyên mục viết thu thập chọn Đó từ khóa đến từ chuyên mục “Tin tức” bao gồm nhà_thờ, giá, ngói, vé cơng_trình Tổng giá trị trọng số tương ứng chúng 5, 5, 4, 4; Bảng 1b Một ví dụ tính tổng số xếp hạng từ chuyên mục Article Article Keyword Sum of Weight Keyword Sum of Weight nhà_thờ giá (church) (price) ngói vé (tile) (ticket) trùng_tu cơng_trình (renovate) (construction) đức_bà dịch_vụ (notre dame) (service) cơng_trình (construction) phí (fee) Và cuối cùng, bước năm (hình 5), hệ thống hỗ trợ người dùng hiển thị trực quan kết lưu kết họ cần Ngoài ra, hệ thống cho phép người dùng theo dõi tiến hóa chủ đề thơng qua từ khóa quan trọng hình mơ tả 1.4 Thuật tốn Nội dung phần mơ tả thuật tốn hệ thống Một thuật tốn chung trình bày thuật toán chi tiết Các thuật tốn trình bày làm cho thuật toán đơn giản dễ hiểu Thuật toán Thuật toán tổng quát 1:Lặp 2: Đọc thông số từ tệp config.txt 3: Thu thập báo (lưu trữ ngoại tuyến cần) 4: Tạo cấu trúc liệu 5: Tiền xử lý (tách từ:Vntokenizer) loại từ dừng (stop words) 6: Tính tần số TF-IDF 7: Cập nhật kết tính tốn 8: Nhận yêu cầu từ người dùng 9: Hiển thị trực quan kết (lưu kết cần) 10: Nếu (quá thời gian)= True 11: Loại liệu hết hạn 12: end if 13:End loop Thuật toán Thuật toán thu thập liệu (bước 3&4 thuật toán 1) 1:Lặp 2: Nếu ( Được cho phép) 3: Lấy trang web 4: Rút trích tiêu đề, tóm tắt, nội dung, URL, tạo cấu trúc liệu 5: ngược lại 6: Lấy URL hàng đợi 7: Kết nối máy chủ 8: kết thúc 9:Kết thúc lặp Ở bước thuật toán 1, sau thu thập liệu, công cụ gọi Vntokenizer [1] dùng để tiền xử lý liệu với việc tách từ tiếng Việt Tiếp theo, từ dừng loại bỏ Sau đó, hệ thống lập trình phần cịn lại bước Thuật toán: 3.1, 3.2 3.3 sử dụng để trích xuất từ khóa từ viết cách sử dụng tập văn bao gồm báo chuyên mục khoảng thời gian mặc định ngày Thuật toán 3.4 sử dụng để xác định tập hợp từ khóa quan trọng cho chuyên mục khoảng thời gian mặc định ngày (như giải thích bảng 1, phần 3.3) Nhìn chung, thuật toán cho bước thuật toán bao gồm thuật toán 3.1, 3.2, 3.3 3.4 mơ tả sau Thuật tốn 3.1 TermFrequency Input: array docOfWords, string term Output:double result 1:int occurrences 2:for each word in docOfWords 3: if(word giống term) then 4: occurrences ++; 5: end if 6: end for 7: resultoccurrences / docOfWords.length Thuật toán 3.2 InverseDocumentFrequency Input: array listOfDocs, string term Output:double result 1:int totalDoc 2:for eachdoc in listOfDocs 3: if(doc chứa term) then 4: totalDoc ++ 5: end if 6: break 7: end for 7: resultMath.log(listOfDocs.length / totalDoc) Algorithm 3.3 CalTermFrequency Input: array docOfwords, array listOfDocs, string term Output:double result 1:resultTermFrequency(docOfwords, term)*InverseDocumentFrequency (listOfDocs, term) Algorithm 3.4 ColumnKeywordExtraction Input: Column Output: List result 1: Lấy danh sách n từ khóa hàng đầu báo 2: Gán thứ hạng cho từ khóa danh sách từ đến n theo tần số từ khóa 3: Tính số xếp hạng cho từ khóa (tổng số hạng) 4: result  Danh sách n từ khóa có số xếp hạng lớn TÀI LIỆU THAM KHẢO Le Hong Phuong, N.T.M., A.R Huyen, and H.T Vinh, A hybrid approach to word segmentation of Vietnamese texts Language and Automata Theory and Applications, 2008: p 240 XÁC NHẬN THỰC HIỆN CHUYÊN ĐỀ Bình Dương, ngày 20 tháng 06 năm 2019 Người chủ trì thực chuyên đề Võ Thị Hồng Thắm ... BỘ XỬ LÝ Hình 1b Kiến trúc hệ thống 1.3 Thiết kế hệ thống Hàng ngày, hệ thống thu thập, xử lý liệu sau lưu trữ liệu xử lý (xem Hình 3) Mỗi viết xem đối tượng gọi báo (Tiêu đề, Tác giả, Mô tả, Nội... dùng Hình Sơ đồ trình tự xử lý hệ thống Hình trình bày sơ đồ trình tự xử lý hệ thống đề xuất Mục tiêu hệ thống để phát chủ đề quan trọng hiển thị trực quan kết với đồ thị mục tiêu làm rõ Hình. .. viết xuất liên tục mô hình hóa dạng luồng văn Sau đó, toán đặt chuyên đề thu thập viết để tạo, lưu trữ, trích xuất hiển thị trực quan thơng tin quan trọng biểu đồ Để xây dựng hệ thống này, số khái

Định dạng
Số trang	10
Dung lượng	0,93 MB