1. Trang chủ
  2. » Luận Văn - Báo Cáo

Giải pháp lưu trữ số lượng lớn các thực thể quan hệ trích xuất từ các bài báo mạng

87 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 87
Dung lượng 3,03 MB

Nội dung

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Giải pháp lưu trữ số lượng lớn thực thể quan hệ trích xuất từ báo mạng ĐỖ MẠNH CƯỜNG Ngành Công nghệ thông tin Giảng viên hướng dẫn: TS Trịnh Tuấn Đạt Trường: Công nghệ thông tin truyền thông HÀ NỘI, 2022 TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ Giải pháp lưu trữ số lượng lớn thực thể quan hệ trích xuất từ báo mạng ĐỖ MẠNH CƯỜNG Ngành Công nghệ thông tin Giảng viên hướng dẫn: TS Trịnh Tuấn Đạt Trường: Công nghệ thông tin truyền thơng HÀ NỘI, 2022 Chữ ký GVHD CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ Họ tên tác giả luận văn : Đỗ Mạnh Cường Đề tài luận văn: Giải pháp lưu trữ số lượng lớn thực thể quan hệ trích xuất từ báo mạng Chun ngành: Cơng nghệ thông tin Mã số HV: CB190152 Tác giả, Người hướng dẫn khoa học Hội đồng chấm luận văn xác nhận tác giả sửa chữa, bổ sung luận văn theo biên họp Hội đồng ngày 28/04/2022 với nội dung sau: - Về hình thức: sửa lỗi đánh máy trích dẫn tài liệu tham khảo đầy đủ Một số hình chưa việt hóa cần chỉnh sửa Về nội dung: sửa lại mục tiêu nêu rõ đóng góp Mơ tả làm rõ phần thực nghiệm chương Chương giảm phần trình bày neo4j thêm phần hạn chế Chương 1, thêm so sánh công nghệ Chỉnh sửa công cụ sinh liệu mô để sát với liệu thực tế Ngày tháng năm 2022 Giáo viên hướng dẫn Tác giả luận văn TS Trịnh Tuấn Đạt Đỗ Mạnh Cường CHỦ TỊCH HỘI ĐỒNG TS Vũ Thị Hương Giang Lời cam đoan Tôi xin cam đoan: Luận văn “Giải pháp lưu trữ số lượng lớn thực thể quan hệ trích xuất từ báo mạng” cơng trình nghiên cứu khoa học, độc lập tơi Kiến thức trình bày luận văn tổng hợp cá nhân, thông qua kiến thức từ thầy hướng dẫn, tài liệu tham khảo mạng internet báo khoa học khác Đây đề tài luận văn Thạc sĩ ngành Công nghệ Thông tin Kết nghiên cứu trình bày luận văn chưa cơng bố hình thức Hà Nội, ngày tháng năm 2022 Tác giả luận văn Đỗ Mạnh Cường Lời cảm ơn Trước tiên, xin chân thành cảm ơn thầy, cô trường Công nghệ thông tin Truyền thông - Trường Đại học Bách Khoa Hà Nội tận tình giảng dạy suốt thời gian học tập trường Để hồn thành Luận văn thạc sĩ, tơi nhận nhiều quan tâm, giúp đỡ từ q thầy cơ, gia đình bạn bè Đặc biệt tơi bày tỏ lịng biết ơn sâu sắc tới thầy TS Trịnh Tuấn Đạt tận tình bảo, hướng dẫn trực tiếp tơi để tìm hướng nghiên cứu hồn thiện luận văn tốt nghiệp Cuối cùng, tơi xin cảm ơn gia đình bạn bè tập thể lớp CNTT 2019B ủng hộ, giúp đỡ thời gian học tập, nghiên cứu thực luận văn tốt nghiệp Trong q trình làm luận văn tốt nghiệp chắn khơng tránh khỏi sai sót, tơi hoan nghênh chân thành cảm ơn ý kiến đóng góp quý thầy cô bạn đọc Hà Nội, ngày tháng năm Học Viên Đỗ Mạnh Cường Tóm tắt nội dung luận văn Các website ngày phát triển mạnh mẽ, mang đến nhiều nguồn thơng tin hữu ích cho phủ, tổ chức, xã hội, doanh nghiệp cá nhân, đóng vai trị quan trọng, ảnh hưởng tới lĩnh vực đời sống xã hội Thu thập nguồn tin tức trích xuất thực thể quan hệ chúng giúp hiểu xu hướng vận động, phát triển vật, tượng Cách làm hỗ trợ đắc lực cho hoạt động kinh doanh hoạt động lĩnh vực an ninh quốc phòng, quản lý điều hành dịch vụ công, quản lý giám sát báo chí truyền thơng, hỗ trợ q trình định, phòng ngừa bệnh tật, chống khủng bố, phòng chống tội phạm, bảo vệ thương hiệu, dự báo xu hướng thị trường, phát triển kinh doanh, đánh giá dư luận,… Đã có nhiều nghiên cứu phân tích viết trích xuất tự động thực thể quan hệ chúng Để sử dụng kết nghiên cứu này, đồng thời làm tiền đề cho nghiên cứu hướng tới phân tích, thống kê liệu thu thập được, cần phát triển hệ thống lưu trữ quản lý thơng tin trích xuất thu Do số lượng viết lớn, tổng số lượng thực thể quan hệ lưu trữ lên tới hàng tỷ Thách thức đặt cần phải đảm bảo hiệu lưu trữ truy vấn số lượng lớn thực thể quan hệ để phục vụ cho hoạt động thống kê, giúp theo dõi, giám sát, tổng hợp thơng tin mạng Vì giải pháp lưu trữ liệu truyền thống đáp ứng yêu cầu Nên chọn đề tài “Giải pháp lưu trữ số lượng lớn thực thể quan hệ trích xuất từ báo mạng” – tập trung giải lưu trữ mạng dạng báo tin tức, hướng tới xây dựng hệ thống lưu trữ, truy vấn thực thể quan hệ với kích thước lớn cách sử dụng đồ thị tri thức Hà Nội, ngày tháng năm 2022 Học viên Đỗ Mạnh Cường MỤC LỤC MỞ ĐẦU CHƯƠNG CƠ SỞ LÝ THUYẾT 1.1 Đồ thị tri thức 1.2 Neo4j - Nơi lưu trữ liệu 11 1.3 Cypher (query language) 21 1.4 NodeJs – Express 22 1.5 ReactJs 22 CHƯƠNG GIẢI PHÁP VÀ ĐÓNG GÓP NỔI BẬT 23 2.1 Thiết kế mơ hình lưu trữ liệu 23 2.1.1 Đặc tả thông tin liệu 23 2.1.2 Thiết kế mô hình liệu 24 2.2 Công cụ sinh liệu mô 29 2.3 Lựa chọn mơ hình liệu tối ưu 36 2.4 Hệ thống lưu trữ thực thể quan hệ 41 2.5 2.6 2.4.1 Kiến trúc hệ thống 41 2.4.2 Hệ thống REST API Service 43 Công cụ hướng dẫn sử dụng hệ thống 44 2.5.1 Service API 44 2.5.2 Xây dựng giao diện API Service 52 Xây dựng hướng dẫn sử dụng để vận hành, bảo trì triển khai cluster cho hệ thống CSDL 54 2.6.1 Triển khai cluster 54 2.6.2 Quản trị, vận hành bảo trì hệ thống 60 CHƯƠNG THỰC NGHIỆM 66 3.1 Môi trường thực nghiệm 66 3.2 Dữ liệu thực nghiệm 66 3.3 Đánh giá hiệu truy vấn thực nghiệm 67 3.3.1 Đánh giá mơ hình liệu 67 3.3.2 Đánh giá truy vấn hiệu hệ thống 69 CHƯƠNG KẾT LUẬN 71 TÀI LIỆU THAM KHẢO 73 DANH MỤC HÌNH VẼ Hình 1.1 Ví dụ đồ thị tri thức neo4j 17 Hình 1.2 Ví dụ nút neo4j 17 Hình 1.3 Ví dụ nhiều nhãn nút neo4j 18 Hình 1.4 Ví dụ relationship type neo4j 19 Hình 1.5 Ví dụ traversals neo4j 20 Hình 1.6 Ví dụ truy vấn Cypher traversals neo4j 22 Hình 2.1 Đồ thị sử dụng fact-node 26 Hình 2.2 Mơ hình lưu trữ liệu thứ 27 Hình 2.3 Mơ hình lưu trữ liệu thứ hai 27 Hình 2.4 Mơ hình lưu trữ liệu thứ ba 28 Hình 2.5 Mơ hình lưu trữ liệu thứ tư 28 Hình 2.6 File cấu hình cho việc sinh liệu mô 29 Hình 2.7 Giải thuật sinh liệu 30 Hình 2.8 Đồ thị áp dụng giải thuật sinh liệu .31 Hình 2.9 Sinh node từ file cấu hình yêu cầu 32 Hình 2.10 Sinh hai node Fact (f), node News (n) 32 Hình 2.11 Lựa chọn mode thỏa mãn quan hệ cần sinh 33 Hình 2.12 Tạo liên kết node 33 Hình 2.13 Thơng tin file header biểu diễn node 34 Hình 2.14 Thơng tin file biểu diễn node 34 Hình 2.15 Thơng tin file header biểu diễn relationship 34 Hình 2.16 Thơng tin file biểu diễn relationship 35 Hình 2.17 Thơng tin file script import 35 Hình 2.18 Thực truy vấn số lượng dbhits đồ thị tri thức .36 Hình 2.19 Mã lệnh truy vấn Cypher neo4j 36 Hình 2.20 Execution plan neo4j 37 Hình 2.21 Đồ thị tri thức gồm ba viết với thực thể quan hệ .40 Hình 2.22 Kiến trúc hệ thống 42 Hình 2.23 Truy vấn Cypher mối liên hệ viết 45 Hình 2.24 Dữ liệu thông tin thực thể trả 45 Hình 2.25 Truy vấn Cypher mối liên hệ viết 46 Hình 2.26 Dữ liệu mối liên hệ viết 47 Hình 2.27 Truy vấn Cypher thống kê viết theo điều kiện 48 Hình 2.28 Dữ liệu trả thống kê viết theo điều kiện 48 Hình 2.29 Truy vấn Cypher thực thể thống kê viết 49 Hình 2.30 Dữ liệu trả thực thể thống kê viết .49 Hình 2.31 File thơng tin thực thể quan hệ viết cần lưu 51 Hình 2.32 Câu lệnh Cypher lưu trữ viết 51 Hình 2.33 Giao diện Service API lấy thông tin thực thể 52 Hình 2.34 Giao diện Service API truy vấn viết 53 Hình 2.35 Giao diện Service API thống kê viết 53 Hình 2.36 Kiến trúc Causal Clustering 55 Hình 2.37 Cluster máy chủ SINGLE 57 Hình 2.38 Cluster máy chủ read_replica01 57 Hình 2.39 Cluster máy chủ read_replica02 57 Hình 2.40 Cluster máy chủ read_replica03 57 Hình 2.41 Cấu hình core01.example.com 59 Hình 2.42 Cấu hình core02.example.com 60 Hình 2.43 Cấu hình core03.example.com 60 Hình 2.44 Cú pháp câu lệnh thực backup online .61 Hình 2.45 Cài đặt câu lệnh thực backup .62 Hình 2.46 Nội dung file backup script 63 Hình 2.47 Cú pháp câu lệnh restore liệu neo4j 64 Hình 2.48 Mơ tả thao tác lệnh thực restore .64 Hình 2.49 Cú pháp câu lệnh unbind neo4j 65 Hình 2.50 Ví dụ cú pháp câu lệnh unbind neo4j 65 DANH MỤC BẢNG Bảng 1 Bảng so sánh loại sở liệu Bảng Bảng so sánh sở liệu đồ thị 12 Bảng Bảng loại thực thể quan hệ 23 Bảng 2 Bảng lưu trữ relationship type 24 Bảng Danh sách ý nghĩa operator 38 Bảng Thuộc tính node đánh index 40 Bảng Service truy vấn thông tin thực thể 45 Bảng Service truy vấn mối liên hệ 46 Bảng Truy vấn thực thể có nhãn cho trước 47 Bảng Truy vấn thực thể với nhãn cho 48 Bảng Cài đặt quan trọng cho Cluster có phiên SINGLE 56 Bảng 10 Cài đặt quan trọng cho Cluster có phiên CORE 58 Bảng 11 Tham số lưu liệu 61 Bảng 12 Một vài tham số điển hình câu lệnh backup 62 Bảng 13 Mô tả tham số câu lệnh restore 64 Bảng Bộ liệu thực nghiệm 67 Bảng Đánh giá bốn mơ hình 67 Bảng 3 Bảng hiệu truy vấn máy chủ 70

Ngày đăng: 04/06/2023, 11:32

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Zeng, D., Liu, K., Chen, Y., & Zhao, J. (2015). Distant supervision for relation extraction via piecewise convolutional neural networks. In Proceedings of the 2015 conference on empirical methods in natural language processing (pp. 1753–1762).https://ieeexplore.ieee.org/document/374370 Link
[4] M. Farber, B. Ell, C. Menne, A. Rettinger, and F. Bartscherer. Linked Data Quality of DBpedia, Freebase, OpenCyc, Wikidata, and YAGO. Semantic Web Journal, 2016. http://www.semantic-web-journal.net/content/linked-data-quality-dbpedia-freebaseopencyc-wikidata-and-yago Link
[6] Named Entity Recognition and Normalization Applied to Large-Scale Information Extraction from the Materials Science Literature, L. Weston, V.Tshitoyan, J. Dagdelen, O. Kononova, A. Trewartha, K. A. Persson, G. Ceder, and A. Jain*. https://pubs.acs.org/doi/abs/10.1021/acs.jcim.9b00470 Link
[7] Open Research Knowledge Graph: Towards Machine Actionability in Scholarly Communication, Mohamad Yaser Jaradeh,Sửren Auer (Released date: January 2019),https://www.researchgate.net/publication/330751750_Open_Research_Knowledge_Graph_Towards_Machine_Actionability_in_Scholarly_Communication Link
[8] Ehrlinger và Wolfram Wửò, Towards a Definition of Knowledge Graphs, CERN, http://ceur-ws.org/Vol-1695/paper4.pdf Link
[5] Michael Färber ∗,∗∗, Basil Ell, Carsten Menne, Achim Rettinger ∗∗∗, và Frederic Bartscherer , Linked Data Quality of DBpedia, Freebase, OpenCyc, Wikidata, and YAGO, Karlsruhe Institute of Technology (KIT), Institute AIFB, http:www.semantic-web- journal.net/system/files/swj1366.pdf Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w