STT Câu truy vấn Máy chủ local Máy chủ cloud
1 Truy vấn thực thể có thơng tin: node Person có property name -
Person 1.
517ms (15 kết quả)
92ms
(15 kết quả) 2 Liệt kê thực thể và mối quan hệ giữa chúng trong một bài viết: với
property link - https://link-to-new-5.
32.27s (31 kết quả)
17.80s (31 kết quả) 3 Tìm thực thể xuất hiện trong những bài báo n với thông tin sau: node
Person: name là Person 2
40.18s
(45811 kết quả)
14.29s
(45811 kết quả) 4 Thống kê quan hệ giữa các thực thể đã cho với thực thể khác: node –
label: Person, và name - Person 3
62.33s
(1462 kết quả)
15.21s
(1462 kết quả) 5 Thống kê thực thể đã cho theo tháng có quan hệ với thực thể khác:
node – label: Person, name - Person 4 và label: time 10-2019.
54.50s
(130 kết quả)
12.95s
(130 kết quả) 6 Thống kê quan hệ của thực thể nào đó cùng tham gia: node – label:
Person, name - Person 2
70.59s (23 kết quả)
18.77s (23 kết quả)
71
CHƯƠNG 4. KẾT LUẬN
Với mục tiêu đặt ra ban đầu, tơi đã tìm hiểu, nghiên cứu cách thức lưu trữ dữ liệu bằng cơ sở dữ liệu đồ thị cho thực thể quan hệ trích xuất từ các bài viết tin tức Tiếng Việt. Hệ thống local và cloud hiện tại đang lưu trữ khoảng 235 triệu thực thể và 728 triệu quan hệ. Số lượng dữ liệu trên có khả quan nhưng khơng đáng kể khi so sánh với Knowledge Graph của Google. Tuy nhiên kết quả này là tồn bộ cơng sức tìm hiểu, nghiên cứu và học hỏi trong suốt quá trình thực hiện luận văn. Kết quả này sẽ là tiền đề, nền móng để tơi phát triển và cải thiện hệ thống trong tương lai.
Trong q trình thực hiện luận văn, tơi đã có thêm nhiều bài học cũng như kinh nghiệm hữu ích như: kiến thức về cơ sở dữ liệu đồ thị; cách thức biểu diễn dữ liệu trong đồ thị tri thức trên nền tảng Neo4j; kĩ năng phân tích cũng như đánh giá q trình thực hiện câu truy vấn; kiến thức về shell script. Đây là những kiến thức quý báu giúp cho quá trình phát triển sự nghiệp của tơi sau này
Đóng góp chính
Thiết kế mơ hình dữ liệu tối ưu cho việc lưu trữ các bài viết và thực thể quan hệ được trích xuất tự động từ các bài viết đó.
Triển khai cluster cho CSDL đồ thị Neo4j. Chế độ cluster của Neo4j đảm bảo hệ thống dữ liệu có khả năng dung lỗi, đảm bảo an toàn cho dữ liệu và cung cấp khả năng mở rộng khối lượng công việc liên quan đến truy vấn dữ liệu.
Xây dựng các service REST API cho phép truy vấn, lưu trữ các bài viết và các thực thể quan hệ.
Xây dựng giao diện hướng dẫn sử dụng API cho người phát triển.
Triển khai các giải pháp quản trị hệ thống CSDL (sao lưu, khơi phục). Viết shell script tự động hóa thao tác sao lưu dữ liệu.
Xây dựng công cụ sinh dữ liệu mơ phỏng dựa theo nguồn dữ liệu trích xuất từ các bài báo mạng, ngồi ra cơng cụ này cịn có thể tùy biến để sử dụng cho các mơ hình khác nhau.
72
Các vấn đề mà luận văn đã đạt được
Giao diện hướng dẫn sử dụng API cho người phát triển chưa thực sự tối ưu. So với nhiều hệ thống đang có trên thực tế và được triển khai thì hệ thống tơi đề xuất tập trùng vẫn chưa giải quyết được việc triển khai trên tồn máy chủ, chưa kiểm sốt được thông tin truy xuất người dùng.
Định hướng phát triển
Do nguồn dữ liệu tôi sử dụng đang là dạng dữ liệu mơ phỏng – dạng dữ liệu đã có cấu trúc nên mong muốn xây dựng thêm công cụ lấy dữ liệu thực tế. Công cụ này xử lý lấy dữ liệu tự động và từ dạng dữ liệu thô chưa có cấu trúc rồi chuyển thành dạng có cấu trúc để lưu vào CSDL trong bài luận này.
Có rất nhiều thơng tin có thể trích rút được từ nguồn dữ liệu đã được tổ chức thành đồ thị. Trong luận văn này, tơi chỉ thực hiện trích rút thơng tin bằng cách thực hiện truy vấn trực tiếp vào cơ sở dữ liệu. Do đó, số lượng câu hỏi mang ý nghĩa không nhiều. Vậy nên, trong tương lai, tơi sẽ tìm hiểu, cách áp dụng các mơ hình học máy, học sâu để trả lời các câu hỏi mang tính chất dự đốn như: Từ dữ liệu về các bài viết về du lịch, có thể đưa ra các địa điểm du lịch nổi tiếng; xếp hạng các địa điểm du lịch. Hay từ dữ liệu về các cuộc gặp gỡ của các nguyên thủ quốc gia, các hiệp định, ký kết, đánh giá xếp hạng một quốc gia.
Ngoài ra từ kiến thức đã nghiên cứu được tơi cịn muốn áp dụng vào lĩnh vực trí tuệ nhân tạo, ví dụ như: nhận diện sinh trắc học, ngôn ngữ tự nhiên,…
73
TÀI LIỆU THAM KHẢO
[1] Zeng, D., Liu, K., Chen, Y., & Zhao, J. (2015). Distant supervision for relation extraction via piecewise convolutional neural networks. In Proceedings of the 2015 conference on empirical methods in natural language processing (pp. 1753–1762).
https://ieeexplore.ieee.org/document/374370.
[2] Knowledge_graph, https://en.wikipedia.org/wiki/Knowledge_graph. [3] Cypher, https://en.wikipedia.org/wiki/Cypher_(query_language).
[4] M. Farber, B. Ell, C. Menne, A. Rettinger, and F. Bartscherer. Linked Data Quality of DBpedia, Freebase, OpenCyc, Wikidata, and YAGO. Semantic Web Journal, 2016. http://www.semantic-web-journal.net/content/linked- data-quality-dbpedia-freebaseopencyc-wikidata-and-yago.
[5] Michael Färber ∗,∗∗, Basil Ell, Carsten Menne, Achim Rettinger ∗∗∗, và
Frederic Bartscherer , Linked Data Quality of DBpedia, Freebase, OpenCyc, Wikidata, and YAGO, Karlsruhe Institute of Technology (KIT), Institute AIFB, http:www.semantic-web-journal.net/system/files/swj1366.pdf. [6] Named Entity Recognition and Normalization Applied to Large-Scale
Information Extraction from the Materials Science Literature, L. Weston, V. Tshitoyan, J. Dagdelen, O. Kononova, A. Trewartha, K. A. Persson, G. Ceder, and A. Jain*. https://pubs.acs.org/doi/abs/10.1021/acs.jcim.9b00470. [7] Open Research Knowledge Graph: Towards Machine Actionability in
Scholarly Communication, Mohamad Yaser Jaradeh,Sören Auer (Released date: January 2019),
https://www.researchgate.net/publication/330751750_Open_Research_ Knowledge_Graph_Towards_Machine_Actionability_in_Scholarly_ Communication.
[8] Ehrlinger và Wolfram Wưß, Towards a Definition of Knowledge Graphs, CERN, http://ceur-ws.org/Vol-1695/paper4.pdf.
74 [9] Diego Ongaro và John Ousterhout, In Search of an Understandable Consensus Algorithm (Extended Version), Stanford University, https://raft.github.io/raft.pdf.