5. Nội dung nghiên cứu
3.4. Tiểu kết chương 3
Luận văn dựa vào tập dữ liệu tạo đồ thị đồng tác giả dựa trên các tác giả đã cộng tác trên các bài báo và sau đó dự đoán các hợp tác trong tương lai giữa các cặp tác giả. Tiến hành đào tạo và đánh giá các mô hình dự đoán khác nhau, bắt đầu với các tính năng đồ thị cơ bản như CN, PA, TN và sau đó thêm hai tính năng thuật toán là đếm tam giác và hệ số phân cụm cục bộ trong nhóm các thuật toán phát hiện cộng đồng để tăng khả năng dự đoán liên kết của các mô hình dự đoán. Kết quả ta có độ chính xác dự đoán là trên 90% cho các tính năng cơ bản và tăng khoảng 4% sau khi thêm hai tính năng trong nhóm các thuật toán phát hiện cộng đồng. Bên cạnh đó việc chọn các năm khác nhau để phân chia dữ liệu không quá ảnh hưởng tới mô hình dự đoán mà luận văn xây dựng, kết quả thu được vẫn cho độ chính xác là tương đối cao (trên 90%).
KẾT LUẬN
Luận văn đã trình bày một cách tổng quan về cơ sở dữ liệu đồ thị phổ biến nhất hiện nay là CSDL đồ thị Neo4j. Đã tìm hiểu, nghiên cứu khái niệm, ứng dụng và các phương pháp để giải quyết bài toán dự đoán liên kết. Song song với đó luận văn đã xem xét việc sử dụng các tính năng và thuật toán trong các thư viện thuật toán đồ thị Neo4j áp dụng vào bài toán dự đoán liên kết. Đã trình bày một vài khái niệm sơ bộ và sau đó đi mô phỏng chi tiết việc kết hợp Neo4j và ngôn ngữ lập trình Python 3.8 chạy trên nền tảng Anacoda để dự đoán liên kết. Cụ thể, luận văn đã dựa vào tập dữ liệu DBLP tiến hành tạo đồ thị đồng tác giả dựa trên các tác giả đã cộng tác trên các bài báo, sau đó dự đoán các hợp tác trong tương lai giữa các cặp tác giả và minh họa cách đánh giá các mô hình phân loại rừng ngẫu nhiên, kết hợp nhiều loại tính năng liên kết khác nhau để cải thiện kết quả đánh giá.
Một số hướng phát triển: Trong nghiên cứu tương lai, tôi sẽ đánh giá cách tiếp cận của mình trên các bộ dữ liệu lớn hơn với cùng dữ liệu và thông số được sử dụng trong luận văn này. Bộ dữ liệu DBLP cũng có các trích dẫn giữa các bài báo; chúng ta có thể sử dụng dữ liệu đó để tạo các tính năng khác nhau hoặc dự đoán các trích dẫn trong tương lai. Và tôi dự định tiếp tục nghiên cứu, cải tiến để triển khai cài đặt trên nhiều bộ dữ liệu hơn, tạo ra nhiều kết quả có giá trị hơn, hỗ trợ các truy vấn phức tạp hơn.
DANH MỤC TÀI LIỆU THAM KHẢO
[1] Mark Needham, Amy E. Hodler, Graph Algorithms: Practical Examples in Apache Spark and Neo4j, O'Reilly Media, 2020, page 193 - 234. [2] Rik Van Bruggen, Learning Neo4j, Packt, 2014, page 1 - 50.
[3] Virinchi Srinivas, Pabitra Mitra, Link Prediction in Social Networks, Springer, 2016, page 57 - 60.
[4] Jon Kleinberg và David Liben-Nowell, The Link Prediction Problem for Social Networks, January 8, 2004, page 1 – 7.
[5] Zuhal Kurt, Kemal Ozkan, Alper Bilge, Omer Nezih Gerek. A Similarity- Inclusive Link Prediction Based Recommender System Approach, Elektronika Ir Elektrotechnika, ISSN 1392-1215, VOL. 25, NO. 6, 2019 [6] M. E. J. Newman. Clustering and preferential attachment in growing
networks. Physical Review Letters E, 64, 2001.
[7] Lada A. Adamic and Eytan Adar. Friends and neighbors on the web. Social Networks, 25(3):211–230, July 2003.
[8] Gerard Salton and Michael J. McGill. Introduction to Modern Information Retrieval. McGrawHill, 1983.
[9] M. Al Hasan, V. Chaoji, S. Salem, and M. Zaki. Link prediction using supervised learning. In Workshop on Link Discovery: Issues, Approaches and Apps., 2005.
[10] "Resource Description Framework (RDF): Concept and Summary Syntax". www.w3.org. Taken 2018-10-24.
[11] https://neo4j.com/docs [12] http://www.vi.w3ki.com/ [13] https://db-engines.com/ [14] https://vi.wikiqube.net/