5. Nội dung nghiên cứu
2.4. Tiểu kết chương 2
Nội dung chương 2 này, luận văn đã trình bày chi tiết khái niệm đến cách thức hoạt động của các thuật toán lân cận nút sử dụng trong bài toán dự đoán liên kết. Đối với cơ sở dữ liệu Neo4j, luận văn đã trình bày chi tiết về thư viện thuật toán đồ thị Neo4j bao gồm 6 thuật toán dự đoán liên kết: thuật toán Adamic Adar, hàng xóm chung, kết nối ưu tiên, phân bổ tài nguyên, cùng cộng đồng, tổng số lân cận dùng để xây dựng các tính năng dự đoán trong việc tạo các mô hình học máy dự đoán liên kết và sử dụng hai thuật toán đếm số tam giác và hệ số phân cụm cục bộ để tăng tính năng dự đoán của mô hình. Bên cạnh đó luận văn cũng trình bày cách xây dựng bộ máy học có giám sát và lựa chọn Rừng ngẫu nhiên phục vụ cho việc tạo mô hình dự đoán liên kết cũng như trình bày các metrics phục vụ cho việc đánh giá chất lượng mô hình mà luận văn xây dựng.
Chương 3: CÀI ĐẶT MÔ PHỎNG THỰC NGHIỆM.
Trong nội dung chương cuối cùng này, trên cơ sở lý thuyết đã được trình bày ở chương 1 và chương 2. Trên cơ sở tìm hiểu và nghiên cứu các công cụ, thư viện mã nguồn mở tích hợp sẳn có nhằm rút ngắn quá trình lập trình cài đặt. Luận văn sử dụng Tập dữ liệu mạng trích dẫn - Dữ liệu trích dẫn được trích xuất từ DBLP, ACM, MAG (Microsoft Academic Graph) và các nguồn khác. Tập dữ liệu mạng trích dẫn, chứa các tác giả, bài báo, mối quan hệ đồng tác giả và mối quan hệ trích dẫn. Luận văn sẽ sử dụng một số mô hình để dự đoán liệu các cặp tác giả có khả năng cộng tác trong tương lai hay không và cho biết cách các thuật toán đồ thị cải thiện kết quả của mô hình dự đoán.