5. Nội dung nghiên cứu
3.2.8. Xây dựng một số tính năng đồ thị khác
Luận văn sử dụng thêm hai thuật toán là đếm số tam giác và hệ số phân cụm cục bộ trong nhóm các thuật toán phát hiện cộng đồng để kiểm tra xem mô hình dự đoán có hiệu quả hơn không? Bởi vì thay vì được tính toán dựa trên các cặp nút, chúng là các biện pháp tính toán cụ thể của từng nút.
Thuật toán có thể trả về số lượng tam giác được tạo thành bởi mỗi nút và hệ số phân cụm của mỗi nút. Hệ số phân cụm của một nút cho biết xác suất các nút lân cận của nó cũng được kết nối.
Chúng ta tiến hành chạy hai thuật toán này trên đồ thị huấn luyện và kiểm tra, kết quả chúng ta có thêm 4 node là: trianglesTrain, coefficientTrain, trianglesTest, and coefficientTest.
Hình 3.17: Truy vấn đếm số tam giác và hệ số phân cụm cục bộ
Sau đó, thêm chúng vào DataFrames huấn luyện và kiểm tra theo các đoạn mã sau:
Hình 3.18: Mẫu DataFrames
Các tham số này chúng không dành riêng cho ghép nối nút mà là các tham số cho một nút duy nhất. Không thể đơn giản thêm các giá trị này vào DataFrame dưới dạng tam giác nút hoặc hệ số nút, bởi vì thứ tự ghép nối nút không thể được đảm bảo và chúng ta cần một phương thức không liên quan gì đến thứ tự. Điều này có thể đạt được bằng cách lấy giá trị trung bình, tích của các giá trị hoặc bằng cách tính các giá trị nhỏ nhất và lớn nhất, như sau:
Hình 3.19: Truy vấn tính các giá trị nhỏ nhất và lớn nhất
Tiếp theo chúng ta có thể đào tạo và đánh giá mô hình:
Hình 3.20: Mô hình đào tạo và kết quả đánh giá mô hình.
Chúng ta tiến hành kiểm tra xem tính năng liên kết nào đóng vai trò nổi bật nhất: