Bài toán dự đoán đồng tác giả

Một phần của tài liệu Dự đoán liên kết trên sơ sở dữ liệu đồ thị (Trang 66 - 68)

5. Nội dung nghiên cứu

3.2. Bài toán dự đoán đồng tác giả

Sử dụng Bộ dữ liệu tiến hành tạo đồ thị đồng tác giả dựa trên các cặp tác giả cùng cộng tác trên các bài báo. Sau đó dựa vào một năm cụ thể (ở đây luận văn chọn năm 2006) phân chia đồ thị đồng tác giả thành 2 đồ thị con là đồ thị đào tạo và đồ thị kiểm tra, xây dựng mô hình học máy dự đoán xem các cặp tác giả có cùng cộng tác chung ở các bài báo trong tương lai hay không.

Luận văn quan tâm đến các yếu tố sau đây làm tăng xác suất tác giả trở thành đồng tác giả:

- Có nhiều đồng tác giả hơn.

- Mối quan hệ tay ba tiềm năng giữa các tác giả. - Các tác giả có nhiều mối quan hệ hơn.

- Các tác giả trong cùng một cộng đồng.

- Các tác giả trong cùng một cộng đồng chặt chẽ hơn. Cụ thể:

 Đầu vào: Tạo bộ dữ liệu đào tạo và kiểm tra gồm các cặp tác giả có nhãn gồm hai giá trị: giá trị 1 có nghĩa là có một liên kết (đồng tác giả) và giá trị 0 có nghĩa là không có liên kết (không phải đồng tác giả).

 Đầu ra: Dự đoán các cặp tác giả có cùng cộng tác trên các bài báo trong tương lai hay không.

năm 2006.

 Bộ dữ liệu kiểm tra: Các cặp tác giả có lần cộng tác đầu tiên từ năm 2006 trở về sau.

 Mô hình học máy: Luận văn sử dụng mô hình Rừng ngẫu nhiên vì đây là một loại mô hình học máy dùng để dự đoán kết quả rất tốt. Bộ phân loại rừng ngẫu nhiên sẽ lấy kết quả từ nhiều cây quyết định mà chúng ta đào tạo và sau đó sử dụng biểu quyết để dự đoán phân loại – trong luận văn này, dự đoán liệu có liên kết (đồng tác giả) hay không.

Hình 3.1: Một mô hình rừng ngẫu nhiên

 Các tính năng dự đoán liên kết: Bắt đầu từ các tính năng CN, PA, TN. Sau đó bổ sung hai tính năng là thuật toán đếm số tam giác và hệ số phân cụm cục bộ để cải thiện kết quả dự đoán.

 Phương pháp đánh giá độ chính xác của mô hình: Sử dụng các metrics Accuracy, Precision, Recall và F1 để đánh giá chất lượng của mô hình dự đoán.

Một phần của tài liệu Dự đoán liên kết trên sơ sở dữ liệu đồ thị (Trang 66 - 68)

Tải bản đầy đủ (PDF)

(82 trang)