Bộ dữ liệu được sử dụng trong luận văn này bao gồm 1 kho (cơ sở dữ liệu) đồ thị được lưu trong file dạng txt. Kho đồ thị có cấu trúc như hình 3.1.
Hình 3.1. Mô tả cấu trúc bộ dữ liệu thử nghiệm với kho gồm 2 đồ thị
Trong hình 3.1, “t # N” nghĩa là đồ thị thứ N trong kho đồ thị, “v M L” tức là đỉnh M trong đồ thị có nhãn là L, "e P Q L" nghĩa là cạnh nối 2 đỉnh P và Q có nhãn là L. Mỗi đồ thị được ngăn cách với nhau bởi dấu xuống dòng. Kết thúc file sẽ có cấu trúc là "t # -1".
Bộ dữ liệu thứ nhất là “dataset.txt” gồm 10.000 đồ thị với đồ thị bé nhất bao gồm 2 đỉnh và 1 cạnh, đồ thị lớn nhất bao gồm 214 đỉnh và 217 cạnh. Để thuận tiện hơn cho việc đánh giá, chúng ta chia bộ dữ liệu ra thành các bộ dữ liệu nhỏ hơn được ký hiệu bằng Q4.txt, Q8.txt, Q12.txt, Q16.txt, Q.20.xt và Q24.txt. Mỗi bộ dữ liệu này
đều chứa 1.000 đồ thị. Trong đó, “Qx.txt” chứa các đồ thị có số cạnh nhỏ hơn hoặc bằng “x” cạnh.
Bộ dữ liệu thứ hai là tập dữ liệu các hợp chất hóa học (Chemical Compound Datasets). Tập dữ liệu này có 340 các hợp chất hóa học, trong đó mỗi hợp chất được mô hình hóa bởi một đồ thị vô hướng. Trong tập dữ liệu có 66 kiểu nguyên tử (atom) và 4 kiểu liên kết (single, double, triple, aromatic bond). Các thông tin về nguyên tử và liên kết được lưu trữ trong 2 file riêng biệt và sử dụng thủ tục được giới thiệu trong tài liệu [15] xây dựng các đồ thị cho tập dữ liệu. Bộ dữ liệu được lưu trong tệp tin “Chemical_340.txt” bao gồm 340 đồ thị, với đồ thị bé nhất gồm 2 đỉnh và 1 cạnh, đồ thị lớn nhất bao gồm 214 đỉnh và 214 cạnh.
Toàn bộ 2 bộ dữ liệu trên được tải về tại địa chỉ:
https://drive.google.com/file/d/1_vyR1_C9kLTG1__3qJH3DoVnteNtL8Kx/view?u sp=sharing.