Tập huấn luyện và tập kiểm tra

Một phần của tài liệu Dự đoán liên kết trên sơ sở dữ liệu đồ thị (Trang 58 - 59)

5. Nội dung nghiên cứu

2.3.2. Tập huấn luyện và tập kiểm tra

Vấn đề khó khăn hơn là phân đoạn tập huấn luyện và tập kiểm tra. Chúng ta không thể chỉ thực hiện phân đoạn ngẫu nhiên, vì điều này có thể dẫn đến rò rỉ dữ liệu.

Khi mô hình vô tình sử dụng dữ liệu bên ngoài tập huấn luyện, rò rỉ dữ liệu sẽ xảy ra. Điều này dễ xảy ra trong tính toán đồ thị, vì các nút trong tập huấn luyện có thể liên quan đến các nút trong tập kiểm tra.

Chúng ta cần chia đồ thị thành các đồ thị con dưới dạng tập huấn luyện và tập kiểm tra. Nếu dữ liệu đồ thị có khái niệm về thời gian thì công việc của chúng ta sẽ dễ dàng hơn nhiều. Chúng ta có thể chia điểm tại một thời điểm nhất định. Dữ liệu trước thời điểm đó được sử dụng làm tập huấn luyện và dữ liệu sau thời điểm đó là được sử dụng như bộ thử nghiệm.

Đây vẫn chưa phải là giải pháp tốt nhất, chúng ta cần cố gắng đảm bảo rằng cấu trúc mạng gần đúng của các đồ thị con trong tập huấn luyện và tập kiểm tra là tương tự nhau. Khi bước này được thực hiện, chúng ta có một tập huấn luyện và một tập kiểm tra bao gồm một số cặp nút liên quan. Chúng đều là những mẫu tích cực trong mô hình học máy.

Tiếp theo chúng ta tìm các mẫu tiêu cực: Trường hợp đơn giản nhất là không có sự liên kết giữa tất cả các cặp nút. Nhưng vấn đề là trong nhiều kịch

bản, số lượng các cặp nút có mối quan hệ lớn hơn nhiều so với các cặp nút không có mối quan hệ.

Số lượng mẫu tiêu cực tối đa như sau:

# Mẫu tiêu cực = (# nút)2 – (# mối quan hệ) – (# nút)

Nếu chúng ta thay thế tất cả các mẫu tiêu cực trong tập huấn luyện vào mô hình, nó sẽ gây ra sự mất cân bằng nghiêm trọng về lớp, tức là số lượng mẫu tiêu cực lớn hơn rất nhiều so với số lượng mẫu tích cực.

Nếu chúng ta đào tạo mô hình dựa trên tập dữ liệu không cân bằng này, miễn là chúng ta dự đoán rằng không có mối tương quan giữa bất kỳ cặp nút nào, chúng ta có thể có được độ chính xác rất tốt, nhưng điều này tất nhiên không phải là điều chúng ta muốn.

Vì vậy chúng ta cần giảm thiểu số lượng mẫu tiêu cực. Một phương pháp đã được đề cập trong nhiều bài báo là chọn các cặp nút cách đều nhau. Phương pháp này có thể giảm số lượng mẫu tiêu cực một cách hiệu quả, mặc dù số lượng mẫu tiêu cực vẫn lớn hơn nhiều so với số lượng mẫu tích cực.

Để giải quyết vấn đề mất cân bằng mẫu, chúng ta có thể lấy mẫu các ví dụ tích cực hoặc lấy mẫu các ví dụ tiêu cực. Luận văn sẽ đi với phương pháp lấy mẫu giảm bằng cách sẽ lấy mẫu xuống các cặp nút để có số lượng mẫu tích cực và tiêu cực bằng nhau.

Một phần của tài liệu Dự đoán liên kết trên sơ sở dữ liệu đồ thị (Trang 58 - 59)

Tải bản đầy đủ (PDF)

(82 trang)