Khai thác đồ thị con phổ biến

Trong thời gian gần đây, có sự quan tâm đặc biệt đến việc phát triển các thuật toán khai thác mẫu phổ biến trên tập dữ liệu đồ thị. Mục đích của quá trình khai thác đồ thị là tìm ra các mẫu hay đồ thị con phổ biến trong dữ liệu có cấu trúc. Có hai hướng tiếp cận chính đối với bài toán xác định đồ thị con phổ biến từ tập dữ liệu đồ thị [94], [99]:

 Khai thác đồ thị con phổ biến trên một đồ thị lớn: tìm các đồ thị con xuất hiện nhiều lần trên một đồ thị. Ứng dụng vào khai thác cấu trúc web, phân tích mạng xã hội,…. Tiêu biểu cho hướng này là các thuật toán Subdue [23], GBI [107], PATH [91], GREW[52].

gây ung thư,… Các thuật toán tiêu biểu là AGM [42], FSG [51], gSpan [100], FFSM [40], Gaston [72].

Ngoại trừ thuật toán Subdue, GBI và GREW đi theo hướng heuristic, các thuật toán còn lại đều yêu cầu tìm tất cả các đồ thị con thỏa mãn điều kiện cho trước (như ngưỡng minsupp) và cần thi hành phép đẳng cấu đồ thị (đây là bài toán có độ phức tạp rất cao). Bên cạnh đó, thuật toán Subdue, GBI và GREW có xu hướng tìm tập nhỏ các mẫu phổ biến. Subdue là thuật toán gần đúng, tìm các mẫu có thể nén đồ thị đầu vào bằng cách thay thế các mẫu này bằng đỉnh đơn. Subdue sử dụng nguyên lý độ dài mô tả cực tiểu (Minimum Description Length – MDL) để đánh giá việc mở rộng mẫu có thể nén đồ thị đầu vào. Đồng thời Subdue áp dụng phương pháp tìm kiếm heuristic nhằm giảm không gian tìm kiếm. GBI là thuật toán tương tự như Subdue. Ý tưởng chính của GREW là lưu trữ vị trí của các mẫu đồ thị con phổ biến tìm được trước bằng cách viết lại đồ thị đầu vào và rút gọn các cạnh. Nó tương tự như Subdue, GBI, nhưng có một số cải tiến hueristic. Theo các tác giả của thuật toán GREW, so với Subdue thì nó chạy nhanh hơn và tìm được đồ thị có nhiều đỉnh, cạnh hơn trên tập dữ liệu có nhiều kết nối phức tạp.

Đối với tiếp cận tìm đồ thị con phổ biến trên tập dữ liệu đồ thị, vấn đề tính toán phức tạp nhất là xác định đẳng cấu đồ thị. Đây là bài toán có độ phức tạp NP. Cho đến nay, việc kiểm tra tính đẳng cấu của hai đồ thị là một vấn đề phức tạp, chưa được giải quyết hoàn toàn và đặc biệt khi đồ thị có kích thước lớn. Được sử dụng nhiều là thuật toán Backtracking của Ullmann [90] hoặc Nauty của Mckay [65].

Một vấn đề quan trọng khác là tạo đồ thị ứng viên và tập ứng viên hiệu quả, không dư thừa để hạn chế chi phí cho việc kiểm tra tính đẳng cấu. Hiện nay, bài toán này được giải quyết theo hai hướng khác nhau: dựa trên tìm kiếm theo chiều rộng: thuật toán AGM, FSG, PATH và dựa trên phát triển mẫu (pattern-growth) (áp dụng phương pháp tìm kiếm theo chiều sâu): thuật toán gSpan, Gaston. Ngoài ra, còn có hướng tiếp cận lai tận dụng những ưu điểm và hạn chế những khuyết điểm của hai hướng tiếp cận cơ bản trên. Nổi bật theo hướng này là thuật toán FFSM.

Bài toán gom cụm văn bản

Bài toán tóm tắt văn bản