Những ứng dụng trong sinh học và hóa học bao gồm những truy vấn tìm kiếm trong dữ liệu có cấu trúc phước tạp và hỗn hợp. Mặc dù với việc lập danh mục đồ thị, những các tìm kiếm như vậy vẫn gặp các thác thức bởi thường rất khó để chó thể tìm kiếm một cách so khớp chính xác của một danh mục, tìm kiếm các cấu trúc tương tự trong những cấu trúc phước tạp trở nên là một nhân tố quan trọng. Ta xét ví dụ dưới đây. Ví dụ:
Các hợp chất hóa học, là các đồ thị có trong cơ sở dữ liệu.
Đồ thị truy vấn
Hình 29: Ví dụ về vấn đề tìm kiếm các câu trúc tương tự
Hiển nhiên ta thấy rằng trong các đồ thị trong cơ sở dữ liệu thì không có đồ thị con nào so khớp với đồ thị truy vấn, do đó cách giải quyết “ngây thơ” nhất là:
– Định dạng một bộ đồ thị con truy vấn với một hoặc vài cạnh bị xóa đi – Sau đó sử dụng các cách tìm kiếm chính xác
Nhưng nếu làm theo cách trên thì khi ta quyết định xóa nhiều cạnh thì sẽ tạo lên một số lượng lớn các cấu trúc con, do đó chi phí sẽ rất lớn. Nên đối với những đồ thị lớn thị số cạnh được xóa là rất ít, chỉ một hoặc hai.
Ví dụ: Nếu 3 cạnh được xóa trong đồ thị truy vấn có 20 cạnh thì có thể tạo ra ) =1140 cấu trúc truy vấn con.
Một giải thuật lọc các cấu trúc dựa trên thuộc tính, gọi là Grafil(Graph similarity Filtering) được pháp triển để lọc hiệu quả những đồ thị trong một cơ sở dữ liệu đồ thị kích cỡ lớn. Grafil mô hình mỗi đồ thị truy vấn như một bộ những đặc trưng và chuyển đổi những cạnh đã xóa vào “những đặc trưng không đúng” trong đồ thị
thực hiện việc lọc. Thực vậy, một chiến lược kết hợp nhiều bộ lọc được phát triển, ở đây mỗi bộ lọc sử dụng một bộ con phân biệt và bổ sung cho nhau của những thuộc tính. Những bộ lọc được xây dựng bởi một giải thuật gom nhóm một chiều, có phân cấp mà mỗi nhóm đặc trưng với sự chọn lọc tương tự nhau vào một bộ thuộc tính Ý tưởng chính:
Hình 30: Tư tưởng của phương pháp tìm kiếm cấu trúc tương tự
– Tối thiểu một trong các cấu trúc con phải được chứa đựng.
– Nếu đồ thị G chứa đựng phần chính của một đồ thị truy vấn Q, G cùng chia sẻ số lượng những đặc trưng chung với Q
– Cho một tỉ lệ nới lỏng, Tính toán số lượng tối thiểu các đặc trưng được bỏ đi !