CHƯƠNG 1. TỔNG QUAN VỀ SO KHỚP
1.2.3 Một số nghiên cứu liên quan về so khớp đồ thị
Có hai cách để thực hiện so khớp đồ thị là tính toán độ tương đồng (similarity) và tính toán độ bất tương đồng (dissimilarity) giữa đồ thị mô hình GM và đồ thị dữ liệu GD. Sự khác biệt giữa hai phương pháp này là rất nhỏ cho dù cơ sở để xây dựng là khác nhau. Các tiếp cận tính đoán độ tương đồng dựa trên việc biểu diễn các đồ thị dưới dạng các vecto khoảng cách ngầm định (implicitly induced vector space). Còn cách tiếp cận thứ hai sẽ xây dựng dựa trên hai phép biến đổi (incarnations) để tìm sự bất tương đồng giữa hai đồ thị thông qua vecto khoảng cách rõ được gắn ngay trên các đồ thị (explicit embedding) [58].
1.2.3.1 So khớp đồ thị dựa trên đồ thị đẳng cấu và đồ thị con đẳng cấu.
Cho một đồ thị mô hình GM có ma trận kề M1 và một đồ thị dữ liệu GD có ma trận kề M2, ban đầu ta phải tính tất cả các ma trận hoán vị của M2 và chuyển ma trận đó thành cây quyết định. Khi thực hiện thuật toán, ma trận kề M1 của đồ thị GM sẽ tìm ma trận kề trong cây quyết định mà đồng nhất với nó. Ma trận kề đó sẽ tương ứng với ma trận kề biểu diễn đẳng cấu đồ thị hoặc đẳng cấu đồ thị con mà bài toán cần tìm.
1.2.3.2 So khớp đồ thị dựa trên đồ thị khoảng cách
Sử dụng đồ thị khoảng cách (Graph edit distance-GED) [56]: cách tiếp cận này sẽ so khớp đồ thị trực tiếp trong các miền xác định nhờ tính toán khoảng cách giữa hai đồ thị. Các tiếp cận này dễ thực hiện và có thể áp dụng trên nhiều loại đồ thị khác nhau nhưng số lại yêu cầu số lượng phép tính toán lớn.
Hướng tiếp cận này được sử dụng cho so khớp đồ thị không chính xác với khoảng cách Levenshtein để tính độ bất tương đồng giữa các đồ thị với hàm phủ định d: d G G: được áp dụng cho các đồ thị có cấu trúc gán nhãn với khái niệm edit
path được định nghĩa là một phép chiếu f V: ˆ1Vˆ2 với Vˆ1V V1, ˆ2 V2. Phép chiếu f trên được gọi là edit path giữa 2 đồ thị G1 và G2.
Các thuật toán được đề xuất sử dụng đồ thị khoảng cách gồm: Thuật toán GED A*, thuật toán tìm đồ thị con lân cận (Neighborhood subgraph), thuật toán toàn phương (Quadratic programming), chiến lược ước lượng hàm khoảng cách,…
[56], [58].
1.2.3.3 So khớp đồ thị dựa trên đồ thị đặc trưng
Hướng tiếp cận tiếp theo là sử dụng hàm để tính toán phần cốt lõi của đồ thị gọi là đồ thị đặc trưng (Graph kernels) [57]. Khi đó, các đồ thị được biểu diễn thành các phần cấu trúc rời rạc dưới dạng các xâu ký tự và automat. Đây là kỹ thuật cốt lõi trong phương pháp sử dụng vectơ trạng thái (Support Vector Machine) được áp dụng trên các đồ thị gán nhãn với không gian Hilbert. Các đồ thị được tính toán để tìm những đặc trưng riêng của chúng, các đặc trưng này được biểu diễn trong một không gian hữu hạn chiều, mỗi chiều ứng với một đặc trưng được lựa chọn từ đồ thị.
Một số hàm đặc trưng có thể được sử dụng tính toán từ đồ thị là:
- Hàm tuyến tính (Linear): x z, x z - Hàm đa thức (Polynomial): x z , v d
- Hàm RBF: exp xz 2, 0
- Phân bố Gause: exp x z TC xz
- Phân bố đều (Normalized):
,
, ,
k x z k x x k z z
- Tổng trọng số (Weighted sum): iw k X Zi i , ,wi 0
Các thuật toán được đề xuất sử dụng đồ thị đặc trưng gồm: so khớp chính xác trực tiếp, thuật toán tìm sự tương đồng Random walk, Marginalized, Convolution [58]
1.2.3.4 So khớp đồ thị dựa trên đồ thị nhúng
Ý tưởng của phương pháp sử dụng đồ thị nhúng là nhận dạng mẫu có cấu trúc dựa trên việc xem xét các đối tượng lân cận có cấu trúc tương đồng. Có nhiều kịch bản nhúng khác nhau với không gian đồ thị cho trước như: không gian nhúng không tương đồng (dissimilarity space embedding) [54], không gian nhúng metric (metric space embedding) [55]. Các thuật toán sử dụng tiếp cận này gồm: Nhúng đồ thị khoảng cách (GED Embeding), nhúng lược đồ ký hiệu histogram (Symbolic histogram), nhúng không gian cấu trúc (Structure space) [58]
1.2.3.5. Thuật toán SI - COBRA cho bài toán so khớp đồ thị gán nhãn.
Ý tưởng của thuật toán là cho hai đồ thị gán nhãn G và G’ (tương ứng với hai đồ thị mô hình GM và đồ thị dữ liệu GD trong mục phát biểu bài toán) ta phải đi tìm một đồ thị con S của G sao cho S G. Bài toán này được gọi là bài toán tìm đẳng cấu đồ thị con. Năm 2005 Olmos, Gonzalez & Osorio phát triển thuật toán SI-COBRA (subgraph isomorphism). Họ đã phát triển thuật toán trên để phát hiện chính xác một đồ thị G’nằm trong đồ thị G (được gọi là đẳng cấu đồ thị con) trong đó một chuỗi tuyến tính các mã được sử dụng để biểu diễn đồ thị [45].
1.2.3.6 So khớp đồ thị dựa trên thuật toán di truyền
Trong [51][52], Andrew D.J. Cross và cộng sự đã trình bày những phân tích tập trung vào bài toán đồ thị có gán nhãn trong giải bài toán bằng giải thuật di truyền.
Tác giả đã xây dựng trên các nghiên cứu so khớp đồ thị và cho thấy độ đo bền vững Bayes có thể dược tối ưu một cách hiệu quả, có kết hợp với ý tưởng của thuật toán leo đồi. Đề xuất mới của tác giả là trình bày một cách toán học về ý nghĩa của ý tưởng của thuật toán leo đồi cho phép nâng mức độ hội tụ khi kích thước của các nút trong đồ thị so khớp là lớn. Trong [53], Yong Wang và Naohiro Ishii cho thấy ý nghĩa của độ đo tương tự khi so khớp đồ thị theo cách song song hóa. So khớp đồ thị và độ đo tương tự trên đồ thị có nhiều ứng dụng trong việc nhận dạng mẫu, trong lập luận xấp xỉ dựa trên độ đo tương tự. Tác giả trình bày phương pháp so khớp và đo độ tương tự giữa hai đồ thị được gán nhãn trực tiếp. Bài báo xác định mức độ tương tự đo tương ứng theo tương tự và khớp theo sự tương tự để so sánh các đồ thị với nhau.
Với tiếp cận này tác giả sử dụng giải thuật di truyền GA để phát hiện sơ đồ về tính tương tự và tính toán độ tương tự giữa các đồ thị. Để tăng tốc thuật toán, bài báo đã
tưởng lý thuyết được chương trình hóa với ngôn ngữ C, cho giải thuật di truyền tuần tự và di truyền song song.
1.2.3.7 So khớp đồ thị dựa trên cây quyết định
Hướng tiếp cận tiếp theo là sử dụng cây quyết địnhlà một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ đồ thị thành các cây, tại đó mỗi một nút trong (internal node) tương ứng với một phần của đồ thị [45]. Ta biểu diễn đồ thị GM và GD bằng hai ma trận kề M1 và M2. Sau đó tìm tất cả các ma trận hoán vị có thể của M1, M2 rồi biểu diễn thành cây quyết định. Cây quyết định được xây dựng theo các phần tử hàng-cột của mỗi ma trận kề tương ứng. Ban đầu xuất phát từ một nút giả được khởi tạo là gốc của cây quyết định. Đây được coi là mức 0 trong cây. Tiếp theo chúng ta sẽ xây dựng các nút ở mức 1 của cây quyết định. Mỗi nút trong mức 1 sẽ có một cung nối với nút gốc ở mức 0 và cung này biểu diễn phần tử hàng-cột của mỗi ma trận hoán vị. Khi đó đường nối giữa nút cha với nút con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán khả năng khớp giữa 2 đồ thị.
Hai thuật toán tiêu biểu sử dụng cây quyết định trong so khớp đồ thị được biết đến là của Messmer và Bunke đề xuất năm 1998 và năm 1999 dùng để tìm ra đồ thị đẳng cấu và áp dụng trong so khớp đa đồ thị chính xác.
1.2.3.8 So khớp đồ thị dựa trên mạng neuron
Để nâng cao hiệu quả của việc so khớp, nhiều nghiên cứu đã hướng đến việc áp dụng mạng neuron khi so sánh hai đồ thị. Các nghiên cứu tiêu biểu về hướng tiếp cận này có thể kể đến gồm: Mô hình mạng neuron 3D, mô hình mạng neuron nhận dạng đồ thị biểu diễn khuôn mặt của Hopfield và Huang (1998, 1999) đề xuất cho việc so sánh khuôn mặt với cơ sở dữ liệu khuông mặt mẫu dựa trên các đặc trưng biểu diễn ở dạng đồ thị. Riviere và cộng sự đã đề xuất thuật toán hybrid RBF áp dụng cho so khớp đồ thị sử dụng mạng neuron năm 2000. Năm 2002, Lee và Liu đã cải tiến mô hình áp dụng cho so khớp các liên kết động để đặc tả các thông về đồ thị biểu diễn khuôn mặt [40].
1.2.3.9 So khớp đồ thị dựa trên kỹ thuật phân cụm
Kỹ thuật phân cụm trên đồ thị cũng được áp dụng rất nhiều trong so khớp đồ thị để giảm thiểu số đồ thị con được so sánh. Có thể kể đến là thuật toán phân cụm
đồ thị dựa trên mô tả hàm (function-described graphs) áp dụng trong nhận dạng đồ thị thuộc tính theo mẫu cấu trúc cho trước của Sanfeliu và cộng sự (2000), thuật toán phân cụm của Carcassoni và Hancock (2001) áp dụng trên so khớp đồ thị dựa trên thuộc tính [58].