Cây quyết định của đồ thị

Cây quyết định (Decision Tree) là một đồ thị của các quyết định và các hậu quả có thể của nó (bao gồm rủi ro và hao phí tài nguyên). Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra quyết định. Cây quyết định là một dạng đặc biệt của cấu trúc cây, trong đó có một đỉnh phân biệt được gọi nút gốc và luôn có một đường đi duy nhất từ gốc tới các nút khác được gọi là nút trong (internal node), hay nút lá. Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng. Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó. Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó.

Xét đồ thị G = (V, E, μ, Lv, , Le) và M là ma trận liền kề của G cấp n  n. Tập tất cả các ma trận hoán vị (liền kề) của G, ký hiệu là A(G)

A(G) = {MP | MP = PMPT, P là ma trận hoán vị cấp n  n } Hiển nhiên, |A(G)| = n! với n là số đỉnh của đồ thị G.

Dựa vào những khái niệm nêu trên, ta phát biểu lại bài toán đẳng cấu đồ thị con như sau: Đối với đồ thị mô hình G có ma trận liền kề M cấp n  n và đồ thị đầu vào G1 có ma trận liền kề M1 cấp m  m, với m ≤ n, cần khẳng định xem có tồn tại ma trận MP  A(G) sao cho M1 = Sm,m(MP) = Sm,m(PMPT) hay không?

Nếu G và G1 cùng cỡ (m = n) thì ma trận liền kề P chính là đẳng cấu đồ thị giữa G với G1, nghĩa là M1 = PMPT (Theo tính chất 2.1).

Để giải quyết bài toán trên, chúng ta tổ chức tập A(G) thành cây quyết định sao cho mỗi ma trận liền kề trong A(G) sẽ được phân loại các nhãn của các đỉnh trên cây quyết định. Mục tiêu là phân lớp các ma trận liền kề của đồ thị đầu vào. Do vậy, cần phải nhóm các phần tử riêng rẽ của các ma trận liền kề trong A(G) sao cho việc phân lớp trên mỗi mức của cây quyết định là độc lập với cỡ của ma trận liền kề cần được phân lớp.

Để hỗ trợ việc thực hiện việc phân lớp các ma trận liền kề, ta sử dụng thêm ký hiệu mới. Giả sử đồ thị G có ma trận liền kề M = (mij) cấp n  n. Ta nói M bao gồm một dãy các phần tử hàng-cột ai = (m1i, m2i, …, mii, mi(i-1), …, mi1), i = 1, …, n. Khi đó, M = (a1, a2, …, an). Ví dụ 2.2. Đồ thị G Ma trận liền kề M Các hàng - cột ai, i = 1, 2, 3 Hình 2.1. Các phần tử hàng - cột của ma trận liền kề

Dựa vào các phần tử hàng - cột của ma trận liền kề Mp  A(G) để xây dựng cây quyết định. Gốc của cây là Root cho tất cả các ma trận liền kề của các đồ thị trong CSDL. Phần tử a1 = (m11) là nhãn của đỉnh đầu tiên trong các ma trận liền kề Mp 

A(G). Ở mức đầu tiên, mỗi ma trận liền kề này sẽ được phân lớp theo nhãn của đỉnh đầu tiên theo hoán vị của ma trận liền kề. Mỗi nhánh sẽ dẫn đến một đỉnh con trực tiếp của đỉnh gốc theo giá trị của a11 ứng với các phần tử hàng - cột của các ma trận liền kề. Ở mức tiếp theo, mức hai sẽ sử dụng a2 để phân lớp và tiếp tục ở các mức tiếp theo, mức k, k = 1, …, n là ak. Trên mỗi lá (đỉnh không có đỉnh con) của cây là ứng với một ma trận liền kề của G.

Ví dụ 2.3. Xây dựng cây quyết định cho đồ thị G

Hình 2.2. Cây quyết định để phân lớp các ma trận liền kề của G

Ma trận liền kề MP được phân lớp ở mức k theo phần tử hàng - cột ak, đỉnh ở mức tiếp theo k+1 sẽ được xác định theo từ điển của xâu (String). Từ điển được tổ chức như là cấu trúc của các chỉ số từ 2k-1 chỉ mục (index). Trên mỗi hàng - cột có đúng 2k-1 phần tử mij, và mỗi phần tử này được xem như là một chỉ mục. Ví dụ ở nút 3 của cây quyết định 2.2 có 3 nhánh dẫn đến 3 nút 5, 6, và 7. Các phần tử hàng - cột được tổ chức thành cấu trúc theo từ điển như hình 2.3 để xác định các nút tương ứng một cách nhanh nhất.

Chúng ta đã xây dựng cây quyết định cho một đồ thị mô hình. Giả sử CSDL D = {G1, G2, …, Gk} có m đồ thị mô hình. Khi đó, tập D các đồ thị với tập các ma trận liền kề {A(G1), A(G2), …, A(Gk)} có thể được phân lớp theo cùng một cây quyết định có cùng nút gốc là Root. Trên mỗi mức của cây, các ma trận liền kề của các đồ thị mô hình được phân lớp theo các phần tử hàng-cột của chúng.

Hình 2.3. Cấu trúc từ điển và các chỉ mục cho cây quyết định

Ví dụ 2.4. Đồ thị G’ sau đây có thể biểu diễn trong cùng một cây quyết định của G ở hình 2.4 như sau. a/ Đồ thị G’ b/ Các ma trận liền kề của G’ Chuyển đến nút 7 Chuyển đến nút 5 Chuyển đến nút 6

Nhận xét: Để phân lớp được các ma trận liền kề củaA(G’) thì cây quyết định của G ở hình 2.4 được bổ sung thêm hai đỉnh lá, mỗi lá có 3 ma trận liền kề. Từ đó suy ra có 3 tự đẳng cấu của G’.

Khi thực hiện, cây quyết định sẽ được sử dụng trực tiếp để phân lớp các ma trận liền kề cấp mm của đồ thị đầu vào GI. Ma trận liền kề MI được phân lớp đầu tiên theo a1I. Nếu trên cây quyết định của các đồ thị mô hình có một nhánh i con của Root và sánh được với a1I thì thuật toán tiếp tục mức 2, và cứ như thế tiếp tục.

 Nếu ở một điểm nào đó trong quá trình phân lớp mà không đối sánh được thì đồ thị GI không đẳng cấu được với một đồ thị con của những đồ thị mô hình trong CSDL.

 Nếu mọi phần tử của ma trận liền kề của GI đều đối sánh được và đạt đến một đỉnh N trên cây quyết định của các đồ thị mô hình thì ma trận hoán vị tương ứng với đỉnh N sẽ biểu diễn cho một đồ thị con của một trong các đồ thị mô hình đẳng cấu với GI.

 Trường hợp N là đỉnh lá thì mỗi ma trận hoán vị tương ứng với đỉnh N sẽ xác định một đẳng cấu của đồ thị GI theo ma trận liền kề MI với một đồ thị mô hình trong CSDL.

Khai phá đồ thị con thường xuyên đóng

Bài toán đồ thị đẳng cấu