Mô hình đồ thị dữliệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu mô hình phân cụm có thứ bậc các đồ thị dữ liệu (Trang 27 - 28)

Đồ thị có trọng số được ký hiệu là G = (V, E, W), với V là tập đỉnh, E  V 

V là tập cạnh và W= (wij)i,j = 1, …N là tập các trọng số trên các cạnh của đồ thị, chính là ma trận trọng số (ma trận liền kề) với N = |V|. Giữa hai đỉnh vi và vj∈ V có cạnh nối với nhau với trọng số wij > 0 nếu (vi, vj) ∈ E, ngược lại wij = 0, nghĩa là vi và vj∈ V không có cạnh nối với nhau. Nếu W là ma trận đối xứng, nghĩa là wij = wji thì G là đồ thị vô hướng, ngược lại, G là có hướng. Khi wij = 1 với mọi (vi, vj) ∈ E thì đồ thị G được gọi là đồ thị không có trọng số.

Ma trận liền kề chứa các thông tin về trọng số của sự liên kết giữa các đỉnh trong đồ thị. Những thông tin khác có thể nhận được thông qua bậc của các đỉnh. Bậc của đỉnh vi được ký hiệu là deg(vi) là tổng trọng số của các đỉnh có cạnh nối với vi.

deg(vi) =   N j ij w 1 (1.7)

Ma trận bậc của đồ thị là ma trận D có đường chéo chính là các bậc của các đỉnh.

𝐷(𝑖, 𝑗) = {deg(𝑣𝑖) 𝑖𝑓 𝑖 = 𝑗, ∀𝑖, 𝑗 = 1, … 𝑁 0 𝑜𝑡ℎ𝑒𝑟𝑤𝑖𝑠𝑒

(1.8)

Giả sử C = {C1, C2, …, CK} là một phân hoặch của tập đỉnh V của đồ thị G sao cho:

▪ Ci  Ø với mọi i = 1, 2, …, K, K  N

▪ Ci Cj = Ø với mọi i  j

▪ C1 C2 …  Ck = V

Ta gọi C là phân cụm của đồ thị G. C là phân cụm tầm thường (Trivial) nếu K = 1 hoặc mỗi cụm chỉ có 1 phần tử, K = N.

▪ Ei = {(vm, vn)  E | vm, vn Ci}

▪ Wi là ma trận con của W bằng cách chọn các hàng, cột theo chỉ số m mà vm

Ci.

Đồ thị thường được sử dụng để mô hình cho tập dữ liệu, trong đó các đỉnh biểu diễn cho các phần tử dữ liệu và trọng số trên các cạnh biểu diễn cho độ tương tự (khoảng cách) giữa các cặp dữ liệu.

Bên cạnh việc xác định ngữ nghĩa của việc sử dụng các đỉnh, cạnh của đồ thị thì một vấn đề quan trọng nữa là việc tính độ tương tự (similarity) hoặc khoảng cách (distance) giữa các đỉnh để xây dựng đồ thị. Cách tính độ tương tự cũng có thể thay đổi và phụ thuộc vào các ứng dụng. Nhưng về nguyên tắc phải đảm bảo rằng, nếu hai đỉnh có độ tương tự cao thì trong thực tế ứng dụng chúng phải gần nhau theo một nghĩa nào đó.

Một số phương pháp mô hình đồ thị dữ liệu phổ biến [11]:

▪ 𝜺–đồ thị láng giềng (𝜺 -neighborhood graph): đồ thị được xây dựng bằng cách kết nối những đỉnh mà khoảng cách từng cặp nhỏ hơn ε. Tương tự, δ- đồ thị láng giềng (δ- neighborhood graph) là đồ thị được xây dựng bằng cách kết nối những đỉnh mà khoảng cách từng cặp lớn hơn δ.

▪ 𝒌-đồ thị láng giềng gần nhất (k-nearest neighbor graph): đồ thị được xây dựng bằng cách kết nối đỉnh vi với vj nếu vi là một trong số 𝑘 - láng giềng gần nhất của vj hoặc vj là một trong số 𝑘 - láng giềng gần nhất của vi. Nói một cách khác, để kết nối vi với vj nếu cả hai vi và vj là 𝑘 - láng giềng gần nhất của nhau. Đồ thị liên thông mạnh: đồ thị được xây dựng bằng cách kết nối tất cả các đỉnh với các đỉnh khác với độ tương tự dương.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu mô hình phân cụm có thứ bậc các đồ thị dữ liệu (Trang 27 - 28)

Tải bản đầy đủ (PDF)

(87 trang)