Phân lớp TANB cho dữ liệu phân tán phân mảnh ngang

Một phần của tài liệu TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN (Trang 60)

3.2.2.2 Phân tán phân mảnh dọc

Trong môi trường phân tán, khi dữ liệu được phân mảnh dọc, mỗi trạm sẽ chứa một tập con các bộ dữ liệu. Khi đó toàn bộ dữ liệu tương ứng với một thuộc tính sẽ được lưu trữ tại cùng một vị trí. Giả sử tại vị trí k, tập các thuộc tính được lưu trữ là Ak thì A = Uk=1K Ak và K

k k=1

A = A . Mô hình TANB được xây dựng tại trạm trung tâm. Dựa trên mô hình TANB, các thông tin thống kê cho các thuộc tính được tính dựa trên nguồn dữ liệu và mối quan hệ giữa các thuộc tính với nhau. Ta có thể tính các giá trị tần số k k D t = t = count (x) và k k j j D j t = t = count (c ) tại bất cứ vị trí nào trong K trạm, sau đó tính

k

k

ij ij D i l j

t = t = count (a |a ,c ).

Trong môi trường phân tán, có thể xảy ra trường hợp ,a ai l cùng được lưu trữ trên một trạm hoặc trên hai trạm khác nhau. Trường hợp hai thuộc tính được lưu trữ trên cùng một trạm thì việc tính count (a |a ,c )Dk i l j là tương đối đơn giản. Đối với trường hơp hai thuộc tính được lưu trữ trên hai trạm khác nhau, ta sẽ dựa vào chỉ mục của các mẫu dữ liệu để xác định. Tại trạm có chứa thuộc tính ai, ta xác định tập chỉ mục Ii của các mẫu có chứa giá trị thuộc tính ai và giá trị lớp cj, sau đó chuyển về trạm trung tâm. Tại trạm có chứa thuộc tính al, xác định tập chỉ mục Il

của các mẫu có chứa giá trị thuộc tính al và giá trị lớp cj, sau đó chuyển về trạm trung tâm. Tại trạm trung tâm,

k

k

ij ij D i l j i l

t = t = count (a |a ,c )= I I .

Phần mã giả của giải thuật TANB cho dữ liệu phân tán phân mảnh dọc được mô tả như sau.

Phân lớp phân tán cho dữ liệu phân mảnh dọc Giai đoạn học Cho k là một trong số K trạm Tính k X

t = count (x) và chuyển t đến vị trí trung tâm.

For (mỗi lớp cj){ Tính

k

j D j

t = count (c )và chuyển tj đến vị trí trung tâm }

For (mỗi nguồn dữ liệu D có chứa thuộc tính i a ){ i

For (mỗi lớp cj và mỗi thuộc tính a tại nguồn dữ liệu i D ){ i Xác định tập chỉ mục I của các mẫu dữ liệu có chứa i a và i c j Chuyển tập chỉ mục I đến vị trí trung tâm. i

} }

For (mỗi nguồn dữ liệu D có chứa thuộc tính l a ){ l

For (mỗi lớp cj và mỗi thuộc tính a tại nguồn dữ liệu l D ){ l Xác định tập chỉ mục I của các mẫu dữ liệu có chứa l a và l cj

Chuyển tập chỉ mục I đến vị trí trung tâm. l }

}

Tại vị trí trung tâm

j ij j ij i l i l j j t t P(c )= , t = I I , P(a |a ,c )= t  t

Giai đoạn phân lớp (adsbygoogle = window.adsbygoogle || []).push({});

Với một trường hợp mới x = a ,a ,...,a1 2 n sẽ được phân loại như sau:   j n TANB j i l j c C i=1

C (x)= arg maxP(c ) P(a |a ,c )

(với a là thuộc tính hỗ trợ thông tin cho thuộc tính l a ) i

Một phần của tài liệu TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN (Trang 60)