Giải thuật phân lớp NaiveBayes cho dữ liệu phân tán phân mảnh ngang

Một phần của tài liệu TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN (Trang 57)

Giải thuật NB Outlook Humidity Wind PlaySport Phân rã truy vấn Kết hợp kết quả Count(Hum|Playsport)

Thông tin thống kê

D1

D2

DK

Thông tin thống kê Count(Humidity|Playsport)

Hình 3.5. Ví dụ PlaySport đối với giải thuật Naive Bayes cho dữ liệu phân tán phân mảnh ngang

3.2.1.2 Phân tán phân mảnh dọc

Khi dữ liệu được phân mảnh dọc, mỗi trạm sẽ chứa một tập các bộ dữ liệu con. Khi đó toàn bộ dữ liệu tương ứng với mỗi thuộc tính sẽ được lưu trữ tại cùng một vị trí. Giả sử tại vị trí k, tập các thuộc tính được lưu trữ là Ak thì A = Uk=1K Ak và

K

k k=1

A = A . Trong trường hợp này, ta có thể tính các giá trị tần số

k k D t = t = count (x) và k k j j D j

t = t = count (c ) tại bất cứ vị trí nào trong K trạm, sau đó tính

k

k

ij ij D i j

t = t = count (a |c ) tại trạm mà thuộc tính ai được tìm thấy.

Giải thuật phân lớp NB phân tán phân mảnh dọc được mô tả trong hình 3.7.

Phân lớp phân tán cho dữ liệu phân mảnh dọc Giai đoạn học

Cho k là một trong số K trạm Tính

k

X

t = count (x) và chuyển t đến vị trí trung tâm.

For (mỗi lớp cj){ Tính

k

j D j

t = count (c )và chuyển t đến vị trí trung tâm j }

For (mỗi nguồn dữ liệu D ){ k

For (mỗi lớp c và mỗi thuộc tính j a tại nguồn dữ liệu i D ){ k Tính

k (adsbygoogle = window.adsbygoogle || []).push({});

ij D i j

t = count (a |c ) dựa trên dữ liệu huấn luyện D k Chuyển các giá trị tij đến vị trí trung tâm

} }

Tại vị trí trung tâm

j ij j i j j t t P(c )= , P(a |c )= t t

Giai đoạn phân lớp

Với một trường hợp mới x = a ,a ,...,a1 2 n sẽ được phân loại như sau:   j n NB j i j c C i=1

C (x)= arg maxP(c ) P(a |c )

Một phần của tài liệu TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN (Trang 57)