Giải thuật NB Outlook Humidity Wind PlaySport Phân rã truy vấn Kết hợp kết quả Count(Hum|Playsport)
Thông tin thống kê
D1
D2
DK
Thông tin thống kê Count(Humidity|Playsport)
Hình 3.5. Ví dụ PlaySport đối với giải thuật Naive Bayes cho dữ liệu phân tán phân mảnh ngang
3.2.1.2 Phân tán phân mảnh dọc
Khi dữ liệu được phân mảnh dọc, mỗi trạm sẽ chứa một tập các bộ dữ liệu con. Khi đó toàn bộ dữ liệu tương ứng với mỗi thuộc tính sẽ được lưu trữ tại cùng một vị trí. Giả sử tại vị trí k, tập các thuộc tính được lưu trữ là Ak thì A = Uk=1K Ak và
K
k k=1
A = A . Trong trường hợp này, ta có thể tính các giá trị tần số
k k D t = t = count (x) và k k j j D j
t = t = count (c ) tại bất cứ vị trí nào trong K trạm, sau đó tính
k
k
ij ij D i j
t = t = count (a |c ) tại trạm mà thuộc tính ai được tìm thấy.
Giải thuật phân lớp NB phân tán phân mảnh dọc được mô tả trong hình 3.7.
Phân lớp phân tán cho dữ liệu phân mảnh dọc Giai đoạn học
Cho k là một trong số K trạm Tính
k
X
t = count (x) và chuyển t đến vị trí trung tâm.
For (mỗi lớp cj){ Tính
k
j D j
t = count (c )và chuyển t đến vị trí trung tâm j }
For (mỗi nguồn dữ liệu D ){ k
For (mỗi lớp c và mỗi thuộc tính j a tại nguồn dữ liệu i D ){ k Tính
k
ij D i j
t = count (a |c ) dựa trên dữ liệu huấn luyện D k Chuyển các giá trị tij đến vị trí trung tâm
} }
Tại vị trí trung tâm
j ij j i j j t t P(c )= , P(a |c )= t t
Giai đoạn phân lớp
Với một trường hợp mới x = a ,a ,...,a1 2 n sẽ được phân loại như sau: j n NB j i j c C i=1
C (x)= arg maxP(c ) P(a |c )