Giải thuật phân lớp NaiveBayes cho dữ liệu phân tá- 123docz.net

3.2.2 Phân lớp TANB cho dữ liệu phân tán

D. Caragea [10] trình bày các thuật toán phân lớp dựa trên thống kê như NB, cây quyết định, SVM, K lân cận gần nhất được chuyển đổi cho môi trường phân tán. Dựa trên hướng giải quyết của Caragea, tác giả trình bày thuật toán TANB được sử dụng trong môi trường phân tán.

Khi chuyển từ môi trường tập trung sang môi trường phân tán, mô hình TANB cho phân lớp được xây dựng tại trạm trung tâm. Thông tin thống kê sử dụng trong quá trình xây dựng cây được lấy từ các nguồn dữ liệu phân tán. Việc truy vấn các thông tin thống kê được thực hiện tại các trạm phân tán. Thông tin được gửi trả về tại các trạm trung tâm và được tính toán để đưa ra kết quả cuối cùng cho việc đánh giá các mẫu dữ liệu. Thuật toán được xây dựng cho trường hợp phân mảnh ngang và phân mảnh dọc.

3.2.2.1 Phân tán phân mảnh ngang

Khi dữ liệu được phân mảnh ngang, mỗi nguồn dữ liệu chứa một tập con các bản ghi. Như vậy, mỗi nguồn dữ liệu đều chứa toàn bộ tập thuộc tính của dữ liệu và

  

1 2 K

D = D D ... D (K là số trạm có chứa tập dữ liệu con của dữ liệu của nguồn D) và D = D + D +...+ D1 2 K . Để có thể xác định được tần số của các bản ghi trên toàn bộ nguồn dữ liệu, ta cần tính

k k k k D j D j t = count (x), t = count (c ), k k ij D i l j

t = count (a |a ,c ) (trong đó al là thuộc tính có ảnh hưởng đối với thuộc tính

a được xác định dựa trên mô hình TANB) tại mỗi vị trí lưu trữ dữ liệu k và gửi chúng đến một vị trí trung tâm. Thông tin thống kê trên toàn bộ dữ liệu sẽ được tính tại vị trí trung tâm theo công thức sau: K k K k K k

j j ij ij

k=1 k=1 k=1

Phân lớp TANB cho dữ liệu phân tán phân mảnh ngang Giai đoạn học

For (mỗi nguồn dữ liệu D ){ k Tính giá trị

t = count (x) và chuyển đến vị trí trung tâm

For (mỗi giá trị lớp c ){ j Tính giá trị

j D j

t = count (c ) và chuyển đến vị trí trung tâm

For (mỗi giá trị thuộc tính a với giá trị thuộc tính ảnh i hưởng a ){ l Tính giá trị k k ij D i l j t = count (a |a ,c ) và chuyển đến vị trí trung tâm } } }

Tại ví trí trung tâm

    K k K k j ij k=1 k=1 j K k i j K k j k=1 k=1 t t P(c )= , P(a |c )= t t

Giai đoạn phân lớp

Với một trường hợp mới x = a ,a ,...,a1 2 n sẽ được phân loại như sau:   j n TANB j i l j c C i=1

C (x)= arg maxP(c ) P(a |a ,c )

(với a là thuộc tính hỗ trợ thông tin cho thuộc tính l a ) i

Giải thuật phân lớp NaiveBayes cho dữ liệu phân tán phân mảnh dọc

Nguồn dữ liệu mở rộng với ontology

Ontology biểu diễn lượng mưa