Xây dựng TANB bằng việc thêm vào một đỉnh có tên là C và thêm các cung đi từ C đến các A i

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tích hợp thông tin không thuần nhất về ngữ nghĩa trong môi trường phân tán Luận văn ThS Công nghệ thông tin 1 01 10 (Trang 55 - 59)

Chương 3 PHÂN LỚP DỮ LIỆU TẬP TRUNG VÀ PHÂN TÁN

5. Xây dựng TANB bằng việc thêm vào một đỉnh có tên là C và thêm các cung đi từ C đến các A i

Cũng dựa trên thủ tục xây dựng cây của Chow & Liu, có nhiều dạng phát triển cho TANB như ETAN [37] với việc cho phép giá trị liên tục trong việc xây dựng các cung, SAB [59] với cải tiến trong việc xây dựng các cung trong cây Bayes. Nghiên cứu gần đây nhất cho việc cải tiến NB là AODE (averaged one- dependence estimator) [60]. Trong AODE, một tập hợp các phân lớp 1-phụ thuộc (mỗi thuộc tính chỉ phụ thuộc vào một thuộc tính khác) được học và việc phân lớp được thực hiện bằng việc kết hợp những tiên đoán của các phân lớp đã học. Điều này tương tự như việc mỗi thuộc tính trong TANB phụ thuộc vào nhiều hơn một thuộc tính khác.

Phân loại TANB Giai đoạn học:

o Xây dựng mô hình TANB

o Dựa trên mô hình TANB cùng với nguồn dữ liệu huấn luyện, với mỗi lớp c j , mỗi cặp giá trị thuộc tính a , a (trong đó, i l a l là thuộc tính hỗ trợ thông tin cho thuộc a i , được xác định dựa trên mô hình TANB), tính xác suất P(c ) và j P(a |a ,c ) dựa i l j vào tần số của chúng trong dữ liệu huấn luyện.

Giai đoạn phân loại:

Với một trường hợp mới x = a , a , ..., a 1 2 n sẽ được phân loại như sau:

C

j

n

TANB c j i=1 i l j

C = arg maxP(c ) P(a |a ,c )

với a l là thuộc tính hỗ trợ thông tin cho thuộc tính a i Hình 3.4. Giải thuật TANB cho dữ liệu tập trung

3.2 Một số giải thuật phân lớp phân tán

Các giải thuật phân lớp thường được chia thành giai đoạn học và giai đoạn phân lớp. Chính vì thế, khi chuyển sang môi trường phân tán, việc chuyển đổi các giải thuật là hoàn toàn khả thi và giai đoạn phân lớp có thể được thực hiện tại các môi trường, vị trí khác nhau. Trong phần tiếp theo, luận văn sẽ trình bày cách các giải thuật phân lớp tập trung như NB và NB tăng cường được chuyển sang môi trường phân tán.

3.2.1 Phân lớp Naive Bayes cho dữ liệu phân tán

Trong môi trường tập trung, thông tin thống kê cho phân lớp Naive Bayes được tính trong giai đoạn học. Chúng được tính dựa trên nguồn dữ liệu huấn luyện mỗi khi có yêu cầu. Điều này cho phép chúng ta áp dụng phân lớp này cho môi trường phân tán, khi mà thông tin thống kê có thể được tính toán ở những vị trí khác nhau trước khi được kết hợp lại để cho ra kết quả cuối cùng.

Giải thuật phân lớp dựa trên Naive Bayes có thể được áp dụng cho cả hai dạng phân tán là phân tán phân mảnh ngang và phân tán phân mảnh dọc của dữ liệu.

3.2.1.1 Phân tán phân mảnh ngang

Khi dữ liệu được phân mảnh ngang, mỗi nguồn dữ liệu chứa một tập con các bản ghi. Như vậy, mỗi nguồn dữ liệu đều chứa toàn bộ tập thuộc tính của dữ liệu và

  

1 2 K

D = D D ... D (K là số trạm có chứa tập dữ liệu con của dữ liệu của nguồn D) và D = D + D +...+ D 1 2 K . Để có thể xác định được tần số của các bản ghi trên toàn bộ nguồn dữ liệu, ta cần tính

k k

k k

D j D j

t = count (x),t = count (c ),

k

k

ij D i j

t = count (a |c ) tại mỗi vị trí lưu trữ dữ liệu k và gửi chúng đến một vị trí trung tâm. Thông tin thống kê trên toàn bộ dữ liệu sẽ được tính tại vị trí trung tâm theo hình thức sau: t =  k=1 K t ,t = k j  K k=1 t ,t = k j ij  K k=1 t k ij

Giải thuật phân lớp NB phân tán phân mảnh ngang được miêu tả trong hình 3.6.

Phân lớp Naive Bayes cho dữ liệu phân tán phân mảnh ngang Giai đoạn học

For (mỗi nguồn dữ liệu D ){ k Tính giá trị

k

k

t = count (x)và chuyển đến vị trí trung tâm D

For (mỗi giá trị lớp c ){ j Tính giá trị

k

k

j D j

t = count (c )và chuyển đến vị trí trung tâm For (mỗi giá trị a ){ i

Tính giá trị

k

k

ij D i j

t = count (a |c ),chuyển đến vị trí trung tâm }

} }

Tại ví trí trung tâm

 

 

K k K k

j ij

k=1 k=1

j K k i j K k

k=1 k=1 j

t t

P(c )= ,P(a |c )=

t t

Giai đoạn phân lớp

Với một trường hợp mới x = a ,a ,...,a sẽ được phân loại như 1 2 n sau:

 

j

n

NB j i j

c C

i=1

C (x)= arg maxP(c ) P(a |c )

Hình 3.6. Giải thuật phân lớp Naive Bayes cho dữ liệu phân tán phân mảnh ngang

Giải thuật NB Outlook Humidity

Wind PlaySport

Phân rã truy vấn

Kết hợp kết quả

Count(Hum|Playsport)

Thông tin thống kê

D 1

D 2

D K

Thông tin thống kê Count(Humidity|Playsport)

Hình 3.5. Ví dụ PlaySport đối với giải thuật Naive Bayes cho dữ liệu phân tán phân mảnh ngang

3.2.1.2 Phân tán phân mảnh dọc

Khi dữ liệu được phân mảnh dọc, mỗi trạm sẽ chứa một tập các bộ dữ liệu con. Khi đó toàn bộ dữ liệu tương ứng với mỗi thuộc tính sẽ được lưu trữ tại cùng một vị trí. Giả sử tại vị trí k, tập các thuộc tính được lưu trữ là A k thì A = U k=1 K A k và

 K k=1 k

A = A . Trong trường hợp này, ta có thể tính các giá trị tần số

k D k

t = t = count (x) và

k

k

j j D j

t = t = count (c ) tại bất cứ vị trí nào trong K trạm, sau đó tính

k

k

ij ij D i j

t = t = count (a |c ) tại trạm mà thuộc tính a i được tìm thấy.

Giải thuật phân lớp NB phân tán phân mảnh dọc được mô tả trong hình 3.7.

Phân lớp phân tán cho dữ liệu phân mảnh dọc Giai đoạn học

Cho k là một trong số K trạm Tính

X k

t = count (x) và chuyển t đến vị trí trung tâm.

For (mỗi lớp c ){ j Tính

j D k j

t = count (c )và chuyển t đến vị trí trung tâm j }

For (mỗi nguồn dữ liệu D ){ k

For (mỗi lớp c và mỗi thuộc tính j a tại nguồn dữ liệu i D ){ k Tính

ij D k i j

t = count (a |c ) dựa trên dữ liệu huấn luyện D k Chuyển các giá trị t đến vị trí trung tâm ij

} }

Tại vị trí trung tâm

j ij

j i j

j

t t

P(c )= , P(a |c )=

t t

Giai đoạn phân lớp

Với một trường hợp mới x = a ,a ,...,a sẽ được phân loại như 1 2 n sau:

 

j

n

NB j i j

c C i=1

C (x)= arg maxP(c ) P(a |c )

3.2.2 Phân lớp TANB cho dữ liệu phân tán

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tích hợp thông tin không thuần nhất về ngữ nghĩa trong môi trường phân tán Luận văn ThS Công nghệ thông tin 1 01 10 (Trang 55 - 59)

Tải bản đầy đủ (PDF)

(100 trang)