Sơ đồ hệ thống tích hợp thông tin thống kê

Một phần của tài liệu TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN (Trang 47)

Nguồn dữ liệu kết quả

Rời rạc hóa, xử lí dữ liệu không xác định,…

Các công thức xây dựng giả thiết, các ràng buộc

dữ liệu Ontology Ontology Ontology Bản ghi đã xử lí

2.4 Kết luận

Chương này đã trình bày các vấn đề sau:

 Một số định nghĩa và các yêu cầu cần xây dựng ontology cho mục đích tích hợp thông tin trên các nguồn dữ liệu không thuần nhất và phân tán.

 Các định nghĩa hình thức về ontology, lược đồ, các nguồn dữ liệu mở rộng ontology và các phép toán thao tác trên các nguồn dữ liệu mở rộng.

 Tích hợp thông tin thống kê dựa trên ontology, mô hình tích hợp thông tin cho các nguồn dữ liệu không thuần nhất về ngữ nghĩa.

Các giải thuật phân lớp dựa trên mô hình thống kê được nghiên cứu và áp dụng trong nhiều lĩnh vực như trong ngân hàng, trong sinh học. Các giải thuật NB và NB tăng cường là những giải thuật được phát triển dựa trên công thức thống kê Bayes. Trong chương 3, tác giả sẽ trình bày cụ thể hơn về giải thuật NB và NB tăng cường.

Chương 3

PHÂN LỚP DỮ LIỆU TẬP TRUNG VÀ PHÂN TÁN

Trong chương này, tác giả sẽ trình bày một số thuật toán phân lớp dữ liệu trong môi trường tập trung và các thuật toán đã được cải tiến để áp dụng cho những nguồn dữ liệu phân tán.

3.1 Một số giải thuật phân lớp dữ liệu tập trung

Như đã trình bày trong chương 1, có nhiều kĩ thuật được sử dụng cho việc xây dựng các phân lớp như SVM, NB, NB tăng cường, cây quyết định, K lân cận gần nhất. Trong phần này, tác giả trình bày giải thuật thường được sử dụng trong các ứng dụng là NB, TANB. Những giải thuật được chấp nhận không chỉ bởi tính đơn giản trong quá trình cài đặt mà còn là hiệu quả đạt được khi áp dụng vào những bài toán thực tế (xem [20],[23],[49],[62]).

3.1.1 Phân lớp Naïve Bayes

Phân lớp NB là phân lớp thống kê được xây dựng dựa trên định lý Bayes với giả thiết các biến độc lập với nhau. Trong giải thuật NB, mỗi mẫu x được biểu diễn bởi một tập các giá trị thuộc tính, có nghĩa là x = a ,a ,...,a1 2 n , giá trị lớp của mẫu

x là một giá trị trong tập hữu hạn C = c ,c ,...,c1 2 m . Ta giả sử rằng, các giá trị thuộc tính hoàn toàn độc lập với giá trị của các lớp cho trước.

Tập dữ liệu huấn luyện D = (x ,y ),(x ,y ),...,(x ,y ) 1 1 2 2 n n  là tập dữ liệu đã được gán nhãn, trong đó xi là các mẫu dữ liệu huấn luyện, yi là giá trị lớp của mẫu dữ liệu tương ứng. Trong suốt quá trình học, một giả thiết sẽ được đưa ra dựa trên nguồn dữ liệu mẫu. Quá trình đánh giá là việc tiên đoán giá trị lớp cho mẫu x được đưa ra. Với x = a ,a ,...,a1 2 n , giá trị lớp c của mẫu x cần thỏa mãn:

 

j

MAP j 1 2 n

c C

Áp dụng định lý Bayes đối với đẳng thức (*) ta có:   j j 1 2 n j j MAP 1 2 n j j c C c C 1 2 n P(a ,a ,...,a |c )P(c )

c (x)= arg max = arg maxP(a ,a ,...,a |c )P(c )

P(a ,a ,...,a )

Với giả định các thuộc tính giá trị là độc lập với nhau, khi đó xác suất của các thuộc tính a ,a ,...,a1 2 n đối với giá trị lớp cj được tính bằng tích các xác suất thành phần của các thuộc tính, 1 2 n j n i j

i=1

P(a ,a ,...,a |c )= p(a |c ). Trong đó, các xác suất

j

P(c ) và P(a |c )i j được tính dựa trên tần suất xuất hiện của các giá trị trong nguồn

dữ liệu huấn luyện. Ví dụ, đối với lớp c, c c

t P =

t , tclà số lượng mẫu trong lớp c, còn t là tổng số lượng mẫu có trong dữ liệu huấn luyện. Cách tính xác suất này nhìn chung là hoàn toàn đúng đắn, tuy nhiên độ chính xác sẽ giảm trong trường hợp tc

không đủ lớn. Khi đó, cách tiếp cận dựa trên Bayes [41] sẽ sử dụng ước lượng dựa trên k (hay còn gọi là ước lượng Laplace), được định nghĩa là t +kc p

t +k . Trong đó, p là ước lượng ban đầu của xác suất mà chúng ta cần tính (ví dụ, p = 1

m nếu có m

lớp), k là hằng số hay còn được gọi là kích thước mẫu tương ứng.

Phân loại Naive Bayes Giai đoạn học:

Với mỗi lớp cj và mỗi giá trị thuộc tính ai, tính xác suất P(c )j

và P(a |c )i j dựa vào tần số của chúng trong dữ liệu huấn luyện.

Giai đoạn phân loại:

Với một trường hợp mới x = <a1, a2, ...,an> sẽ được phân loại như sau:   j n NB j i j c C i=1

C = arg maxP(c ) P(a |c )

Một phần của tài liệu TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN (Trang 47)