Mơ hình TANB cho nguồn dữ liệu NURSERY

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tích hợp thông tin không thuần nhất về ngữ nghĩa trong môi trường phân tán Luận văn ThS. Công nghệ thông tin 1.01.10 (Trang 77 - 80)

Phân lớp TANB cho các nguồn dữ liệu

Dựa trên mơ hình TANB của các nguồn dữ liệu, tính xác suất của các lớp dữ liệu đối với các bản ghi kiểm thử. Một đặc điểm khác của TANB đối với Naive Bayes (đã được mơ tả chi tiết ở trong chương 3) đĩ là các thuộc tính khơng chỉ phụ thuộc vào thuộc tính lớp mà cịn phụ thuộc vào các thuộc tính khác.

Ví dụ 4.1:

Khi tính xác suất cho các thuộc tính class của nguồn dữ liệu CARS, ta thực hiện như sau (Hình 4.5):

1 2 3 4 5 6 1 2 1 3 2 4 6 5 6 6 1 P(C)×P(X ,X ,X ,X ,X ,X |C)= P(C)×P(X |C)×P(X |X ,C) ×P(X |X ,C)×P(X |X ,C)×P(X |X ,C)×P(X |X ,C) Trong đĩ: 1 2 3 4 5 6

X : buying X : maint X : door X : person X : lugboot X : safety C = {unacc, acc, good, vgood}

Quá trình phân lớp dữ liệu dựa trên TANB tương tự với phương pháp dựa trên Naive Bayes, chỉ cĩ khác ở cơng thức tính xác suất cho các giá trị thuộc tính lớp.

Kết quả của phân lớp tập trung TANB cho các nguồn dữ liệu được thể hiện chi tiết trong bảng 4.6. Trong đĩ, nguồn dữ liệu ADULT với dữ liệu huấn luyện gồm 11.500 bản ghi, dữ liệu kiểm thử gồm 1.532 bản ghi, phân lớp đúng được 1.200 bản ghi, phân lớp khơng đúng 332 bản ghi, đạt độ chính xác 78,36%.

Nguồn dữ liệu CARS, với dữ liệu huấn luyện gồm 1.152 bản ghi, dữ liệu kiểm thử gồm 576 bản ghi, phân lớp đúng được 377 bản ghi, phân lớp sai 199 bản ghi, đạt độ chính xác 65,56%. Nguồn dữ liệu NURSERY, với dữ liệu huấn luyện gồm 8.640 bản ghi, dữ liệu kiểm thử gồm 4.320 bản ghi, phân lớp đúng 3.102 bản ghi, phân lớp sai 1.218 bản ghi, đạt độ chính xác 71,80%.

Tên nguồn dữ liệu Dữ liệu huấn luyện Dữ liệu kiểm thử Độ chính xác (%) Đúng Khơng đúng ADULT 11.500 1.532 78,36 1.200 332 CARS 1.152 576 65,56 377 199 NURSERY 8.640 4.320 71,80 3.102 1.218 Bảng 4.6. Kết quả phân lớp TANB cho các nguồn dữ liệu.

4.4 Phân lớp dữ liệu phân tán

4.4.1 Phân lớp phân tán

Như đã trình bày ở mục 1, trong phần cài đặt thử nghiệm này, tác giả chỉ thực hiện cài đặt phân lớp phân tán dựa trên mơ hình nguồn dữ liệu huấn luyện phân tán và nguồn dữ liệu kiểm thử tập trung. Như đã trình bày ở chương 1 dữ liệu thường được phân tán dưới hai dạng: phân tán phân mảnh ngang và phân tán phân mảnh dọc. Trong phạm vi luận văn này, tác giả thực hiện phân lớp dữ liệu với nguồn dữ liệu huấn luyện được lưu trữ ở dạng phân tán phân mảnh ngang.

Để thực hiện điều này, đối với mỗi nguồn dữ liệu, tác giả chia dữ liệu huấn luyện thành 2 phần theo phân mảnh ngang (mỗi phần đều cĩ chứa tồn bộ tập thuộc tính của cả nguồn dữ liệu đĩ). Mỗi phần dữ liệu sẽ được lưu trữ tại các máy khác nhau. Dữ liệu huấn luyện của các nguồn được chia như sau:

 Nguồn ADULT được chia thành 2 phần: phần 1 chứa 6.500 bản ghi, phần 2 chứa 5.000 bản ghi.

 Nguồn CARS được chia thành 2 phần: phần 1 chứa 576 bản ghi, phần 2 chứa 576 bản ghi.

 Nguồn NURSERY được chia thành 2 phần: phần 1 chứa 4.320 bản ghi, phần 2 chứa 4.320 bản ghi.

Để hỗ trợ việc truyền thơng tin trong mơi trường phân tán, tác giả sử dụng RMI/JAVA như một cơng cụ hỗ trợ lập trình phân tán.

RMI/JAVA1

RMI – Remote Method Invoke là cách thức giao tiếp giữa các đối tượng Java cĩ mã lệnh cài đặt (bao gồm phương thức và thuộc tính) nằm trên các máy khác nhau. Đối tượng ở máy này cĩ thể gọi phương thức của các đối tượng được lưu trữ ở máy khác. Cách thức hoạt động của RMI cĩ thể được mơ hình hĩa như sau (Hình 4.8).

Một ứng dụng RMI thường gồm 2 chương trình, một dành cho server và một dành cho client. Chương trình server tạo ra các đối tượng cĩ thể truy cập từ xa và tạo ra các tham chiếu để truy cập đến các đối tượng này. Chương trình client thu thập các tham chiếu đến một hay nhiều đối tượng cĩ thể truy cập từ xa trên server và gọi các phương thức của các đối tượng này khi cần. RMI cung cấp cơ chế để server và client cĩ thể liên lạc và trao đổi thơng tin.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Tích hợp thông tin không thuần nhất về ngữ nghĩa trong môi trường phân tán Luận văn ThS. Công nghệ thông tin 1.01.10 (Trang 77 - 80)

Tải bản đầy đủ (PDF)

(100 trang)