(LUẬN VĂN THẠC SĨ) Tích hợp thông tin không thuần nhất về ngữ nghĩa trong môi trường phân tán Luận văn ThS Công nghệ thông tin 1 01 10

100 2 0
(LUẬN VĂN THẠC SĨ) Tích hợp thông tin không thuần nhất về ngữ nghĩa trong môi trường phân tán Luận văn ThS Công nghệ thông tin 1 01 10

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Nguyễn Thế Cường TÍCH HỢP THƠNG TIN KHƠNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN LUẬN VĂN THẠC SĨ HÀ NỘI – 2007 TIEU LUAN MOI download : skknchat@gmail.com ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THẾ CƯỜNG TÍCH HỢP THƠNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN Ngành: Công nghệ thông tin Chuyên ngành: Mã số: 1.01.10 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN ĐÌNH QUẾ HÀ NỘI – 2007 TIEU LUAN MOI download : skknchat@gmail.com iv MỤC LỤC Lời cảm ơn ii Mục lục iv Danh sách hình vẽ vi Danh sách bảng viii Ký hiệu viết tắt ix Mở đầu Đặt vấn đề Những nghiên cứu tích hợp phân lớp liệu phân tán Mục tiêu luận văn Tóm tắt nội dung luận văn Chương Tổng quan tích hợp thơng tin phân lớp liệu phân tán 1.1 Tổng quan tích hợp thơng tin phân tán 1.1.1 Nhu cầu tích hợp thông tin 1.1.2 Những vấn đề cần quan tâm xây dựng hệ tích hợp liệu 1.1.3 Những phương pháp tích hợp thơng tin 1.2 Phân lớp liệu phân tán 13 1.2.1 Dữ liệu phân tán 13 1.2.2 Phân lớp liệu 14 1.3 Kết luận 19 Chương Ontology tích hợp thơng tin phân tán không 20 2.1 Ontology tích hợp thơng tin khơng ngữ nghĩa 20 2.1.1 Định nghĩa ontology 21 2.1.2 Tích hợp ontology 24 2.1.3 Nguồn liệu mở rộng với ontology 30 2.1.4 Các phép toán mở rộng ontology 32 2.2 Tích hợp thơng tin thống kê dựa ontology 33 2.3 Hệ tích hợp thơng tin thống kê mơi trường phân tán 37 2.4 Kết luận 40 Chương Phân lớp liệu tập trung phân tán 41 TIEU LUAN MOI download : skknchat@gmail.com v 3.1 Một số giải thuật phân lớp liệu tập trung 41 3.1.1 Phân lớp Naive Bayes 41 3.1.2 Tree Augmented Naive Bayes 44 3.2 Một số giải thuật phân lớp liệu phân tán 48 3.2.1 Phân lớp Naive Bayes cho liệu phân tán 48 3.2.2 Phân lớp Tree Augmented Naive Bayes cho liệu phân tán 51 3.3 Kết luận 55 Chương Cài đặt thử nghiệm 56 4.1 Mục đích cài đặt thử nghiệm 56 4.2 Nguồn liệu 56 4.2.1 Chuyển đổi nguồn liệu 57 4.2.2 Biểu diễn nguồn liệu 58 4.3 Phân lớp liệu tập trung 62 4.3.1 Phân lớp tập trung 62 4.3.2 Phân lớp dựa Naive Bayes 63 4.3.3 Phân lớp dựa TANB 66 4.4 Phân lớp liệu phân tán 71 4.4.1 Phân lớp phân tán 71 4.4.2 Phân lớp dựa Naive Bayes 76 4.4.3 Phân lớp dựa TANB 79 4.5 Đánh giá 80 4.6 Kết luận 83 Kết luận 84 Tài liệu tham khảo 86 TIEU LUAN MOI download : skknchat@gmail.com vi DANH SÁCH HÌNH VẼ 1.1 Sơ đồ hệ tích hợp liệu 1.2 Ví dụ kiến trúc sở liệu liên kết 1.3 Kiến trúc trung gian 10 1.4 Kiến trúc kho liệu 12 1.5 Phân mảnh liệu: phân mảnh ngang (trái) phân mảnh dọc (phải) 13 1.6 Truy vấn liệu kết hợp kết phân lớp phân tán 18 2.1 Ví dụ ontology cho phương tiện giao thông 22 2.2 Ontology liên quan đến bảng liệu Claims 28 2.3 Ontology liên quan đến bảng liệu Claims 28 2.4 Ontology tích hợp Claim1 Claim2 29 2.5 Ontology biểu diễn lượng mưa 31 2.6 Ontology biểu diễn nguồn liệu D1 tổ chức T1 34 2.7 Ontology biểu diễn nguồn liệu D2 tổ chức T2 34 2.8 Ontology người dùng O U(tích hợp ontology O1 O2) 35 2.9 Sơ đồ hệ thống tích hợp thông tin thống kê 39 3.1 Phân loại Naive Bayes cho liệu tập trung 42 3.2 Ví dụ mạng Naive Bayes 45 3.3 Ví dụ mạng Augmented Bayes 45 3.4 Giải thuật TANB cho liệu tập trung 47 3.5 Ví dụ PlaySport giải thuật Naive Bayes cho liệu phân tán phân mảnh ngang 49 3.6 Giải thuật phân lớp Naive Bayes cho liệu phân tán phân mảnh ngang 49 3.7 Giải thuật phân lớp Naive Bayes cho liệu phân tán phân mảnh dọc 50 3.8 Phân lớp TANB cho liệu phân tán phân mảnh ngang 52 3.9 Phân lớp TANB cho liệu phân tán phân mảnh dọc 54 TIEU LUAN MOI download : skknchat@gmail.com vii 4.1 Sơ đồ phân lớp Naïve Bayes cho liệu tập trung 62 4.2 Cây bao trùm cực đại xây dựng nguồn liệu ADULT 67 4.3 Mơ hình TANB cho nguồn liệu ADULT 67 4.4 Cây trùm cực đại xây dựng dựa nguồn liệu CARS 68 4.5 Mơ hình TANB cho nguồn liệu CARS 68 4.6 Cây bao trùm cực đại nguồn liệu NURSERY 69 4.7 Mơ hình TANB cho nguồn liệu NURSERY 69 4.8 Mô hình gọi đối tượng từ xa (RMI) 72 4.9 Sử dụng RMI registry nhận tham chiếu đối tượng từ xa 73 4.10 Sơ đồ phân lớp Naïve Bayes cho liệu phân tán 75 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 viii DANH SÁCH CÁC BẢNG 2.1 Nguồn liệu Claims 26 2.2 Nguồn liệu Claims 26 2.3 Các ánh xạ hỗ trợ tích hợp ontology 29 3.1 Nguồn liệu PlaySport cho phân lớp Naive Bayes 43 4.1 Thuộc tính giá trị thuộc tính có (ADULT) 59 4.2 Thuộc tính giá trị thuộc tính sau rời rạc hóa (ADULT) 60 4.3 Thuộc tính giá trị thuộc tính có (CARS) 61 4.4 Thuộc tính giá trị có thuộc tính (NURSERY) 61 4.5 Kết phân lớp tập trung theo phương pháp Naïve Bayes 65 4.6 Kết phân lớp TANB cho nguồn liệu 71 4.7 Bảng liệu ánh xạ dùng cho thuộc tính 75 4.8 Kết phân lớp theo phương pháp Naive Bayes 79 4.9 Kết phân lớp phân tán theo phương pháp TANB 79 4.10 Kết phân lớp liệu sử dụng thuật tốn Naive Bayes cho mơi trường tập trung phân tán 80 4.11 Kết phân lớp liệu sử dụng thuật tốn Augmented Naive Bayes cho mơi trường tập trung phân tán 80 (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 ix KÝ HIỆU VIẾT TẮT NB Naïve Bayes TANB Tree Augmented Naïve Bayes EOC Equational Ontological Conflicts INDUS Intelligent Data Understanding System CAD Computer-Aided Design DXF Drawing Exchange Format FDBS Federated Databases System SVM Support vector machines GO Gene Ontology ETAN Extended Tree Augmented Naïve Bayes SAN Selective Augmented Bayesian AODE Averaged One-Dependence Estimator UCI University California Irvine XML Extensible Markup Language RMI Remote Method Invoke (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 MỞ ĐẦU Đặt vấn đề Những phát triển công nghệ truyền thông công nghệ lưu trữ liệu dạng số với phát triển khả thu nhận lưu trữ liệu tạo nên phong phú đa dạng dạng nguồn liệu Hiện nay, có khả thu thập nguồn liệu lớn thuộc nhiều lĩnh vực khác nhau, y học (dữ liệu ADN, liệu chuỗi protein, liệu chuỗi gen), thương mại (dữ liệu hàng hoá, liệu khách hàng, liệu giao dịch), địa lý (dữ liệu thông tin bề mặt trái đất) Sự đa dạng nguồn thông tin lĩnh vực đặt khó khăn cho nhu cầu kết hợp nguồn liệu để cung cấp thông tin cần thiết cho người sử dụng Xét ví dụ người dùng muốn tìm mua máy tính xách tay mạng Để đưa định cuối cùng, người dùng truy cập đến nhiều trang web khác Tại trang web, người dùng có thơng tin giá thành, chế độ bảo hành, thời gian bảo hành Sau so sánh thông số trên, người dùng đưa loại máy tính mà cần mua Trong tự động hóa q trình tìm kiếm thơng tin, hệ thống trợ giúp người dùng lấy thông tin từ nguồn liệu trang web khác nhau, thực việc so sánh đưa gợi ý cho người dùng Thông thường liệu từ nguồn có đặc trưng phân tán, tự trị khơng  Tính phân tán: Các nguồn liệu thường lưu trữ phân tán vị trí khác hồn tồn độc lập với Do vậy, cần lấy thông tin, hệ thống phải xác định vị trí lưu trữ nguồn liệu  Tính khơng nhất: Thể nhiều dạng: không cấu trúc, không khuôn dạng liệu không ngữ nghĩa Không cấu trúc có nghĩa nguồn liệu khác sử dụng cấu trúc khác để lưu trữ liệu Không (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 khuôn dạng liệu nguồn liệu không sử dụng khuôn dạng trình lưu trữ liệu Đặc biệt khơng ngữ nghĩa, việc sử dụng biểu diễn khác cho đối tượng Dạng đơn giản không ngữ nghĩa sử dụng tên gọi khác cho đối tượng xác định Xét ví dụ hai bảng liệu công ty kinh doanh thiết bị xe máy Honda Thiết bị Lốp trước Lốp sau Đĩa phanh Dây phanh Hộp dầu … Giá bán 137.060 155.100 750.000 28.500 160.000 … VAT 13.706 15.510 75.000 2.850 16.000 … Bảng 1: Nguồn liệu D1 Mặt hàng Lốp 2.75 Vành đúc Phanh đĩa Má phanh Vành nan … Giá Thuế 155.100 15.500 1.150.000 115.000 1.000.000 100.000 61.000 6.100 169.000 16.900 … … Bảng 2: Nguồn liệu D2 Khi muốn so sánh giá thiết bị thuộc hai nguồn liệu D1 D2, hệ thống cần hiểu “Lốp sau” nguồn D1 “Lốp 2.75” nguồn D2 đến đối tượng Trong trình lưu trữ, “Thiết bị” nguồn D1 “Mặt hàng” nguồn D2 tên trường liệu lưu trữ tên đối tượng  Tính tự trị: Các nguồn liệu xác định cấu trúc định dạng lưu trữ xây dựng Các hệ thống khác muốn sử dụng thông tin nguồn lấy thơng tin mà khơng thể thay đổi cấu trúc định dạng Hoạt động nguồn liệu hoàn toàn độc lập với đối tượng khác Để tích hợp thông tin môi trường phân tán không nhất, cần phải đưa giải pháp cho vấn đề phân tán không ngữ nghĩa Trong phần tiếp theo, luận văn tập trung trình bày nghiên cứu tích hợp thơng tin giải pháp ngữ nghĩa cho nguồn liệu (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 78 Thu thập tham chiếu đối tượng thông qua tên đăng kí với rmiregistry SendData dataSrv1 = (SendData)Naming.lookup("rmi:// localhost/server1"); SendData dataSrv2 = (SendData)Naming.lookup("rmi:// localhost/server2"); Kích hoạt thủ tục tính thơng tin thống kê server dataSrv1.Init(); dataSrv2.Init(); Kết nối sở liệu kiểm thử Với ghi thuộc liệu kiểm thử  Tính tần số suất giá trị thuộc tính giá trị lớp  Tính giá trị xác suất ghi với lớp tập lớp có nguồn liệu Xác định lớp có xác suất lớn lưu vào mảng tạm thời (ResultList) Cập nhập thuộc tính class sở liệu kiểm thử giá trị mạng tạm thời theo thứ tự tương ứng  Evaluate.class: Đánh giá kết phân lớp Kết Sau thực phân lớp phân tán theo phương pháp dựa Naïve Bayes cho nguồn liệu ADULT, CARS, NURSERY, kết đạt sau (thông tin chi tiết mô tả bảng 4.6):  Nguồn liệu ADULT với nguồn liệu huấn luyện (nguồn chứa 6.500 ghi, nguồn chứa 5.000 ghi) thực phân lớp 1.532 ghi, phân lớp 1.231 ghi, phân lớp khơng 301 ghi Đạt độ xác 80,39% (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 79  Nguồn liệu NURSERY với nguồn liệu huấn luyện (nguồn chứa 4.320 ghi, nguồn chứa 4.320 ghi) thực phân lớp 4.320 ghi, phân lớp 3.038 ghi, phân lớp khơng 1.282 ghi Đạt độ xác 70,32%  Nguồn liệu CARS với nguồn liệu huấn luyện (nguồn chứa 576 ghi, nguồn chứa 576 ghi) thực phân lớp 576 ghi, phân lớp 380 ghi, phân lớp không 196 ghi Đạt độ xác 65,90% Tên nguồn liệu Nguồn Nguồn Dữ liệu kiểm thử Độ xác (%) Đúng Không ADULT 6.500 5.000 1.532 80,29 1.231 301 CARS 576 576 576 65,90 380 196 NURSERY 4.320 4.320 4.320 70,32 3.038 1.282 Bảng 4.8 Kết phân lớp theo phương pháp Naive Bayes 4.4.3 Phân lớp dựa TANB Về ngun tắc, mơ hình phân lớp phân tán TANB dựa mơ hình phân lớp phân tán Naive Bayes (Hình 4.10) Dữ liệu huấn luyện lưu trữ phân tán hai máy khác Dữ liệu kiểm thử lưu trữ tập trung máy Tác giả dùng đối tượng từ xa RMI để truyền thông tin từ nguồn liệu huấn luyện đến phân lớp Kết thực phân lớp phân tán theo phương pháp TANB cho nguồn liệu ADULT, CARS, NURSERY Tên nguồn liệu Nguồn Nguồn Dữ liệu kiểm thử Độ xác (%) Đúng Khơng ADULT 6.500 5.000 1.532 78,39 1.200 332 CARS NURSERY 576 4.320 576 4.320 576 4.320 69,21 61,00 399 2.635 177 1.685 Bảng 4.9 Kết phân lớp phân tán theo phương pháp TANB (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 80 4.5 Đánh giá Luận văn tập trung vào đánh giá khía cạnh: (i) So sánh độ xác thuật tốn mơi trường tập trung phân tán; (ii) Ảnh hưởng kích thước liệu với độ xác Độ xác thuật tốn môi trường tập trung & phân tán Kết thực nghiệm xây dựng phân lớp cho nguồn liệu Nguồn liệu ADULT CARS NURSERY Tập trung Kích thước DLHL 11.500 Kích thước DLKT 1.532 Độ xác (%) 80,29 Phân tán Tập trung 11.500 1.152 1.532 576 80,29 65,90 Phân tán 1.152 576 65,90 Tập trung Phân tán 8.640 8.640 4.320 4.320 70,32 70,32 Kiểu DLHL DLHL: Dữ liệu huấn luyện – DLKT : Dữ liệu kiểm thử Bảng 4.10 Kết phân lớp liệu sử dụng thuật toán Naive Bayes Nguồn liệu ADULT CARS Kiểu DLHL Kích thước DLHL Kích thước DLKT Độ xác (%) Tập trung 11.500 1.532 78,36 Phân tán Tập trung 6.500 5.000 1.152 1.532 576 78,39 65,56 576 69,21 4.320 4.320 71,80 61,00 Phân tán NURSERY Tập trung Phân tán 576 576 8.640 4.320 4.320 DLHL: Dữ liệu huấn luyện – DLKT : Dữ liệu kiểm thử Bảng 4.11 Kết phân lớp liệu sử dụng thuật toán TANB Thông qua bảng liệu, ta thấy rằng, giải thuật NB, độ xác giải thuật thực môi trường phân tán môi trường tập trung tương đương Đối với giải thuật TANB, có khác độ xác môi trường tập trung môi trường phân tán, điều giải thích sau (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 81 Dữ liệu nguồn CARS NURSERY liệu thứ tự Điều dẫn đến phân bố không giá trị thuộc tính trường hợp phân tán Ví dụ như, đối nguồn liệu NURSERY, chia nguồn liệu thành huấn luyện kiểm thử (2/3 : 1/3), 2/3 nguồn liệu (tương đương với 8.640 ghi), thuộc tính parents khơng có giá trị “usual”, mà giá trị lại có liệu kiểm thử (với 4.320 ghi có giá trị này) Điều dẫn đến việc tính xác suất cho giá trị “usual”, tác giả phải gán giá trị mặc định để tránh giá trị Độ xác phân lớp TANB nguồn liệu NURSERY tăng so với độ xác phân lớp Naive Bayes khai thác phụ thuộc lẫn thuộc tính nguồn liệu Tuy nhiên, môi trường phân tán, chia nguồn liệu huấn luyện thành phần (4320:4320) độ xác giảm Điều xảy kết truy vấn đạt giá trị nhiều, sau giá trị gán giá trị mặc định Điều làm giảm đáng kể tính khách quan việc phân lớp liệu giảm độ xác phân lớp Sự ảnh hưởng kích thước liệu độ xác Để đánh giá ảnh hưởng kích thước nguồn liệu độ xác thuật toán, tác giả thực phân lớp với nguồn liệu ADULT với kích thước khác thu số kết sau (biểu đồ 1, 2) Qua hai biểu đồ ta thấy rằng, độ xác phân lớp khơng phụ thuộc vào tính chất nguồn liệu huấn luyện (phân tán hay tập trung) mà phụ thuộc vào kích thước nguồn liệu Khi kích thước nguồn liệu huấn luyện tăng, độ xác phân lớp tăng (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 82 Độ xác Biểu đồ biểu diễn độ xác cho phân lớp Naive Bayes 100 90 80 70 60 50 40 30 20 10 80.09 80.09 80.22 80.25 80.29 80.02 80.09 80.22 80.25 80.29 NB Phân tán NB Tập trung 4000 5500 7000 8500 11500 Kích thước nguồn liệu huấn luyện Biểu đồ 1: Độ xác phân lớp NB mơi trường tập trung phân tán Độ xác Biểu đồ biểu diễn độ xác cho phân lớp Tree Augmented Naive Bayes 100 90 80 70 60 50 40 30 20 10 77.21 77.61 78.26 78.39 78.39 77.28 77.67 78.26 78.32 78.36 TANB Phân tán TANB Tập trung 4000 5500 7000 8500 11500 Kích thước nguồn liệu huấn luyện Biểu đồ 2: Độ xác phân lớp TANB môi trường tập trung & phân tán (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 83 4.6 Kết luận Trong chương này, tác giả trình bày vấn đề liên quan đến cài đặt thử nghiệm phân lớp cho nguồn liệu  Mục đích việc thực cài đặt thử nghiệm phân lớp liệu môi trường tập trung phân tán  Mô tả nguồn liệu sử dụng trình cài đặt thử nghiệm  Trình bày cách xây dựng modul sử dụng thuật toán, kết phân lớp nguồn liệu  Đánh giá kết cài đặt thử nghiệm thơng qua hai tiêu chí, độ xác phân lớp môi trường phân tán, kiểm thử ảnh hưởng kích thước nguồn liệu độ xác phân lớp (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 84 KẾT LUẬN Nhằm mục đích tích hợp thơng tin khơng ngữ nghĩa môi trường phân tán, luận văn tập trung trình bày số nội dung sau đây:  Khảo sát số cách tiếp cận liên quan đến tích hợp thơng tin khơng mơi trường phân tán Luận văn xem xét phương pháp tích hợp dựa vào ontology cho nguồn thơng tin phân tán không ngữ nghĩa Sử dụng ontology cách tiếp cận hiệu việc ngữ nghĩa nguồn liệu Do hoạt động mức ngữ nghĩa, thao tác ontology độc lập với hoạt động nguồn liệu Phương pháp áp dụng với nhiều kiểu kiến trúc liệu khác  Luận văn áp dụng cách tiếp cận dựa ontology để thu thập thông tin thống kê từ nguồn phân tán Trước hết, tác giả tập trung xem xét hai kỹ thuật phân lớp liệu tập trung theo mô hình xác suất thuật tốn phân lớp liệu Nạve Bayes Tree Augmented Nạve Bayes Sau đó, đề xuất mở rộng kỹ thuật phân lớp cho nguồn phân tán theo bước: (i) thu thập thông tin thống kê từ nguồn liệu mở rộng với ontology; (ii) kết hợp thông tin thống kê thu vị trí trung tâm; (iii) xây dựng mơ hình phân lớp liệu dựa thông tin thu thập  Luận văn cài đặt thử nghiệm hai thuật toán Naive Bayes Tree Augmented Naive Bayes nguồn liệu ADULT, CARS NURSERY Tác giả tiến hành thử nghiệm để đo độ xác thuật tốn với liệu hai môi trường tập trung phân tán Trong đó, độ xác tỉ lệ ghi phân lớp với lớp xác định ban đầu tập liệu kiểm thử Kết cài đặt thử nghiệm cho thấy hai thuật tốn phân lớp mơi trường tập trung hay phân tán khơng ảnh hưởng nhiều đến độ xác thuật toán Yếu tố ảnh hưởng mạnh đến độ xác thuật tốn kích thước nguồn liệu huấn luyện (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 85 Những hạn chế số hướng phát triển tương lai Q trình tích hợp thông tin không ngữ nghĩa môi trường phân tán trình bày luận văn có số hạn chế mở số hướng nghiên cứu thời gian tới:  Trong luận văn, nguồn liệu phân tán theo phân mảnh ngang, truy vấn liệu gửi đến nguồn liệu tương tự Điều không phù hợp dạng phân tán khác liệu phân mảnh dọc, nguồn liệu cung cấp thơng tin thống kê cho vài thuộc tính Việc nghiên cứu chiến lược phân rã truy vấn cần thiết nhằm hạn chế truy vấn thừa qua tối ưu hóa thời gian truy vấn liệu  Việc đánh giá giải thuật dựa kích thước nguồn liệu huấn luyện Trong thời gian tới, tác giả dự định đánh giá giải thuật phân lớp theo nhiều yếu tố khác cấu trúc nguồn liệu, khả xử lý truy vấn, độ phức tạp ontology tỉ lệ giá trị không xác định nguồn liệu (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 86 TÀI LIỆU THAM KHẢO [1] C.F Aliferis, D Hardin, P P Massion (2002) “Machine Learning Models For Lung Cancer Classification Using Array Comparative Genomic Hybridization” In: Proceedings of the 2002 American Medical Informatics Association (AMIA) Annual Symposium, 2002, pp 7-11 [2] An Introduction to Data Mining http://www.thearling.com/dmintro/dmintro.htm [3] A Atramentov (2003) “Multi-relational decision tree algorithm implementation and experiments” MS Thesis Iowa State University, Ames, Iowa [4] F Baader, I Horrocks, U Sattler (2001) “Description Logics as Ontology Languages for the Semantic Web” In D Hutter and W Stephan, editors, Festschrift in honor of Jorg Siekmann, Lecture Notes in Artificial Intelligence Springer, 2003 [5] A Berson, S Smith, K Thearling “An Overview of Data Mining Techniques”: http://www.thearling.com/index.htm [6] Piero Bonatti, Yu Deng, V.S Subrahmanian (2003) “An Ontology-Extended Relational Algebra”, Proceedings of the IEEE Conference on Information Integration and Reuse, IEEE Press [7] D Caragea, J Pathak, V.G Honavar (2004) “Learning Classifiers from Semantically Heterogeneous Data” Conference on Cooperative Information Systems [8] D Caragea, J Pathak, J Bao, A Silvescu, C Andorf, D Dobbs, V Honavar (2004) “Information Integration and Knowledge Acquisition from Semantically Heterogeneous Biological Data Sources” In: Proceedings of the 2nd International Workshop on Data Integration in Life Sciences (DILS'05), San Diego, CA (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 87 [9] D Caragea, J Reinoso, A Silvescu, V Honavar (2003) “Statistics Gathering for Learning from Distributed, Heterogeneous and Autonomous Data Sources” In International Workshop on Information Integration on the Web, IJCAI 2003 [10] D Caragea (2004) “Learning classifiers from distributed, semantically heterogeneous, autonomous data sources” Ph.D Thesis Iowa State University [11] G Casella and R.L Berger Statistical Inference Duxbury Press, Belmont, CA, 2001 [12] J Cerquides, R L´opez de M`antaras (2003) “Tractable Bayesian Learning of Tree Augmented Naive Bayes Models” In : Proceedings of the Twentieth International Conference on Machine Learning (ICML 2000), pages 75-82, 2003 [13] P K Chan, Wei Fan, A L Prodromidis, S J Stolfo (1999) “Distributed Data Mining in Credit Card Fraud Detection” IEEE Intelligent Systems, Bd 14, Nr 6, S 67 74, 1999 [14] Ningjiang “Jay” Cheng (2001) “An Integration Framework for Airport Automation Systems” The MITRE Corporation, McLean, Virginia [15] J Davies , D Fensel, F V Harmelen (2002) ―TOWARDS THE SEMANTIC WEB‖ ISBN:0470848677 John Wiley & Sons, Inc New York, NY, USA [16] “Digital Human Ontology” (2002) A EC/NSF Workshop of Scientists National Institutes of Health Bethesda, Marryland, 20894 USA [17] Y Ding, S Foo (2000) “Ontology Research and Development Part – A Review of Ontology Generation” Journal of Information Science 28(2), pages 123-136 [18] Oliver M Duschka (1997) “Query planning and optimization in information integration“, Ph.D Thesis Stanford University, December 1997 (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 88 [19] Charles Elkan (1997) “Naïve Bayesian Learning” Department of Computer Science - Harvard University [20] L De Ferrari (2005) “Mining housekeeping genes with a Naive Bayes classifier” Master of Science Thesis, School of Informatics University of Edinburgh [21] A Firat, S Madnick, B Grosof (2002) “Financial Information Integration In the Presence of Equational Ontological Conflicts”, MIT Sloan School of Management Cambridge, MA USA.(Proceedings of the Workshop on Information Technology and Systems (WITS), Barcelona, Spain, December 14-15, 2002, pp 211-216 ) [22] F T Fonseca (2001) “Role-Based Geographic Information Integration” Geoinfo 2001—III Workshop Brasileiro de Geoinformatica, Rio de Janeiro, Brazil, pp 31-38 [23] N Friedman, D Geiger, M Goldszmidt (1997) “Bayesian Network Classifiers” Journal of Machine Learning, volume 29, number (2-3), p.p (131-163) 1997 [24] J.A Goguen (2004) “Data, Schema, Ontology and Logic Integration” University of California, Sandiego In: Proceedings, CombLog'04 Workshop Lisbon, 2830 July 2004 [25] Cheng H Goh (1997) ―Representing and Reasoning about Semantic Conflicts in Heterogeneous Information Sources‖ PhD Thesis, MIT [26] Nicola Guarino (1998) “Formal Ontology and Information Systems” National Research Council, LADSEB-CNR, Corso Stati Uniti 4, I-35127 Padova, Italy [27] I Guyon, J Weston, S Barnhill, V Vapnik (2000) “Gene Selection for Cancer Classification using Support Vector Machines” Journey of Machine (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 89 Learning Volume 46 , Issue 1-3 Pages: 389 – 422 ISSN:0885-6125 ( 2002).) [28] A Haller, E Oren (2006) “A process ontology to represent semantics of different process and choreography meta-models” DERI – Digital Enterprise Research Institute [29] J Heflin, J Hendler, S Luke: “Applying Ontology to the Web: A Case Study” In: Proceedings of the International Work-Conference on Artificial and Natural Neural Networks, IWANN'99 [30] D Heimbigner, D McLeod (1985) “A Federated Architecture for Information Management” ACM Transaction on Office Information Systems 3(3):253-278 1985 [31] M O Jewell, F Lawrence, M M Tuffield (2005) “OntoMedia: An Ontology for the Representation of Heterogeneous Media”.In: Proceedings of Multimedia Information Retrieval Workshop (MMIR 2005) SIGIR, Brazil [32] Thorsten Joachims (2001) “A Statistical Learning Model of Text Classification for Support Vector Machines” In: Proceedings of {SIGIR}-01, 24th {ACM} International Conference on Research and Development in Information Retrieval [33] Eamonn J Keogh, Michael J Pazzani (1999) “Learning Augmented Bayesian Classifiers: Classification-based A Comparison Approaches” In: of Distribution-based Proceedings of the and Seventh International Workshop on Artificial Intelligence and Statistics (Ft Lauderdale, FL, 1999) 225-230 [34] R Knappe, H Bulskov, T Andreasen (2003) “On Similarity Measures for Concept – based Querying” In: Proceedings IFSA'03 International Fuzzy Systems Association World Congress, Istanbul, Turkey, June 29 - July 2003 (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 90 [35] C Knoblock, S Kambhampati (2002) “Information Integration on Web” AAAI Tutorial (MA1) [36] Xiaoli Li, Bing Liu (2002) “Learning to Classify Texts Using Positive and Unlabeled Data” In: Proceedings of Eighteenth International Joint Conference on Artificial Intelligence (IJCAI-03) [37] Xiao Li (2003) “Augmented Naïve Bayesian Classifiers for Mixed-Mode Data” http://ssli.ee.washington.edu/~lixiao/ [38] P McBrien, A Poulovassilis (2001) “A Semantic Approach to Integrating XML and Structured Data Sources” In: Proceedings of the 13th International Conference on Advanced Information Systems Engineering [39] K McGarry, S Garfield, N Morris, S Wermter (2007) “Integration of Hybrid Bio-Ontologies using Bayesian Networks for Knowledge Discovery” NESYS-07, Workshop on Neuro-Symbolic Learning and Reasoning, International Joint Conference on Artificial Intelligence (IJCAI07), Hydrabad, India, January 6-12, 2007 [40] Christopher Menzel (2004) “Basic Semantic Integration” In: Proceedings of Dagstuhl Seminar 04391, Dagstuhl, Germany (2004) [41] Tom M Mitchell (1997): ―Machine Learning‖ 414 pages ISBN 0070428077 - WCB/McGraw-Hill [42] María Auxilio Medina Nieto (2003) “An Overview of Ontologies” Technical report Universidad De Las Américas Puebla [43] K Nigam, A.K Mccallum, S Thrun, T Mitchell: “Text Classification from Labeled and Unlabeled Documents using EM” Journal of Machine Learning, volume 39, number 2/3, pages = 103-134, 2000 [44] Natalya F Noy, Deborah L McGuinness (2000) “Ontology Development 101: A Guide to Creating Your First Ontology” Stanford University, Stanford, CA, 94305 (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 91 [45] N F Noy (2004) “Semantic Integration: A Survey Of Ontology-Based Approaches” SIGMOD Record, 2004, 33(4):65-70 [46] Chris Partridge (2002) ―The Role of Ontology in Integrating Semantically Heterogeneous Databases‖, Technical LADSEB-CNR Technical Report 05/2002, June 2002 Italy [47] C Phua, D Alahakoon, V Lee (2004) “Minority Report in Fraud Detection: Classification of Skewed Data” ACM SIGKDD Explorations Newsletter Volume 6, Issue (June 2004) Special issue on learning from imbalanced datasets Pages: 50 – 59 2004 [48] M A Roth, D C Wolfson, J C Kleewein, C J Nelin (2002) ―Information integration: A new generation of information technology‖, IBM SYSTEMS JOURNAL [49] N Sebe, M.S Lew, I Cohen, A Garg, T.S Huang (2002) “Emotion Recognition Using a Cauchy Naive Bayes Classifier” In ICPR, 2002 [50] Jeffrey W Seifert (2004) “Data Mining: An Overview” Analyst in Information Science and Technology Policy, Resources, Science, and Industry Division [51] “Semantic Integration: Strategies and Tools” (2003) TopQuadrant Technology Briefing TopQuadrant, Inc USA [52] E T M Spanaki (2004) “From ontology design to ontology implementation: A web tool for building geographic ontologies” In: 8th AGILE Conference on Geographic Information Science, Estoril, Portugal, May 26 – 28, 2005 [53] H Stuckenschmidt, F van Harmelen (2001) “Ontology-Based Metadata Generation from Semi-Structured Information” In: Proceedings of the first intenational conference on knowledge capture (K-CAP'01), pages 440-444 [54] R Tailby, R Dean, B Milner, D Smith (2006) “Email classification for automated service handling” In: Proceedings of the 2006 ACM symposium (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10 (LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10(LUAN.VAN.THAC.SI).Tich.hop.thong.tin.khong.thuan.nhat.ve.ngu.nghia.trong.moi.truong.phan.tan.Luan.van.ThS.Cong.nghe.thong.tin.1.01.10

Ngày đăng: 17/12/2023, 01:58

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan