BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC TÌM HIỂU VỀ ĐỐI SÁCH LƯỢC ĐỒ VÀ XÂY DỰNG ỨNG DỤNG VNMATCH CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN NGÔ VĂN QUÂN Hà Nội, 2006 Tóm tắt luận văn Luận văn cao học với đề tài “Tìm hiểu đối sánh lược đồ xây dựng ứng dụng VNMatch” nghiên cứu tìm hiểu tốn đối sánh lược đồ (schema matching) Bài toán đối sánh lược đồ áp dụng ứng dụng tích hợp liệu (data integration), chuyển đổi liệu (data translation), nhà kho liệu (data warehousing), ứng dụng web ngữ nghĩa (Web Semantic) Bài tốn đối sánh lược đồ định nghĩa sau: “Cho hai lược đồ S1 S2 tìm tương đồng phần tử S1và S2 cách khai thác tất thơng tin tồn hai lược đồ đó, liệu nguồn thông tin hỗ trợ khác” Luận văn tập trung nghiên cứu phương pháp đối sánh lược đồ dựa dự án phát triển viện nghiên cứu, trường đại học cơng ty giới, tìm hiểu đề xuất số phương pháp xử lý cho lược đồ thiết kế dùng tiếng Việt Đồng thời thiết kế thi công hệ thống đối sánh lược đồ, gọi VNMatch VNMatch xử lý đầu vào hai lược đồ thiết kế dùng ngôn ngữ XML Schema, kết đầu tập ánh xạ có tương đồng mặt ngữ nghĩa phần tử hai lược đồ BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SĨ KHOA HỌC TÌM HIỂU VỀ ĐỐI SÁNH LƯỢC ĐỒ VÀ XÂY DỰNG ỨNG DỤNG VNMATCH NGÀNH: CÔNG NGHỆ THÔNG TIN NGÔ VĂN QUÂN HÀ NỘI 2006 i Luận văn Th.s: Tìm hiểu đối sánh lược đồ xây dựng ứng dụng VNMatch Lời cảm ơn Trong lời báo cáo luận văn tốt nghiệp “Tìm hiểu đối sánh lược đồ xây dựng ứng dụng VNMatch” này, muốn gửi lời cảm ơn biết ơn chân thành tới tất người hỗ trợ, giúp đỡ chuyên môn, vật chất tinh thần q trình thực Đồ án Trước hết, tơi xin chân thành cảm ơn TS Nguyễn Kim Anh, môn Hệ thống thông tin, Khoa Công nghệ thông tin trường Đại học Bách khoa Hà Nội, người trực tiếp hướng dẫn, nhận xét, giúp đỡ suốt trình thực luận văn Xin chân thành cảm ơn Khoa Công nghệ thông tin, Trung tâm Đào tạo Bồi dưỡng sau đại học Trường Đại học Bách Khoa Hà Nội giúp đỡ suốt trình học tập nghiên cứu Tơi muốn gửi lời cảm ơn tới TS Đỗ Hồng Hải1, tác giả hệ thống COMA++; anh Lê Hồng Phương2 tác giả vnTokenizer, vnLTag; Enrico May, sinh viên nghiên cứu dự án Cupid Tơi xin bày tỏ lịng biết ơn đến gia đình người bạn thân giúp đỡ, động viên nhiều suốt trình học tập làm luân văn tốt nghiệp Do thời gian thực có hạn, kiến thức chun mơn cịn nhiều hạn chế nên đồ án tơi thực chắn khơng tránh khỏi thiếu sót định Tơi mong nhận ý kiến đóng góp thầy, cô giáo bạn Xin chân thành cảm ơn ! Hà Nội, ngày 09 tháng 10 năm 2006 http://dbs.uni-leipzig.de/personen/hong_hai_do Lê Hồng Phương, công tác trường Đại Học Quốc Gia Hà Nội, làm nghiên cứu sinh Pháp Ngô Văn Quân, lớp cao học CNTT 2004 ii Luận văn Th.s: Tìm hiểu đối sánh lược đồ xây dựng ứng dụng VNMatch 3 Mở đầu Chương Đối sánh lược đồ Sự hỗn tạp ngữ nghĩa Định nghĩa toán 3.1 Schemas 3.2 Đầu vào toán (Input) 3.3 Đầu toán (Output) 3.4 Kiến trúc chung Ứng dụng toán đối sánh lược đồ 4.1 Các ứng dụng tích hợp liệu data warehouse 4.2 E-Business 11 4.3 Semantic Web 12 Các vấn đề mở 13 5.1 Khả biểu diễn ngôn ngữ 13 5.2 Làm việc với lược đồ có kích thước lớn 13 5.3 Sự kết hợp phương pháp đối sánh 14 Chương Các phương pháp tiếp cận 15 Các dự án liên quan 15 1.1 COMA++ 15 1.2 SEMINT 16 1.3 LSD 16 1.4 SKAT 16 1.5 TransScm 16 1.6 DIKE 17 1.7 SIMILARITY FLOODING 17 1.8 Cupid 17 Các phương pháp đối sánh lược đồ 20 2.1 Tiêu chuẩn phân loại 20 2.2 Đối sánh dựa schema (schema-based) 21 2.2.1 Phương pháp tiếp cận dựa ngôn ngữ (linguistic) 22 2.2.2 Phương pháp tiếp cận dựa ràng buộc 23 2.2.3 Phương pháp tiếp cận dựa cấu trúc 23 2.3 Đối sánh dựa liệu 23 2.4 Đối sánh kết hợp 24 2.5 Match Cardinality 24 2.6 Các hệ số mặc định toán đối sánh 25 Các phương pháp đánh giá hệ thống đối sánh 26 Chương Thiết kế hệ thống đối sánh lược đồ 30 Khảo sát 30 Giới thiệu 33 2.1 Giới thiệu toán đối sánh lược đồ 33 2.2 Xử lý schema tiếng Việt 33 Thiết kế 35 Ngô Văn Quân, lớp cao học CNTT 2004 iii Luận văn Th.s: Tìm hiểu đối sánh lược đồ xây dựng ứng dụng VNMatch 3.1 Kiến trúc hệ thống 35 3.2 Input 36 3.2.1 Schema Error! Bookmark not defined 3.2.2 WordNet 39 3.2.3 Output 40 3.3 Mức ngôn ngữ (linguistic matching) 41 3.3.1 Các thuật toán đối sánh 42 3.3.2 Thuật toán đối sánh kết hợp 44 3.4 Mức cấu trúc 51 3.5 Chọn lựa ánh xạ 55 Cài đặt kết 56 4.1 Cài đặt 56 4.2 Kết thử ngiệm 60 Kết luận hướng phát triển 71 5.1 Kết luận 71 5.2 Hướng phát triển 72 Tài liệu tham khảo 75 Sách, báo, luận văn 75 Website 75 Ngô Văn Quân, lớp cao học CNTT 2004 iv Luận văn Th.s: Tìm hiểu đối sánh lược đồ xây dựng ứng dụng VNMatch Mục lục hình ảnh Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình Hình 1-1: Đối sánh lược đồ 1-2: Xung đột ngôn ngữ 2-1: Schemas 2-2: Kiến trúc chung toán đối sánh lược đồ 2-3: Minh họa hệ thống tích hợp liệu giúp người dùng tìm văn 10 2-4: Data warehouse 11 2-5: Kiến trúc COMA++ 15 2-6: Kiến trúc SEMINT Error! Bookmark not defined 2-7: Các phương pháp đối sánh lược đồ 20 2-8: Xây dựng hệ số ưu tiên 26 2-9: Đánh giá hệ thống đối sánh 27 2-10: So sánh F-Measure Overall 28 3-1: Sự hỗn tạp nguồn liệu 31 3-2:Lược đồ văn 33 3-3: Kiến trúc hệ thống 36 3-4: Hợp lược đồ phân tán 38 3-5: Hợp kiểu thiết kế schema 38 3-6: Loại bỏ nút có kiểu đơn giản 38 3-7: Tái sử dụng định nghĩa 39 3-8:Sơ đồ đối sánh mức ngôn ngữ (linguistic matching) 41 3-9: Sơ đồ thuật toán đối sánh kết hợp 45 3-10: Phân tích phần tử đầu vào 46 3-11: Thực bước Direction Selection 48 3-12: Tổng hợp kết 49 3-13: SimCube theo phương pháp đối sánh kết hợp 50 3-14: Kết sau thực Aggregation 50 3-15: Kết sau thực Direction Selection 50 3-16:Kết sau tổng hợp 51 3-17: Hệ số tương tự node 52 3-18: Hệ số tương tự node 52 3-19: Sự phụ thuộc hệ số tương tự vào ngữ cảnh 55 3-20:Cấu trúc VNMatch 57 3-21: MatchLib, phần core VNMatch 57 3-22: Lớp HybridMatcher 58 3-23: VNMatch Framework (đề xuất) 73 Ngô Văn Quân, lớp cao học CNTT 2004 v Luận văn Th.s: Tìm hiểu đối sánh lược đồ xây dựng ứng dụng VNMatch Mục lục công thức Công Công Công Công Công Công Công Công Công Công Công Công thức thức thức thức thức thức thức thức thức thức thức thức 1: Cupid, hệ số tương tự hai tập hợp 19 19 19 2: Công thức EditDistance biến đổi 42 3: Lấy Max 47 4: Lấy theo trọng số 47 5: Lấy theo trung bình 47 6: AverageSim 49 7: DiceSim 49 8: Wsim cho node 54 9: Liên kết mạnh 54 10: ssim trường hợp node 54 Ngô Văn Quân, lớp cao học CNTT 2004 vi Luận văn Th.s: Tìm hiểu đối sánh lược đồ xây dựng ứng dụng VNMatch Bảng từ viết tắt thuật ngữ Tiếng Anh Ý nghĩa Data integration Tích hợp liệu Data translation Chuyển đổi liệu Data warehouse Nhà kho liệu DTD Document Type Definition Global schema Lược đồ tổng thể Holonym Bao hàm phần tử Ghi “Cây” bao hàm phần tử “Thân cây” Hypernym Hyponym Bao hàm khái niệm thuật “Thực vật” bao hàm ngữ khái niệm “Cây” Ngược với Hypernym “Cây” nằm khái niệm “thực vật” Local schema Lược đồ địa phương Meronym Ngược với Holonym “Thân cây” phận Ontology Đặc tả khái niệm OWL Web Ontology Language Schema Lược đồ liệu Schema integration Tích hợp lược đồ Ngô Văn Quân, lớp cao học CNTT 2004 vii Luận văn Th.s: Tìm hiểu đối sánh lược đồ xây dựng ứng dụng VNMatch Semantic integration Tích hợp ngữ nghĩa Schema mapping Ánh xạ lược đồ, tương tự đối sánh lược đồ Schema matching Đối sánh lược đồ Synonym Từ đồng nghĩa Web Semantic Web ngữ nghĩa XSD XML Schema Definition Ngô Văn Quân, lớp cao học CNTT 2004 ... SĨ KHOA HỌC TÌM HIỂU VỀ ĐỐI SÁNH LƯỢC ĐỒ VÀ XÂY DỰNG ỨNG DỤNG VNMATCH NGÀNH: CÔNG NGHỆ THÔNG TIN NGÔ VĂN QUÂN HÀ NỘI 2006 i Luận văn Th.s: Tìm hiểu đối sánh lược đồ xây dựng ứng dụng VNMatch Lời... cao học với đề tài ? ?Tìm hiểu đối sánh lược đồ xây dựng ứng dụng VNMatch? ?? nghiên cứu tìm hiểu toán đối sánh lược đồ (schema matching) Bài toán đối sánh lược đồ áp dụng ứng dụng tích hợp liệu (data... Th.s: Tìm hiểu đối sánh lược đồ xây dựng ứng dụng VNMatch Semantic integration Tích hợp ngữ nghĩa Schema mapping Ánh xạ lược đồ, tương tự đối sánh lược đồ Schema matching Đối sánh lược đồ Synonym