Đối sánh tự động lược đồ XML

57 442 0
Đối sánh tự động lược đồ XML

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC Mục lục Danh mục từ viết tắt, thuật ngữ Error! Bookmark not defined Danh mục bảng biểu Error! Bookmark not defined Danh mục hình vẽ Error! Bookmark not defined Mở đầu Error! Bookmark not defined Giới thiệu chung Error! Bookmark not defined Nội dung luận văn Error! Bookmark not defined ®èi s¸nh tù ®éng l−îc ®å XML NGÀNH: CÔNG NGHỆ THÔNG TIN MS: ……………………… VÕ SỸ NAM NGƯỜI HƯỚNG DẪN KHOA HỌC: TS HUỲNH QUYẾT THẮNG Chương Đối sánh lược đồ Error! Bookmark not defined 1.1 Tổng quan đối sánh lược đồ Error! Bookmark not defined 1.1.1 Các khái niệm đối sánh lược đồ Error! Bookmark not defined 1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ Error! Bookmark not defined 1.2 Các tiếp cận đối sánh lược đồ Error! Bookmark not defined 1.2.1 Phân loại tiếp cận đối sánh lược đồ Error! Bookmark not defined 1.2.2 Các tiếp cận đối sánh lược đồ Error! Bookmark not defined 1.2.3 Các phương pháp đối sánh lược đồ Error! Bookmark not defined 1.3 Các hệ thống đối sánh lược đồ XML Error! Bookmark not defined 1.3.1 Cupid (trung tâm nghiên cứu Microsoft) Error! Bookmark not defined 1.3.2 Similarity Flooding (Đại học Stanford đại học Leipzig) Error! Bookmark not defined 1.3.3 LSD (Đại học Washington) Error! Bookmark not defined 1.3.4 Clio (IBM Almaden đại học Toronto) Error! Bookmark not defined 1.3.5 Một số hệ thống đối sánh lược đồ khác Error! Bookmark not defined 1.4 Kết chương Error! Bookmark not defined Chương Các định nghĩa hình thức Error! Bookmark not defined HÀ NỘI - 2006 2.1 Vấn đề đối sánh lược đồ XML Error! Bookmark not defined 2.1.1 Đối sánh ngữ nghĩa đối sánh cú pháp Error! Bookmark not defined 2.1.2 Thông tin đầu vào tiến trình đối sánh Error! Bookmark not defined 2.1.3 Thông tin đầu tiến trình đối sánh Error! Bookmark not defined 2.1.4 Các định nghĩa hình thức Error! Bookmark not defined 2.2 Mô hình hóa lược đồ XML Error! Bookmark not defined 2.2.1 Các nút đồ thị lược đồ Error! Bookmark not defined 2.2.2 Các cạnh đồ thị lược đồ Error! Bookmark not defined 2.2.3 Các ràng buộc đồ thị lược đồ Error! Bookmark not defined 2.2.4 Các định nghĩa hình thức Error! Bookmark not defined 2.3 Ánh xạ nguồn–đích Error! Bookmark not defined 2.4 Kết chương Error! Bookmark not defined Chương Đối sánh tự động lược đồ XML Error! Bookmark not defined 3.1 Tổng quan đối sánh tự động lược đồ XML Error! Bookmark not defined 3.2 Đo độ tương đồng ngôn ngữ Error! Bookmark not defined 3.2.1 WordNet quan hệ ngữ nghĩa từ Error! Bookmark not defined 3.2.2 Thuật toán Hirst St-Onge Error! Bookmark not defined 3.2.3 Giải pháp hệ thống Cupid Error! Bookmark not defined 3.3 Xét tính tương thích kiểu liệu lược đồ XML phân tích phân cấp kiểu người thiết kế Error! Bookmark not defined 3.3.1 Xét tính tương thích kiểu liệu lược đồ XML Error! Bookmark not defined 3.3.2 Phân tích phân cấp kiểu người thiết kế Error! Bookmark not defined 3.4 Đo độ tương đồng cấu trúc Error! Bookmark not defined 3.4.1 Định nghĩa ngữ cảnh nút Error! Bookmark not defined 3.4.2 Đo độ tương tự đường dẫn Error! Bookmark not defined 3.4.3 Đo độ tương đồng ngữ cảnh nút Error! Bookmark not defined 3.5 Đo độ tương đồng nút tạo ánh xạ phần tử Error! Bookmark not defined 3.5.1 Đo độ tương đồng nút Error! Bookmark not defined 3.5.2 Tạo ánh xạ nút cạnh đối sánh Error! Bookmark not defined 3.6 Đánh giá tiến trình đối sánh lược đồ XML Error! Bookmark not defined 3.6.1 Các phương pháp đánh giá Error! Bookmark not defined 3.6.2 Đánh giá giải pháp Error! Bookmark not defined 3.7 Áp dụng đối sánh lược đồ toán chuyển đổi tài liệu có cấu trúc Error! Bookmark not defined 3.7.1 Tổng quan tài liệu có cấu trúc Error! Bookmark not defined 3.7.2 Chuyển đổi tự động tài liệu có cấu trúc Error! Bookmark not defined 3.7.3 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML Error! Bookmark not defined 3.8 Kết chương Error! Bookmark not defined BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC ®èi s¸nh tù ®éng l−îc ®å XML NGÀNH: CÔNG NGHỆ THÔNG TIN MS: ……………………… VÕ SỸ NAM NGƯỜI HƯỚNG DẪN KHOA HỌC: TS HUỲNH QUYẾT THẮNG Kết luận hướng phát triển Error! Bookmark not defined Đóng góp luận văn Error! Bookmark not defined Hướng phát triển Error! Bookmark not defined Danh mục tài liệu tham khảo Error! Bookmark not defined Phụ lục Error! Bookmark not defined Phụ lục A: Ngôn ngữ đánh dấu mở rộng - XML Error! Bookmark not defined Phụ lục B: Lược đồ XML Error! Bookmark not defined Phụ lục C: Thuật toán Hirst St-Onge Error! Bookmark not defined HÀ NỘI - 2006 i Đối sánh tự động lược đồ XML ii Mục lục Lời cảm ơn Luận văn đánh dấu kết thúc hai năm cao học trường đại học Bách Khoa Hà Nội Trong quãng thời gian chưa dài ngắn đó, trưởng thành nhiều kiến thức khả nghiên cứu Tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo – TS Huỳnh Quyết Thắng, người hướng dẫn, giúp đỡ tận tình trình thực luận văn tốt nghiệp Thầy người cung cấp ý tưởng, tài liệu ban đầu đề tài, hướng dẫn quan trọng suốt trình thực luận văn, dành thời gian đọc sửa chữa báo cáo có góp ý quan trọng cho suốt trình hoàn thiện luận văn Tôi xin cám ơn thư viện trường EPFL, Thụy Sỹ cung cấp cho số tài liệu tham khảo bổ ích, xin cảm ơn nhóm sinh viên K48 khoa Công nghệ thông tin, trường đại học Bách Khoa Hà Nội tận tình làm việc góp nhiều công sức trình cài đặt thử nghiệm chương trình Tôi xin gửi lời cám ơn sâu sắc tới thầy giáo, cô giáo trường đại học Bách Khoa Hà Nội, khoa Công nghệ thông tin tận tình giảng dạy, trang bị kiến thức cho chúng tôi, xin gửi lời cám ơn môn Kỹ thuật hệ thống, khoa Công nghệ thông tin, trường đại học Xây dựng Hà Nội tạo điều kiện thời gian cho hoàn thành luận văn Tôi xin gửi lời cám ơn tới bạn tôi, người chia sẻ với nhiệt huyết niềm say mê học tập & nghiên cứu khoa học, chia sẻ với kiến thức phương pháp tìm hiểu vấn đề, cung cấp cho tài liệu thiết thực ý tưởng bổ sung cho luận văn, góp phần giúp thực luận văn cố gắng nỗ lực cao Cuối điều quan trọng nhất, cho gửi lời cảm ơn sâu sắc tới bố, mẹ, em trai người thân tôi, người giúp đỡ nhiều vật chất lẫn tinh thần suốt trình học tập công tác, động viên lúc khó khăn chia sẻ niềm vui với lúc thành công Một lần xin chân thành cám ơn tất cả./ Hà Nội, tháng 11 năm 2006 Võ Sỹ Nam Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Đối sánh tự động lược đồ XML Danh mục từ viết tắt, thuật ngữ iv Danh mục bảng biểu v Danh mục hình vẽ v Mở đầu 1 Giới thiệu chung Nội dung luận văn Chương Đối sánh lược đồ 1.1 Tổng quan đối sánh lược đồ 1.1.1 Các khái niệm đối sánh lược đồ 1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ 1.2 Các tiếp cận đối sánh lược đồ 14 1.2.1 Phân loại tiếp cận đối sánh lược đồ 14 1.2.2 Các tiếp cận đối sánh lược đồ 15 1.2.3 Các phương pháp đối sánh lược đồ 17 1.3 Các hệ thống đối sánh lược đồ XML 20 1.3.1 Cupid (trung tâm nghiên cứu Microsoft) 21 1.3.2 Similarity Flooding (đại học Stanford đại học Leipzig) .23 1.3.3 LSD (đại học Washington) 24 1.3.4 Clio (IBM Almaden đại học Toronto) 25 1.3.5 Một số hệ thống đối sánh lược đồ khác 26 1.4 Kết chương .28 Chương Các định nghĩa hình thức 29 2.1 Vấn đề đối sánh lược đồ XML 30 2.1.1 Đối sánh ngữ nghĩa đối sánh cú pháp 30 2.1.2 Thông tin đầu vào tiến trình đối sánh 32 2.1.3 Thông tin đầu tiến trình đối sánh 34 2.1.4 Các định nghĩa hình thức 35 2.2 Mô hình hóa lược đồ XML 36 2.2.1 Các nút đồ thị lược đồ 37 2.2.2 Các cạnh đồ thị lược đồ 37 2.2.3 Các ràng buộc đồ thị lược đồ .38 2.2.4 Các định nghĩa hình thức 40 2.3 Ánh xạ nguồn–đích 43 2.4 Kết chương .46 Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin iii iv Đối sánh tự động lược đồ XML Đối sánh tự động lược đồ XML Chương Đối sánh tự động lược đồ XML 47 3.1 Tổng quan đối sánh tự động lược đồ XML .48 3.2 Đo độ tương đồng ngôn ngữ 49 3.2.1 WordNet quan hệ ngữ nghĩa từ .49 3.2.2 Thuật toán Hirst St-Onge 50 3.2.3 Giải pháp hệ thống Cupid 52 3.3 Xét tính tương thích kiểu liệu lược đồ XML phân tích phân cấp kiểu người thiết kế 53 3.3.1 Xét tính tương thích kiểu liệu lược đồ XML 53 3.3.2 Phân tích phân cấp kiểu người thiết kế 55 3.4 Đo độ tương đồng cấu trúc 56 3.4.1 Định nghĩa ngữ cảnh nút 56 3.4.2 Đo độ tương tự đường dẫn 58 3.4.3 Đo độ tương đồng ngữ cảnh nút 63 3.5 Đo độ tương đồng nút tạo ánh xạ phần tử .66 3.5.1 Đo độ tương đồng nút 66 3.5.2 Tạo ánh xạ nút cạnh đối sánh 67 3.6 Đánh giá tiến trình đối sánh lược đồ XML 68 3.6.1 Các phương pháp đánh giá .68 3.6.2 Đánh giá giải pháp .70 3.7 Áp dụng đối sánh lược đồ toán chuyển đổi tài liệu có cấu trúc 72 3.7.1 Tổng quan tài liệu có cấu trúc .73 3.7.2 Chuyển đổi tự động tài liệu có cấu trúc 76 3.7.3 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML 78 3.8 Kết chương .80 Danh mục từ viết tắt, thuật ngữ Từ viết tắt/ thuật ngữ Giải nghĩa CSDL Cơ sở liệu TTNT Trí tuệ nhân tạo XML eXtended Markup Language DTD Document Type Definition XSD XML Schema Definition SGML Standard Generalized Markup Language LCS Longest Common Subsequence Kết luận hướng phát triển 81 Đóng góp luận văn 81 Hướng phát triển 84 Danh mục tài liệu tham khảo 86 Phụ lục 88 Phụ lục A: Ngôn ngữ đánh dấu mở rộng - XML 89 Phụ lục B: Lược đồ XML 97 Phụ lục C: Thuật toán Hirst St-Onge 100 Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Ghi v Đối sánh tự động lược đồ XML Mở đầu Danh mục bảng biểu Mở đầu Bảng Đặc điểm lược đồ thử nghiệm 70 Bảng Kết đo chất lượng đối sánh 71 Giới thiệu chung Một vấn đề quan trọng hệ thống xử lý thông tin trao đổi sử dụng lại liệu hệ thống có liệu không đồng Tính không đồng liệu tổ chức ứng dụng thường tạo liệu cho dựa yêu cầu riêng biệt Các yêu cầu hầu Danh mục hình vẽ hết thường đặc tả mô hình liệu trừu tượng, gọi lược đồ (chẳng hạn lược đồ quan hệ, lược đồ hướng đối tượng gần lược đồ XML) Trong năm gần đây, phát triển mạnh mẽ Hình Ví dụ đồ thị lược đồ 36 Hình Tiến trình tính toán độ tương đồng phần tử 49 Hình Ngữ cảnh phần tử lược đồ 57 Hình 3 So sánh đối sánh thực với đối sánh suy diễn 70 Hình Biểu đồ so sánh kết thực thi 72 Hình Mô hình cho hệ thống chuyển đổi tự động tài liệu XML 79 nguồn liệu Web với nhiều mô hình thông tin cú pháp mã hóa khác dẫn đến nhu cầu ngày cấp thiết việc phát triển phương pháp công cụ hỗ trợ cho việc trao đổi sử dụng lại liệu, có nhiều nghiên cứu quan tâm đến vấn đề Như ta biết, đối sánh lược đồ vấn đề trung tâm hầu hết nghiên cứu Bài toán đối sánh lược đồ định nghĩa cách phi hình thức sau: [6], [11] “Cho hai lược đồ S1 S2 mô hình liệu bất kỳ, có thêm thông tin phụ trợ ánh xạ khởi đầu, tìm ánh xạ phần tử lược đồ thỏa mãn yêu cầu người dùng” Nói cách khác, vấn đề tìm kiếm tương đồng phần tử S1 S2 (hay việc xác định thành phần tương đương hai lược đồ nguồn đích cho) cách khai thác thông tin tồn lược đồ, liệu nguồn thông tin phụ trợ Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Mở đầu Thực tế cho thấy, thách thức gặp phải tìm kiếm giải pháp cho Mở đầu Nội dung luận văn toán đối sánh lược đồ lớn Thứ nhất, trình cần đến phân tích Luận văn nghiên cứu vấn đề đối sánh tự động lược đồ XML Luận ngữ nghĩa lược đồ đó, hay nói cách khác ta cần suy diễn nhận văn bao gồm ba chương Chương mô tả tổng quan vấn đề đối sánh lược thức lược đồ người tạo Tuy vậy, lược đồ thường thiết đồ Chương đưa định nghĩa hình thức cho vấn đề đối sánh lược đồ kế người khác với nhận thức khác giới XML Chương mô tả giải pháp đối sánh tự động lược đồ XML Cũng thực cho mục đích khác Thứ hai, việc khai thác thông tin cho chương 3, xem xét vấn đề chuyển đổi tự động tài liệu XML Cuối toán đối sánh lược đồ gặp nhiều khó khăn ta phải khai thác lượng cùng, phần kết luận nêu lên đóng góp hướng phát triển lớn thông tin hỗn tạp không chắn, ví dụ tài liệu đặc tả lược đồ, Sau nội dung luận văn: nguồn liệu lược đồ… Từ phân tích trên, thấy việc Chương 1: Đối sánh lược đồ Chương bao gồm ba nội dung chính: đối sánh lược đồ tay thường tốn dễ gây lỗi Điều cho thấy - Trình bày khái niệm, định nghĩa vấn đề đối sánh lược đồ việc phát triển kỹ thuật nhằm tự động hóa cách tối đa tiến trình đối lĩnh vực ứng dụng đối sánh lược đồ tích hợp lược đồ, sánh lược đồ quan trọng tích hợp liệu, kho liệu, chuyển đổi (hay dịch, trao đổi) liệu, quản lý Hiện nay, XML (eXtended Markup Language - ngôn ngữ đánh dấu mở rộng) [24] trở thành chuẩn ngôn ngữ hiệu thích hợp cho việc biểu liệu ngang hàng, thương mại điện tử, đối sánh tích hợp ontology, Web ngữ nghĩa, xử lý truy vấn ngữ nghĩa, v.v diễn liệu Web Nhu cầu sử dụng XML chuẩn biểu diễn trao - Trình bày tiếp cận đối sánh lược đồ điển hình Phần đổi liệu ngày tăng cộng đồng Web tạo nên lượng liệu xem xét tiếp cận điển tiếp cận dựa học máy, dựa XML ngày lớn Gắn liền với gia tăng đó, lượng lớn lược đồ luật, dựa siêu liệu số tiếp cận khác Tiếp theo XML [25], [26], [27] phát triển với nhiều đặc tả khác nhau, dẫn xem xét phương pháp đối sánh điển đối sánh ngôn ngữ, đối đến lượng lớn liệu XML không đồng Thêm vào đó, lại sánh dựa ràng buộc, đối sánh cấu trúc số phương pháp khác có nhiều ngôn ngữ lược đồ khác đưa ra, dẫn đến không Chúng phân tích điểm mạnh hạn chế đồng mặt cú pháp ngôn ngữ lược đồ Với phát triển nhanh giải pháp này, từ lựa chọn giải pháp cho tiếp cận chóng tăng trưởng mạnh mẽ mặt quy mô ứng dụng Web, đặc - Mô tả số hệ thống đối sánh lược đồ phân tích đặc biệt phổ dụng Internet công nghệ XML, có nhiều nghiên điểm hệ thống Thông qua hệ thống này, đặc biệt cứu quan tâm đến vấn đề trao đổi sử dụng lại liệu XML Vấn đề đối hai hệ thống Cupid [11] Similarity Flooding [12], phân tích sánh lược đồ XML ngày trở nên quan trọng Nhằm góp phần tìm giới hạn thuật toán đối sánh lược đồ tại, từ lựa chọn hiểu giải vấn đề cách hiệu hơn, luận văn tổng hợp thuật toán đối sánh sử dụng tiếp cận lại đưa đóng góp thêm cho toán đối sánh lược đồ XML Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Mở đầu Chương 2: Các định nghĩa hình thức Chương bao gồm ba nội dung Mở đầu trung gian sử dụng tính thừa kế kiểu, nhóm thay kiểu trừu tượng để tìm kiếm ánh xạ phức hợp chính: - Trình bày định nghĩa hình thức cho vấn đề đối sánh lược đồ, tập + Đo độ tương đồng cấu trúc: khác với thuật toán đối sánh cấu trúc trung vào lược đồ XML Các giải pháp hành nhìn chung không quan tâm hành, nhấn mạnh vào khái niệm ngữ cảnh phần tử Ngữ nhiều đến việc đưa định nghĩa hình thức đầy đủ cho vấn đề Trong cảnh phần tử kết hợp ngữ cảnh tổ tiên, ngữ cảnh ngữ chương này, mô tả giả thiết cho vấn đề đối sánh cảnh Để so sánh ngữ cảnh này, so sánh đường lược đồ XML dẫn dựa ý tưởng trả lời truy vấn đường dẫn - Trình bày giải pháp mô hình hóa lược đồ XML dựa đồ thị gán nhãn - Đưa ánh xạ trực tiếp phức hợp phần tử lược có hướng với ràng buộc Các nút đồ thị biểu diễn phần tử đồ (với phép toán chuyển đổi điều kiện chuyển đổi tương ứng) từ độ thuộc tính lược đồ XML cạnh đồ thị biểu diễn quan tương đồng phần tử tính toán hệ khác phần tử - Mô tả đại số ánh xạ nguồn–đích áp dụng cho vấn đề chuyển đổi liệu - Đánh giá giải pháp đối sánh lược đồ XML đưa sử dụng phép đo chất lượng được định nghĩa [5] Đại số ánh xạ nguồn–đích mở rộng đại số quan hệ chuẩn Trong Cũng chương này, xem xét ứng dụng luận văn xem xét tập phép toán bao gồm hợp, chọn, điển hình đối sánh lược đồ, vấn đề chuyển đổi tài liệu có cấu trúc Đầu nhập, tách, nối, áp dụng đổi tên tiên mô tả tổng quan tài liệu có cấu trúc, trình Chương 3: Đối sánh tự động lược đồ XML bày vấn đề chuyển đổi tự động tài liệu có cấu trúc cuối đưa Chương mô tả giải pháp đối sánh tự động lược đồ XML, đánh giá mô hình cho hệ thống chuyển đổi tự động tài liệu XML Trong tương giải pháp mô tả ứng dụng điển hình cho đối sánh lược đồ, vấn đề lai có ý định áp dụng giải pháp đối sánh lược đồ nêu vào mô chuyển đổi tự động tài liệu XML Chương bao gồm nội dung hình sau: Kết luận hướng phát triển - Mô tả tiến trình tính toán độ tương đồng phần tử theo ba pha: + Đo độ tương đồng ngôn ngữ: sử dụng thuật toán Hirst St- Trong phần này, nêu lên đóng góp luận văn đưa số định hướng phát triển tương lai cho đề tài Onge để tính toán khoảng cách ngữ nghĩa dựa WordNet [7] Thuật toán thay đổi để đưa hệ số tương đồng quan hệ ngữ nghĩa (tương đương, rộng hơn, hẹp hơn, v.v ) + Xét tính tương thích kiểu liệu: dựa việc phân tích kiểu liệu lược đồ XML để suy hệ số tương thích kiểu liệu Với nút nguyên tố (tức nút lá) sử dụng phân cấp kiểu lược đồ XML [27], với nút Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Chương 1: Đối sánh lược đồ Chương 1: Đối sánh lược đồ 1.1 Tổng quan đối sánh lược đồ 1.1.1 Các khái niệm đối sánh lược đồ Chương Đối sánh lược đồ Đối sánh lược đồ trình thao tác lược đồ với đầu vào hai lược đồ không đồng có thêm thông tin phụ, trả tập ánh xạ cho biết liên quan ngữ nghĩa phần tử lược đồ [17] Trong thực tế, đối sánh lược đồ thường thực tay với hỗ trợ công cụ đồ họa Quá trình thường tốn thời gian dễ gây lỗi, Trong chương tổng hợp lại kết nghiên cứu điển có nhiều nghiên cứu tiến hành nhằm tự động hóa tiến trình đối sánh hình vấn đề đối sánh lược đồ Trước hết trình bày khái niệm lược đồ Tuy nhiên vấn đề khó phức tạp số lý cơ lĩnh vực ứng dụng điển hình đối sánh lược đồ Như sau: [21] ta thấy, lĩnh vực phong phú, cho thấy tầm quan trọng - Các phần tử lược đồ đối sánh sở ngữ nghĩa chúng toán đối sánh lược đồ Tiếp theo mô tả tiếp cận đối sánh Ngữ nghĩa thể từ số nguồn thông tin người thiết kế, phương pháp đối sánh thông dụng Dựa khảo tài liệu, lược đồ thể liệu Thực tế cho thấy người thiết kế khó để sát đối sánh lược đồ số nghiên cứu gần đây, tiến nhớ tất chi tiết lược đồ tài liệu có thường không xác, hành phân tích so sánh tiếp cận Như ta thấy, giải pháp đối không cập nhật truy cập Do tiến trình đối sánh lược đồ sánh thường kết hợp nhiều phương pháp khác để tăng tính hiệu cho thường dựa hoàn toàn dấu hiệu lược đồ thể liệu tiến trình đối sánh Trong chương mô tả số hệ thống đối sánh lược đồ điển hình thực hiện, đánh giá so sánh thuật toán sử - Các lược đồ phát triển cho ứng dụng khác thường không đồng nhất, tức liệu chúng mô tả tương đồng ngữ nghĩa cấu trúc cú pháp sử dụng lại khác đáng kể dụng hệ thống Từ đánh giá nêu hạn - Để giải xung đột ngữ nghĩa lược đồ, đối sánh lược đồ chế thuật toán này, đặc biệt vấn đề chuyển đổi thường dựa tên phần tử, kiểu liệu phần tử, định nghĩa cấu trúc, liệu Cuối cùng, sở phân tích trên, chứng tỏ ràng buộc toàn vẹn giá trị liệu Tuy vậy, dấu hiệu thường thuật toán đối sánh lược đồ cần phát triển hoàn thiện thêm không chắn không đầy đủ Ví dụ nhãn giống sử nhằm giải vấn đề tự động hóa tiến trình đối sánh lược đồ cách có dụng cho phần tử lược đồ có ý nghĩa hoàn toàn khác Ngược lại, hai hiệu phần tử với nhãn khác tham chiếu tới thực thể thực tế Kiểu liệu thường không xác (ví dụ sử dụng kiểu "string" Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Chương 1: Đối sánh lược đồ Chương 1: Đối sánh lược đồ thay "date") ràng buộc thường không đầy đủ Trong điều kiện sánh lược đồ cho phép thao tác lược đồ, dịch liệu trả lời truy này, vấn đề không việc phải xác định quan hệ vấn qua lược đồ không đồng Nhiều ứng dụng khác dựa đối tồn phần tử lược đồ mà phải chắn tiến trình đối sánh lược đồ xuất nghiên cứu rộng rãi lĩnh vực sánh không đưa ánh xạ không xác sở liệu (CSDL) trí tuệ nhân tạo (TTNT) [17], chẳng hạn tích - Ánh xạ đơn giản ánh xạ một-một, nối kết phần tử lược đồ hợp lược đồ, tích hợp liệu, kho liệu, chuyển đổi (hay dịch, trao đổi) nguồn trực tiếp tới phần tử lược đồ đích Tuy thực tế, phần liệu, quản lý liệu ngang hàng, thương mại điện tử, đối sánh tích hợp tử lược đồ tương ứng với nhiều phần tử lược đồ khác ontology, Web ngữ nghĩa, xử lý truy vấn ngữ nghĩa, v.v Sau cách áp dụng một vài phép toán (ví dụ phần tử đích “Name” xem xét tổng quan vấn đề lĩnh vực tương ứng với ghép nối hai phần tử nguồn “firstName” “lastName”) 1.1.2.1 Tích hợp lược đồ chí nhiều phần tử lược đồ tương ứng với nhiều Hầu hết nghiên cứu đối sánh lược đồ ban đầu nhằm giải phần tử lược đồ khác Loại ánh xạ gọi phức hợp hay vấn đề tích hợp lược đồ, vấn đề hợp lược đồ tự trị không đồng gián tiếp thường suy từ lược đồ thể mà thành lược đồ tổng thể, gọi lược đồ trung gian Vấn đề tích hợp thường đòi hỏi can thiệp người dùng Việc khám phá ánh xạ phức hợp lược đồ mối quan tâm hai thập kỷ qua lĩnh vực vấn đề khó phức tạp trình đối sánh không cần tìm CSDL [17] Do lược đồ tự trị phát triển độc lập, chúng thường kiếm ánh xạ mà phải nhận biết phép toán cần đến chẳng hạn biểu diễn không đồng ngôn ngữ cấu trúc khác Quá trình tích ghép nối hai phần tử, hợp phân chia giá trị liệu, v.v hợp đòi hỏi nhận dạng phụ thuộc liên lược đồ Đây trình - Hiển nhiên trình đối sánh lược đồ thực tự động đối sánh lược đồ Một chúng nhận dạng, phần tử đối sánh hoàn toàn, đòi hỏi phải có can thiệp người dùng Từ hợp lược đồ trung gian cố kết thấy điều quan trọng trình đối sánh không cần tự động 1.1.2.2 Tích hợp liệu đến mức mà phải nhận biết đầu vào người dùng cần thiết đầu vào phải khai thác cách hiệu 1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ Đối sánh lược đồ bước then chốt ứng dụng mà liệu chúng xử lý cấu trúc hóa mô hình (chẳng hạn lược đồ quan hệ, lược đồ hướng đối tượng, DTD, lược đồ XML, v.v ) ứng dụng mà lược đồ chúng khai thác không đồng Đối Các hệ thống tích hợp liệu có mục đích cung cấp cho người dùng giao diện truy vấn đồng cho nhiều nguồn liệu Hai thành phần tạo thành kiến trúc hệ thống tích hợp liệu: trình bao bọc trình môi giới Trình bao bọc bọc nguồn thông tin mô hình hóa nguồn thông tin sử dụng lược đồ nguồn Trình môi giới trì lược đồ tổng thể ánh xạ lược đồ tổng thể lược đồ nguồn Mỗi người dùng đưa truy vấn lược đồ tổng thể, trình môi giới sử dụng ánh xạ để công thức hóa lại truy vấn tổng thể thành tập truy Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 10 11 Chương 1: Đối sánh lược đồ Chương 1: Đối sánh lược đồ vấn mà thi hành lược đồ nguồn trình môi giới hỗ trợ cho khung nhìn tích hợp mà kết hợp tiếp cận kho liệu tập hợp trả lời trả lại từ nguồn kết hợp chúng thành trả kho ảo đề xuất [17] lời cho truy vấn [21] 1.1.2.4 Chuyển đổi liệu Như vấn đề then chốt việc xây dựng hệ thống tích hợp Trong vài năm gần đây, phát triển nhanh chóng thông tin trực liệu việc cung cấp xác ánh xạ lược đồ tổng thể nguồn tuyến nguồn không đồng phân biệt lưu trữ định dạng Hiện nay, có hai giải pháp cho việc cung cấp ánh xạ này: khung khác dẫn đến ứng dụng khác đòi hỏi việc đối sánh lược đồ: trao nhìn tổng thể khung nhìn cục Trong tiếp cận đầu, lược đồ trung gian đổi liệu Trao đổi liệu mà thường gọi dịch hay chuyển đổi định nghĩa dạng lược đồ nguồn Còn tiếp cận liệu vấn đề dịch nội dung nguồn liệu thành thể lược đồ sau, mô tả nguồn cho theo hướng ngược lại Thuận lợi đích mà phản ánh liệu nguồn xác đến mức tiếp cận đầu việc công thức hóa lại truy vấn đơn giản Tuy vậy, việc thêm nguồn vào lược đồ trung gian lại việc tầm thường Ngược lại, tiếp cận sau, việc công thức hóa lại truy vấn khó việc thêm vào nguồn đơn giản Từ số nghiên cứu đề xuất giải pháp kết hợp hai tiếp cận để tích hợp nguồn liệu không đồng [20] 1.1.2.3 Kho liệu Tuy vấn đề trao đổi liệu có số điểm tương đồng với vấn đề tích hợp liệu, có số khác biệt quan trọng hai vấn đề Trong kịch chuyển đổi liệu, lược đồ đích nhìn chung tạo độc lập có ràng buộc thân Còn tích hợp liệu lược đồ tổng thể lược đồ ảo có tính hòa hợp, ràng buộc định nghĩa trước Một khác biệt quan trọng trao đổi liệu ta phải tạo thể đích mà phản ánh tốt thể nguồn cho Trong tích hợp Một biến thể vấn đề tích hợp liệu tập hợp nguồn liệu liệu trao đổi liệu yêu cầu Việc tự động hóa tích hợp vào kho tập trung, gọi kho liệu Quá trình đòi hỏi phải trình dịch liệu đòi hỏi sử dụng đối sánh lược đồ để phát tương chuyển đổi liệu từ định dạng nguồn thành định dạng kho liệu, có đồng lược đồ nguồn đích, bước then chốt để đưa thể sử dụng đối sánh lược đồ để thực chuyển đổi Với nguồn chương trình dịch thích hợp [17] liệu cho, phương pháp thích hợp để tạo chuyển đổi tìm kiếm 1.1.2.5 Thương mại điện tử phần tử nguồn mà có mặt kho liệu Thuận lợi kho liệu hiệu cao trả lời truy vấn (bởi truy vấn áp dụng trực tiếp tới liệu kho) Tuy vậy, đòi hỏi kho phải cập nhật liệu thay đổi, điều không thích hợp điều quản số lượng lớn nguồn nguồn thường xuyên thay đổi Hiện khung làm việc Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Với phổ biến Internet nay, công ty kinh doanh ngày phải quản lý nhiều giao dịch trực tuyến trao đổi thông tin, đặt hàng, xác nhận toán Các giao dịch trình trao đổi tài liệu hay thông điệp công ty Tuy công ty thường phát triển ứng dụng với định dạng thông điệp khác EDI (Electronic Data Exchange), Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 76 77 Chương 3: Đối sánh tự động lược đồ XML bắt đầu thực chuyển đổi Các tác giả [10] cho tài liệu Chương 3: Đối sánh tự động lược đồ XML động hóa việc dịch liệu Nó đưa khung làm việc cho việc ánh phân tích làm thuận tiện cho việc chuyển đổi cho thấy xạ lược đồ XML lược đồ quan hệ lược đồ dịch nhiều chi tiết thân tài liệu thành truy vấn có ý nghĩa cho phép chuyển đổi liệu nguồn thành biểu 3.7.2 Chuyển đổi tự động tài liệu có cấu trúc diễn đích Hệ thống Clio yêu đòi hỏi nhiều can thiệp người dùng 3.7.2.1 Vấn đề chuyển đổi tự động tài liệu có cấu trúc Hiện tại, để thực chuyển đổi tài liệu có cấu trúc, khó khăn phân tích cấu trúc ngữ nghĩa tài liệu nguồn đích, thứ hai viết mã tay chuyển đổi Nhiều giải pháp đưa nhằm đơn giản hóa tự động hóa chuyển đổi tài liệu có cấu trúc Các giải pháp chia thành hai hướng sau: đặc tả chuyển đổi khai báo đối sánh lược đồ [13], [16], [23] * Các ngôn ngữ đặc tả chuyển đổi khai báo không khai thác tất tính cấu trúc XML Gần nhiều nghiên cứu cụ thể quan tâm đến việc tự động hóa chuyển đổi tài liệu XML đề xuất Ví dụ nghiên cứu [9], tác giả đề xuất tiếp cận trực tiếp cú pháp để tự động hóa chuyển đổi hai văn phạm sở chuyển đổi trạng thái hữu hạn Ý tưởng nghiên cứu tạo chuyển đổi bán tự động người dùng định nghĩa đối sánh phần tử chứa văn tài liệu (tức lá) Tiếp cận gặp phải vài giới hạn: làm việc hai văn phạm có phần chung, điều hạn chế chuyển đổi Nhằm khắc phục phức tạp ngôn ngữ chuyển đổi cấu trúc phạm vi chuyển đổi cục Do không bao phủ hết ví dụ tại, người ta đưa số ngôn ngữ đặc tả chuyển đổi khai báo bậc cao thực tế Hơn nữa, tiếp cận khả giải tất không đơn giản Các ngôn ngữ cố gắng giữ cân quản lý đồng mà xảy tài liệu có cấu trúc: tác giả hạn chế độ phức tạp tính ý nghĩa Nhìn chung ngôn ngữ mở rộng chuyển đổi việc kiểu phần tử cấu trúc tài liệu SDT văn phạm TT để khắc phục giới hạn chúng nguồn chuyển đổi thành kiểu phần tử tài liệu đích Ví việc biểu diễn thay đổi phân cấp Một số công cụ đồ họa đặc biệt dụ, danh sách nút lặp lại tài liệu nguồn chuyển đề xuất để giúp mô tả chuyển đổi [16] Các tác giả [23] cho ta đổi thành danh sách chứa số phần tử lặp lại nhìn tổng quan ngôn ngữ công cụ chuyển đổi 3.7.2.2 Tạo chương trình XSLT Các ngôn ngữ công cụ có ích việc mô tả đặc tả chuyển đổi Tuy vậy, chúng yêu cầu người phát triển tay ánh xạ cho cặp nguồn đích Như ta biết, chương trình XSLT thường dựa biểu thức XPath để điều hướng nguồn Hai kỹ thuật thường sử dụng kéo (pull) đẩy (push) [28] Đẩy có nghĩa phát đầu số điều kiện * Đối sánh lược đồ thỏa mãn nút nguồn Kỹ thuật kéo thường nói đến trình Một số hệ thống phát triển sử dụng đối sánh lược đồ để tự động duyệt qua mẫu đầu lấy liệu từ nguồn đầu vào Một ví dụ hóa việc dịch liệu Chẳng hạn hệ thống Clio [13] đề xuất để tự kỹ thuật đẩy sử dụng “match” “apply-templates” để tạo đầu Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 78 79 Chương 3: Đối sánh tự động lược đồ XML cách xử lý tất nút đối sánh Một ví dụ kỹ thuật kéo sử dụng “select” để truy vấn thể nguồn trích chọn giá trị nút nguồn chọn Về ta tạo chương trình XSLT dựa hai kỹ thuật Chương 3: Đối sánh tự động lược đồ XML * Môđun đối sánh Để thực trình đối sánh ta phải xây dựng tiếp môđun đối sánh, bao gồm chức sau: truy vấn WordNet, giao diện đồ họa cho phép người dùng xác nhận (hoặc thay đổi) ánh xạ tạo hệ 3.7.3 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML Nhìn vào trình đối sánh tạo XSLT, thấy hệ thống mà ta thống Ngoài môđun phải có khả tương tác với môđun lưu trữ ánh xạ, cho phép lưu trữ ánh xạ tạo đồng hóa chúng với phải thực thi bao gồm ba môđun: môđun thao tác với lược đồ, môđun đối thay đổi lược đồ nguồn đích Việc lưu giữ ánh xạ cho sánh môđun tạo XSLT Ngoài phải có môđun hỗ trợ cho toàn phép sử dụng lại chúng, tránh phải thực lại trình đối sánh trình Hình 3.7 minh họa mô hình hệ thống lược đồ thay đổi * Môđun thao tác với lược đồ * Môđun tạo XSLT Môđun bao gồm hai chức bản: tạo đồ thị lược đồ duyệt Môđun cuối hệ thống tạo XSLT, chịu trách nhiệm phân đồ thị lược đồ Để khắc phục giới hạn DTD việc mô hình hóa tích kết ánh xạ tạo tự động kịch chuyển đổi XSLT Nó liệu XML, nhiều ngôn ngữ lược đồ đưa để mô tả cấu trúc lôgic cho phép dịch thể liệu (các tập tin XML) hợp lệ lược đồ tài liệu XML, dẫn đến không đồng cú pháp ngôn ngữ nguồn thành thể hợp lệ lược đồ đích lược đồ Khái niệm đồ thị lược đồ cho phép chuẩn hóa lược đồ thành biểu diễn đồng bộ, loại trừ khác biệt mặt cú pháp Có thể sử dụng phân tích XML Crimson (hay Xerces) để tạo đồ thị lược đồ Sau ta xây dựng công cụ đồ họa để hiển thị đồ thị Môđun tạo XSLT Môđun đối sánh Bộ thực thi chuyển đổi Cấu trúc hóa ánh xạ Bộ tạo kịch XSLT Phát ánh xạ lược đồ Việc biểu diễn đồ họa có ba thuận lợi Đầu tiên, giúp người dùng xem xét đặc tả lược đồ nguồn đích cách trực quan dễ hiểu Thứ hai, dựa biểu diễn đồ họa người dùng thêm siêu-thông tin giúp cho trình đối sánh Cuối cùng, việc biểu diễn đồ họa Môđun Bộ duyệt đồ thị lược đồ Bộ tạo đồ thị lược đồ Môđun thao tác với lược đồ sử dụng pha xác nhận đối sánh, đặc biệt cần người dùng can thiệp để thay đổi lược đồ đích (nới lỏng số ràng buộc để liệu sử dụng lại) Các thay đổi lược đồ thực cách trực quan Lưu trữ ánh xạ Giao diện người dùng mà không cần quan tâm đến cú pháp ngôn ngữ lược đồ XML Các môđun hỗ trợ Hình Mô hình cho hệ thống chuyển đổi tự động tài liệu XML Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 80 Chương 3: Đối sánh tự động lược đồ XML 81 Kết luận hướng phát triển 3.8 Kết chương Trong chương kết hợp nhiều phương pháp khác lĩnh vực đối sánh lược đồ nhằm đưa kết ánh xạ xác đến mức Các phương pháp bao gồm đối sánh ngôn ngữ, xét tính Kết luận hướng phát triển tương thích kiểu liệu, phân tích phân cấp kiểu người thiết kế đối sánh cấu trúc Ngoài mô tả tiến trình phát ánh xạ phức hợp phép toán chuyển đổi Các phép toán chủ yếu phát cách sử dụng phân cấp kiểu người thiết kế đối sánh cấu trúc Trong luận văn này, để đối sánh cấu trúc dựa khái niệm ngữ cảnh nút Có ba loại ngữ cảnh cho nút cho: ngữ cảnh tổ tiên, ngữ cảnh ngữ cảnh Từ kết đánh giá chất lượng đối sánh thấy Đóng góp luận văn Trong luận văn xem xét cách toàn diện vấn đề đối sánh lược đồ, tập trung vào vấn đề đối sánh tự động lược đồ XML Đối sánh lược đồ vấn đề thu hút nhiều ý có nhiều kết hợp ngữ cảnh cải thiện hiệu cho pha đối sánh nghiên cứu khác quan tâm đến vấn đề tự động hóa tiến trình đối sánh cấu trúc Trong thời gian tới xem xét kỹ vấn đề kết hợp kết lược đồ, đặc biệt lược đồ XML Mặc dù nghiên cứu đề cập đến đối sánh tự động với phản hồi người dùng kiểm thử giải pháp với nhiều khía cạnh vấn đề đối sánh tự động, nhiều vấn đề cần CSDL lược đồ lớn Ngoài thử nghiệm việc thay đổi giải thấu đáo hơn, chí số vấn đề chưa đề tham số sử dụng để xem xét ảnh hưởng chúng kết ánh cập đến Trong luận văn này, việc trình bày khái niệm xạ, từ chọn tham số tốt vấn đề đối sánh lược đồ, cố gắng tổng hợp lại kết nghiên Cũng chương áp dụng đối sánh lược đồ vào lĩnh vực ứng dụng điển hình, vấn đề chuyển đổi tài liệu có cấu trúc Chúng mô tả khái niệm tài liệu có cấu trúc nghiên cứu điển hình vấn đề Dựa giải thuật đưa cứu đối sánh lược đồ, đặc biệt lược đồ XML Tiếp theo đưa giải pháp đối sánh toàn diện hiệu Cuối đưa mô hình cho hệ thống chuyển đổi tự động tài liệu XML hy vọng áp dụng giải pháp đưa cho mô hình gần đây, tổng hợp mô hình cho hệ thống chuyển đổi tự động Đóng góp luận văn, trình bày chương 1, tài liệu XML Chúng hy vọng cách áp dụng giải pháp đối sánh khảo sát tương đối toàn diện vấn đề đối sánh lược đồ Chúng dựa lược đồ nêu vào mô hình này, vấn đề chuyển đổi tự động tài liệu XML khảo sát Rahm Berntein, Zamboulis, Đoàn An Hải, Đỗ Hồng Hải, giải triệt để Việc thực thi mô hình Shvaiko Euzenat, Madhavan, Budanisky, v.v số nghiên cứu hướng phát triển đề tài gần lĩnh vực Dựa khảo sát, mô tả cách đầy đủ kết nghiên cứu vấn đề đối sánh tự động lược đồ XML Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 82 Kết luận hướng phát triển 83 Kết luận hướng phát triển Một đóng góp luận văn, trình bày chương 2, xem xét giới hạn giải pháp hành qua việc nghiên cứu việc tổng hợp lại định nghĩa hình thức vấn đề đối sánh lược đồ hệ thống Cupid, SF XClust, sau đưa phương pháp đối sánh cấu sử dụng số nghiên cứu lĩnh vực khác nhằm đưa định trúc mà xét đến đầy đủ ngữ cảnh nút đồ thị lược đồ Ở nghĩa hình thức cho vấn đề đối sánh tự động lược đồ XML cách đầy đủ biểu diễn ngữ cảnh nút đường dẫn sau dựa Đặc biệt trình bày định nghĩa hình thức cho đồ thị phép đo độ tương tự đường dẫn để so sánh ngữ cảnh Trong luận lược đồ, mô hình hiệu để biểu diễn lược đồ XML Đồ thị lược đồ văn nới lỏng khái niệm đối sánh mạnh thường sử dụng mô hình sử dụng nhiều hệ thống đối sánh lược đồ việc giải vấn đề trả lời truy vấn sử dụng ý tưởng Carmel Các định nghĩa hình thức cho phép xem xét vấn đề đối sánh lược đồ việc so sánh đường dẫn để áp dụng cho vấn đề đối sánh lược đồ cách có hệ thống góp phần quan trọng vào việc đánh giá giải pháp đối sánh lược đồ đề xuất Một đóng góp quan trọng luận văn, trình bày chương 3, việc đưa giải pháp đối sánh tự động lược đồ XML Như trình bày suốt chương 3, giải pháp dựa việc kết hợp số nghiên cứu - Đưa thuật toán kết hợp tất phép đo tương đồng đưa kết ánh xạ, phép toán chuyển đổi điều kiện cho việc thực ánh xạ Để tạo kết ánh xạ này, sử dụng ý tưởng chiến lược phân tích trên-xuống lĩnh vực tích hợp liệu - Khía cạnh cuối việc đánh giá thực nghiệm cho giải pháp Chúng riêng lẻ đối sánh lược đồ số ý tưởng lĩnh vực sử dụng tập liệu từ ứng dụng thực tế để đánh giá giải pháp đối khác (tích hợp liệu, tìm kiếm so sánh văn bản, xử lý truy vấn…) Giải sánh lược đồ đưa Ngoài so sánh giải pháp với pháp bao gồm khía cạnh sau: hệ thống Cupid SF thực tốt thuật toán - Đo độ tương đồng thuật ngữ nút lược đồ dựa tên Đóng góp cuối luận văn, trình bày phần cuối chúng Phép đo sử dụng WordNet làm nguồn từ vựng sử dụng thuật chương 3, khảo sát vấn đề chuyển đổi tài liệu có cấu trúc mô toán Hirst St-Onge để đưa quan hệ ngữ nghĩa thích hợp cho vấn hình cho hệ thống chuyển đổi tự động tài liệu XML mà có khả áp dụng đề đối sánh lược đồ giải pháp đối sánh tự động lược đồ XML nói Trong phần - Đo độ tương đồng ràng buộc nút lược đồ dựa ràng trình bày khái niệm tài liệu có cấu trúc, vấn đề sử buộc tương ứng chúng Ở giới hạn việc sử dụng kiểu dụng lại cấu trúc khái niệm gắn liền với sử dụng lại cấu trúc: liệu Để so sánh kiểu liệu, sử dụng phân cấp kiểu lược chuyển đổi tài liệu có cấu trúc Tiếp theo trình bày vấn đề đồ XML tương thích hai kiểu phụ thuộc vào vị trí tương ứng chuyển đổi tự động tài liệu có cấu trúc, bao gồm nghiên cứu chúng phân cấp lĩnh vực vấn đề tạo chương trình XSLT Dựa nghiên - Đo độ tương đồng cấu trúc nút lược đồ dựa trên tương đồng ngữ cảnh cấu trúc mà chúng xuất Trong luận văn chúng Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin cứu gần lĩnh vực này, tổng hợp mô hình cho phép giải hiệu vấn đề chuyển đổi tự động tài liệu XML Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 84 85 Kết luận hướng phát triển Hướng phát triển Kết luận hướng phát triển * Tương tác người dùng hiệu Cho đến đây, ta hoàn thành mục tiêu đặt ban đầu, tổng kết lại Một vấn đề quan trọng đối sánh lược đồ tương nghiên cứu công bố đưa giải pháp tối ưu cho vấn đề đối sánh tác người dùng hiệu Đầu vào người dùng cần phải đưa vào lược đồ Tuy nhiên thấy, vấn đề chưa giải triệt để thời điểm then chốt mà có ích nhất, không thiết phải trước Ta mở rộng kết để thu giải pháp đối sánh và/hay sau đối sánh, điều làm cho việc hiệu chỉnh sau đối sánh dễ toàn diện Sau số hướng phát triển cho đề tài này: dàng đoán sai lệch mà xác nhận người * Đối sánh ngôn ngữ đối sánh dựa ràng buộc Về bản, giải pháp quan tâm nhiều đến đối sánh cấu trúc Vấn đề lại đối sánh ngôn ngữ đối sánh dựa ràng buộc Trong đối sánh ngôn ngữ, sử dụng giải thuật Hirst St-Onge nhằm so sánh tên phần tử giải pháp hệ thống Cupid nhằm giải vấn đề tên phần tử có tồn từ viết tắt, từ rút gọn, dùng không xét đến Hơn nữa, phát triển mạnh mẽ hệ thống chia sẻ liệu Web làm tăng vấn đề tương tác người dùng Trong thực tế, tồn giải pháp đối sánh gần hoàn hảo, người dùng phải xác nhận tính hợp lệ số lượng lớn kết đối sánh đưa Vấn đề làm để giảm thiểu tương tác người dùng tối đa hóa ảnh hưởng phản hồi người dùng * Duy trì ánh xạ dấu chấm câu, v.v Tuy vậy, để khai thác quan hệ từ đồng nghĩa Trong môi trường động Web, nguồn liệu thay đổi tổng quát nghĩa ta cần phải sử dụng từ điển chuyên đề từ không liệu mà lược đồ ngữ nghĩa Các thay đổi điển WordNet Thêm vào đó, đối sánh thuật ngữ phải sử dụng phải phản ánh lại ánh xạ Các ánh xạ gây không quán từ điển chuyên đề bao gồm tên chung, từ đồng nghĩa, từ viết tắt, v.v Có thể thay đổi lược đồ phải phát hiệu chỉnh Có thể thấy dựa vào nghiên cứu từ điển chuyên đề để thực công việc việc trì tay ánh xạ không khả thi Điều đòi hỏi phải phát Ngoài sử dụng kết hợp phương pháp đối sánh xâu thích triển kỹ thuật thích ứng tự động ánh xạ lược đồ thay đổi hợp để bổ sung cho kết đối sánh ngôn ngữ Trong đối sánh dựa ràng buộc, giới hạn việc phân tích tương thích kiểu liệu Tuy vậy, ta thêm vào tập ứng viên đối sánh số ràng buộc đơn hay toàn vẹn cách sử dụng kỹ thuật mô tả [13] Hơn nữa, phân tích ràng buộc kiểu liệu bị giới hạn số khía cạnh, chẳng hạn không xét đối sánh mẫu Để mở rộng vấn đề này, ta sử dụng * Đánh giá hiệu Để đánh giá giải pháp đối sánh lược đồ đưa cách xác hơn, ta cần sử dụng tập rộng ứng dụng liệu Bên cạnh đó, [6] mô tả, việc định lượng giảm bớt can thiệp người dùng giải pháp đối sánh quan trọng, ta cần phép đo đánh giá vấn đề Cuối cùng, ta cần áp dụng nhiều nghiên cứu thực nghiệm để ảnh hưởng trọng số chọn lên tiến trình đối sánh nghiên cứu biểu thức quy đối sánh mẫu Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 86 Danh mục tài liệu tham khảo Danh mục tài liệu tham khảo [1] S Amer-Yahia, S Cho, D Srivastava Tree Pattern Relaxation, EDBT, 2002 [2] A Budanitsky, G Hirst Semantic distance in WordNet: An experimental, application oriented evaluation of five measures, 2003 [3] D Carmel, N Efraty, G.M Landau, Y.S Maarek, Y Mass An Extension of the vector space model for querying XML documents via XML fragments Second Edition of the XML and IR Workshop, In SIGIR Forum, Volume 36 Number 2, Fall 2002 [4] G Cobena, S Abiteboul, A Marian Detecting changes in XML Documents In ICDE, 2002 [5] H.H Do, S Melnik, E Rahm Comparison of schema matching evaluations In Proceedings of the second International Workshop on Web Databases, 2002 [6] A.H Doan Learning to map between structured representations of data PhD thesis, University of Washington, 2002 [7] Lexical chains as representations of context for the detection and correction of malapropisms In: Christiane Fellbaum (editor), WordNet: An electronic lexical database, Cambridge, MA: The MIT Press, 1998 [8] ISO, Information Processing- Text and Office systems- Standard Generalization Markup Language (SGML), (ISO 8879:1986), International Organisation for Standardisation, Geneva, 1986 [9] P Leinonen Automating XML Document Structure Transformations In Proceedings of the ACM Symposium on Document Engineering, France, 2003 [10] G Linden Structured document transformations Report A-1997-2 CS Department of University of Helsinki, Finland, 1997 [11] J Madhavan, P.A Bernstein, E Rahm Generic schema matching with Cupid In Proceedings of the International Conference on Very Large Databases (VLDB), 2001 [12] S Melnik, H Garcia-Molina, E Rahm Similarity Flooding: A versatile Graph Matching Algorithm and its Application to Schema Matching In Proceedings of the 18th International Conference on Data Engineering, 2002 Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 87 Danh mục tài liệu tham khảo [13] R Miller The Clio Project: managing heterogeneity ACM SIGMOD Record 30(1): 78-83, 2001 [14] A G Miller (1995) WordNet: A lexical Database for English ACM 38 (11), pages 39-41, 1995 [15] Mong Li Lee, Liang Huai Yang, Wynne Hsu, Xia Yang XClust: Clustering XML Schemas for Effective Integration, in 11th ACM International Conference on Information and Knowledge Management, McLean, Virginia, November 2002 [16] E Pietriga, J-Y Vion-Dury, V Quint Vxt: a visual approach to XML transformations In Proceedings of the ACM Symposium on Document Engineering, 2001 [17] E Rahm, P.A Bernstein A survey of approaches to automatic schema matching In VLDB Journal, pages 10: 334-350, 2001 [18] N Routledge, L Bird, A Goodchild UML and XML Schema, ADC, 2002 [19] D Shasha, J Wang, K Zhang, F Shih Fast algorithms for the unit cost editing distance between trees In Journal of Algorithms, pages 581-621, 1990 [20] L Xu Source Discovery and Schema Mapping for Data Integration, PhD thesis, 2003 [21] L Zamboulis XML Schema Matching & XML Data Migration & Integration: A Step Towards The Semantic Web Vision Technical Report, 2003 [22] A Boukottaya, C Vanoirbeek Schema Matching for Transforming Structured Documents In DocEng'05, 2-4, 2005 [23] A Vernet XML transformation languages Có thể xem tại: http://www.scdi.org/~avernet/misc/xml-transformation [24] XML Schema, W3C Recommendation, 2004 Có thể xem tại: http://www.w3.org/TR/REC-xml/ [25] XML Schema Part 0: Primer, W3C Recommendation, 2004 Có thể xem tại: http://www.w3.org/TR/xmlschema-0/ [26] XML Schema Part 1: Structures, W3C Recommendation, 2004 Có thể xem tại: http://www.w3.org/TR/xmlschema-1/ [27] XML Schema Part 2: Datatypes, W3C Recommendation 2004 Có thể xem tại: http://www.w3.org/TR/xmlschema-2/ [28] XSL Transformations (XSLT), W3C Recommendation, 2004 Có thể xem tại: http://www.w3.org/TR/xslt/ Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 88 89 Phụ lục Phụ lục Phụ lục A: Ngôn ngữ đánh dấu mở rộng - XML Tổng quan XML XML (Extensible Markup Language - ngôn ngữ định dạng mở rộng) [23], chuẩn đặc tả liệu sử dụng rộng rãi Có thể thấy XML có quan hệ gần gũi với HTML - ngôn ngữ định dạng dùng rộng rãi trang Web nay: hai dựa chuẩn ngôn ngữ định dạng tổng quát SGML (Standard Generalized Markup Language) Điểm khác biệt lớn thẻ HTML định nghĩa trước, Phụ lục thẻ XML người sử dụng định nghĩa tùy theo mục đích sử dụng mà có nhiều loại định dạng khác phát sinh từ cách thức chuẩn XML Sau ta xét số đặc trưng XML: - Dễ dàng trao đổi liệu: XML lưu dạng text dễ dàng cấu thay đổi chúng trình soạn thảo thông thường XML chuẩn hóa, người hiểu sử dụng Điều giải khó khăn việc chuyển đổi qua lại nhiều định dạng liệu - Tùy biến ngôn ngữ định dạng: tạo ngôn ngữ định dạng tùy biến dựa XML Không vậy, mở rộng chúng, ghi thích tài liệu Đây khả mạnh XML - Dữ liệu có cấu trúc tích hợp: XML không cho phép lưu liệu vào file XML dựa thẻ mà tổ chức liệu theo cấu trúc, theo phần tử thẻ tích hợp với tạo nên cấu trúc liệu phân cấp hoàn chỉnh Điều cho phép ta định nghĩa liệu có cấu trúc cách thuận lợi Nhìn chung XML hoàn toàn thích hợp cho việc liên lạc môđun, thành phần chương trình ứng dụng dù nhỏ hay lớn 1.1 Khuôn dạng tài liệu XML Các phần tài liệu XML gọi thực thể, chứa liệu văn nhị phân không hai Một thực thể tham chiếu đến thực thể khác, dùng để phân tích làm liệu thông thường (không dùng cho mục đích phân tích) Tài liệu XML bắt đầu thị Nếu toàn tài liệu thực thể không tham chiếu đến thực thể khác thêm thị standalone = “yes” Sau thẻ chứa liệu theo cấu trúc phân cấp Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin 90 91 Phụ lục Phụ lục - Định dạng liệu kí tự: tài liệu XML tạo thành từ thành phần định dạng thuộc tính text, ta gán cho số phải đặt dấu nháy kép Nếu thành phần liệu kí tự, liệu nhị phân chưa có quy định cách đưa vào mà chuỗi chứa ký tự định dạng, ta dùng thực thể thay (“'”~”‘”, “"”~”“”) tham chiếu đến cách biểu diễn thực thể Để mô tả ngôn ngữ liệu, ta dùng thuộc tính xml:lang, ví dụ: Định dạng bao gồm thẻ bắt đầu, thẻ kết thúc, phần tử thẻ rỗng, tham chiếu thực thể, tham chiếu ký tự, lời thích, phân đoạn CDATA, khai báo kiểu tài liệu thị xử lý Tất liệu lại tài liệu định dạng xem liệu ký tự Hello Hi Một số vấn đề khác quan trọng không khuôn khổ phần phụ lục ta không nêu khuôn dạng cấu trúc tài liệu XML, phân đoạn CDATA, - Phần khởi đầu (prolog): bắt đầu từ dòng đầu tài liệu, nhìn chung không gian tên XML, Infoset v.v tham khảo [23] bao gồm khai báo, thích, thị xử lý, khoảng trắng khai báo kiểu tư liệu 1.2 Định nghĩa kiểu tư liệu (DTD) tính hợp lệ tài liệu XML (DTD) Chuẩn XML không yêu cầu khai báo prolog, ta nên dùng nó, nên có dòng khai báo phiên sử dụng Định nghĩa kiểu tư liệu - DTD (Document Type Definition) quy định cách thức lưu giữ liệu tài liệu XML Khai báo thường đặt phần khởi đầu tài liệu - Các khai báo: khai báo XML sử dụng phần tử Có kiểu khai báo thuộc Có thể định nghĩa lồng phần tử DTD Có thể định nghĩa DTD với nội dung tính: khai báo phiên cho biết phiên đặc tả XML, khai báo mã hóa cho biết mã hỗn hợp, ví dụ: , định sử dụng (mặc định UTF-8, sử dụng mã Unicode, UCS-2, UCS-4…), khai nghĩa cho phần tử rỗng, ví dụ: Ta báo thực thể độc lập “yes” tài liệu không tham chiếu đến thực thể khác bên nên thích cho phần tử định nghĩa DTD (giống thích XML) ngoài, không “no” - Chú thích: bắt đầu Chú thích không đặt trước khai báo, dùng chuỗi đoạn thích Chú thích dùng để loại bỏ đoạn mã (trong nội dung thích không chứa thích khác) - Chỉ thị xử lý: bắt đầu , nhằm dẫn cho phân tích cách xử lý tài liệu XML Ví dụ: - Thẻ phần tử (element): thẻ mở có dạng “< … >”, thẻ đóng có dạng “ Thẻ bắt đầu phải có thẻ kết thúc tương ứng Tên thẻ có quy định chặt chẽ: bắt đầu kí tự, gạch chân (_), dấu hai chấm (:), kí tự, kí số, gạch chân, gạch nối, dấu chấm, dấu hai chấm (nên tránh dùng) không khoảng trắng Thẻ phân biệt chữ hoa chữ thường Phần tử có thẻ, tức phần tử rỗng không kèm theo liệu Ví dụ: Phần tử gốc phần tử chứa tất phần tử cặp thẻ khác tài liệu - Định nghĩa DTD ngoại: sử dụng từ khóa SYSTEM thị khai báo - Tham chiếu DTD dùng chung: sử dụng từ khóa PUBLIC thay cho SYSTEM Thực tế ta dùng chung hai loại tham chiếu nội ngoại tài liệu XML vào thời điểm Một số vấn đề quan trọng khác không gian tên định nghĩa DTD tham khảo [23] 1.3 Thực thể thuộc tính DTD tài liệu XML - Có hai loại thực thể: thực thể tổng quát - dạng & … ; thực thể tham số - dạng % … ; Thực thể nội ngoại, dạng phân tích không phân tích - Thuộc tính: sử dụng thị khai báo để định nghĩa danh sách thuộc tính kết hợp với phần tử thẻ DTD - Tạo thực thể tổng quát nội: tạo định nghĩa tham chiếu cho thực thể lồng nhau, không theo kiểu tham chiếu vòng - Thuộc tính: tương tự thuộc tính thẻ HTML, có dạng name=value Ví dụ: - Tạo thực thể tổng quát ngoại: tương tự DTD, sử dụng SYSTEM Nhìn chung có nhiều thuộc tính PUBLIC cho khai báo thực thể ngoại Có thể sử dụng định nghĩa FPI Có thể sử dụng tham thẻ làm tài liệu khó đọc Tên thuộc tính theo quy tắc đặt tên thẻ, trị gán cho chiếu thực thể ngoại để nhúng liệu từ tài liệu khác vào tài liệu gốc Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin 92 93 Phụ lục - Tham chiếu thực thể tổng quát định nghĩa trước: năm loại định nghĩa trước, ta đưa vào ký tự đặc biệt khác sử dụng mã kí tự - Tạo thực thể tham số nội: tham chiếu thực thể tổng quát không dùng cho định nghĩa DTD, ta sử dụng tham chiếu thực thể tham số dạng % … ; Để lấy nút tài liệu, trước hết ta lấy nút gốc phương thức documentElement, sau qua nút phương thức fistChild, nextChild, previousChild, lastChild, nút cấp firstSibling, nextSibling, previousSibling, lastSibling, sau hiển thị thông tin trình duyệt Tuy đưa tham chiếu thực thể tham số nội vào khai báo DTD khác mà sử dụng chúng phần khai báo DTD Đối với cách thứ hai, ta sử dụng thẻ nạp trực tiếp liệu XML vào trang HTML để xử lý JavaScript - Tạo thực thể tham số ngoại: thực thể tham số ngoại dùng đâu khai báo DTD, tránh khai báo lặp lại Phụ lục Ngoài ta dùng trực tiếp tên phần tử để lấy danh sách nút phương thức getElementByTagName(“NODE_NAME”) Bên cạnh đó, ta lấy - Sử dụng INCLUDE IGNORE: để thêm vào hay bỏ qua đoạn định nghĩa danh sách thuộc tính nút phương thức attributes, sau gọi phương thức DTD Có thể sử dụng chúng kết hợp với tham số thực thể để tham số hóa khai báo getNameItem để lấy tham chiếu đến nút cụ thể theo tên, cuối ta dùng phương DTD, bỏ qua thêm vào tập khai báo DTD cách thay thức value lấy giá trị thực tế thuộc tính đổi giá trị thực thể tham số Kỹ thuật giúp tập trung hóa thực thể cần dùng để tùy biến Nó sử dụng định nghĩa XHTML 1.1 DTD Một số vấn đề quan trọng khác tính chất thuộc tính, nhúng liệu phi XML vào tài liệu, nhúng nhiều thực thể phi định dạng vào tài liệu v.v tham khảo [23] Xử lý tài liệu XML Để phân tích tài liệu XML ta dùng nhiều thư viện lập trình từ ngôn ngữ khác nhau: XML for Java (XML4J), Microsoft XML Parser, Java Standard Extension for XML, Python XML Parser… Hiện nay, thay cho mã ký tự byte ASCII truyền thống người ta chuyển dần sang mã kí tự hợp hai bytes Unicode Thậm chí đặc tả tập kí tự bytes hình thành UCS (Universal Character System) 2.1 Xử lý Java Script theo mô hình DOM DOM - mô hình đối tượng tài liệu (Document Object Model) W3C định nghĩa dạng phân cấp bao gồm nút chứa phần tử, liệu văn bản, thuộc tính… - Phân tích toàn tài liệu XML: sử dụng thủ tục đệ quy Phương thức childNodes dùng để lấy danh sách nút có, sau đệ quy duyệt tiếp xuống phần tử Mô hình DOM gồm 12 kiểu nút, ta sử dụng giá trị nodeType để xác định kiểu liệu thuộc tính nodeValue để trích rút nội dung liệu nút Ta dùng kiện onreadstatechange kiểm tra trạng thái nạp hủy liệu XML trình duyệt Sự kiện ondataavailable cho biết trình nạp liệu dã hoàn tất liệu trạng thái sẵn sàng để xử lý Ta kiểm tra tính hợp lệ tài liệu XML JavaScript với mô hình tài liệu DOM Dựa vào đối tượng parseError liệu nguồn để biết thông tin lỗi Có thể xem chi tiết [23] - Ngoài khả xử lý tài liệu, JavaScript thay đổi nội dung cấu trúc tài liệu (dùng phương thức createElement(), insertBefore(), createTexxtNode(), appendChild()…) 2.2 Xử lý Java theo mô hình DOM nút Có tất 12 loại nút mô hình DOM (xem tài liệu tham khảo liệt kê Dùng Java xử lý tài liệu XML mà không phụ thuộc vào trình duyệt Thư viện cuối bài) W3C định nghĩa nhiều cấp độ cho mô hình DOM, thông dụng xử lý phân tích tài liệu XML mà ta sử dụng XML4J Ta mô tả vài phương cấp độ Cấp độ tập trung vào kết hợp tài liệu HTML XML thức xử lý gói thư viện - Có hai cách để nạp tài liệu XML vào trình duyệt JavaScript: sử dụng lớp đối tượng Microsoft.XMLDOM dùng phần tử nạp liệu Giả sử ta có tập tin XML “order.xml” với thẻ định dạng theo mô hình phân cấp (đã xem xét phần trước) Để xử lý Java, trước hết ta đưa vào thư viện xử lý DOM: Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin 94 95 Phụ lục Phụ lục import org.w3c.dom.*; kiểu nút đó, kiện tương ứng phát sinh hàm xử lý kiện dành cho nút import org.apache.xerces.parsers.DOMParser; gọi đến Sau quy trình xử lý tương tự sử dụng JavaScript Để đếm số phần tử Thư viện XML4J hỗ trợ hai mô hình DOM SAX Trong chương trình Java sử tài liệu XML, ta dùng phương thức getLength() Để đọc hiển thị toàn nội dung tài dụng liệu, ta dùng kĩ thuật đệ quy Một chương trình có phương thức sau: org.apache.xerces.parsers.SAXParser Sau quy trình xử lý bao gồm: khởi tạo phân - Xử lý nút tài liệu (nút phần tử, nút thuộc tính…): cài đặt phương thức khối thư viện: org.xml.sax.*, org.xml.sax.helpers.DefaultHandler, tích SAX, nạp liệu vào phân tích (tương tự mô hình DOM) display() để kiểm tra xử lý nút liệu tài liệu DOM Đối với kiểu nút, Sử dụng phương thức startElement(), endDocument(), ta xử lý thẻ ta so khớp kiểu nút nhận với định nghĩa sẵn (có 12 loại nút mô tập tin, chẳng hạn so sánh xem thẻ đọc có phải có tên “NAME” không hình DOM) Với nút phần tử, để xử lý thuộc tính, ta dùng phương thức getAttributes(), trả startElement() bao gồm số tham số địa nguồn, tên thẻ mở tiếp đầu ngữ không gian tên, tên thẻ đầy đủ, danh sách thuộc tính có phần tử thẻ mảng danh sách thuộc tính có phần tử Ta dùng vòng lặp for để duyệt Một số phương thức khác startDocument(), startCDATA(), characters(), qua phần tử thuộc tính Mỗi phần tử bao gồm danh sách phần tử con, ta processingInstruction() phương thức xử lý kiện tương ứng với kiểu nút gọi phương thức getChildNodes() để lấy danh sách phần tử có phần tử DOCUMENT_NODE, ELEMENT_NODE, CDATA_SECTION_NODE, TEXT_NODE hành Tiếp đến vòng lặp for gọi để đến nút gọi đệ quy lại phương PROCESSING_INSTRUCTION_NODE Cách thức sử dụng phương thức thức display() tương tự phương thức Cách thức xử lý nút phân đoạn CDATA, nút liệu văn bản, nút thị xử lý, thẻ - Để tìm kiếm lọc phần tử tài liệu XML, ta cài đặt điều kiện lọc đóng… hoàn toàn tương tự Bằng cách xử lý này, ta xây dựng chương trình phương thức startElement() thông qua cờ printFlag, tức có phần tử thỏa mãn tìm kiếm thông tin tài liệu XML Thay kết xuất hình văn bản, ta kết điều kiện lọc cờ printFlag bật (true) xuất hình đồ họa, ta ứng dụng XML cho hiển thị đồ họa - Trong mô hình SAX, khác với DOM, tài liệu không xem cấu trúc cây, ta - Duyệt đến nút cụ thể tài liệu: tương tự JavaScript, ta sử đến nút có kiện phát sinh, dùng phương thức dụng phương thức Java getFirstChild(), getNextSibling()… để duyệt đến dạng firstChild()… mà phải tự đánh dấu tìm phần tử dựa vào kiện Khác với nút tài liệu - Thay đổi nội dung tài liệu: việc đọc phân tích nội dung tài liệu, ta DOM, mô hình SAX ta đến mục liệu trực tiếp, để thay đổi cấu trúc liệu XML, chẳng hạn chèn nút mới, phải dựa vào kiện thêm thay đổi cấu trúc liệu đầu vào để tạo cấu trúc tài liệu XML startElement() Tương tự JavaScript, Java ta dùng phương thức createElement(), XML vấn đề khác createTexxtNode(), appendChild()… 3.1 Ràng buộc liệu XML IE theo mô hình DSO 2.3 Xử lý Java theo mô hình SAX - SAX (Simple API for XML) mô hình xử lý liệu XML theo hướng kiện Dữ - Ràng buộc liệu cho phép kết nối liệu tài liệu XML vào mô hình ADO Microsoft Bằng cách này, xử lý liệu tài liệu đơn giản dễ dàng tương liệu mà ta mong muốn tự động gửi đến kiện phát sinh thay phải lấy liệu tự làm việc hệ CSDL thực Kỹ thuật cho phép chuyển liệu từ cách lần đến nút Trong mô hình DOM, để chọn kiểu nút cần xử lý, ta dùng hệ CSDL vào tài liệu ngược lại mệnh đề case so sánh với định nghĩa Còn mô hình SAX, trình phân tích chịu trách nhiệm đọc diễn dịch toàn nội dung tài liệu Khi phát Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin 96 97 Phụ lục Phụ lục - DSO cung cấp đầy đủ phương thức, thuộc tính kiện để xử lý liệu tập recordset Do khuôn khổ phần phụ lục này, ta không trình bày vấn đề Chi tiết xem [23] 3.2 Một số khái niệm XML mới: XPath, XLink, XBase, XPointer - XPath dạng đường dẫn tài liệu XML, tương tự đường dẫn hệ thống tập tin XPath có nhiều ứng dụng quan trọng xử lý tài liệu chuyển dịch XSL, đặc tả XPointer… - XLink dạng mở rộng HTML Link, có nhiều tùy biến linh hoạt liên kết HTML liên kết giản đơn, liên kết mở rộng, định vị, cung liên kết, tài nguyên liên kết, tiêu đề liên kết, tùy biến… - XBase khái niệm định địa sở cho tài liệu XML, hiểu cách định nghĩa địa gốc giúp thu gọn địa liên kết - XPointer trỏ mục giúp xác vị trí nút tài liệu, xây dựng dựa khái niệm XPath XPointer định nghĩa vị trí liệu dựa điểm trỏ (point) 3.3 Hiển thị tài liệu XML: CSS XSL - CSS XSL có tác dụng tạo định dạng hiển thị cho trang XML CSS tập mẫu định dạng kiểu cho XML XSL tài liệu tuân theo quy tắc cú pháp xây dựng tài liệu XML XSL có quy định chặt chẽ kiểu nút theo cấu trúc cây, nhìn chung có cách xử lý tương tự mô hình DOM hay SAX Có thể lập trình biến đổi liệu XML nhờ thẻ điều khiển mà XSL cung cấp (xem chi tiết [23]) 3.4 Ứng dụng XML: XHTML, CDF, RDF, VML, WML, SOAP, AppML Các ứng dụng XML phát triển phong phú: XHTML - HTML mở rộng, CML - ngôn ngữ định dạng hóa học, MathML - ngôn ngữ định dạng toán học, CDF khuôn dạng định nghĩa kênh, RDF – khung định nghĩa tài nguyên, SMIL - ngôn ngữ tích hợp đa phương tiện đồng bộ, EBRL - ngôn ngữ định dạng báo cáo, XUL - ngôn ngữ cấu hình giao diện người dùng, VML - ngôn ngữ định dạng vector, WML - ngôn ngữ định dạng mạng không dây, SOAP - giao thức truy cập đối tượng giản lược, v.v Đặc biệt AppML Microsoft hứa hẹn mô hình ứng dụng tương lai Có thể tìm hiểu thêm [23] Phụ lục B: Lược đồ XML Lược đồ XML W3C (World Wide Web Consortium) bắt đầu quan tâm từ năm 1998 phiên công bố thức vào 5/2001 [24], [25], [26], với mục đích tạo ngôn ngữ lược đồ có ý nghĩa DTD Cấu trúc tài liệu XML định nghĩa lược đồ XML dạng quan hệ phân cấp định nghĩa trước phần tử XML và/hoặc thuộc tính với ràng buộc đặc trưng có liên quan (ví dụ thứ tự số yếu tố) Trong mục này, ta đưa tính cần quan tâm ngôn ngữ lược đồ XML định nghĩa vấn đề đối sánh lược đồ XML Các kiểu liệu lược đồ XML Một kiểu liệu lược đồ XML (sử dụng thuật ngữ [26]) bộ-3, bao gồm: - Một tập giá trị phân biệt, gọi không gian giá trị (miền), - Một tập biểu diễn từ vựng, gọi không gian từ vựng, - Một tập giới hạn kiểu mô tả thuộc tính không gian giá trị, giá trị riêng lẻ mục từ vựng Kiểu lược đồ XML đơn giản phức hợp Kiểu đơn giản cho phép nội dung liệu ký tự phần tử thuộc tính Kiểu phức hợp cho phép có phần tử thuộc tính Khuyến nghị lược đồ XML định nghĩa 44 kiểu đơn giản nội mô tả kiểu liệu sử dụng chung Chúng bao gồm kiểu xâu (string), kiểu số (numerical) (ví dụ float, decimal, integer), kiểu ngày tháng (date) thời gian (time) (ví dụ date, duration, time) Lược đồ XML cho phép người dùng dẫn xuất kiểu riêng từ kiểu nội cách áp dụng số giới hạn kiểu, ví dụ hạn chế phạm vi hợp lệ giá trị số cách thiết lập giá trị lớn nhất/nhỏ giới hạn chiều dài giá trị xâu Lược đồ XML đề nghị hai cách khác để định nghĩa kiểu đơn giản dẫn xuất: dẫn xuất theo danh sách dẫn xuất theo hợp Không gian giá trị kiểu liệu danh sách tập dãy chiều dài hữu hạn giá trị nguyên tố Kiểu liệu nguyên tố định nghĩa kiểu liệu danh sách xem itemType kiểu liệu danh sách Khai báo thuộc tính phần tử Định nghĩa thuộc tính định nghĩa phần tử cho phép toàn cục cục Nếu toàn cục, chúng định nghĩa trực tiếp phần tử , sau tham chiếu từ phần tử tùy ý Nếu cục bộ, chúng Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin 98 99 Phụ lục định nghĩa phần tử Định nghĩa thuộc tính cho Phụ lục Kiểu trừu tượng phần tử trừu tượng phần tử tên, kiểu (luôn kiểu đơn giản), số yếu tố nhỏ (tùy chọn Lược đồ XML đưa khái niệm kiểu trừu tượng phần tử trừu tượng Như thường yêu cầu) lớn giá trị mặc định giá trị cố định Khai thấy mô hình hóa hướng đối tượng, kiểu trừu tượng không trực báo phần tử kết hợp tên với định nghĩa kiểu (đơn giản phức hợp), giá trị mặc định tiếp có kiểu cụ thể Nếu phần tử khai báo kiểu trừu tượng (tùy chọn) tập định nghĩa ràng buộc đồng (có thể rỗng) Sự kết hợp tài liệu thể XML mô hình nội dung phần tử toàn cục giới hạn phạm vi định nghĩa kiểu phức hợp kiểu trừu tượng kiểu dẫn xuất kiểu trừu tượng Khái Các kiểu phức hợp niệm trừu tượng áp dụng cho phần tử Nếu phần tử khai báo trừu tượng Ngược lại với kiểu đơn giản, kiểu phức hợp cho phép có phần tử tài liệu thể XML phần tử không xuất phần tử định nghĩa thuộc tính Các kiểu liệu sau sử dụng cho việc định nghĩa kiểu thuộc nhóm thay cho phần tử trừu tượng lại xuất vị trí phần tử Đây khác biệt lược đồ với DTD: phần tử (tức Ràng buộc toàn vẹn thẻ sử dụng tài liệu) khác với kiểu liệu (định nghĩa Lược đồ XML hỗ trợ ràng buộc toàn vẹn ràng buộc toàn vẹn tham chiếu biết kiểu phức hợp) Kiểu liệu phức hợp dẫn xuất từ kiểu liệu mô hình quan hệ: nhất, khóa khóa tham chiếu Duy nhất/khóa danh tồn cách hạn chế kiểu liệu phức hợp khác (trong thành phần sách thuộc tính phải nhận dạng mục tập nút đánh địa cấu trúc nó) mở rộng kiểu liệu đơn giản phức hợp Định nghĩa kiểu phức hợp bao gồm thuộc tính sau: - Tên - Kiểu sở phương pháp dẫn xuất (nếu kiểu dẫn xuất) - Khai báo thuộc tính chứa phần tử mô tả trước - Kiểu nội dung (elementOnly, empty, mixed kiểu đơn giản) - Mô hình nội dung (trong trường hợp elementOnly): chứa phần tử chọn (là biểu diễn XPath hạn chế) Cơ chế mạnh khái niệm ID/IDREF DTD Lược đồ XML có nhiều ràng buộc tham chiếu đồng như: - Nội dung phần tử định nghĩa - Các thuộc tính không mục (non-ID) khai báo khóa - Sự kết hợp nội dung phần tử thuộc tính khai báo khóa, tức không mà diện không rỗng (như mô tả dưới) khai báo cấu trúc nội dung phần tử Nội dung phần tử - Lược đồ XML phân biệt khóa lồng thêm vào phần tử , , cho phép - So sánh trường khóa tham chiếu trường khóa so thuộc tính tương đồng DTD sánh giá trị mà xâu Khả thay phần tử kiểu Lược đồ XML cung cấp chế nhóm thay cho phép phần tử (kiểu) thay phần tử (kiểu) khác Cụ thể hơn, phần tử gán cho nhóm phần tử đặc biệt mà xem có khả thay cho phần tử có tên đặc biệt gọi phần tử đầu Các phần tử nhóm thay phải có kiểu phần tử đầu, có kiểu dẫn xuất từ kiểu phần tử đầu Tương tự thay phần tử, lược đồ XML đưa khả thay kiểu, tức khả thay nội dung phần tử nội dung khác Nguyên lý thay kiểu kiểu sở thay kiểu dẫn xuất Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin 100 101 Phụ lục Phụ lục Phụ lục C: Thuật toán Hirst St-Onge Quan hệ từ Kỹ thuật đối sánh thuật ngữ đề xuất chương sử dụng ba loại quan hệ: quan hệ mạnh (extra-strong) từ nhắc lại nguyên thể nó, quan hệ mạnh (strong): gồm ba kịch giải thích mục 3.2.2 chương quan hệ trung bình (medium), xảy có đường dẫn phép kết nối synset liên kết với từ Các định nghĩa đường dẫn phép sử dụng phân loại quan hệ synset WordNet thành liên kết lên, xuống ngang Bảng C.1 sau đưa ví dụ quan hệ synset WordNet hướng tương ứng chúng Còn hình C.1 sau ví dụ đường dẫn phép không phép Dựa định nghĩa đường dẫn phép lấy chiều dài lớn đường dẫn phép 4, ta phân biệt bảy trường hợp minh họa hình C.2 Quan hệ Hướng Also see Horizontal Attribute Horizontal Cause Down Entailment Down Holonymy Down Hypernymy Up Hyponymy Down Meronymy Up Pertinence Horizontal Similarity Horizontal Bảng C.1 Phân loại quan hệ WordNet thành hướng Hình C.1 Đường dẫn phép không phép thuật toán Hirst St-Onge 1 5 5 4 3 3 7 6 6 2 Các nút đồ thị mô tả synset từ (word) Các quan hệ ngữ nghĩa từ chai thành bốn loại: Tương đương (Equivalent): tồn hay nhiều liên kết ngang synset từ (trường hợp 3) Rộng (Broader than): tồn hay nhiều liên kết lên hai synset (trường hợp 1) liên kết lên theo sau liên kết ngang (trường hợp 5) Liên quan tới (Related-to): tồn liên kết lên theo sau liên kết xuống liên kết ngang (hai từ có từ bao (hypernym) chung) (trường hợp 4) Hẹp (Narrower than): tồn (hoặc nhiều) liên kết xuống hai synset (trường hợp 2) liên kết xuống theo sau liên kết ngang (trường hợp 7) Hình C.2: Phân loại quan hệ ngữ nghĩa WordNet Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin 102 Phụ lục Thuật toán đối sánh thuật ngữ // Quan hệ mạnh if (word1=word2) return 24; else // Quan hệ mạnh S1=synsetsOf(word1); S2=synsetsOf(word2); foreach s1 in S1 H1=horizontalSynsets(word1); U1=UpwardSynsets(word1); D1=DownwardSynsets(word1); foreach s2 in S2 H2=horizontalSynsets(word2); U2=UpwardSynsets(word2); D2=DownwardSynsets(word2); if s1=s2 then return 16; if (s1 is In(H2) or s2 is In(H1)) return 16; if (s1 is In(U2) or s1 is In(D2)) return 16; if (s2 is In(U1) or s2 is In(D1)) return 16; endif // Quan hệ trung bình listOfWeight=medStrong(0,0,0,s1,S2); return (max(listOfWeight)); MedStrong (state, distance, chdir, from, To) if ((from is In(To) and (distance > 1)) // tìm thấy đường dẫn listOfWeigth.add(8-distance-chdir); return true; endif if (distance >= 5) // đường dẫn dài return false; endif if (state = 0) H=horizontalSynsets(from); U=UpwardSynsets(from); D=DownwardSynsets(from); retU=retD=retH=false; foreach u in U retU=retU or medStrong(1,distance+1,0,h, To); // thử lên (state =1) foreach d in D retD=retD or medStrong(2,distance+1,0,d, To); // thử xuống (state =2) foreach h in H retH=retH or medStrong(3,distance+1,0,d, To); // thử ngang (state =3) return (retU or retD or retH); endif if (state = 1) // thay đổi hướng lên, sau chuyển sang lên ngang H=horizontalSynsets(from); U=UpwardSynsets(from); D=DownwardSynsets(from); retU=retD=retH=false; foreach u in U retU=retU or medStrong(1,distance+1,0,h, To); // thử lên (state =1) foreach d in D retD=retD or medStrong(4,distance+1,1,d, To); // thử xuống (state =4) foreach h in H retH=retH or medStrong(5,distance+1,1,d, To); // thử ngang (state =5) return (retU or retD or retH); endif Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin 103 if (state = 2) // xuống H=horizontalSynsets(from); D=DownwardSynsets(from); retD=retH=false; foreach d in D retD=retD or medStrong(2,distance+1,0,d, // thử xuống (state =2) foreach h in H retH=retH or medStrong(6,distance+1,0,d, // thử ngang (state =6) return (retD or retH); endif if (state = 3) // ngang H=horizontalSynsets(from); D=DownwardSynsets(from); retD=retH=false; foreach d in D retD=retD or medStrong(7,distance+1,0,d, // thử xuống (state =7) foreach h in H retH=retH or medStrong(3,distance+1,0,d, // thử ngang (state =3) return (retD or retH); endif if (state = 4) // lên xuống D=horizontalSynsets(from); retD=false; foreach d in D retD=retD or medStrong(4,distance+1,0,d, // thử ngang (state =4) return (retD); endif if (state = 5) // lên ngang H=horizontalSynsets(from); D=DownwardSynsets(from); retD=retH=false; foreach d in D retD=retD or medStrong(4,distance+1,2,d, // thử xuống (state =4) foreach h in H retH=retH or medStrong(5,distance+1,1,d, // thử ngang (state =5) return (retD or retH); endif if (state = 6) // xuống ngang H=horizontalSynsets(from); retH=false; foreach h in H retH=retH or medStrong(6,distance+1,1,d, // thử ngang (state =6) return (retH); endif if (state = 7) // ngang xuống D=horizontalSynsets(from); retD=false; foreach d in D retD=retD or medStrong(7,distance+1,1,d, // thử ngang (state =7) return (retD); endif Phụ lục To); To); To); To); To); To); To); To); To); Võ Sỹ Nam Luận văn cao học – chuyên ngành công nghệ thông tin Danh mục tài liệu tham khảo [1] S Amer-Yahia, S Cho, D Srivastava Tree Pattern Relaxation, EDBT, 2002 [2] A Budanitsky, G Hirst Semantic distance in WordNet: An experimental, application oriented evaluation of five measures, 2003 [3] D Carmel, N Efraty, G.M Landau, Y.S Maarek, Y Mass An Extension of the vector space model for querying XML documents via XML fragments Second Edition of the XML and IR Workshop, In SIGIR Forum, Volume 36 Number 2, Fall 2002 [4] G Cobena, S Abiteboul, A Marian Detecting changes in XML Documents In ICDE, 2002 [5] H.H Do, S Melnik, E Rahm Comparison of schema matching evaluations In Proceedings of the second International Workshop on Web Databases, 2002 [6] A.H Doan Learning to map between structured representations of data PhD thesis, University of Washington, 2002 [7] Lexical chains as representations of context for the detection and correction of malapropisms In: Christiane Fellbaum (editor), WordNet: An electronic lexical database, Cambridge, MA: The MIT Press, 1998 [8] ISO, Information Processing- Text and Office systems- Standard Generalization Markup Language (SGML), (ISO 8879:1986), International Organisation for Standardisation, Geneva, 1986 [9] P Leinonen Automating XML Document Structure Transformations In Proceedings of the ACM Symposium on Document Engineering, France, 2003 [10] G Linden Structured document transformations Report A-1997-2 CS Department of University of Helsinki, Finland, 1997 [11] J Madhavan, P.A Bernstein, E Rahm Generic schema matching with Cupid In Proceedings of the International Conference on Very Large Databases (VLDB), 2001 [12] S Melnik, H Garcia-Molina, E Rahm Similarity Flooding: A versatile Graph Matching Algorithm and its Application to Schema Matching In Proceedings of the 18th International Conference on Data Engineering, 2002 [13] R Miller The Clio Project: managing heterogeneity ACM SIGMOD Record 30(1): 78-83, 2001 [14] A G Miller (1995) WordNet: A lexical Database for English ACM 38 (11), pages 39-41, 1995 [15] Mong Li Lee, Liang Huai Yang, Wynne Hsu, Xia Yang XClust: Clustering XML Schemas for Effective Integration, in 11th ACM International Conference on Information and Knowledge Management, McLean, Virginia, November 2002 [16] E Pietriga, J-Y Vion-Dury, V Quint Vxt: a visual approach to XML transformations In Proceedings of the ACM Symposium on Document Engineering, 2001 [17] E Rahm and P.A Bernstein A survey of approaches to automatic schema matching In VLDB Journal, pages 10: 334-350, 2001 [18] N Routledge, L Bird, A Goodchild UML and XML Schema, ADC, 2002 [19] D Shasha, J Wang, K Zhang, and F Shih Fast algorithms for the unit cost editing distance between trees In Journal of Algorithms, pages 581-621, 1990 [20] L Xu Source Discovery and Schema Mapping for Data Integration, PhD thesis, 2003 [21] L Zamboulis XML Schema Matching & XML Data Migration & Integration: A Step Towards The Semantic Web Vision Technical Report, 2003 [22] A Boukottaya Schema Matching for Transforming Structured Documents In DocEng'05, 2-4, 2005 [23] A Vernet XML transformation languages Có thể xem tại: http://www.scdi.org/~avernet/misc/xml-transformation [24] XML Schema, W3C Recommendation, 2004 Có thể xem tại: http://www.w3.org/TR/REC-xml/ [25] XML Schema Part 0: Primer, W3C Recommendation, 2004 Có thể xem tại: http://www.w3.org/TR/xmlschema-0/ [26] XML Schema Part 1: Structures, W3C Recommendation, 2004 Có thể xem tại: http://www.w3.org/TR/xmlschema-1/ [27] XML Schema Part 2: Datatypes, W3C Recommendation 2004 Có thể xem tại: http://www.w3.org/TR/xmlschema-2/ [28] XSL Transformations (XSLT), W3C Recommendation, 2004 Có thể xem tại: http://www.w3.org/TR/xslt/ [...]... đề đối sánh lược đồ, chẳng hạn tiếp cận hướng đối tượng [21] Tiếp cận sát về vấn đề đối sánh lược đồ [17] ta có thể phân chia các phương pháp đối hướng đối tượng dựa trên biểu diễn các lược đồ theo mô hình hướng đối sánh lược đồ thành ba loại: đối sánh ngôn ngữ, đối sánh trên cơ sở ràng buộc tượng, sau đó dịch các đặc tả lược đồ thành các biểu diễn hướng đối tượng và đối sánh cấu trúc Các công cụ đối. .. hình của đối sánh lược đồ XML Ngoài việc tổng hợp lại các nghiên cứu liên quan về vấn đề này, chúng tôi cũng đề xuất một mô hình cho hệ thống chuyển đổi tự động tài liệu XML Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 48 49 Chương 3: Đối sánh tự động lược đồ XML 3.1 Tổng quan về đối sánh tự động lược đồ XML Để đối sánh lược đồ, về cơ... niệm đồ thị lược đồ không bao gồm các tính năng như mở rộng kiểu phức hợp và các kiểu/phần tử trừu tượng Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 56 57 Chương 3: Đối sánh tự động lược đồ XML Chương 3: Đối sánh tự động lược đồ XML Trong lược đồ XML hạn chế một kiểu, chỉ thêm được các ràng buộc trên nội dung của nó và điều này được biểu diễn bằng một tập ràng buộc của đồ thị lược đồ XML. .. bằng cách sử dụng một Chương 3: Đối sánh tự động lược đồ XML } } Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 62 Thuật toán 3.2.2: tạo LCS Vào : Ra: 63 Chương 3: Đối sánh tự động lược đồ XML Chương 3: Đối sánh tự động lược đồ XML Trong đó : P1 , P2, m, n, T; //xâu kết quả ra w LCS; Giải thuật: • 0 ≤ α, β, γ, δ ≤ 1 • α + β = 1 để pr (P1,P2) = 1 trong trường hợp đối sánh hoàn hảo • γ và δ đủ nhỏ... thiết cơ bản cho tiến trình đối sánh Tiếp theo, chúng tôi Đối sánh tự động lược đồ XML đã mô tả các định nghĩa cho mô hình dữ liệu biểu diễn lược đồ XML, là đồ thị gán nhãn có hướng và có gốc, hay còn gọi là đồ thị lược đồ Ngoài việc tính toán độ tương đồng giữa các phần tử lược đồ, các giải pháp đối sánh thường quan tâm đến việc phát hiện ánh xạ giữa các nút và cạnh đối sánh cũng như các phép toán chuyển... Đối sánh tự động lược đồ XML 2.4 Kết chương Việc đưa ra các định nghĩa hình thức cho vấn đề đối sánh lược đồ là một bước quan trọng trong tiến trình đối sánh Điều này giúp người dùng đánh giá Chương 3 và so sánh được khả năng ứng dụng của các giải pháp đối sánh Dựa trên việc phân tích thông tin vào và ra cho một hệ thống đối sánh lược đồ XML, chúng tôi đã mô tả các giả thiết cơ bản cho tiến trình đối. .. toán độ tương đồng giữa các Chương 3: Đối sánh tự động lược đồ XML hợp và trực tiếp Trong bước này, chúng tôi cũng xác nhận tính hợp lệ của các ánh xạ phức hợp đã tạo ra trong pha phân tích phân cấp kiểu người thiết kế phần tử lược đồ Để tính toán độ tương đồng phần tử, các tiếp cận đối sánh Đồ thị lược đồ lược đồ hiện nay thường kết hợp nhiều phương pháp đối sánh khác nhau Một Đo độ tương đồng ngôn ngữ... tích hợp dữ liệu Tuy vậy, các Định nghĩa 2.9 (Bảng ký tự lược đồ) Cho một lược đồ K (tuân theo hình nghiên cứu này chỉ quan tâm đến các lược đồ quan hệ và chúng không hoàn thức đồ thị lược đồ) , ta gọi bảng ký tự lược đồ của K hay ΣK là hợp của các toàn áp dụng được cho lược đồ XML Các nghiên cứu về đối sánh cây, chẳng nút và các cạnh trong đồ thị lược đồ của K: ΣK = NK ∪EK hạn như [19] lại chú ý đến vấn... đó thực hiện đối sánh ngữ nghĩa, tức là suy ra sự tương đồng giữa a và b trên cơ sở sự nghĩa là quá trình tìm kiếm sự tương đồng giữa các lược đồ dựa trên ngữ tương đồng của α và β Khi phát hiện tự động sự tương đồng giữa hai lược đồ nghĩa của chúng Do đó đối sánh lược đồ thường được xem như là đối sánh cú pháp, công cụ đối sánh không quan tâm đến hiểu biết của người dùng mà lược đồ ngữ nghĩa và hai... trên luật Phần lớn các công cụ đối sánh lược đồ hiện tại đều sử dụng luật để đối sánh các lược đồ không đồng nhất Đã có nhiều nghiên cứu về vấn đề này cả trong lĩnh vực CSDL và TTNT [6], [17], [21] Các tiếp cận dựa trên luật khai Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 16 17 Chương 1: Đối sánh lược đồ Chương 1: Đối sánh lược đồ thác nhiều loại thông tin lược đồ như tên phần tử, kiểu dữ

Ngày đăng: 04/08/2016, 20:42

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan