1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn: Đối sánh tự động lược đồ XML pptx

114 192 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 114
Dung lượng 1,19 MB

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC ®èi s¸nh ®éng l−îc ®å XML NGÀNH: CÔNG NGHỆ THÔNG TIN MS: ………………………. VÕ SỸ NAM NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. HUỲNH QUYẾT THẮNG HÀ NỘI - 2006 Mục lục Danh mục từ viết tắt, thuật ngữ Error! Bookmark not defined. Danh mục bảng biểu Error! Bookmark not defined. Danh mục hình vẽ Error! Bookmark not defined. Mở đầu Error! Bookmark not defined. 1. Giới thiệu chung Error! Bookmark not defined. 2. Nội dung luận văn Error! Bookmark not defined. Chương 1 Đối sánh lược đồ Error! Bookmark not defined. 1.1 Tổng quan về đối sánh lược đồ Error! Bookmark not defined. 1.1.1 Các khái niệm cơ bản về đối sánh lược đồ Error! Bookmark not defined. 1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ Error! Bookmark not defined. 1.2 Các tiếp cận đối sánh lược đồ Error! Bookmark not defined. 1.2.1 Phân loại các tiếp cận đối sánh lược đồ Error! Bookmark not defined. 1.2.2 Các tiếp cận đối sánh lược đồ Error! Bookmark not defined. 1.2.3 Các phương pháp đối sánh lược đồ Error! Bookmark not defined. 1.3 Các h ệ thống đối sánh lược đồ XML Error! Bookmark not defined. 1.3.1 Cupid (trung tâm nghiên cứu Microsoft) Error! Bookmark not defined. 1.3.2 Similarity Flooding (Đại học Stanford và đại học Leipzig) Error! Bookmark not defined. 1.3.3 LSD (Đại học Washington) Error! Bookmark not defined. 1.3.4 Clio (IBM Almaden và đại học Toronto) Error! Bookmark not defined. 1.3.5 Một số hệ thống đối sánh lược đồ khác Error! Bookmark not defined. 1.4 Kết chương Error! Bookmark not defined. Chương 2 Các định nghĩa hình thức Error! Bookmark not defined. 2.1 Vấn đề đối sánh lược đồ XML Error! Bookmark not defined. 2.1.1 Đối sánh ngữ nghĩa và đối sánh cú pháp Error! Bookmark not defined. 2.1.2 Thông tin đầu vào của tiến trình đối sánh Error! Bookmark not defined. 2.1.3 Thông tin đầu ra của tiến trình đối sánh Error! Bookmark not defined. 2.1.4 Các định nghĩa hình thức Error! Bookmark not defined. 2.2 Mô hình hóa lược đồ XML Error! Bookmark not defined. 2.2.1 Các nút đồ thị lược đồ Error! Bookmark not defined. 2.2.2 Các cạnh đồ thị lược đồ Error! Bookmark not defined. 2.2.3 Các ràng buộc đồ thị lượ c đồ Error! Bookmark not defined. 2.2.4 Các định nghĩa hình thức Error! Bookmark not defined. 2.3 Ánh xạ nguồn–đích Error! Bookmark not defined. 2.4 Kết chương Error! Bookmark not defined. Chương 3 Đối sánh tự động lược đồ XML Error! Bookmark not defined. 3.1 Tổng quan về đối sánh tự động lược đồ XML Error! Bookmark not defined. 3.2 Đo độ tương đồng ngôn ngữ Error! Bookmark not defined. 3.2.1 WordNet và quan hệ ngữ nghĩa giữa các từ Error! Bookmark not defined. 3.2.2 Thuật toán của Hirst và St-Onge Error! Bookmark not defined. 3.2.3 Giải pháp của hệ thống Cupid Error! Bookmark not defined. 3.3 Xét tính tương thích kiểu dữ liệu lược đồ XML và phân tích phân cấp kiểu người thiết kế Error! Bookmark not defined. 3.3.1 Xét tính tương thích kiểu dữ liệu lượ c đồ XML Error! Bookmark not defined. 3.3.2 Phân tích phân cấp kiểu người thiết kế Error! Bookmark not defined. 3.4 Đo độ tương đồng cấu trúc Error! Bookmark not defined. 3.4.1 Định nghĩa ngữ cảnh nút Error! Bookmark not defined. 3.4.2 Đo độ tương tự đường dẫn Error! Bookmark not defined. 3.4.3 Đo độ tương đồng ngữ cảnh nút Error! Bookmark not defined. 3.5 Đo độ tương đồng nút và tạo ánh xạ giữa các phần tử Error! Bookmark not defined. 3.5.1 Đ o độ tương đồng nút Error! Bookmark not defined. 3.5.2 Tạo ánh xạ giữa các nút và cạnh đối sánh Error! Bookmark not defined. 3.6 Đánh giá tiến trình đối sánh lược đồ XML Error! Bookmark not defined. 3.6.1 Các phương pháp đánh giá Error! Bookmark not defined. 3.6.2 Đánh giá giải pháp Error! Bookmark not defined. 3.7 Áp dụng đối sánh lược đồ trong bài toán chuyển đổi tài liệu có cấu trúc Error! Bookmark not defined. 3.7.1 Tổng quan về tài liệu có cấu trúc Error! Bookmark not defined. 3.7.2 Chuyển đổi tự động tài liệu có cấu trúc Error! Bookmark not defined. 3.7.3 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML Error! Bookmark not defined. 3.8 Kết chương Error! Bookmark not defined. Kết luận và hướng phát triển Error! Bookmark not defined. 1. Đóng góp chính của luận văn Error! Bookmark not defined. 2. Hướng phát triển Error! Bookmark not defined. Danh mục tài liệu tham khảo Error! Bookmark not defined. Phụ lục Error! Bookmark not defined. Phụ lục A: Ngôn ngữ đánh dấu mở rộng - XML Error! Bookmark not defined. Phụ lục B: Lược đồ XML Error! Bookmark not defined. Phụ lục C: Thuật toán của Hirst và St-Onge Error! Bookmark not defined. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI LUẬN VĂN THẠC SỸ KHOA HỌC ®èi s¸nh ®éng l−îc ®å XML NGÀNH: CÔNG NGHỆ THÔNG TIN MS: ………………………. VÕ SỸ NAM NGƯỜI HƯỚNG DẪN KHOA HỌC: TS. HUỲNH QUYẾT THẮNG HÀ NỘI - 2006 Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin i Lời cảm ơn Luận văn này đánh dấu kết thúc hai năm cao học tại trường đại học Bách Khoa Hà Nội. Trong quãng thời gian tuy chưa dài nhưng cũng không phải là ngắn đó, tôi đã trưởng thành rất nhiều về kiến thức cũng như khả năng nghiên cứu. Tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy giáo – TS. Huỳnh Quyết Thắng, người đã hướng dẫn, giúp đỡ tôi hết sức tận tình trong quá trình th ực hiện luận văn tốt nghiệp. Thầy là người đã cung cấp ý tưởng, tài liệu ban đầu về đề tài, các hướng dẫn quan trọng trong suốt quá trình thực hiện luận văn, dành thời gian đọc và sửa chữa báo cáo cũng như có những góp ý rất quan trọng cho tôi trong suốt quá trình hoàn thiện luận văn này. Tôi xin cám ơn thư viện trường EPFL, Thụy Sỹ đã cung cấp cho tôi một số tài liệu tham khả o bổ ích, xin cảm ơn các nhóm sinh viên K48 khoa Công nghệ thông tin, trường đại học Bách Khoa Hà Nội đã tận tình làm việc cùng tôi và góp nhiều công sức trong quá trình cài đặt thử nghiệm chương trình. Tôi xin gửi lời cám ơn sâu sắc tới các thầy giáo, cô giáo của trường đại học Bách Khoa Hà Nội, khoa Công nghệ thông tin đã tận tình giảng dạy, trang bị kiến thức cho chúng tôi, xin gửi lời cám ơn bộ môn Kỹ thuật hệ thống, khoa Công nghệ thông tin, trường đại h ọc Xây dựng Hà Nội đã hết sức tạo điều kiện về thời gian cho tôi hoàn thành luận văn này. Tôi cũng xin gửi lời cám ơn tới các bạn của tôi, những người đã chia sẻ với tôi nhiệt huyết và niềm say mê học tập & nghiên cứu khoa học, chia sẻ với tôi kiến thức và phương pháp tìm hiểu vấn đề, cung cấp cho tôi các tài liệu thiết thực cũng như những ý t ưởng bổ sung cho luận văn, góp phần giúp tôi thực hiện luận văn này trong sự cố gắng và nỗ lực cao nhất. Cuối cùng nhưng cũng là điều quan trọng nhất, cho tôi gửi lời cảm ơn sâu sắc tới bố, mẹ, em trai và những người thân của tôi, những người đã giúp đỡ tôi rất nhiều cả về vật chất lẫn tinh thần trong suốt quá trình học tập và công tác, độ ng viên tôi trong những lúc khó khăn cũng như chia sẻ niềm vui với tôi những lúc thành công. Một lần nữa tôi xin chân thành cám ơn tất cả./. Hà Nội, tháng 11 năm 2006 Võ Sỹ Nam Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin ii Mục lục Danh mục từ viết tắt, thuật ngữ iv Danh mục bảng biểu v Danh mục hình vẽ v Mở đầu 1 1. Giới thiệu chung 1 2. Nội dung luận văn 3 Chương 1 Đối sánh lược đồ 6 1.1 Tổng quan về đối sánh lược đồ 7 1.1.1 Các khái niệm cơ bản về đối sánh lược đồ 7 1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ 8 1.2 Các tiếp cận đối sánh lược đồ 14 1.2.1 Phân loại các tiếp cận đối sánh lược đồ 14 1.2.2 Các tiếp cận đối sánh lược đồ 15 1.2.3 Các phương pháp đối sánh lược đồ 17 1.3 Các hệ thống đối sánh lược đồ XML 20 1.3.1 Cupid (trung tâm nghiên cứu Microsoft) 21 1.3.2 Similarity Flooding (đại học Stanford và đại học Leipzig) 23 1.3.3 LSD (đại học Washington) 24 1.3.4 Clio (IBM Almaden và đại học Toronto) 25 1.3.5 Một số hệ thống đối sánh lược đồ khác 26 1.4 Kết chương 28 Chương 2 Các định nghĩa hình thức 29 2.1 Vấn đề đối sánh lược đồ XML 30 2.1.1 Đối sánh ngữ nghĩa và đối sánh cú pháp 30 2.1.2 Thông tin đầu vào của tiến trình đối sánh 32 2.1.3 Thông tin đầu ra của tiến trình đối sánh 34 2.1.4 Các định nghĩa hình thức 35 2.2 Mô hình hóa lược đồ XML 36 2.2.1 Các nút đồ thị lược đồ 37 2.2.2 Các cạnh đồ thị lược đồ 37 2.2.3 Các ràng buộc đồ thị lược đồ 38 2.2.4 Các định nghĩa hình thức 40 2.3 Ánh xạ nguồn– đích 43 2.4 Kết chương 46 Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin iii Chương 3 Đối sánh tự động lược đồ XML 47 3.1 Tổng quan về đối sánh tự động lược đồ XML 48 3.2 Đo độ tương đồng ngôn ngữ 49 3.2.1 WordNet và quan hệ ngữ nghĩa giữa các từ 49 3.2.2 Thuật toán của Hirst và St-Onge 50 3.2.3 Giải pháp của hệ thống Cupid 52 3.3 Xét tính tương thích kiểu dữ liệu lược đồ XML và phân tích phân cấp kiểu người thiết kế 53 3.3.1 Xét tính tương thích kiểu dữ liệu lược đồ XML 53 3.3.2 Phân tích phân cấp kiểu người thiế t kế 55 3.4 Đo độ tương đồng cấu trúc 56 3.4.1 Định nghĩa ngữ cảnh nút 56 3.4.2 Đo độ tương tự đường dẫn 58 3.4.3 Đo độ tương đồng ngữ cảnh nút 63 3.5 Đo độ tương đồng nút và tạo ánh xạ giữa các phần tử 66 3.5.1 Đo độ tương đồng nút 66 3.5.2 Tạo ánh xạ giữa các nút và cạnh đối sánh 67 3.6 Đánh giá tiến trình đối sánh l ược đồ XML 68 3.6.1 Các phương pháp đánh giá 68 3.6.2 Đánh giá giải pháp 70 3.7 Áp dụng đối sánh lược đồ trong bài toán chuyển đổi tài liệu có cấu trúc 72 3.7.1 Tổng quan về tài liệu có cấu trúc 73 3.7.2 Chuyển đổi tự động tài liệu có cấu trúc 76 3.7.3 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML 78 3.8 Kết chương 80 Kết luận và hướng phát triển 81 1. Đóng góp chính của luận văn 81 2. Hướng phát triển 84 Danh mục tài liệu tham khảo 86 Phụ lục 88 Phụ lục A: Ngôn ngữ đánh dấu mở rộng - XML 89 Phụ lục B: Lược đồ XML 97 Phụ lục C: Thuật toán của Hirst và St-Onge 100 Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin iv Danh mục từ viết tắt, thuật ngữ Từ viết tắt/ thuật ngữ Giải nghĩa Ghi chú CSDL Cơ sở dữ liệu TTNT Trí tuệ nhân tạo XML eXtended Markup Language DTD Document Type Definition XSD XML Schema Definition SGML Standard Generalized Markup Language LCS Longest Common Subsequence Đối sánh tự động lược đồ XML Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin v Danh mục bảng biểu Bảng 3. 1 Đặc điểm các lược đồ thử nghiệm 70 Bảng 3. 2 Kết quả đo chất lượng đối sánh 71 Danh mục hình vẽ Hình 2. 1 Ví dụ về đồ thị lược đồ 36 Hình 3. 1 Tiến trình tính toán độ tương đồng phần tử 49 Hình 3. 2 Ngữ cảnh của một phần tử lược đồ 57 Hình 3. 3 So sánh các đối sánh thực với các đối sánh suy diễn được 70 Hình 3. 4 Biểu đồ so sánh kết quả thực thi 72 Hình 3. 5 Mô hình cho hệ thống chuyển đổi tự động tài liệu XML 79 Mở đầu Võ Sỹ Nam. Luận văn cao học – ngành công nghệ thông tin 1 Mở đầu 1. Giới thiệu chung Một vấn đề rất quan trọng trong các hệ thống xử lý thông tin là trao đổi và sử dụng lại dữ liệu giữa các hệ thống có dữ liệu không đồng nhất. Tính không đồng nhất của dữ liệu là do các tổ chức hoặc ứng dụng thường tạo ra dữ liệu cho chính mình dựa trên các yêu cầu riêng biệt. Các yêu cầu này hầu hết thường được đặc tả trong các mô hình dữ liệu trừu t ượng, còn gọi là các lược đồ (chẳng hạn như lược đồ quan hệ, lược đồ hướng đối tượng và gần đây là lược đồ XML). Trong những năm gần đây, sự phát triển mạnh mẽ của các nguồn dữ liệu Web với rất nhiều mô hình thông tin và cú pháp mã hóa khác nhau đã dẫn đến nhu cầu ngày càng cấp thiết của việc phát triển các phương pháp và công cụ hỗ trợ cho việ c trao đổi và sử dụng lại dữ liệu, do vậy đã có rất nhiều nghiên cứu quan tâm đến vấn đề này. Như ta biết, đối sánh lược đồ là vấn đề trung tâm trong hầu hết các nghiên cứu đó. Bài toán đối sánh lược đồ có thể được định nghĩa một cách phi hình thức như sau: [6], [11] “Cho hai lược đồ S 1 và S 2 trên mô hình dữ liệu bất kỳ, có thể có thêm thông tin phụ trợ và một ánh xạ khởi đầu, hãy tìm ánh xạ giữa các phần tử lược đồ thỏa mãn yêu cầu người dùng”. Nói cách khác, đây là vấn đề tìm kiếm sự tương đồng giữa các phần tử của S 1 và S 2 (hay là việc xác định các thành phần tương đương nhau giữa hai lược đồ nguồn và đích đã cho) bằng cách khai thác các thông tin tồn tại trong lược đồ, dữ liệu và các nguồn thông tin phụ trợ. [...]... thêm cho bài toán đối sánh lược đồ XML Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 3 Mở đầu 2 Nội dung luận văn Luận văn này nghiên cứu vấn đề đối sánh tự động lược đồ XML Luận văn bao gồm ba chương Chương 1 mô tả tổng quan về vấn đề đối sánh lược đồ Chương 2 đưa ra các định nghĩa hình thức cho vấn đề đối sánh lược đồ XML Chương 3 mô tả giải pháp đối sánh tự động lược đồ XML Cũng trong chương... hạn như lược đồ quan hệ, lược đồ hướng đối tượng, DTD, lược đồ XML, v.v ) hoặc những ứng dụng mà các lược đồ chúng khai thác là không đồng nhất Đối Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 9 Chương 1: Đối sánh lược đồ sánh lược đồ cho phép thao tác trên các lược đồ, dịch dữ liệu và trả lời truy vấn qua các lược đồ không đồng nhất Nhiều ứng dụng khác nhau dựa trên đối sánh lược đồ đã xuất... và hoàn thiện thêm nhằm giải quyết vấn đề tự động hóa tiến trình đối sánh lược đồ một cách có hiệu quả nhất Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 7 Chương 1: Đối sánh lược đồ 1.1 Tổng quan về đối sánh lược đồ 1.1.1 Các khái niệm cơ bản về đối sánh lược đồ Đối sánh lược đồ là quá trình thao tác trên các lược đồ với đầu vào là hai lược đồ không đồng nhất và có thể có thêm thông tin phụ,... trúc Các công cụ đối sánh lược đồ thường kết hợp các phương pháp này để thực hiện quá trình đối sánh 1.2.3.1 Đối sánh ngôn ngữ Đối sánh ngôn ngữ về cơ bản dựa trên tên các thành phần lược đồ để tìm kiếm đối sánh giữa các lược đồ Để làm việc, đối sánh ngôn ngữ thường yêu Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 18 Chương 1: Đối sánh lược đồ cầu sử dụng tên mô tả Sự tương đồng của tên được... Trong luận văn này chúng tôi sẽ xem xét tập các phép toán bao gồm hợp, chọn, nhập, tách, nối, áp dụng và đổi tên Chương 3: Đối sánh tự động lược đồ XML Chương này mô tả giải pháp đối sánh tự động lược đồ XML, đánh giá giải pháp và mô tả một ứng dụng điển hình cho đối sánh lược đồ, vấn đề chuyển đổi tự động tài liệu XML Chương này bao gồm các nội dung chính sau: - Mô tả tiến trình tính toán độ tương đồng... pháp đối sánh lược đồ Dù sử dụng các tiếp cận trên cơ sở luật hay trên cơ sở học, tất cả các công cụ đối sánh đều khai thác tên phần tử, kiểu dữ liệu, các ràng buộc và định nghĩa cấu trúc Trên cơ sở xem xét các dự án đã thực hiện và các khảo sát về vấn đề đối sánh lược đồ [17] ta có thể phân chia các phương pháp đối sánh lược đồ thành ba loại: đối sánh ngôn ngữ, đối sánh trên cơ sở ràng buộc và đối sánh. .. xem xét vấn đề chuyển đổi tự động tài liệu XML Cuối cùng, phần kết luận nêu lên những đóng góp chính và các hướng phát triển Sau đây là những nội dung chính của luận văn: Chương 1: Đối sánh lược đồ Chương này bao gồm ba nội dung chính: - Trình bày các khái niệm, định nghĩa cơ bản về vấn đề đối sánh lược đồ và các lĩnh vực ứng dụng chính của đối sánh lược đồ như tích hợp lược đồ, tích hợp dữ liệu, kho... toán hợp nhất hoặc phân tách Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 15 Chương 1: Đối sánh lược đồ * Thông tin trợ giúp: các tiếp cận đối sánh thường sử dụng nhiều nguồn thông tin trợ giúp khác nhau như từ điển, lược đồ tổng thể, các kết quả đối sánh sẵn có từ trước hay đầu vào người dùng 1.2.2 Các tiếp cận đối sánh lược đồ Các tiếp cận đối sánh lược đồ đã được phát triển chủ yếu trong... hiện nay là tổng quát hóa các kỹ thuật này để chỉ ra ngữ nghĩa của một ánh xạ đưa ra bởi phép toán đối sánh tìm được [17] Võ Sỹ Nam Luận văn cao học – ngành công nghệ thông tin 14 Chương 1: Đối sánh lược đồ 1.2 Các tiếp cận đối sánh lược đồ 1.2.1 Phân loại các tiếp cận đối sánh lược đồ Đối sánh lược đồ là một vấn đề mới mẻ và thường được nghiên cứu riêng lẻ trên nhiều lĩnh vực khác nhau, do vậy đã... trong một bộ đối sánh lai hoặc kết hợp các kết quả đối sánh của các tiếp cận độc lập khác nhau * Số yếu tố đối sánh: kết quả đối sánh có thể là một hay nhiều phần tử của lược đồ nguồn đối sánh với một hay nhiều phần tử của lược đồ đích Có bốn trường hợp cơ bản, bao gồm đối sánh 1:1, 1:n, n:1 và n:m Ngoài ra một phần tử của lược đồ này cũng có thể liên quan đến nhiều phần tử của lược đồ kia, khi đó có . cận đối sánh lược đồ 14 1.2.1 Phân loại các tiếp cận đối sánh lược đồ 14 1.2.2 Các tiếp cận đối sánh lược đồ 15 1.2.3 Các phương pháp đối sánh lược đồ 17 1.3 Các hệ thống đối sánh lược đồ XML. 2. Nội dung luận văn 3 Chương 1 Đối sánh lược đồ 6 1.1 Tổng quan về đối sánh lược đồ 7 1.1.1 Các khái niệm cơ bản về đối sánh lược đồ 7 1.1.2 Các lĩnh vực ứng dụng đối sánh lược đồ 8 1.2 Các. vấn đề đối sánh lược đồ XML. Chương 3 mô tả giải pháp đối sánh tự động lược đồ XML. Cũng trong chương 3, chúng tôi sẽ xem xét vấn đề chuyển đổi tự động tài liệu XML. Cuối cùng, phần kết luận

Ngày đăng: 27/06/2014, 22:20

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN