Ví dụ về cây DTD...33Hình II.2.Những đường dẫn được phép a và không được phép b trong giải thuậtHirst và St-Onge...37Hình II.3.Phân loại các quan hệ ngữ nghĩa trong Wordnet...38Hình II.4
Lời cảm ơn Để hoàn thành đồ án tốt nghiệp em nhận giúp đỡ lớn từ thầy giáo,bạn bè gia đình Trước hết, em xin chân thành gửi lời cảm ơn sâu sắc tới thầy cô giáo trường Đại học Bách Khoa Hà Nội nói chung thầy cô khoa Công nghệ Thông tin, môn Cơng nghệ phần mềm nói riêng tận tình giảng dạy, truyền đạt cho em kiến thức kinh nghiệm quý báu suốt năm học tập rèn luyện trường Đại học Bách Khoa Hà Nội Đặc biệt,em xin chân thành cảm ơn PGS.TS Huỳnh Quyết Thắng Giảng viên môn Công nghệ phần mềm, khoa Công nghệ Thông tin, trường Đại học Bách Khoa Hà Nội hết lòng giúp đỡ, hướng dẫn dạy tận tình trình em làm đồ án tốt nghiệp Cuối cùng, em xin gửi lời cảm ơn chân thành tới gia đình, bạn bè quan tâm, động viên, đóng góp ý kiến giúp đỡ q trình học tập, nghiên cứu hồn thành đồ án tốt nghiệp Hà Nội, ngày 20 tháng 05 năm 2008 Dương Thu Hương Lớp Tin Pháp – K48 Khoa CNTT – ĐHBK HN Sinh viên thực hiện:Dương Thu Hương-Khóa 48-Lớp Tin Pháp Mục lục Danh mục hình vẽ Danh mục từ viết tắt thuật ngữ Mở đầu Chương 1.Bài toán đối sánh lược đồ ứng dụng 10 I.1.Giới thiệu vấn đề .10 I.2.Khái niệm đối sánh lược đồ .11 I.3.Phân loại kỹ thuật đối sánh 13 I.4.XML lược đồ XML 14 I.4.1.XML 14 I.4.2.DTD(Definition Type Document) .16 I.4.3.Lược đồ XML(XML Schema) 17 a.Các kiểu liệu lược đồ XML .18 b Khai báo thuộc tính phần tử 19 c.Các kiểu phức hợp 19 d Khả thay phần tử kiểu .21 e Kiểu trừu tượng phần tử trừu tượng 23 f Ràng buộc toàn vẹn 23 I.5.Các ứng dụng đối sánh lược đồ 24 I.6.Một số hệ thống đối sánh lược đồ điển hình 26 I.6.1.Cupid 26 I.6.2 Similarity Flooding 29 Sinh viên thực hiện:Dương Thu Hương-Khóa 48-Lớp Tin Pháp I.6.3.SKAT TransScm 30 I.6.4.Nhận xét 30 I.7.Kết chương 32 Chương Các giải thuật dùng đối sánh lược đồ .33 II.1.Cây DTD 33 II.2.Giải thuật cho độ tương đồng đối sánh nhãn nút 34 II.2.1.Đối sánh thuật ngữ .34 a.Giới thiệu Wordnet 34 b.Đo độ tương đồng thuật ngữ 35 II.2.2.Đối sánh cấu trúc .39 a Ðịnh nghĩa ngữ cảnh nút 39 b.Độ tương tự đường dẫn 42 c.Ðộ tương đồng ngữ cảnh nút 43 II.3.Kết chương .47 Chương 3.Xây dựng,cài đặt giải thuật cải tiến đối sánh lược đồ 48 III.1.Mơ hình đối sánh lược đồ XML 48 III.2.Các cải tiến .50 III.2.1.Mơ hình hóa lược đồ XML đồ lược đồ .50 a.Các nút đồ thị lược đồ 51 b Các cạnh đồ thị lược đồ .51 c.Các ràng buộc đồ thị lược đồ 52 II.2.2.Xét tính tương thích kiểu liệu .53 Sinh viên thực hiện:Dương Thu Hương-Khóa 48-Lớp Tin Pháp III.2.3.Cải tiến đối sánh cấu trúc 56 a Ðo độ tương tự đường dẫn 56 b.Độ tương đồng ngữ cảnh nút 62 III.3.Cài đặt 65 III.3.1.Thiết kế 65 a.Biểu đồ UseCase 65 b.Biểu đồ .66 III.3.2.Cài đặt 67 a.Phân tích lược đồ XML sử dụng thư viện XSOM 67 b.Khai thác wordnet sử dụng thư viện JWI 69 III.3.3.Thử nghiệm đánh giá 71 a.Cấu trúc chương trình .71 b.Kết thử nghiệm 73 c Đánh giá .75 III.4.Kết chương .80 Kết luận 81 Phụ lục: Mơ tả chi tiết thuật tốn Hist St-Onge .83 1.Thuật toán đối sánh thuật ngữ Hirst St-Onge 83 2.Thuật toán cho xác định lsim cho quan hệ trung bình 83 Tài liệu tham khảo 87 Sinh viên thực hiện:Dương Thu Hương-Khóa 48-Lớp Tin Pháp Danh mục hình vẽ Hình I.1.Ví dụ hai lược đồ XML mơ hình hóa thư viện .11 Hình I.2.Ví dụ ánh xạ lược đồ .12 Hình I.3.Mơ hình tổng quan Cupid 26 Hình II.1 Ví dụ DTD 33 Hình II.2.Những đường dẫn phép (a) khơng phép (b) giải thuật Hirst St-Onge 37 Hình II.3.Phân loại quan hệ ngữ nghĩa Wordnet 38 Hình II.4.Ngữ cảnh nút 40 Hình II.5.a.Ví dụ ngữ cảnh tổ tiên 40 Hình II.5.b.Ví dụ ngữ cảnh nút 41 Hình II.5.c.Ví dụ ngữ cảnh nút 41 Hình II.5.Cây DTD với nút đệ qui 46 Hình III.1.Mơ hình hệ thống đối sánh lược 49 Hình III.2.a:Ví dụ đồ thị lược đồ 50 Hình III.2.b:Ví dụ đồ thị lược đồ 51 hình III.3.biểu đồ UseCase chương trình .65 hình III.4.Biểu đồ chương trình 66 hình III.5.Mơ hình hóa cấu trúc Wordnet với thư viện JWI 70 Hình III.6.Xem đồ thị lược đồ tương ứng với lược đồ XML .74 Hình III.7.Kết đối sánh thuật ngử có xét tính tương thích kiểu liệu 75 Hình III.8.Kết đối sánh cấu trúc hai lược đồ 75 Sinh viên thực hiện:Dương Thu Hương-Khóa 48-Lớp Tin Pháp hình III.9.Các kết thử nghiệm giải thuật đối sánh tập mẫu .76 hình III.10.Biểu đồ so sánh độ tương đồng thuật ngữ 77 hình III.11 Kết đối sánh mẫu hai lược đồ .79 Sinh viên thực hiện:Dương Thu Hương-Khóa 48-Lớp Tin Pháp Danh mục từ viết tắt thuật ngữ Từ Từ đầy đủ CSDL Ý nghĩa Cơ sở liệu DDL Data Definition Language Ngôn ngữ định nghĩa liệu XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng W3C World Wide Web Consortum DTD Document Type Definition Tài liệu định nghĩa kiểu liệu XSD XML Schema Definition Định nghĩa lược đồ XML SKAT Semantic articulation tool LSim Linguistic Similarity Độ tương đồng thuật ngữ SSim Structure Similarity Độ tương đồng cấu trúc WSim Weight Similarity Trọng số tương đồng Synset Synnonym set Tập từ đồng nghĩa Knowledge Đối sánh dựa lược đồ sử dụng luật Sinh viên thực hiện:Dương Thu Hương-Khóa 48-Lớp Tin Pháp Mở đầu Ngày nay, công nghệ thông tin ngày phát triển len lỏi vào mặt đời sống.Các ứng dụng công nghệ thông tin đời ngày nhiều phục vụ đắc lực cho cơng việc người.Cùng với đó,việc đời mạng internet thúc đẩy phát triển mạnh mẽ công nghệ thông tin.Không kết nối người, Internet ngày trở thành xa lộ thông tin với nguồn tài nguyên phong phú,đa dạng;tại tìm thơng tin nơi,trong ngành nghề,mọi lĩnh vực.Do đó,vấn đề tìm kiếm thơng tin Internet vấn đề nóng nhiều chuyên gia tổ chức nghiên cứu phát triển.Để việc tìm kiếm hiệu trước hết ta phải có CSDL lớn liệu lưu trữ chuẩn định để trao đổi liệu,do CSDL dù có lớn đến đâu khơng chứa đựng tồn liệu mà ta phải có trao đổi liệu CSDL Hiện nay,XML(eXtended Markup Language-Ngôn ngữ đánh dấu mở rộng) với tính vượt trội trở thành chuẩn ngôn ngữ sử dụng nhiều để biểu diễn liệu Web Nhu cầu sử dụng XML chuẩn biểu diễn chuyển đổi liệu ngày tăng tạo nên lượng lớn liệu XML.Cùng với số lượng lớn lược đồ XML mô tả với đặc tả khác nhau,dẫn đến không đồng lượng lớn lược đồ XML.Thêm vào đó, có nhiều ngôn ngữ lược đồ đưa làm cho ngôn ngữ lược đồ không thống mặt ngữ pháp ngơn ngữ lược đồ.Do có nhiều nghiên cứu quan tâm đến việc chuyển đổi tích hợp liệu XML Đặc biệt ứng dụng Web không ngừng phát triển qui mơ số lượng vấn đề đối sánh lược đồ ngày trở nên quan trọng Hơn nữa, đối sánh lược đồ bước quan trọng nhiều ứng dụng:trong E-business, giúp đỡ việc ánh xạ thông báo dạng cấu trúc XML khác nhau,trong kho liệu,thì ánh xạ nguồn liệu với lược đồ kho liệu… Trong tài liệu em tìm hiểu vấn đề đối sánh lược đồ.Với mục đích đó,trong đồ án em tiến hành nghiên cứu, cài đặt đánh giá tiến trình đối sánh lược đồ Đồ án bao gồm phần sau: Phần1:Giới thiệu chung: Sinh viên thực hiện:Dương Thu Hương-Khóa 48-Lớp Tin Pháp Trong phần giới thiệu toán đối sánh lược đồ,các ứng dụng đối sánh lược đồ,một số hệ thống đối sánh lược đồ xây dựng Phần2:Trình bày giải thuật sử dụng đối sánh lược đồ Trong phần trình bày vấn đề sau:mơ hình hóa lược đồ XML,các pha đối sánh thuật ngữ đối sánh cấu trúc Phần 3:Xây dựng cài đặt giải thuật cải tiến đối sánh lược đồ Phần trình bày cải tiến giải thuật đối sánh lược đồ tiến hành cài đặt giải thuật đối sánh lược đồ với mục đích tìm độ tương đồng nút phần tử lược đồ Đánh giá kết quả:Đưa kết thử nghiệm Sinh viên thực hiện:Dương Thu Hương-Khóa 48-Lớp Tin Pháp Chương 1.Bài tốn đối sánh lược đồ ứng dụng Chương trình bày vấn đề sau: Khái quát vấn đề đối sánh lược đồ XML lược đồ XML Một số hệ thống đối sánh lược đồ điển hình Đối sánh lược đồ thâm nhập sâu rộng vào nhiều lĩnh vực trở thành vấn đề đầu tư nghiên cứu nhiều giới.Trong chương này,em xin trình bày kiến thức tìm hiểu đối sánh lược đồ nói chung,và sau vào trình bày số hệ thống đối sánh lược đồ điển hình I.1.Giới thiệu vấn đề Lược đồ bao gồm tập phần tử có liên quan với bảng,cột,lớp, phần tử XML thuộc tính.Nó mơ hình khai báo thức cách biểu diễn sở liệu đối tượng giới thực Lược đồ mô tả ngôn ngữ định nghĩa chun dụng.Có nhiều ngơn ngữ mơ tả lược đồ khác nhau: mơ hình liệu khác sử dụng ngơn ngữ lược đồ khác nhau,tuy nhiên có nhiều ngơn ngữ lược đồ tồn mơ hình liệu.Ví dụ: mơ hình liệu quan hệ thường sử dụng Ngôn ngữ dịnh nghĩa liệu(Data Definition Language-DDL) mơ hình liệu XML thường sử dụng ngơn ngữ DTD ngôn ngữ lược đồ XML Các ngơn ngữ lược đồ cung cấp nhiều tính sử dụng để xây dựng lược đồ.Ngơn ngữ lược đồ XML khác biệt tính diễn cảm(expressiveness) tính dễ sử dụng mà cung cấp cho người thiết kế lược đồ(ta trình bày rõ phần sau) Khơng có luật thức hay phổ thông cho cách thức sử dụng tính ngơn ngữ lược đồ để tạo mơ hình liệu.Do đó,thiết kế lược đồ hoạt động sáng tạo mang tính chủ quan phụ thuộc vào kính nghiệm người thiết kế.Và kết là, lược đồ khác chí mơ hình hóa đối tượng giới thực Hình sau cho thấy ví dụ lược đồ XML.Cả hai lược đồ mơ hình hóa khái niệm: library,tuy nhiên thiết kế hai người khác nên lược đồ mang dấu ấn khác Sinh viên thực hiện:Dương Thu Hương-Khóa 48-Lớp Tin Pháp 10