1. Trang chủ
  2. » Giáo án - Bài giảng

Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML

73 384 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Áp Dụng Đối Sánh Lược Đồ Trong Bài Toán Phân Cụm Lược Đồ XML
Trường học Trường Đại Học Công Nghệ Thông Tin
Chuyên ngành Công Nghệ Thông Tin
Thể loại Luận văn
Thành phố Hồ Chí Minh
Định dạng
Số trang 73
Dung lượng 1,32 MB

Nội dung

  1 MỤC LỤC Danh mục hình vẽ . 3 Danh mục từ viết tắt 4 MỞ ĐẦU 5 Chương 1: Đối sánh lược đồ . 7 1.1 Giới thiệu chung 7 1.1.1 Khái niệm đối sánh lược đồ . 7 1.1.2 Các phương pháp đối sánh . 8 1.2 Các ứng dụng của đối sánh lược đồ 9 1.3 Các hệ thống sánh lược đồ điển hình 12 1.3.1 Cupid 12 1.3.2 Similarity Flooding 13 1.3.3 LSD 13 1.3.4 Một số hệ thống đối sánh lược đồ khác . 14 1.4 Kết chương 14 Chương 2: Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML 16 2.1 XMLlược đồ XML 16 2.1.1 Ngôn ngữ đánh dấu mở rộng XML . 16 2.1.2 Lược đồ XML 18 2.2 Mô hình hóa lược đồ XML 21 2.2.1 Các nút đồ thị lược đồ 21 2.2.2 Các cạnh đồ thị . 22 2.2.3 Các ràng buộc trên đồ thị lược đồ 22 2.3 WordNet và tiến trình đối sánh thuật ngữ . 24 2.3.1 Giới thiệu WORDNET . 24 2.3.2 Các loại quan hệ trong WordNet 25 2.3.3 Đo độ tương đồng thuật ngữ . 29 2.3.4 Xét tính tương thích kiểu dữ liệu 31 2.4 Ngữ cảnh nút và tiến trình đối sánh cấu trúc . 33 2.4.1 Ngữ cảnh nút . 33 2.4.2 Đo độ tương đồng cấu trúc . 36 2.5 Phân cụm lược đồ XML 42 2.6 Kết chương 43 Chương 3: Cài đặt tiến trình đối sánh . 44 3.1 Phân tích lược đồ XML sử dụng viện XSOM 44 3.2 Khai thác WordNet sử dụng thư viện JWNL 47 3.3 Thiết kếà cài đặt hệ thống . 52 3.3.1 Thiết kế hệ thống . 52 3.3.2 Các lớp chính của chương trình 54 3.4 Kết chương 58 Chương 4: So sánh và đánh giá 59   2 4.1 Kết quả đo độ tương đồng . 59 4.2 Đánh giá tiến trình đối sánh 63 4.2.1 Kiểm tra giải thuật Hirst&St^Onge 63 4.2.2 Các phương pháp đánh giá . 66 4.3 Kết chương 71 KẾT LUẬN . 72 Tài liệu tham khảo 73   3 Danh mục hình vẽ Hình 1.1: Hệ thống tích hợp dữ liệu giúp người dùng tìm văn bản[8] 10 Hình 2.1: Nhóm các danh từ gốc của WordNet 25 Hình 2.2: Sơ đồ của WordNet đối với các danh từ trừu tượng . 27 Hình 2.3 Sơ đồ của WordNet đối với các danh từ chỉ các đặc điểm tâm lý . 28 Hình 2.4: Cây phân cấp ngữ nghĩa của nhánh thing, entity . 28 Hình 2.5: Quan hệ bộ phậntoàn thể 29 Hình 2.6: Phân loại các quan hệ ngữ nghĩa trong WordNet [8] 31 Hình 2.7: Ví dụ đồ thị lược đồ XML nguồn [8] . 33 Hình 2.8: Ví dụ đồ thị lược đồ XML đích [8] . 34 Hình 2.9: Ngữ cảnh tổ tiên [8] 39 Hình 2.10: Ngữ cảnh con [8] 40 Hình 2.11: Ngữ cảnh lá [8] . 40 Hình 3.1: Biểu đồ Use case tổng thể của hệ thống . 52 Hình 3.2: Biểu đồ tuần tự của hệ thống 53 Hình 3.3: Biểu đồ cộng tác của hệ thống: 54 Hình 3.4: Cấu trúc chương trình . 56 Hình 3.5: Các chức năng của File . 56 Hình 3.6: Các chức năng của Matching 57 Hình 3.7: Xem dạng cây lược đồ XML 58 Hình 4.1: Đối sánh thuật ngữ 59 Hình 4.2: Đối sánh có xét tính tương thích kiểu dữ liệu . 60 Hình 4.3: Đối sánh cấu trúc 61 Hình 4.4: Đối sánh cấu trúc dạng Path . 62 Hình 4.5: Độ tương đồng giữa nút đã hiệu chỉnh . 62 Hình 4.6 Biểu đồ so sánh độ tương đồng thuật ngữ 66 Hình 4.7: Đồ thị lược đồ nguồn sau khi xây dựng ngữ cảnh 68 Hình 4.8: Đồ thị lược đồ đích sau khi xây dựng ngữ cảnh . 68 Hình 4.9: Bảng quan hệ các node của hai lược đồ 69 Hình 4.10: các node tương đồng của hai lược đồ . 70   4 Danh mục từ viết tắt Từ Mô tả Giải nghĩa CSDL Cơ sở dữ liệu XML Extensible Markup Language Ngôn ngữ đánh dấu mở rộng DTD Document Type Definition Định nghĩa kiểu dữ liệu SQL Structured Query Language Ngôn ngữ truy vấn cấu trúc XSD XML Schema Definition Định nghĩa lược đồ XML CSS Cascading Style Sheet Bảng định kiểu EDI Electronic Data Exchange Trao đổi dữ liệu điện tử COMA Combination of Matching algorithms Hệ thống tích hợp các thuật toán đối sánh LSD Learning source description Sử dụng các kỹ thuật học máy để đối sánh một nguồn dữ liệu mới dựa vào một lược đồ tổng thể định nghĩa trước đó SKAT Semantic Knowledge articulation tool Đối sánh dựa trên lược đồ sử dụng các luật RDF Resource Description Framework Khung mô tả các tài nguyên   5   !"#$% &'()* (+  , )-( .(/  $ /0123 45,*(6 - 7 (8196+&:1';, <33 =>(<4?'@+A"",B B,C -)1! -+1&$<+C$D+$+ $E3>4F&:9/*G1)A""C3&:&81 $+6 9/* @3H!I 7'@JK(@G11 G(-1;&L4 M B+N""" /1 1 "OG&1C-P,C 1;G181'3H361QG1)R"4S1 71T1;61Q3 UG1BV% - R",W)-G1B(4X=:3(> V@+ -(,63(&:1.'/ 1+Y *-(G1/&4?)3@+WW@/:1 G/ 1  +Y*>/&3:.IC G4F(>6 @3>VCWZ3:. 81B% 5R"+.>U% A""3+ ,@&:1)5181 *3&:1B6U3HG14 F&:32BBC)81 $4?B" 9613:D>-3% @H G1+3((71)4 F()1@+B"*)51+.33 -*9 '* +6D[ O\6 3.'12@'*+T U4 O4   6 ]@5(E3>9/*G1) R"4^6 '7'[  _^  -DG  4  _7132+ ' 2@ D3( 14 ^9B`D 1[ Da[^4 ?DBZ(13:+5%  3-,!B>4 DAA[4 ?DBZ97B3&:[9@ +* 912G3&1I+4 DAAA[.*94 ODB9B3:.6'126  b +H9 -DI% 7Tb +c-D%  7   -D% b4 ^B(71)7W634 DAF[ J3  O3,>6W)1,: 4  O^  /*81'D4  O^*9 ,!B>4 \*81'% D9B @6663GE 3>@5>*H+1B6UG1d   7   Trong chương này ta tổng hợp lại các kết quả nghiên cứu điển hình về vấn đề đối sánh lược đồ. Trước hết ta trình bày các khái niệm cơ bản cũng như các lĩnh vực ứng dụng điển hình của đối sánh lược đồ. Như ta sẽ thấy, các lĩnh vực này là rất phong phú, cho thấy tầm quan trọng của bài toán đối sánh lược đồ. Tiếp theo ta mô tả các tiếp cận đối sánh cơ bản và các phương pháp đối sánh thông dụng hiện nay. Dựa trên các khảo sát về đối sánh lược đồ cũng như một số nghiên cứu gần đây, ta tiến hành phân tích và so sánh các tiếp cận này. Như ta sẽ thấy, các giải pháp đối sánh thường kết hợp nhiều phương pháp khác nhau để tăng tính hiệu quả cho tiến trình đối sánh. Trong chương này ta cũng mô tả một số hệ thống đối sánh lược đồ điển hình đã được thực hiện, đánh giá và so sánh các thuật toán được sử dụng trong các hệ thống này. Từ các đánh giá đó ta nêu ra các hạn chế cơ bản của các thuật toán này, đặc biệt là trong vấn đề chuyển đổi dữ liệu. Cuối cùng, trên cơ sở các phân tích trên, ta sẽ chứng tỏ rằng các thuật toán đối sánh lược đồ hiện tại cần được phát triển và hoàn thiện thêm nhằm giải quyết vấn đề tự động hóa tiến trình đối sánh lược đồ một cách có hiệu quả nhất .  Đối sánh lược đồ là quá trình thao tác trên các lược đồ với đầu vào là hai lược đồ không đồng nhất và có thể có thêm thông tin phụ, trả về một tập các ánh xạ cho biết sự liên quan ngữ nghĩa giữa các phần tử lược đồ . Trong thực tế, đối sánh lược đồ thường được thực hiện bằng tay với sự hỗ trợ của các công cụ đồ họa. Quá trình này thường tốn thời gian và dễ gây lỗi, bởi vậy đã có nhiều nghiên cứu được tiến hành nhằm tự động hóa tiến trình đối sánh lược đồ. Tuy nhiên đây là một vấn đề khó và phức tạp do một số lý do cơ bản sau: ^ Các phần tử lược đồ được đối sánh trên cơ sở ngữ nghĩa của chúng. Ngữ nghĩa có thể được thể hiện từ một số nguồn thông tin như người thiết kế, tài liệu, lược đồ và thể hiện dữ liệu. Thực tế cho thấy người thiết kế rất khó để nhớ được tất cả chi tiết lược đồ và tài liệu hiện có thì thường không chính xác, không được cập nhật và không thể truy cập. Do đó tiến trình đối sánh lược đồ thường dựa hoàn toàn trên thông tin lược đồ và thể hiện dữ liệu.   8 ^ Các lược đồ đã phát triển cho các ứng dụng khác nhau thì thường không đồng nhất, tức là mặc dù dữ liệu chúng mô tả là tương đồng về ngữ nghĩa nhưng cấu trúc và cú pháp sử dụng lại có thể tương đối khác nhau. ^ Để giải quyết các xung đột ngữ nghĩa và lược đồ, đối sánh lược đồ thường dựa trên tên phần tử, kiểu dữ liệu phần tử, các định nghĩa cấu trúc, các ràng buộc toàn vẹn và các giá trị dữ liệu. Tuy vậy, các thông tin này thường không chắc chắn và không đầy đủ. ^ Ánh xạ đơn giản nhất là ánh xạ một^một, nối kết một phần tử lược đồ nguồn trực tiếp tới một phần tử lược đồ đích. Tuy vậy trong thực tế, một phần tử trong lược đồ này có thể tương ứng với nhiều phần tử trong lược đồ khác bằng cách áp dụng một hoặc một vài phép toán (ví dụ phần tử đích “S "” tương ứng với ghép nối của hai phần tử nguồn “eS "” và “ S "”) ^ Trong thực tế quá trình đối sánh lược đồ không thể thực hiện tự động được hoàn toàn, do vậy đòi hỏi phải có sự can thiệp của người dùng. Từ đó có thể thấy một điều quan trọng là quá trình đối sánh không chỉ cần tự động đến mức có thể mà còn phải nhận biết được khi nào đầu vào người dùng là cần thiết và đầu vào đó phải được khai thác một cách hiệu quả nhất.  !!! Dù sử dụng các tiếp cận trên cơ sở luật hay trên cơ sở học, tất cả các công cụ đối sánh đều khai thác tên phần tử, kiểu dữ liệu, các ràng buộc và định nghĩa cấu trúc. Trên cơ sở xem xét các dự án đã thực hiện và các khảo sát về vấn đề đối sánh lược đồ ta có thể phân chia các phương pháp đối sánh lược đồ thành ba loại: đối sánh ngôn ngữ, đối sánh trên cơ sở ràng buộc và đối sánh cấu trúc. Các công cụ đối sánh lược đồ thường kết hợp các phương pháp này để thực hiện quá trình đối sánh. * Đối sánh ngôn ngữ Đối sánh ngôn ngữ về cơ bản dựa trên tên các thành phần lược đồ để tìm kiếm đối sánh giữa các lược đồ. Để làm việc, đối sánh ngôn ngữ thường yêu cầu sử dụng tên mô tả. Sự tương đồng của tên được đo theo nhiều cách khác nhau như đo sự bằng nhau của tên, sự bằng nhau của biểu diễn tên hợp quy tắc sau khi phân luồng và các xử lý khác, sự tương đồng của tên dựa trên các dãy con chung, khoảng cách soạn thảo…, hay còn gọi là so sánh cú pháp. Việc sử dụng phương pháp đối sánh ngôn ngữ có thể đưa đến những đối sánh không chính xác về mặt ngữ nghĩa. Ví dụ hai phần tử cùng tên có thể biểu diễn các khái niệm hoàn toàn khác nhau hoặc ngược lại, hai phần tử có tên không giống nhau song lại có thể biểu diễn ngữ nghĩa tương đồng. Hơn nữa đối sánh ngôn ngữ còn phải đối phó với các trường hợp đặc biệt như sử dụng chữ viết tắt, chữ rút gọn (là từ gồm những chữ cái đầu của các từ), tên có giới từ hay mạo từ, v.v Tuy còn tồn tại các vấn đề trên, đối sánh ngôn   9 ngữ lại khá dễ thực hiện và có thể cho một ánh xạ ban đầu, sau đó ta có thể xác nhận hoặc hủy bỏ bằng các phương pháp đối sánh khác * Đối sánh dựa trên ràng buộc Các ràng buộc lược đồ (nếu chúng là các tập thích đáng) có thể cho một dấu hiệu đáng quan tâm về cách đối sánh các phần tử lược đồdo đó giảm nhẹ số lượng các ứng viên đối sánh (thu được từ phương pháp đối sánh ngôn ngữ). Các ràng buộc lược đồ bao gồm kiểu dữ liệu, phạm vi giá trị, các ràng buộc đơn nhất và toàn vẹn, v.v Như ta biết, các khuyến nghị lược đồ thường cung cấp một tập các kiểu dữ liệu nguyên gốc, do vậy việc phân tích các kiểu dữ liệu này có thể cung cấp cho ta các ứng viên đối sánh. Một ví dụ về hệ thống sử dụng tính tương thích kiểu dữ liệu là Cupid [11]. Việc so sánh phạm vi giá trị số và/hoặc mẫu ký tự cũng có thể có ích trong việc suy ra các ứng viên đối sánh này, ví dụ chúng có thể cho phép nhận biết số điện thoại, mã bưu điện và địa chỉ. Vấn đề nảy sinh trong việc sử dụng kiểu dữ liệu là khi chúng không đủ rõ ràng (ví dụ một trường đã được khai báo như một số nguyên lại được khai báo như một xâu). * Đối sánh cấu trúc Đối sánh cấu trúc được sử dụng để hiệu chỉnh các đối sánh chưa chính xác từ các pha đối sánh không đầy đủ. Tuy vậy, cho đến nay rất ít nghiên cứu về đối sánh lược đồ quan tâm đến cấu trúc của XML, vì đây phần lớn là các nghiên cứu trong lĩnh vực CSDL và chỉ quan tâm đến lược đồ quan hệ. Các hệ thống Cupid và Similarity Flooding đã đưa ra khái niệm độ tương đồng ngữ cảnh, tuy vậy không có hệ thống nào trong số chúng xét đến cả ba loại ngữ cảnh: Cupid chỉ sử dụng độ tương đồng ngữ cảnh lá và SF chỉ sử dụng độ tương đồng ngữ cảnh con. Có tác giả cũng đã đưa ra các phép đo độ tương đồng ngữ cảnh, nhưng họ chỉ quan tâm đến các DTD mà không phải là các lược đồ XML, ngoài ra họ cũng chỉ xét ngữ cảnh con và ngữ cảnh lá. Và có tác fiar lại quan tâm đến xét độ tương đồng cấu trúc dựa trên quan hệ tổ tiên và con cháu giữa các phần tử lược đồ, tuy vậy họ chỉ quan tâm đến vấn đề thay đổi phiên bản giữa các tài liệu XML, điều này nghĩa là các tài liệu nguồn và đích có độ tương đồng cao, là một giả thiết không có giá trị lắm trong đối sánh lược đồ.  "#$%& * Tích hợp lược đồ, tích hợp dữ liệu Đối sánh lược đồ rất quan trọng, nó được sử dụng rất nhiều vào các bài toán lớn và quan trọng, một trong số đó là tích hợp lược đồ. Tích hợp lược đồ là một trong những mục tiêu quan trọng nhất của bài toán đối sánh lược đồ. Vấn đề này đã được nghiên cứu từ đầu những năm 80, nó xuất hiện khi người ta cần xây dựng một hệ thống cơ sở dữ liệu bao gồm một vài hệ thống cơ sở dữ liệu khác nhau và thiết kế lược đồ của cơ sở dữ liệu   10 đó từ các lược đồ địa phương. Trong ngữ cảnh của trí tuệ nhân tạo hoặc Web ngữ nghĩa, tích hợp lược đồ tương đương với bài toán trộn các ontology được phát triển độc lập để xây dựng một cở sở tri thức tích hợp. '(')!#*+!,#-(./01234 Hình 1^3 minh họa cho hệ thống tích hợp dữ liệu văn bản để trợ giúp người dùng tìm được văn bản cần thiết. Với truy vấn người dùng tới lược đồ trung gian (Mediated schema), hệ thống sẽ sử dụng tập các ánh xạ ngữ nghĩa giữa lược đồ trung gian và các lược đồ địa phương của nguồn dữ liệu để chuyển đổi thành truy vấn trên các nguồn dữ liệu. Sau khi thực hiện truy vấn trên các nguồn dữ liệu sẽ tổng hợp kết quả và trả lại cho người dùng. Các ứng dụng chia sẽ dữ liệu theo kiểu này đang xuất hiện rất nhiều trong các lĩnh vực hiện nay như thương mại điện tử, sinh học …Internet đã mang lại hàng triệu nguồn dữ liệu và cần phải tạo khả năng chia sẻ dữ liệu giữa chúng. * Thương mại điện tử Với sự phổ biến của Internet hiện nay, các công ty kinh doanh ngày càng phải quản lý các giao dịch online của họ như trao đổi thông tin, đặt hàng, xác nhận và thanh toán. Các giao dịch này là quá trình trao đổi các tài liệu hay thông điệp (messages) giữa các công ty. Thường thì mỗi một công ty phát triển một ứng dụng với một định dạng messages khác nhau như EDI (Electronic Data Exchange), XML hoặc bất kỳ định dạng nào. Để hệ thống trao đổi được các messages đó, các ứng dụng cần phải chuyển đổi được các thông điệp từ định dạng này sang định dạng khác. Điều này chính là động lực cho bài toán đối sánh lược đồ phát triển để chuyển đổi các thông điệp. * Web ngữ nghĩa Tốc độ phát triển của Internet nhanh như hiện nay với lượng thông tin khổng lồ khiến chúng ta rất khó khai thác và sử dụng hiệu quả. Bởi vì các thông tin trên Web hiện nay . 14 Chương 2: Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML 16 2.1 XML và lược đồ XML . vấn đề đối sánh lược đồ ta có thể phân chia các phương pháp đối sánh lược đồ thành ba loại: đối sánh ngôn ngữ, đối sánh trên cơ sở ràng buộc và đối sánh

Ngày đăng: 14/12/2013, 15:05

HÌNH ẢNH LIÊN QUAN

Hình 1.1:  H  th ng tích h p d* li u giúp ngư,i dùng tìm văn b1n[8] - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 1.1 H th ng tích h p d* li u giúp ngư,i dùng tìm văn b1n[8] (Trang 10)
Hình 2.2: Sơ đ  c%a WordNet đ i v i các danh tQ trQu tư ng Trừu tượng - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 2.2 Sơ đ c%a WordNet đ i v i các danh tQ trQu tư ng Trừu tượng (Trang 27)
Hình 2.4:  Cây phân cFp ng* nghĩa c%a nhánh thing, entity - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 2.4 Cây phân cFp ng* nghĩa c%a nhánh thing, entity (Trang 28)
Hình 2.3 Sơ đ  c%a WordNet đ i v i các danh tQ chT các đUc điVm tâm lý - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 2.3 Sơ đ c%a WordNet đ i v i các danh tQ chT các đUc điVm tâm lý (Trang 28)
Hình 2.5:  Quan h  b&gt; ph\n và toàn thV - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 2.5 Quan h b&gt; ph\n và toàn thV (Trang 29)
Hình 2.6:  Phân loIi các quan h  ng* nghĩa trong WordNet [8] - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 2.6 Phân loIi các quan h ng* nghĩa trong WordNet [8] (Trang 31)
Hình 2.7: Ví d$ đ  thH lư c đ  XML ngu n [8] - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 2.7 Ví d$ đ thH lư c đ XML ngu n [8] (Trang 33)
Hình 2.8: Ví d$ đ  thH lư c đ  XML đích [8] - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 2.8 Ví d$ đ thH lư c đ XML đích [8] (Trang 34)
Hình 2.9: Ng* c1nh td tiên [8] - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 2.9 Ng* c1nh td tiên [8] (Trang 39)
Hình 2.10: Ng* c1nh con [8] - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 2.10 Ng* c1nh con [8] (Trang 40)
Hình 3.1: BiVu đ  Use case tdng thV c%a h  th ng - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 3.1 BiVu đ Use case tdng thV c%a h th ng (Trang 52)
Hình 3.2: BiVu đ  tuln tm c%a h  th ng - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 3.2 BiVu đ tuln tm c%a h th ng (Trang 53)
Hình 3.3:  BiVu đ  c&gt;ng tác c%a h  th ng: - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 3.3 BiVu đ c&gt;ng tác c%a h th ng: (Trang 54)
Hình 3.5: Các ch&#34;c năng c%a File  + Source: Nạp lược đồ nguồn. - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 3.5 Các ch&#34;c năng c%a File + Source: Nạp lược đồ nguồn (Trang 56)
Hình 3.4: CFu trúc chương trình - Áp dụng đối sánh lược đồ trong bài toán phân cụm lược đồ XML
Hình 3.4 CFu trúc chương trình (Trang 56)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w