Các hệ thống đối sánh lược đồ

2.4.5.1. SEMINT

Tích hợp ngữ nghĩa [12, 13] theo SEMINT là một hệ thống dựa trên người học có sử dụng các mạng nơ ron để xác định các thuộc tính tương tự từ các lược đồ khác nhau. Hệ thống này sử dụng sự kết hợp của thông tin lược đồ và thông tin thể hiện. Thông tin lược đồ bao gồm các thông tin như kiểu dữ liệu, độ dài trường và thông tin nén. Thông tin thể hiện bao gồm các thông tin như phân phối giá trị, tỷ lệ ký tự, trung bình và phương sai số học.

Đối với mỗi loại thông tin mà hệ thống khai thác, nó xác định giá trị số trong khoảng [0,1]. Một bộ các giá trị số cho một thuộc tính là ký số của thuộc tính. Hệ thống sử dụng các ký số này để nhóm các thuộc tính tương tự bên trong lược đồ đó. Sau đó, hệ thống sử dụng các ký số của tâm cụm để huấn luyện mạng nơ ron nhằm tạo ra một loại thuộc tính dựa trên ký số nhập. Với một lược đồ mới, hệ thống xác định ký số của mỗi thuộc tính lược đồ sử dụng cùng loại kiểu lược đồ và thông tin đối tượng dùng cho việc chuỗi hóa. Tiếp theo, sử dụng những ký số này cho mạng nơ ron để xác định loại các thuộc tính tương ứng.

Như vậy, SEMINT là hệ thống đối sánh lược đồ ở mức thể hiện. Nó gồm 15 tiêu chuẩn dựa trên ràng buộc và 5 tiêu chuẩn dựa trên nội dung được hình thành từ các bản ghi dữ liệu và được chuẩn hóa trong khoảng [0,1], mỗi thuộc tính là một điểm trong một không gian 20 chiều. SEMINT không hỗ trợđối sánh dựa trên ngôn ngữ.

2.4.5.2. LSD

LSD (Learning Source Description) sử dụng phương pháp composite để kết hợp các thuật toán đối sánh khác nhau. Nó dựa trên miền cụ thể của lược đồ tổng thể để so sánh với các lược đồ mới được đối sánh. Học máy (machine learning) được sử dụng cho các thuật toán độc lập và kết hợp với các kết quả. Đối với đối sánh cho thuộc tính tên, LSD sử dụng phương pháp đối sánh ở mức dữ liệu.

2.4.5.3. SKAT

SKAT (Sematic Knowledge Articulation Tool) thực hiện đối sánh dựa trên lược đồ sử dụng các luật. Các luật là biểu thức trong logic vị từđể thể hiện các quan hệ tương đương, không tương đương và các hàm được định nghĩa để sinh ra các luật đối sánh mới.

2.4.5.4. TransScm

TransScm sử dụng phương pháp đối sánh dựa trên lược đồđể thực hiện việc chuyển đổi dữ liệu. Lược đồđầu vào (DTD hoặc OODB) được biểu diễn dưới dạng

đồ thị. Các luật được xây dựng bởi người quản trị được áp dụng vào các node của đồ thị. Quá trình đối sánh được thực hiện theo mô hình top-down và đối sánh từng node một với nhau với quy luật là các node cha sẽ cần kết quả đối sánh của các node con.

- Tựđộng chuyển đổi dữ liệu giữa các lược đồ thể hiện.

- Các lược đồđầu vào được biểu diễn như các đồ thị gán nhãn. 2.4.5.5. DIKE

Hệ thống DIKE tích hợp nhiều lược đồ quan hệ bằng cách khai thác yếu tố tương tự giữa hai phần tử của lược đồ phụ thuộc vào sự tương tự của các phần tử hàng xóm. Đây là hệ thống đối sánh dựa trên cấu trúc, đối sánh từng cặp của các phần tử đầu vào. Số cạnh của đường dẫn ngắn nhất giữa các phần tửđược sử dụng như khoảng cách để xác định các phần tử liên quan.

2.4.5.6. Artemis

Hệ thống Artemis [7] là một phương pháp tiếp cận căn cứ trên quy luật để tích hợp lược đồ. Hệ thống sẽ xác định sự giống nhau về cấu trúc của các thuộc tính từ hai lược đồ trong một cấu trúc theo cặp. Sự giống nhau về cấu trúc dựa trên việc so sánh các tên, cấu trúc, kiểu miền thuộc tính và được đánh giá trong khoảng [0,1]. Quá trình này phụ thuộc vào việc xác định mối quan hệ ngữ nghĩa. Hệ thống này sử dụng việc phân cụm để phân cấp dựa trên các giá trị giống nhau về cấu trúc để nhóm các thuộc tính liên quan với nhau. Cuối cùng, sử dụng một bộ quy luật thống nhất được dùng để hướng dẫn người sử dụng một cách tương tácthông qua việc xây dựng một tích hợp lược đồ.

2.4.5.7. SIMILARITY FLOODING

SIMILARITY FLOODING [18] chuyển đổi các lược đồ (Rational, RDF, XML) vào trong một đồ thị gán nhãn và vận dụng việc tính toán theo kiểu điểm bất động (fix-point) để xác định tương ứng 1:1 địa phương và m:n bản số toàn cục giữa các node của đồ thị. Thuật toán đã sử dụng kết hợp một đối sánh lai hybrid với một

bộ đối sánh đơn giản, gợi ra một ánh xạ mức phần tử ban đầu để cung cấp cho bộ đối sánh SIMILARITY FLOODING có cấu trúc. Không giống các phương pháp đối sánh dựa trên lược đồ khác, SIMILARITY FLOODING không khai thác các quan hệ thuật ngữ trong từ điển ngoài như (synonyn, wordnet, …) mà chỉ dựa vào sự tương tự xâu giữa các tên phần tử. Thuật toán chính được sử dụng trong SIMILARITY FLOODING là đối sánh dựa trên cấu trúc.

2.4.5.8. CUPID

Cupid là hệ thống đối sánh lai (hybrid) bao gồm kỹ thuật đối sánh ở mức ngôn ngữ và cấu trúc. Thuật toán đối sánh lược đồ ánh xạ giữa các phần tử của lược đồ dựa trên tên, kiểu dữ liệu, các ràng buộc, cấu trúc của lược đồ và sự trợ giúp của từ điển đồng nghĩa. Cupid nhằm vào việc tính toán hệ số tương tự giữa các phần tử của hai lược đồ và đưa ra sự ánh xạ từ các hệ số này.

- Tựđộng đối sánh dựa trên ngôn ngữ. - Đối sánh dựa trên cả phần tử và cấu trúc.

- Hướng tới sự tương tự của các phần tử nguyên tố (ví dụ như các lá), vì vậy ngữ nghĩa của lược đồ sẽđược thu nhận nhiều hơn.

- Khai thác các khóa, các ràng buộc và các view.

Đối sánh mức ngôn ngữ sẽ so sánh các phần tử của lược đồ một cách độc lập dựa trên tên, kiểu dữ liệu, lĩnh vực, … Sử dụng một từ điển gần nghĩa (thesaurus) để trợ giúp việc so sánh các tên bằng cách xác định các từ rút gọn, các từ viết tắt, các từđồng nghĩa.

Đối sánh ngôn ngữ trong Cupid được chia thành ba bước sau:

1. Chuẩn hóa (Normalization): Trong bước này chúng ta chuẩn hóa phần tử, phân tích phần tử bằng cách tokenization (phân tích các tên thành các token dựa vào dấu chấm câu, chữ hoa, chữ thường …). Trong bước này sử dụng từđiển gần nghĩa.

2. Phân loại theo các phần tử (Categorization): Các phần tử của lược đồ được phân loại thành các nhóm khác nhau, sự phân loại này được dựa trên kiểu của dữ liệu, tên thuộc tính. Một phần tử có thể thuộc nhiều loại.

3. So sánh (Comparison): Trong bước này sẽ tính toán một hệ số gọi là hệ số tương tự về ngôn ngữ giữa các phần tử (lingustics similarity-ls). Kết quả của bước này là hệ số lsim của các phần tử giữa hai lược đồ. Hệ số lsim nằm trong khoảng [0,1]. Nếu lsim=1 thì hai phần tử hoàn toàn tương đương nhau.

Để so sánh độ tương tự của hai chuỗi đầu vào dựa trên phân tích token, Cupid sử dụng các công thức sau:

Công thức 1:Cupid , hệ số tương tự của hai tập hợp

ns(T1,T2)= 2 1 2 1 1 1 2 2 2 1 2 2 1 1 max( )* ( , ) max( )* ( , ) T T t t sim T t T t t t sim T t T t + ∈ ∈ + ∈ ∈ ∑ ∑

Trong đó: Các thuộc tính được phân tích thành các từ (word) hay token, ta có một tập các token để biểu diễn các phần tử của lược đồ.

1. Chọn một token từ phần tử thứ nhất.

2. Tìm kiếm token giống nhất với token đã cho. 3. Thực hiện 1) và 2) cho phần tử thứ 2.

4. Chuẩn hóa hai tổng với tổng số token của phần tử thứ nhất và thứ hai.

Công thức 2: Cupid, đánh giá theo category

Trong đó: w1…w2 là hệ sốưu tiên theo category với ∑w1 =1. Ns(A1,A2) = ∑ . ( 1, 2 ) ∈TokenType i i i ins T T w

Công thức 3: Cupid, công thức hệ số tương tự giữa hai thuộc tính lsim

Lsim(A1, A2) = ns (A1, A2). C T T ns ∈ 2 1, max (T1,T2)

Công thức này là công thức cho kết quả cuối cùng của đối sánh lược đồ dựa trên ngôn ngữ.

Kiến trúc tích hợ p

Đối sánh mức lược đồ (Schema-level matchers)