Tỷ số khả năng (Likelihood ratio)

Tỷ số khả năng cho giá trị v và thuộc tính A được xác định là

P(v|A)/P(v|¬A),đo hỗ trợhồi cứu (retrospective) đến A với sự xuất hiện của v [21]. Tỷ số khả năng tạo ra các trọng số trên khoảng (0,∞). Nó có giá trị là 1 nếu đặc tính không hỗ trợ. Tỷ số khả năng lớn hơn 1 cho thấy có đặc trưng hỗ trợ A; tỷ số khả năng nhỏ hơn 1 cho thấy có đặc trưng hỗ trợ¬A.

Đối với nhiệm vụ sắp tới, muốn giữ lại các đặc trưng mang lại nhiều hỗ trợ nhất bất kể chúng thiên về A hoặc ¬A. Các đặc trưng thiên về A ở trong khoảng

(1,∞) với các giá trị cao hơn cho thấy sự hỗ trợ lớn hơn, trái lại các đặc trưng thiên về ¬A nằm trong khoảng (0, 1) với các giá trị thấp hơn cho thấy sự hỗ trợ lớn hơn. Do đó, khó sử dụng tỷ số khả năng nhưđã xác định bởi vì không nhất thiết trọng số cao hơn mới là tốt hơn. Vì lý do này, sử dụng điều chỉnh đảo các tỷ số khả năng hỗ trợ ¬A, đặt chúng trên quy mô tương tự như tỷ số khả năng hỗ trợ A, sau đó lựa chọn hỗ trợ mạnh hơn: LR(v,A) ⎪⎩ ⎪ ⎨ ⎧ ⎭ ⎬ ⎫ ¬ ¬ = ) ( ) ( , ) ( ) ( max A v P A v P A v P A v P . (3.22)

Chiến lược này tạo ra các trọng số trong khoảng (1,∞) và điểm cao hơn là luôn tốt hơn.

3.4. Tổng kết chương

Chương 3 trình bày về lý thuyết Bayes và phương pháp đối sánh lược đồ sử sử dụng học máy Bayes (Automatch), lựa chọn đặc trưng thống kê và thuật toán mạng lưu lượng tối đa chi phí tối thiểu để tìm ra đối sánh tối ưu của các thuộc tính giữa hai lược đồ có liên quan về mặt ngữ nghĩa.

Kết quả và những đóng góp quan trọng trong phương pháp này là:

- Hệ thống Automatch là phương pháp tiếp cận mới và khả thi để loại bỏ nút cổ chai đối sánh lược đồ hiện tồn tại trong các ứng dụng cơ sở dữ liệu hiện đại.

- Có thể sử dụng lựa chọn đặc trưng thống kê để cải thiện hiệu suất của Automatch. Sự cải thiện thể hiện trong ba lĩnh vực: (1) trong yêu cầulưu trữ các cơ sở tri thức phụ trợ, (2) trong tính toán chi phí của thuật toán đối sánh và (3) trong

chất lượng (chất lượng và sự hoàn chỉnh). Ước tính rằng có thể sử dụng lựa chọn đặc trưng thống kê để cải thiện hiệu suất của các phương pháp đối sánh lược đồ tự động khác.

- Học sau lựa chọn đặc trưng bao gồm việc chuẩn hóa các xác suất của những đặc trưng còn lại. Ngược lại, các phương pháp tự học khác của máy (ví dụ như các mạng trung gian, quy luật người học, …) phải triển khai các thuật toán học tương ứng của chúng sau khi hoàn chỉnh lựa chọn đặc trưng.

Automatch là hệ thống có thể học liên tục. Khi cung cấp các đối sánh mới qua giao diện sử dụng, người học có thể kết hợp thông tin này với thông tin vừa học. Đây thực sự là sự khác biệt vì không cần triển khai lại toàn bộ thuật toán học. Có thể học liên tục như vậy là nhờ vào bản chất thống kê của thuật toán học. Khi người dùng xác nhận các đối sánh mới, có thể học từ những ví dụ bổ sung này bằng cách cập nhật đếm tần số của các đặc tính.

Chương 4

TÍCH HỢP LƯỢC ĐỒ DỰA TRÊN

ÁNH XẠ NGỮ NGHĨA KHÔNG CHẮC CHẮN

4.1. Phương pháp tiếp cận

Như đã trình bày trong chương 1, tích hợp lược đồ bao gồm bốn bước cơ bản: Tiền tích hợp, đối sánh lược đồ, xử lý các xung đột, trộn và tái cấu trúc. Trong đó bước tiền tích hợp xác định chiến lược tích hợp. Đối sánh lược đồ là nhận dạng sự tương ứng hoặc ánh xạ để làm rõ sự giống nhau và phát hiện những xung đột giữa các đối tượng lược đồ tích hợp. Xử lý các xung đột giải quyết các xung đột đã được phát hiện ở bước đối sánh. Trộn và tái cấu trúc lược đồ là tạo ra một lược đồ thống nhất dựa trên các ánh xạ đồng nhất bằng cách sắp xếp lại những lược đồ đã được xử lý xung đột và xây dựng lược đồ kết quả.

Các phương pháp đối sánh lược đồ tựđộng thường không chắc chắn vì ngữ nghĩa của các đối tượng lược đồ không thểđược đưa ra đầy đủ từ thông tin dữ liệu và siêu dữ liệu. Tính không chắc chắn trong các ánh xạ đồng nhất được biểu diễn trong quá trình đối sánh lược đồ, lan truyền theo quá trình trộn lược đồ và nó được mô tả trong việc dẫn đến tích hợp lược đồ kết quả.

Có hai phương pháp tiếp cận có quan hệ với nhau đề cập đến tính không chắc chắn trong tích hợp lược đồ và dữ liệu. Trong [11] mô tả một cách tiếp cận để tích hợp các tài liệu XML dựa trên lý thuyết xác suất và nó làm việc với tính không chắc chắn trong các lược đồ mức dữ liệu. Một cách tiếp cận khác nghiên cứu tích hợp lược đồ dựa trên các ánh xạ ngữ nghĩa không chắc chắn. Chương này tập trung vào cách tiếp cận này tức là nghiên cứu tích hợp lược đồ ngữ nghĩa và ánh xạ ngữ nghĩa giữa các đối tượng lược đồ và lý thuyết xác suất chỉ là một trường hợp đặc biệt của tính hình thức được dùng để quản lý tính không chắc chắn.

Ví dụ, xem xét lược đồ S1 và S2 trong hình 4.1. Lược đồ S1 là mô hình nguồn dữ liệu của các sinh viên đại học. Sinh viên đại học đã đăng ký (reg) trong khóa học được dạy (tch) bởi thành viên hội đồng. Lược đồ S2 là mô hình nguồn dữ liệu cho các sinh viên sau đại học, nó cũng đăng ký lựa chọn trong khóa học năm thứ tưđại học để củng cố kiến thức của mình hoặc làm quen với các chủ đề mới. Vì vậy, S1.student và S2.student là rời nhau, trong khi S1.couse là tập con của S2.couse. Hơn nữa, S1.staff và S2.staff là tương đương. Số lượng của quan hệ tch trong hai lược đồ khác nhau, bởi vì không phải tất cả nhóm thành viên hội đồng dạy các môn học năm thứ tư. Các ánh xạ ngữ nghĩa dẫn ra ở trên đưa ra quá trình trộn lược đồ. Chẳng hạn, ánh xạ rời nhau giữa các thực thể sinh viên gây ra các biến đổi lược đồ, đặt lại tên các thực thể để phân biệt chúng, tức là biến đổi thành ug và pg và thêm một thực thể hợp nhất chẳng hạn là sinh viên, nó biểu diễn tập hợp nhất của cả sinh viên đại học và sau đại học. Điều này minh họa trong hình 4.2, trong đó tích hợp lược đồ S12 hoàn thànhđược giới thiệu.

Hình 4.1: Lược đồ S1 và S2: Nguồn dữ liệu sinh viên đại học và sau đại học

4.2. Tích hợp lược đồ dựa trên ánh xạ ngữ nghĩa

4.2.1. Mối quan hệ ngữ nghĩa

Một ánh xạ giữa hai đối tượng lược đồ được cụ thể hóa bằng một quan hệ ngữ nghĩa [22]. Sáu kiểu quan hệ ngữ nghĩa được xác định giữa các đối tượng lược đồ dựa trên việc so sánh tập các miền trị (intentional domains) của chúng, tức là tập hợp các đối tượng thế giới thực mà chúng biểu diễn [22]. Domint (E) được dùng để xác định miền trị của một thực thể ER E. Miền trị của một quan hệ ER nhị nguyên là một tập con của miền Đề-các thuộc về miền trị trong các thực thể mà nó liên kết, ví dụ như trong lược đồ S1, Domint (reg ) Dom int (student) × Dom int (course).

Các mối quan hệ ngữ nghĩa là:

1. Tương đương (equivalence) (=S): Đối tượng lược đồ ER1 là tương đương với ER2, ER1

= ER2 , khi và chỉ khi Dom int (ER1) = Domint (ER2).

2.Giảđịnhtập con (subset- subsumption)(⊂S ): Đối tượng lược đồ ER1 là một giả định tập con của đối tượng lược đồ ER2, ER1

⊂ ER2, khi và chỉ khi Domint (ER1) Domint (ER2).

3. Giả định siêu-tập (superset-subsumtion) (⊃S ): Đối tượng lược đồ ER1 là một giả định siêu tập của đối tượng lược đồ ER2, ER 1 ⊃S ER2, khi và chỉ khi Domint (ER1) Domint (ER2).

4. Giao nhau(intersection) (∩S ): Hai đối tượng lược đồ ER1 và ER2 là giao nhau, ER1 ∩S ER2, khi và chỉ khi ¬ (ER1 ⊂S ER2), ¬ (ER1 ⊃S ER2), Domint (ER1 ) ∩ Domint (ER2) ≠ , ER3: Dom int (ER1) ∩ Domint (ER2) = Domint (ER3).

5. Rời nhau (disjointness) ( ): Hai đối tượng lược đồ ER1 và ER2 là rời nhau, ER1 ER2, khi và chỉ khi Domint(ER1) ∩ Domint(ER2) = , ER3: Domint (ER1)

6. Không tương thích(incompatibility)( ): Hai đối tượng lược đồ ER1 và ER2 là không tương thích, ER1 ER2, khi và chỉ khi Domint (ER1 ) ∩ Domint (ER2) = ,

ER3 : Dom int (ER1) Domint (ER2) Domint (ER3).

Có thể nhận thấy rằng đối tượng ER3 trong định nghĩa của các phép giao và rời nhau có thể có hoặc không tồn tại trong các lược đồ. Ký hiệu ER3: Điều kiện

có nghĩa là có một khái niệm thế giới thực trong miền dữ liệu được quan sát, có thể được đại diện bởi đối tượng lược đồ ER3 tồn tại hay không tồn tại thoả mãn điều kiện này. Ký hiệu ∃/ ER3: Điều kiện trong định nghĩa về sự không tương thích có nghĩa rằng không có khái niệm thế giới thực mà nó có thểđược biểu diễn bằng một đối tượng lược đồ ER3 để thỏa mãn điều kiện cụ thể. Khái niệm tương thích ngữ nghĩa được dùng cho hai đối tượng lược đồ bất kỳ liên quan bởi một quan hệ ngữ nghĩa trên, ngoại trừ quan hệ không tương thích.

Trong đối sánh lược đồ, đồng nhất hóa các mối quan hệ ngữ nghĩa nêu trên được hoàn thành bởi phép so sánh hai chiều. Một nhóm các chuyên gia thực hiện việc khai thác các dạng thông tin khác nhau để so sánh các đối tượng lược đồ, chẳng hạn như tên đối tượng lược đồ, mối quan hệ số lượng các phần tử, số liệu thống kê về mẫu, kiểu dữ liệu, miền và độ dài giá trị. Các chuyên gia đưa ra các cấp tương tự được tổng hợp và các mối quan hệ ngữ nghĩa giữa các đối tượng lược đồ được cụ thể hóa với sự bổ trợ của ngưỡng được xác định bởi người dùng. Ví dụ, so sánh các lược đồ S1 và S2 trong hình 4.1 có thểđưa ra các ánh xạ ngữ nghĩa sau đây:

Sự tạo sinh của lược đồ S12 trong hình 4.2 được dựa trên các ánh xạ này. Tuy nhiên, có thể không chắc chắn rằng các ánh xạ trên là đúng, như vậy tồn tại các lược đồ tích hợp thay thế lẫn nhau.

4.2.2. Trộn lược đồ

Theo [23], trộn các lược đồ dựa trên các ánh xạ ngữ nghĩa được cụ thể hóa giữa các đối tượng lược đồ của chúng. Quy tắc chuẩn đã được xác định tạo nên cả hai khung nhìn (both-as-view) (BAV) biến đổi lược đồ [17] và trộn hai lược đồ. Việc áp dụng ba nguyên tắc đó trên thực thể E1 và E2được minh họa trong hình 4.3.

Hình 4.3: Các lược đồ tích hợp từng phần: Thực thể ER giảđịnh, giao nhau, rời nhau

Hình 4.3(a) minh họa tích hợp lược đồ từng phần (bởi vì nó chỉ là một phần của lược đồ tích hợp cuối cùng) được tạo ra khi quan hệ giả định (subsumption) được xác định giữa hai thực thể ER, ví dụ như quan hệ giảđịnh siêu tập (superset- subsumption) đồng nhất giữa các thực thể môn học trong S1 và môn học trong S2.

Hình 4.3(b) minh họa tích hợp lược đồ từng phần được tạo ra khi một mối quan hệ giao nhau được đồng nhất giữa hai thực thể và hình 4.3(c) cho thấy tích hợp lược đồ từng phần được tạo ra khi mối quan hệ rời nhau được xác định giữa hai thực thể, ví dụ như hai thực thể sinh viên trong S1 và S2.

4.3. Tích hợp lược đồ không chắc chắn

4.3.1. Mối quan hệ ngữ nghĩa không chắc chắn

Một ánh xạ ngữ nghĩa không chắc chắn là sự phân phối về độ tin cậy (beliefs) trên tập tất cả các quan hệ ngữ nghĩa có thể có. Độ tin cậy được biểu diễn bằng hàm tin cậy Shafer [24]. Hàm Shafer có thể dùng để biểu diễn tính không chắc chắn hiện nay trong đối sánh lược đồ (như minh họa trong các ví dụ sau).

Khái niệm cơ bản của lý thuyết Shafer là một hàm được gọi là hàm gán xác suất cơ bản (BPA), gán một khối lượng xác suất cho một biến cố có thể. Tập hợp tất cả các biến cố có thểđược gọi là khung suy xét (frame of discernment) và nó biểu diễn bằng Θ. Trong trường hợp này, Θ là tập hợp các quan hệ ngữ nghĩa được xác định tại mục 4.2, tức là { , , , , , }. Các biến cố có thể tương ứng với các tập con của Θ. Chẳng hạn, tập hợp { , } biểu diễn biến cố “quan hệ ngữ nghĩa đúng hoặc là tương đương hoặc là giao nhau” và m ({ , }) là khối lượng xác suất hỗ trợ giảđịnh chính xác cho biến cố này.

Định nghĩa 1 (Gán xác suất cơ bản (BPA)).

Một hàm m: 2Θ → [0, 1] được gọi là gán xác suất cơ bản khi: - m(φ)=0

- ∑A⊆Θm(A)=1

Từ hàm BPA, có thể tính toán độ tin cậy (Belief) và đáng tin cậy (Plausibility) của bất kỳ tập con A của Θ. Bel(A) ∑ ⊆ = A B B m( ) (4.1) PI(A) ∑ ≠ ∩ Θ ⊆ = φ A B B B m , ) ( (4.2)

Độ tin cậy trong A là tổng của tất cả khối lượng xác suất được gán cho các tập con của A. Ví dụ, cho A là tập ( , ). Nếu gán một khối lượng xác suất cho tập ( ) sẽ làm tăng độ tin cậy trong các biến cố có chứa trong nó. Trong thực tế, có một vài chứng cứ hỗ trợ cho biến cố "quan hệ ngữ nghĩa đúng là tương đương", cùng một chứng cứ tăng độ tin cậy cũng trong trường hợp "quan hệ ngữ nghĩa đúng hoặc là tương đương hoặc là không tương thích". Đáng tin cậy của A = ( , ) là tổng của tất cả các khối lượng xác suất tương thích với ( , ). Ví dụ, một khối lượng xác suất nào đấy đã được gán ( , ) thì A là đáng tin cậy, không làm tăng độ tin cậy trong nó,

bởi vì mối quan hệđúng có thể là rời nhau. Những định nghĩa có thể được dùng để định nghĩa một cách hình thức một USR:

Định nghĩa 2 (Mối quan hệ ngữ nghĩa không chắc chắn (USR)).

Mối quan hệ ngữ nghĩa không chắc chắn giữa hai đối tượng lược đồ A và B là một cặp (Θ, m), trong đó Θ = { , , , , , } và m là một BPA.

Có thể trình bày các kiểu chính của USRs bằng các ví dụ sau đây, để chỉ ra rằng lý thuyết của Shafer là đủ để biểu diễn cho tất cả các USRs có thể được tìm thấy trong tích hợp lược đồ.

Ví dụ 1 (Mối quan hệ chắc chắn).

Một mối quan hệ ngữ nghĩa chắc chắn là một trường hợp đặc biệt của USR, trong đó tất cả các khối lượng xác suất được gán cho mỗi mối quan hệ ngữ nghĩa đơn. Ví dụ, một BPA m ({ }) = 1 có nghĩa là chắc chắn rằng mối quan hệđúng là tương đương.

Ví dụ 2 (Mối quan hệ xác suất).

Có thể dùng m để gán xác suất cho quan hệ thay thế nhau. Một BPA m({ })= 0.4, m ({ }) = 0.6 có nghĩa là xác suất rời nhau là 0.4, trong khi xác suất không tương thích là 0.6.

Ví dụ 3 (Mối quan hệ không cụ thể).

Trong nhiều trường hợp, chỉ có thể hạn chếΘ, tức là để loại trừ một số mối quan hệ. Nếu biết hai đối tượng không tương đương và mối quan hệ ngữ nghĩa thứ nhất không thể là một tập con của mối quan hệ ngữ nghĩa thứ hai, các tương ứng BPA sẽ là m ({ , , , }) = 1.

Khi có một vài thông tin trợ giúp cho một hoặc các quan hệ nhiều hơn thì khẳng định một phần về độ tin cậy của chúng. Ví dụ, một BPA m({ })=0.2, m((Θ))=0.8 nghĩa là có một số chứng cứ chỉ ra rằng hai đối tượng là tương đương nhưng không chắc chắn. Trong trường hợp này m không xác định xác suất. Một bài toán điển hình với xác suất là khó khăn trong đánh giá giá trị chính xác bằng số của chúng. Các BPA biểu diễn trong ví dụ này là mềm dẻo hơn vì nó tương ứng với một độ tin cậy Bel({ }) = 0.2 và một đáng tin cậy Pl({ }) = 1 và do đó xác định một khoảng tin cậy [0.2, 1] trên mối quan hệ tương đương.

Ví dụ 5 (Không biết hoàn toàn).

Xem xét một trường hợp mà trong đó không có thông tin về hai đối tượng hoặc không muốn so sánh chúng. Điều này có thể rất có ích để so sánh các phần của lược đồ như trong phần 4.3.1. Có thể biểu diễn sự thiếu hiểu biết bằng cách sử dụng

Kiến trúc tích hợ p

Đối sánh mức lược đồ (Schema-level matchers)