Tích hợp ontology với tiếp cận lý thuyết đồng thuận

14 2 0
Tích hợp ontology với tiếp cận lý thuyết đồng thuận

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Journal of Computer Science and Cybernetics, V 30, N 3 (2014), 239–252 DOI 10 156251813 96633032953 TÍCH HỢP ONTOLOGY VỚI TIẾP CẬN LÝ THUYẾT ĐỒNG THUẬN NGUYỄN VĂN TRUNG1, PHAN BÁ TRÍ2, HOÀNG HỮU H.Hàm chọn đồng thuận thoả mãn tiêu chuẩn O1 (tương ứng, O2) được gọi là hàmO1 (tươngứng, hàmO2). Phương án đồng thuận được xác định bằng hàmO1 (tương ứng, hàmO2) đượcgọi là đồng thuận O1 (tương ứng, đồng thuận O2).Không phải từ hồ sơ xung đột nào cũng chọn ra được phương án đồng thuận nói chungvà đồng thuận O1 hay O2 nói riêng. Người ta đã chỉ ra tính khả đồng thuận đối với các hàmđồng thuận được xây dựng theo tiêu chuẩn O1 và O2 như sau: Trong không gian khoảng cách(U, d), hồ sơ X ∈Q(U) là khả đồng thuận theo tiêu chuẩn Oi (i = 1, 2) nếu và chỉ nếudit_mean(X) > dimin(X).

Journal of Computer Science and Cybernetics, V.30, N.3 (2014), 239–252 DOI:10.15625/1813-9663/30/3/2953 TÍCH HỢP ONTOLOGY VỚI TIẾP CẬN LÝ THUYẾT ĐỒNG THUẬN NGUYỄN VĂN TRUNG1 , PHAN BÁ TRÍ2 , HỒNG HỮU HẠNH3 Trường Đại học Khoa học, Đại học Huế nvtrung@hueuni.edu.vn Trường Đại học Phú Xuân, Huế trip182@gmail.com Đại học Huế; hhhanh@hueuni.edu.vn Tóm tắt Việc sử dụng lại ontology tham chiếu xây dựng sở tri thức khơng làm giảm hồn tồn khả có xung đột sở tri thức Trong q trình tích hợp ontology mức khái niệm, bên cạnh việc xác định tập thuộc tính cho khái niệm, cần phải xác định miền cho thuộc tính từ đặc tả thuộc tính ontology thành phần Bài báo trình bày thuật tốn tích hợp ontology có xung đột cấp độ khái niệm dựa lý thuyết đồng thuận hàm đánh giá khoảng cách ngữ nghĩa khái niệm phân cấp Bài báo chứng tỏ, lý thuyết đồng thuận cơng cụ hữu ích việc xây dựng tri thức tổng hợp từ nhiều nguồn khác Từ khóa Ontology, tích hợp, lý thuyết đồng thuận, khoảng cách ngữ nghĩa Abstract Ontology reuse has been an important factor in developing shared knowledge in Semantic Web However, this cannot completely reduce conflict potentials in knowledge bases In the ontology integration process on the concept level, we need to determine domain and range from properties of integrating ontologies This paper presents an algorithm for ontology integration on concept level based on the consensus theory and an evaluation function of similarity measure between concepts in its hierarchical structure This paper also proves that the consensus theory is a useful tool for building collective knowledge from different sources Keywords Ontology, integration, consensus theory, semantic distance GIỚI THIỆU Sự phát triển không ngừng công nghệ thông tin truyền thơng dẫn đến mặt trái: có q nhiều liệu, thông tin sinh Như tất yếu, vấn đề quản lý không đồng nhất, không quán nguồn thông tin trở nên quan trọng Ontology cung cấp từ vựng để mơ tả cách hình thức tri thức lĩnh vực [9] Việc sử dụng ontology để biểu diễn sở tri thức làm giảm thiểu đáng kể không đồng xung đột sở tri thức, đồng thời cho phép sở tri thức tham chiếu lẫn Người ta xây dựng ontology cách tham chiếu đến từ vựng sẵn có FOAF (www.foaf-project.org), Dublin Core (dublincore.org), Tuy nhiên, việc tái sử dụng ontology sẵn có q trình xây dựng ontology khơng làm giảm hồn toàn nguy tạo sở tri thức xung đột, nhà xây dựng c 2014 Vietnam Academy of Science & Technology 240 NGUYỄN VĂN TRUNG, PHAN BÁ TRÍ, HỒNG HỮU HẠNH ontology khác có cách nghĩ khác để sử dụng ontology tham chiếu Chẳng hạn, ví dụ đơn giản, người khác tham chiếu đến phân cấp khái niệm OREF _T REE (Hình 1) để đặc tả thuộc tính isTaughtBy khái niệm course theo cách khác (Hình 2) Câu hỏi đặt là: từ đặc tả thuộc tính isT aughtBy Hình 1: Cây phân cấp khái niệm OREF _T RE thế, phải kết luận đặc tả thuộc tính tổng hợp phải để phù hợp với đặc tả thành phần cho? Hình 2: Trích dẫn cấu trúc khái niệm Course ontology Bài báo trình bày phương pháp tích hợp ontology thuộc trường hợp dựa cách tiếp cận lý thuyết đồng thuận [2] Các phần báo trình bày theo trình tự sau: phần mơ tả tốn tích hợp ontology, cấp độ xung đột ontology với số cách tiếp cận để giải toán này; phần trình bày số khái niệm sở lý thuyết đồng thuận; phần 4, sau phát biểu tốn tích hợp ontology cấp độ khái niệm dạng phù hợp với mơ hình áp dụng lý thuyết đồng thuận, trình bày cách thức xây dựng khơng gian khoảng cách dựa TÍCH HỢP ONTOLOGY VỚI TIẾP CẬN LÝ THUYẾT ĐỒNG THUẬN 241 phân cấp khái niệm hàm đánh giá tương đồng ngữ nghĩa, – đóng góp báo – thuật tốn tích hợp ontology; phần trình bày kết luận số hướng mở rộng cho báo TÍCH HỢP ONTOLOGY Tích hợp tiến trình xây dựng ontology từ việc kết hợp hai hay nhiều ontology khác nhau, ontology kết hợp không thiết miền tri thức Trong q trình tích hợp, ontology ban đầu tổng hợp, liên kết, lắp ghép với để tạo thành ontology kết quả, có khả tái sử dụng sau chịu số thay đổi chẳng hạn mở rộng ontology kết quả, gia tăng miền tri thức, ontology kết có khả tương thích tốt Hình 3: Tích hợp hai ontology Vấn đề tích hợp ontology giải với nhiều kỹ thuật khác [5]: • So khớp ontology (ontology matching): tìm kiếm mối quan hệ mối tương ứng thực thể ontology khác Các thực thể ontology bao gồm lớp (class), cá thể (individual), quan hệ (relation), kiểu liệu (data type), giá trị liệu (data value) Kết trình so khớp ánh xạ ontology (ontology alignment) • Trộn ontology (ontology merging): tạo ontology từ hai nhiều ontology nguồn Các ontology chồng Một định nghĩa cho trình tích hợp ontology mơ tả [13] là: Cho trước tập ontology {O1 , O2 , , On }, cần xác định ontology O∗ tốt nhất, có khả đại diện ontology cho Điểm mấu chốt tốn tích hợp ontology phải giải xung đột thực thể ontology nguồn Người ta phân làm cấp độ xung đột thực thể ontology sau [5, trang 247]: • Xung đột cấp độ thể hiện: thể mô tả theo cách khác ontology khác 242 NGUYỄN VĂN TRUNG, PHAN BÁ TRÍ, HỒNG HỮU HẠNH • Xung đột cấp độ khái niệm: lớp, hay khái niệm, có tên lại có cấu trúc khác ontology khác • Xung đột cấp độ quan hệ: ontology khác chứa mối quan hệ khác hai khái niệm Trong 10 năm trở lại đây, toán giải xung đột thực thể ontology cộng đồng khoa học quan tâm nghiên cứu, đó, việc xử lý xung đột cấp độ khái niệm thường nghĩ đến trước tiên xây dựng ontology, người ta thường xây dựng phân cấp khái niệm trước Bài báo đề cập đến vấn đề giải xung đột ontology cấp độ khái niệm Phần điểm qua nhóm giải pháp xử lý xung đột ontology cho tốn tích hợp tri thức Nhóm giải pháp thứ nhất, chẳng hạn MOMIS [3] (Fergnani, 2001), MLMA+ [1] (Alasoud, 2010) đánh giá độ tương tự thực thể dựa vào độ tương tự cặp tên thực thể thành phần bổ trợ (như mô tả, ghi thực tể ngơn ngữ tự nhiên) Nhóm phương pháp thường sử dụng tài nguyên từ vựng tham chiếu WordNet với quan hệ từ đồng nghĩa, trái nghĩa để hỗ trợ q trình xử lý Nhóm giải pháp thứ hai gồm ONION [11] (Mitra cộng sự, 2002), S-MATCH [8] (Giunchiglia Shvaiko, 2003), OLA [6] (Euzenat Valtchev, 2004), H-Match [4] (Castano cộng sự, 2003) dựa vào việc so sánh cấu trúc đồ thị thể mối quan hệ thực thể để đánh giá độ tương đồng thực thể Một số tác giả khác Li cộng [10] (2007), Umer Mundy [14] (2012), đưa giải pháp lai, sử dụng kết hợp chiến lược dựa vào khoảng cách chỉnh sửa (edit distance), phương pháp học thống kê (statiscal learning), để tạo kết cuối Theo quan điểm chúng tơi, cách tiếp cận có số nhược điểm Việc vào phép so sánh chuỗi tên thực thể, chí chi tiết hơn, so sánh chuỗi tập thuật ngữ trích rút từ ghi kèm theo mơ tả thực thể (thông qua kỹ thuật xử lý ngôn ngữ tự nhiên) chưa đủ để đánh giá toàn diện mức độ tương đồng hai thực thể Lý có nhiều cặp từ đồng âm – khác nghĩa, đồng nghĩa – khác âm, phụ thuộc vào quan điểm độc lập người xây dựng sở tri thức Mâu thuẫn đặc tả mối quan hệ isT aughtBy phần đầu báo ví dụ So khớp theo tên thực thể nên đóng vai trị tiền xử lý cho bước tốn tích hợp tri thức Căn vào cấu trúc đồ thị cho kết xác hơn, đồng nghĩa với việc làm gia tăng độ phức tạp toán, đặc biệt số lượng lớn ontology số lượng lớn thực thể ontology thành phần Một khó khăn nữa, sau xác định độ tương đồng thực thể (với mức độ xác đó), cần phải có chiến lược cụ thể để đưa thực thể tổng hợp cuối Khó khăn khiến hầu hết giải pháp đưa lời giải cho số ứng dụng cụ thể TÍCH HỢP ONTOLOGY MỨC KHÁI NIỆM THEO LÝ THUYẾT ĐỒNG THUẬN 3.1 Lý thuyết đồng thuận Lý thuyết đồng thuận (consensus theory) [2] cơng cụ thích hợp để xây dựng trí tuệ tổng hợp (collective intelligence) Một số kết hướng áp dụng lý thuyết đồng thuận TÍCH HỢP ONTOLOGY VỚI TIẾP CẬN LÝ THUYẾT ĐỒNG THUẬN 243 cho toán xử lý tri thức trình bày [13] Trong phần báo, giới thiệu số khái niệm lý thuyết đồng thuận sử dụng cho tốn tích hợp ontology Gọi U tập hợp hữu hạn đối tượng, biểu diễn giá trị có cho trạng thái tri thức (knowledge state) Người ta ký hiệu: • 2U tập hợp tất tập hợp lập từ U • (U ) tập hợp tất có lặp gồm k phần tử lập từ U (k số tự k nhiên) • (U ) = ∪k∈N (U ) gọi tập hợp tất có lặp khác rỗng lập từ U k Mỗi phần tử thuộc sơ (U ) gọi hồ sơ xung đột, gọi ngắn gọn hồ Một hồ sơ xung đột xem tập hợp ý kiến chuyên gia chủ đề Các ý kiến chuyên gia giống khơng giống Ví dụ: Tập ý kiến chuyên gia dự báo thời tiết theo tiêu chí mã vùng, ngày dự báo, nhiệt độ (◦ C), có mưa, có nắng sau: X= HU, 12.07.2013, 25◦ C ÷ 35◦ C, có, có , HU, 12.07.2013, 29◦ C ÷ 34◦ C, có, khơng Từ ý kiến chun gia, người ta cần xác định phương án lựa chọn phù hợp đại diện cho phương án chuyên gia Khi xử lý có lặp, ta thường sử dụng phép toán ký hiệu thuộc đại số tập hợp có lặp ví dụ sau: • X = {x, x, y, y, y, z} hồ sơ gồm phần tử, có phần tử có giá trị x, phần tử có giá trị y, phần tử có giá trị z Ta viết |X| = • Người ta viết tương đương X = {2 ∗ x, ∗ y, z} • Hồ sơ X gọi bội hồ sơ Y , ký hiệu X = n ∗ Y Y = {x1 , x2 , , xk } X = {n ∗ x1 , n ∗ x2 , , n ∗ xk } • Hồ sơ X gọi đồng phần tử giống nhau, tức X = {n ∗ x} với n ∈ N, x ∈ U Ngược lại n, ta nói X khơng đồng • Hồ sơ X gọi phân biệt phần tử khác đơi • Hồ sơ X gọi quy khơng phân biệt bội hồ sơ khơng phân biệt • Tổng (∪˙ ) hai hồ sơ hồ sơ thành lập theo quy tắc sau: Nếu x xuất hồ sơ X hồ sơ Y tương ứng n n lần hồ sơ tổng, x xuất n + n lần • Hiệu (-) hai hồ sơ hồ sơ thành lập theo quy tắc sau: Nếu x xuất hồ sơ X hồ sơ Y tương ứng n lần hồ sơ hiệu, x xuất n − n lần n n , xuất lần ngược lại 244 NGUYỄN VĂN TRUNG, PHAN BÁ TRÍ, HỒNG HỮU HẠNH • Hồ sơ X gọi hồ sơ Y , ký hiệu X ⊆ Y phần tử X có số lần xuất khơng lớn số lần xuất hồ sơ Y 3.1.1 Hàm khoảng cách số biểu thức hàm khoảng cách Hàm khoảng cách d : U × U → [0, 1] định nghĩa để đảm bảo tính chất sau: • Tính khơng âm: ∀x, y ∈ U : d (x, y) ≥ 0, • Tính phản xạ: ∀x, y ∈ U : d (x, y) = ⇔ x = y , • Tính đối xứng: ∀x, y ∈ U : d (x, y) = d(y, x) Người ta gọi (U, d) không gian khoảng cách định nghĩa số biểu thức với hàm khoảng cách sau: Với X ∈ (U ), i = 1, 2: • di (x, X) = di (x, y), với x ∈ U y∈X • dit_mean (X) = k(k+1) di (x, y), với k = |X| x,y∈X • dimin (X) = min{di (x, X) : x ∈ U } • dimax (X) = max{di (x, X) : x ∈ U } Trong trường hợp i = 1, số i bỏ qua, chẳng hạn ta viết d(x, X) thay cho d1 (x, X) 3.1.2 Hàm chọn đồng thuận tiêu chuẩn cho hàm chọn đồng thuận Hàm chọn đồng thuận C : (U ) → 2U định nghĩa không gian khoảng cách (U, d) biểu diễn lựa chọn đồng thuận cho hồ sơ xung đột Như vậy, với hồ sơ xung đột X ∈ (U ), C(X) tập hợp (không lặp) chứa phương án đồng thuận đồng thuận hồ sơ xung đột X ; phần tử C(X) gọi phần tử đồng thuận hồ sơ X Người ta ký hiệu Con(U ) tập tất hàm chọn đồng thuận không gian khoảng cách (U, d) Một hàm chọn đồng thuận C ∈ Con(U ) đánh giá qua tính chất sau: 1) Tin cậy (Reliability), ký hiệu Re, C (X) = ∅ 2) Đồng (Unanimity), ký hiệu U n, C ({n ∗ x}) = {x} với n ∈ N x ∈ U 3) Đơn giản (Simplification), ký hiệu Si, (X bội củaY ) ⇒ (C (X) = C(Y )) 4) Gần-nhất quán (Quasi-unanimity), ký hiệu Qu, (x ∈ / C (X)) ⇒ (∃n ∈ N : x ∈ C (X ∪ {n∗ x})) 245 TÍCH HỢP ONTOLOGY VỚI TIẾP CẬN LÝ THUYẾT ĐỒNG THUẬN 5) Nhất quán (Consistency), ký hiệu Co, ˙ (x ∈ C (X)) ⇒ x ∈ C(X ∪{x}) 6) Nhất quán Condorcet (Condorcet consistency), ký hiệu Cc, ˙ ) = C (X1 ) ∩ C (X2 )) với X1 , X2 ∈ (C (X1 ) ∩ C (X2 ) = ∅) ⇒ (C (X1 ∪X (U ) 7) Nhất quán tổng quát (General consistency), ký hiệu Gc ˙ ) ⊆ C (X1 ) ∪ C (X2 ) với X1 , X2 ∈ C (X1 ) ∩ C (X2 ) ⊆ C (X1 ∪X (U ) 8) Đồng biến (Proporiton), ký hiệu P r, (X1 ⊆ X2 ∧ x ∈ C (X1 ) ∧ y ∈ C (X2 )) ⇒ (d (x, X1 ) ≤ d (y, X2 )) với X1 , X2 ∈ (U ) 9) Tối ưu-1 (1-Optimality), ký hiệu O1 , x ∈ C (X) ⇒ d (x, X) = miny∈U d (y, X) với X ∈ (U ) 10) Tối ưu-2 (2-Optimality), ký hiệu O2 , x ∈ C (X) ⇒ d2 (x, X) = miny∈U d2 (y, X) với X ∈ (U ) Tuỳ theo tính chất tốn lựa chọn đồng thuận, người ta xây dựng hàm chọn đồng thuận cụ thể nhằm thoả mãn tiêu chuẩn Hàm chọn đồng thuận thoả mãn nhiều tiêu chuẩn có giá trị Trong [13] chứng minh khơng có hàm chọn đồng thuận thoả mãn 10 tiêu chuẩn nói Tuy nhiên [13] số phụ thuộc lẫn tiêu chuẩn Những phụ thuộc quan trọng là: a) (O1 ∧ Re) ⇔ (Pr ∧ Qu ∧ Re ∧ Co ∧ Si) b) (P r ∧ Qu ∧ Re) ⇒ U n c) (O2 ∧ Re) ⇔ (Co ∧ Qu ∧ U n ∧ Si) Kết dùng làm sở để xây dựng hàm đồng thuận cho hai lớp tốn sau Giả sử cần đưa phương án hợp lý từ giải pháp cho thành viên (tức cần chọn phương án đồng thuận từ hồ sơ xung đột): - Nếu phương án hợp lý phải phụ thuộc vào phương án thành viên, theo nghĩa, phương án đồng thuận phải đại diện tốt cho phương án đề xuất hồ sơ, phải dùng tiêu chuẩn O1 để xây dựng hàm chọn đồng thuận - Nếu phương án hợp lý độc lập với phương án đưa thành viên, theo nghĩa, phương án đồng thuận phải phản ánh tất khía cạnh phương án đề xuất hồ sơ (ở mức thoả hiệp được), phải dùng tiêu chuẩn O2 để xây dựng hàm chọn đồng thuận 246 NGUYỄN VĂN TRUNG, PHAN BÁ TRÍ, HỒNG HỮU HẠNH 3.1.3 Tính khả đồng thuận hồ sơ xung đột Hàm chọn đồng thuận thoả mãn tiêu chuẩn O1 (tương ứng, O2 ) gọi hàm-O1 (tương ứng, hàm-O2 ) Phương án đồng thuận xác định hàm-O1 (tương ứng, hàm-O2 ) gọi đồng thuận- O1 (tương ứng, đồng thuận O2 ) Không phải từ hồ sơ xung đột chọn phương án đồng thuận nói chung đồng thuận O1 hay O2 nói riêng Người ta tính khả đồng thuận hàm đồng thuận xây dựng theo tiêu chuẩn O1 O2 sau: Trong không gian khoảng cách (U, d), hồ sơ X ∈ (U ) khả đồng thuận theo tiêu chuẩn Oi (i = 1, 2) i i dt_mean (X) dmin (X) 3.2 Tích hợp ontology mức khái niệm theo tiếp cận lý thuyết đồng thuận Định nghĩa 3.1 (Ontology) Ontology bốn C, I, R, Z , đó: • C tập hợp khái niệm (lớp) • I tập hợp thể (instance) lớp • R tập hợp quan hệ nhị phân định nghĩa C • Z tập tiên đề, cơng thức logic bậc diễn giải dạng ràng buộc toàn vẹn mối quan hệ thể khái niệm, mà biểu diễn quan hệ R Định nghĩa 3.2 (Thế giới thực) Gọi A tập hữu hạn thuộc tính Mỗi thuộc tính a ∈ A có miền Va Với V = ∪a∈A Va , ta nói (A, V ) mô tả giới thực Một ontology tham chiếu đến giới thực (A, V ) gọi ontology dựa (A, V ) Định nghĩa 3.3 (Cấu trúc khái niệm ontology) Một khái niệm ontology dựa (A, V ) định nghĩa dạng ba (c, Ac , V c ), đó: • c tên khái niệm, • Ac ⊆ A tập thuộc tính mơ tả khái niệm c, • V c = ∪a∈Ac Va miền thuộc tính (V c ⊆ V ) Cặp (Ac , V c ) gọi cấu trúc khái niệm c Định nghĩa 3.4 (Quan hệ thuộc tính) Cặp thuộc tính a, b định nghĩa cấu trúc khái niệm có quan hệ sau: • tương đương: thuộc tính a gọi tương đương với thuộc tính b, viết a ↔ b, a b phản ánh đặc trưng cho thể khái niệm Nói cách khác, chúng tên khác đặc trưng khái niệm Ví dụ: ngheNghiep ↔ job • tổng qt hơn: thuộc tính a gọi tổng quát thuộc tính b, viết là, a → b, thông tin cho thuộc tính a có chứa thơng tin cho thuộc tính b Ví dụ: dayOfBirth → age TÍCH HỢP ONTOLOGY VỚI TIẾP CẬN LÝ THUYẾT ĐỒNG THUẬN 247 • trái ngược: thuộc tính a gọi trái ngược với thuộc tính b, viết a ↓ b, miền chúng tập hợp giá trị giá trị mơ tả hai thuộc tính cho thể trái ngược Ví dụ: isFree ↓ isLent, với VisFree = VisLent = {true, false} giúp mô tả, chẳng hạn, thực thể thuộc khái niệm sách rảnh (isFree) hay cho mượn (isLent) 3.2.1 Phát biểu tốn tích hợp ontology cấp độ khái niệm Gọi O1 , O2 , , On (n ∈ N ) ontology dựa (A, V ) Khái niệm c mô tả Oi c, Ai , V i , i = 1, 2, , n Ta phát biểu tốn tích hợp ontology mức khái niệm sau: Cho cặp: X = Ai , V i : i = 1, 2, , n Ai , V i cấu trúc khái niệm c ontology Oi Cần tìm tích hợp (A∗ , V ∗ ) đại diện tốt cặp cho để mô tả cấu trúc khái niệm c 3.2.2 Các quy tắc để xác định tích hợp tối ưu (A∗ , V ∗ ) [13] đề xuất tiêu chuẩn R1-R7 để xây dựng thuật tốn tìm tích hợp tối ưu (A∗ , V ∗ ): R1 Với a, b ∈ A = ∪ni=1 Ai , a ↔ b thực thay thuộc tính a tập hợp Ai thuộc tính b ngược lại R2 Nếu tập thuộc tính Ai xuất đồng thời a b mà a → b loại bỏ thuộc tính b R3 Với a, b ∈ A = ∪ni=1 Ai , a ↓ b, thực thay thuộc tính a tập hợp Ai thuộc tính b ngược lại R4 Sự xuất thuộc tính A∗ phải phụ thuộc vào xuất thuộc tính tập hợp Ai R5 Một thuộc tính a xuất A∗ xuất nửa tổng số lần xuất tập hợp Ai R6 Tập A∗ với tập A sau áp dụng quy tắc R1-R3 R7 Với thuộc tính a ∈ A∗ , miền Va (từ giới thực (A, V )) Tuỳ theo tiêu chí chọn lựa tập thuộc tính khái niệm tích hợp “ nhiều thuộc tính tốt ” hay “ gồm thuộc tính xuất nửa ”, có thuật toán tương ứng thoả tiêu chuẩn {R1-R4, R6, R7}, {R1-R5, R7} Chúng nhận thấy: thực tế, khơng phải lúc miền thuộc tính a ontology O1 , O2 , , On giống Do đó, cần phải xác định cách tường minh miền cho thuộc tính Tiêu chuẩn R7 điều chỉnh lại sau: Với thuộc tính a ∈ A∗ , miền Va∗ xác định cách tìm đồng thuận từ hồ sơ Xa = Va1 , Va2 , , Vak Ở đây, Xa hồ sơ xung đột thành lập từ miền thuộc tính a ontology O1 , O2 , , On Phần lại báo mô tả cách thức xây dựng không gian khoảng cách (U, d) thuật tốn để tìm cấu trúc tích hợp thoả tiêu chuẩn {R1-R4, R6, R7} 248 3.2.3 NGUYỄN VĂN TRUNG, PHAN BÁ TRÍ, HỒNG HỮU HẠNH Hàm khoảng cách ngữ nghĩa hai khái niệm phân cấp Sử dụng ý tưởng từ [7] (Jike Ge Yuhui Qiu, 2008), ta tính khoảng cách ngữ nghĩa hai khái niệm c1 , c2 phân cấp Ý tưởng việc gán trọng số cho cạnh nối thể quan hệ kế thừa trực tiếp phân cấp: w (parent, children) = + 2depth(child) đó, depth(child) biểu thị độ sâu từ khái niệm child đến khái niệm gốc phân cấp Với hai khái niệm c1 , c2 phân cấp, ta tính khoảng cách ngữ nghĩa chúng theo thuật toán sau [7]: Đầu vào: hai khái niệm c1 , c2 thuộc phân cấp Đầu ra: giá trị khoảng cách ngữ nghĩa Sem_Dis (c1 , c2 ) Thủ tục: if (c1 , c2 khái niệm) Sem_Disc(c1 , c2 ) := else if (tồn đường trực tiếp từ c1 đến c2 phân cấp) Sem_Disc(c1 , c2 ) := w(c1 , c2 ); else if (tồn đường gián tiếp từ c1 đến c2 phân cấp) { Xác định shortestP ath (c1 , c2 ) đường ngắn từ c1 đến c2 phân cấp; Sem_Disc(c1 , c2 ) := (ci ,cj )∈shortestP ath(c1 ,c2 ) w(ci , cj ); } else { Xác định cpp khái niệm cha chung gần c1 , c2 phân cấp; Sem_Disc(c1 , c2 ) := {Sem_Disc(c1 , cpp)} + {Sem_Disc(c2 , cpp)} ; } Rõ ràng, hàm Sem_Disc chưa chuẩn hoá Chúng ta chuẩn hố để định nghĩa không gian khoảng cách (U, d) dựa phân cấp khái niệm sau: - U : tập khái niệm phân cấp khái niệm - d: U × U → [0, 1] d(c1 , c2 ) → − Sem_Disc(c1 , c2 ) + 3.2.4 Thuật tốn tích hợp ontology mức khái niệm dựa lý thuyết đồng thuận Trên sở lý thuyết đồng thuận, chúng tơi đề xuất thuật tốn xác định cấu trúc tích hợp cho khái niệm c từ ontology thành phần O1 , O2 , , On sau Đầu vào: - Hồ sơ X = Ai , V i , i = 1, , n , với Ai , V i cấu trúc mô tả khái niệm c ontology Oi TÍCH HỢP ONTOLOGY VỚI TIẾP CẬN LÝ THUYẾT ĐỒNG THUẬN 249 - Cây phân cấp khái niệm REF-TREE dùng để tham chiếu CREF −T REE tập khái niệm phân cấp - Không gian khoảng cách (U, d) định nghĩa theo phân cấp khái niệm REF-TREE mô tả phần 3.2.3 Đầu ra: Cặp (A∗ , V ∗ ) đại diện tốt lấy từ X để mô tả khái niệm c Thủ tục: Bước 1: Đặt A∗ := ∪ni=1 Ai ; Bước 2: Với cặp thuộc tính a, b ∈ A∗ • Nếu (a ↔ b) A∗ := A∗ \{a} với điều kiện a không xuất mối quan hệ với thuộc tính khác A∗ ; • Nếu (a ↓ b) A∗ := A∗ \ {b} với điều kiện không xuất mối quan hệ với thuộc tính khác A∗ ; • Nếu (a → b) A∗ := A∗ \ {b} với điều kiện b không xuất mối quan hệ với thuộc tính khác A∗ ; Bước 3: Với thuộc tính a ∈ A∗ { • Đặt Xa = Va1 , Va2 , , Vak hồ sơ chứa miền thuộc tính a đặc tả cặp Vaj khái niệm phân cấp REF-TREE (i = 1, , n; j = 1, , k ); • Nếu Xa khả đồng thuận theo tiêu chuẩn tối ưu O1 { – Xác định Va∗ lựa chọn đồng thuận theo tiêu chuẩn tối ưu O1 không gian khoảng cách (U, d); – Gán Va∗ miền cho thuộc tính a tập A∗ ; } Ngược lại gán A∗ := A∗ \ {a}; } Bước 4: Với thuộc tính a từ A∗ , bổ sung trở lại thuộc tính b có mối quan hệ a ↔ b a ↓ b; Nhận xét: - Độ phức tạp thuật toán O m3 với m = ∪ni=1 Ai (m số lượng thuộc tính khác lấy từ tập hợp Ai , i = n) - Thuật tốn mơ tả việc thực tích hợp thuộc tính có miền khái niệm thuộc phân cấp tham chiếu REF-TREE Đối với thuộc tính có miền khơng phải khái niệm mà giá trị sơ cấp (số, chuỗi), khoảng giá trị, theo [12] xác định miền tích hợp phù hợp cho thuộc tính phương pháp đồng thuận 250 NGUYỄN VĂN TRUNG, PHAN BÁ TRÍ, HỒNG HỮU HẠNH - Thuật tốn xác định cấu trúc đồng thuận cho khái niệm thành phần: thuộc tính miền thuộc tính Tập thuộc tính thoả tiêu chuẩn R1-R4, R6, R7 phần 3.2.2 Dưới ví dụ đơn giản minh hoạ cho thuật toán Cho giới thực (A, V ) định nghĩa sau: • A = {cid, isT aughtBy, isF inish, isActive, sched, tkb} • Vcid = [1, 1000] • VisT aughtBy = {AscP rof, P rof, AssiP rof, AcademicStaf f M ember} • VisF inish = {Y es, N o} • VisActive = {Y es, N o} • Vsched = {M on, T ue, W ed, T hurs, F ri, Sat, Sun} • Vtkb = {Hai, Ba, T u, N am, Sau, Bay, CN } Mối quan hệ thuộc tính là: {thoiKhoaBieu ↔ sched, isF inish ↓ isActive} Các khái niệm ontology có tham chiếu đến phân cấp OREF −T REE Hình Trước hết, ta xây dựng không gian khoảng cách (U, d) từ phân cấp khái niệm này: Trọng số cạnh nối phân cấp: • w [Person,AcademicStaffMember] = + • w [AcademicStaffMember,AscProf] = + • w [AcademicStaffMember,Prof] = + 22 = 1.5 22 = 1.25 = 1.25 • w [AcademicStaffMember,AssiProf] = + 22 = 1.25 Bảng mô tả cấu trúc khái niệm course từ ontology: Ontology O1 O2 O3 O4 O5 Cấu trúc khái niệm course {(cid, [1, 1000]) , (isActive, VisActive ) , (sched, Vsched ) , (isT aughtBy, AssiP rof )} {(cid, [1, 1000]) , (isF inish, VisF inish )} {(isActive, VisActive ) , (tkb, VisF inish ) , (cid, [1, 1000])} {(cid, [1, 1000]) , (isT aughtBy, P rof )} {(cid, [1, 1000]) , (isT aughtBy, AssiP rof )} Kết thực thuật toán theo bước sau: - Bước 1: Khởi gán cấu trúc tích hợp cho khái niệm course: A∗ = {cid, isActive, sched, isT aughtBy, isF inish, tkb} TÍCH HỢP ONTOLOGY VỚI TIẾP CẬN LÝ THUYẾT ĐỒNG THUẬN 251 - Bước 2: Loại bỏ thuộc tính isF inish tkb Sau bước này, ta có: A∗ = {cid, isActive, sched, isT aughtBy} - Bước 3: ∗ = [1, 1000] Xét thuộc tính cid: Miền cid xác định theo [12] Vcid ∗ Xét thuộc tính isActive: Miền isActive VisActive = {Y es, N o} Xét thuộc tính sched: Miền sched Vsched = {M on, T ue, W ed, T hurs, F ri, Sat, Sun} Xét thuộc tính isT aughtBy Thuộc tính có miền tham chiếu từ phân cấp OREF-TREE Lập hồ sơ xung đột XisT aughtBy = {2 ∗ AssiP rof, P rof } – d (P erson, P rof ) = 11 15 = 0.73 – d (AcademicStaf f M ember, AscP rof ) = – d (AcademicStaf f M ember, P rof ) = – d (AcademicStaf f M ember, AssiP rof ) = – d (P rof, AssiP rof ) = – d (P erson, X) = – d (P rof, X) = 14 11 20 = 0.56 = 0.71 = 0.55 = 0.36 – d (AssiP rof, X) = 28 = 0.18 d (AssocP rof, X) = – dt_mean (XisT aughtBy ) = 21 21 = 0.238 = 0.238 – dmin(XisT aughtBy ) = {d(P erson, X), d(AcademicStaf f member, X)} , – d (P rof, X) , d (AssiP rof, X) , d (AscP rof, X)} = 0.18 = d (AssiP rof, X) Như ta có dt_mean (XisT aughtBy ) dmin (XisT aughtBy ) Do hồ sơ X khả đồng ∗ thuận theo tiêu chuẩn tối ưu O1 Ta xác định được, VisT aughtBy = AssiP rof - Bước 4: Bổ sung trở lại A∗ thuộc tính isF inish tkb Kết cuối cùng, ta có cấu trúc tích hợp để mô tả khái niệm course sau: (shed, {M on, T ue, W ed, T hurs, F ri, Sat, Sun}) , (isT aughtBy, AssiP rof )} KẾT LUẬN Bài báo trình bày cách sử dụng lý thuyết đồng thuận kết hợp với độ đo tương tự ngữ nghĩa khái niệm phân cấp khái niệm cho trước để tích hợp ontology có xung đột cấp độ khái niệm Trong công trình tiếp theo, chúng tơi phân tích khả áp dụng tiêu chuẩn tối ưu O2 bước thuật toán áp dụng kết báo cho việc tích hợp ontology có xung đột cấp độ khác 252 NGUYỄN VĂN TRUNG, PHAN BÁ TRÍ, HỒNG HỮU HẠNH TÀI LIỆU THAM KHẢO [1] I Akbari, and M Fathian, "A novel algorithm for ontology matching", Journal of Information Science, v 36, pp 324-334, 2010 [2] J P Barthélemy, and M F Janowitz, “A formal theory of consensus", SIAM Journal on Discrete Mathematics, vol 4, no 3, pp 305-322, 1991 [3] D Beneventano, S Bergamaschi, and F Guerra, Semantic Annotation of Web Documents and Ontology evolution with the MOMIS System, 2001 [4] S Castano, A Ferrara, and S Montanelli, “H-MATCH: an Algorithm for Dynamically Matching Ontologies in Peer-based Systems", in SWDB, pp 231-250, September, 2003 [5] Jérôme Euzenat and Pavel Shvaiko, Ontology matching, Second edition, Heidelberg: Springer, 2013 [6] Jérôme Euzenat et al, “Ontology alignment with OLA", in Proc 3rd ISWC2004 workshop on Evaluation of Ontology-based tools (EON), 2004 [7] J Ge, and Y Qiu, "Concept similarity matching based on semantic distance", In Semantics, Knowledge and Grid, 2008 SKG’08 IEEE, pp 380-383, December, 2008 [8] F Giunchiglia, P Shvaiko, and M Yatskevich, S-Match: an algorithm and an implementation of semantic matching, Springer Berlin Heidelberg, pp 61-75, 2004 [9] T Gruber, What is an Ontology, 1993 [10] Y Li, Q Zhong, J Li, and J Tang, “Results of ontology alignment with RiMOM", in Proceedings of International Workshop on Ontology Matching (OM), Busan, Korea, pp 227–235, 2007 [11] P Mitra and G Wiederhold, “Resolving terminological heterogeneity in ontologies", in Proceedings of the ECAI workshop on Ontologies and Semantic Interoperability, July, 2002 [12] N T Nguyen, “Representation choice methods as the tool for solving uncertainty in distributed temporal database systems with indeterminate valid time", In Engineering of Intelligent Systems, Springer Berlin Heidelberg, pp 445-454, 2002 [13] N T Nguyen, Advanced Information and Knowledge Processing, Springer, pp 1-362, 2008 [14] Q Umer, and D Mundy, “Semantically intelligent semiautomated ontology integration", in Proceedings of the World Congress on Engineering 2012 Vol II, WCE 2012, 4–6 July, London, UK, 2012 Ngày nhận 18 - - 2014 Nhận lại sau sửa 28 - 8- 2014 ... lý thuyết đồng thuận TÍCH HỢP ONTOLOGY VỚI TIẾP CẬN LÝ THUYẾT ĐỒNG THUẬN 243 cho tốn xử lý tri thức trình bày [13] Trong phần báo, giới thiệu số khái niệm lý thuyết đồng thuận sử dụng cho tốn tích. .. THEO LÝ THUYẾT ĐỒNG THUẬN 3.1 Lý thuyết đồng thuận Lý thuyết đồng thuận (consensus theory) [2] cơng cụ thích hợp để xây dựng trí tuệ tổng hợp (collective intelligence) Một số kết hướng áp dụng lý. .. khơng gian khoảng cách dựa TÍCH HỢP ONTOLOGY VỚI TIẾP CẬN LÝ THUYẾT ĐỒNG THUẬN 241 phân cấp khái niệm hàm đánh giá tương đồng ngữ nghĩa, – đóng góp báo – thuật tốn tích hợp ontology; phần trình bày

Ngày đăng: 04/08/2022, 01:03

Tài liệu cùng người dùng

Tài liệu liên quan