1. Trang chủ
  2. » Luận Văn - Báo Cáo

Thuật toán khớp Ontology dựa trên đồ thị trọng số

27 707 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 228 KB

Nội dung

MỤC LỤC Lời cảm ơn 2 I. Giới thiệu 5 II. Các kỹ thuật khớp mức phân tử 8 2.1 Kỹ thuật khớp dựa vào so khớp chuỗi (String - based) 8 2.1.1 Tiền tố 10 2.1.2 Hậu tố 10 2.1.3 Khoảng cách soạn thảo 10 2.1.4 Khoảng cách n-gram 11 2.2 Các kỹ thuật dựa trên ngôn ngữ (Language-based) 12 2.2.1 Tách từ (Tokenization) 13 2.2.2 Biến đổi về dạng cơ bản của từ (Lemmatization) 14 2.2.3 Loại bỏ từ dừng (stopword elimination) 14 2.3 Các kỹ thuật dựa trên ràng buộc 14 2.3.1 So sánh kiểu dữ liệu 14 2.3.2 So sánh khoảng giá trị (Multiplicity comparison) 15 2.4 Cơ sở ngữ nghĩa (Linguistic resources) 16 2.5 Liên kết dùng lại (Alignment reuse) 16 III. Các kỹ thuật khớp mức cấu trúc 17 3.1 Các kỹ thuật dựa trên đồ thị 17 3.2 Các kỹ thuật dựa vào câu trúc có thứ bậc (taxonomy) 17 3.3 Kho cấu trúc (Repository of structures) 18 3.4 Các kỹ thuật dựa vào mô hình 19 3.5 Các kỹ thuật phân tích và thống kê dữ liệu 19 IV. Thuật toán khớp Ontology dựa trên đồ thị trọng số 19 KẾT LUẬN VÀ KIẾN NGHỊ 26 TÀI LIỆU THAM KHẢO 27 Bài thu hoạch – Môn Biểu diễn tri thức và ứng dụng Lời cảm ơn Em xin bày tỏ lòng biết ơn chân thành đối với PGS.TS Đỗ Văn Nhơn, người đã dạy cho em chuyên đề “Biểu diễn tri thức và ứng dụng”. Những kiến thức Thầy truyền đạt đã giúp em lần đầu tiên được tiếp cận một cách đầy đủ về khái niệm Biểu diễn tri thức và hiểu được các vấn đề ứng dụng của nó, đặc biệt đã gợi ý cho em phương pháp xử lí các bài toán Biểu diễn tri thức rất thiết thực cho chuyên môn. Vì điều kiện thời gian và khả năng có hạn nên tiểu luận không thể tránh khỏi những thiếu sót. Em rất mong nhận được ý kiến đóng góp của thầy đề tiểu luận được hoàn thiện. Xin chúc Thầy cùng các Thầy cô trong Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh lời chúc sức khoẻ, hạnh phúc và đạt được nhiều thành công trong sự nghiệp nghiên cứu và đào tạo nguồn nhân lực CNTT cho đất nước Việt Nam. Tìm hiểu một số kỹ thuật khớp Ontology Trang 2 Bài thu hoạch – Môn Biểu diễn tri thức và ứng dụng MỞ ĐẦU Sự ra đời của Word Wide Web đã đột ngột thay đổi việc sử dụng các thông tin điện tử. World Wide Web là nguồn tài nguyên thông tin khổng lồ và được truy cập bởi hàng triệu người. Cùng với thời gian, nguồn tài nguyên đó ngày càng gia tăng. Tuy nhiên, đi kèm với lượng thông tin rất nhiều và phong phú, đa dạng về mọi mặt thì việc tự động tìm kiếm và thu thập những thông tin hữu ích và cần thiết theo nhu cầu người dùng lại trở nên rất khó khăn, do đó nguồn tài nguyên trên Web chưa được khai thác một cách hiệu quả. Hệ thống thông tin trên Web hiện nay tồn tại các vấn đề nêu trên vì nội dung thông tin được cấu trúc hóa nhằm mục đích để con người có thể hiểu được, vì thế rất khó để các máy có thể hiểu, xử lý và tích hợp thông tin một cách có ý nghĩa. Vấn đề đặt ra là cần phải làm sao để thông tin trở nên hữu ích và dễ dàng cho việc tìm kiếm ứng dụng. Để giải quyết vấn đề đó, nhiều tổ chức nghiên cứu và kinh doanh đã phối hợp nghiên cứu và phát triển Web có ngữ nghĩa (Semantic Web). Với Web có ngữ nghĩa, người ta đang hướng tới xây dựng những bộ ngữ nghĩa cho dữ liệu trên Internet, xây dựng một mạng dữ liệu ngữ nghĩa liên kết toàn cầu, giúp ích cho việc tìm kiếm và truy tìm thông tin trên Web hiện nay. Trong Web có ngữ nghĩa, dữ liệu có cấu trúc và các Ontology mô tả ngữ nghĩa của dữ liệu. Các Ontology cho phép người sử dụng tổ chức thông tin theo các phân loại (taxonomy) khái niệm, mỗi khái niệm có các thuộc tính, và Ontology còn mô tả các mối liên hệ giữa các khái niệm. Ontology là thành phần trọng tâm của Web có ngữ nghĩa. Nó cho phép các ứng dụng thống nhất với nhau về các thuật ngữ được dùng để trao đổi. Tuy nhiên, trong nhiều trường hợp, cùng một loại thông tin được mô hình hóa theo nhiều cách khác nhau gây khó khăn cho việc trao đổi thông tin. Tìm hiểu một số kỹ thuật khớp Ontology Trang 3 Bài thu hoạch – Môn Biểu diễn tri thức và ứng dụng Trong môi trường mở như Web, các Ontology được phát triển và bảo trì một cách độc lập trong môi trường phân tán. Do đó hai hệ thống có thể sử dụng hai Ontology khác nhau để mô tả cho hai lĩnh vực tương tự nhau, vấn đề này được gọi là không thống nhất Ontology. Để tập hợp dữ liệu từ các Ontology khác nhau, chúng ta phải biết các ánh xạ ngữ nghĩa giữa các thành phần của chúng. Quá trình tìm các ánh xạ này được gọi là khớp Ontology (Ontology Matching). Khớp Ontology nhằm vào tìm kiếm các ánh xạ giữa mối quan hệ ngữ nghĩa giữa các thực thể của các Ontology khác nhau. Nhiều giải pháp khớp khác nhau đã được đề xuất dựa trên nhiều quan điểm như cơ sở dữ liệu, hệ thống thông tin, trí tuệ nhân tạo,… Bên cạnh vai trò quan trọng của Web có ngữ nghĩa, các Ontology còn được biết đến thông qua nhiều ứng dụng khác như: phục hồi và trích rút thông tin, tích hợp thông tin, tích hợp thông tin trong doanh nghiệp, thương mại điện tử, các hệ thống ngang hàng (peer-to-peer), các hệ thống thuật ngữ tin sinh và y học,… Đề tài này nhằm mục đích tìm hiều về Ontology và các kỹ thuật khớp Ontology, trên cơ sở đó áp dụng vào một số bài toán khớp Ontology. Tìm hiểu một số kỹ thuật khớp Ontology Trang 4 Bài thu hoạch – Môn Biểu diễn tri thức và ứng dụng I. Giới thiệu Mục đích của khớp Ontology là để tìm ra mối quan hệ giữa các thực thể biểu diễn trong các Ontology khác nhau. Thông thường, những mối quan hệ này là các quan hệ tương đương được phát hiện thông qua thước đo sự gióng và khác nhau giữa các thực thể của các Ontology. Tiến trình khớp là tiến trình nhằm xác định liên kết A’ giữa một cặp Ontology o và o’. Ngoài hai Ontology o và o’, tiến trình khớp có thể sử dụng một số tham số khác, cụ thể là: (i) Liên kết đầu vào A giữa 2 Ontology o và o’; (ii) Các tham số khớp p, ví dụ: trọng số, ngưỡng; (iii) Các tài nguyên mở rộng dùng bởi tiến trình khớp. Ví dụ: kiến thức chung và từ điển chuyên ngành. Có thể định nghĩa tiến trình khớp như sau: Định nghĩa 1. Tiến trình khớp là một hàm f từ một cặp Ontology o và o’, một liên kết vào A, tập hợp các tham số p, tập các thẻ và các tài nguyên r, trả lại một liên kết A’ giữa các Ontology này: A’ = f(o, o’, A, p, r) Hình 1. Minh họa tiến trình khớp. Tìm hiểu một số kỹ thuật khớp Ontology o A o ' A’ Matching resources parameters Trang 5 Bài thu hoạch – Môn Biểu diễn tri thức và ứng dụng Trong trường hợp khớp nhiều hơn hai Ontology chúng ta sử dụng định nghĩa khớp đa Ontology sau: Định nghĩa 2: Tiến trình khớp đa Ontology có thể được xem như một hàm f từ tập các Ontology {o 1 ,…, o n }, một liên kết vào A, tập các tham số p, tập cá thể và các tài nguyên r, trả về một liên kết A’ giữa các Ontology: A’=f(o 1 ,…, o n ,A, p, r} Dựa trên tiến trình khớp nói trên, người ta đã xây dựng nhiều kỹ thuật khớp Ontology khác nhau, có thể phân loại các kỹ thuật này dựa theo hai phân loại tổng hợp trong Shvaiko and Euzerat, 2005], dựa vào các thuộc tính nổi bật của các chiều khớp. Tìm hiểu một số kỹ thuật khớp Ontology Trang 6 Bài thu hoạch – Môn Biểu diễn tri thức và ứng dụng Hình 2. Phân loại các kỹ thuật khớp Tìm hiểu một số kỹ thuật khớp Ontology Matching techniques Element-level Structure-level String-based name similarity, description similarity, global namespase Language- based Tokenisation, lemmatisation morphology, elimiation Linguistic resounces lexicons, thesauri Constraint -based Type similarity, key properties Alignment reuse Entire schema or ontology, fragment Upper level, Domain specific, ontologies SUMO, DOLCE, FMA Data analysis and statistics frequency distributation Graph-based Graph honomophism, path, children, leases Taxonomy - based Taxonomy structure Repository of structures Structure metadata Linguistic resounces lexicons, thesauri Syntactic External Syntactic External Semantics Linguistic Internal Retational Terminological Structural Extensitional Semantic Matching techniques Kind of input Basic techniques Granularity/ Input interpretation Trang 7 Bài thu hoạch – Môn Biểu diễn tri thức và ứng dụng Các phân loại được biểu diễn dạng cây với các lá, mỗi lá là một kỹ thuật khớp và các ví dụ cụ thể của chúng. Một số phương pháp cơ bản để đánh giá sự giống nhau hoặc các mối quan hệ giữa các thực thể Ontology sẽ được trình bày chi tiết dưới đây. II. Các kỹ thuật khớp mức phân tử. Các kỹ thuật mức phân tử xem xét các thực thể Ontology hoặc các trường hợp của chúng một cách riêng biệt, bỏ qua mối quan hệ giữa chúng với các thực thể khác hoặc các trường hợp của chúng. 2.1 Kỹ thuật khớp dựa vào so khớp chuỗi (String - based) Các kỹ thuật khớp dựa vào so khớp chuỗi thường dùng để khớp các tên và các mô tả tên của các thực thể Ontology. Những kỹ thuật này xem các chuỗi như dãy các chữ cái trong một bảng chữ cái. Chúng dựa vào đặc trưng sau: các chuỗi càng giống nhau thì càng có khả năng để chỉ rõ cùng các khái niệm. Thông thường, các hàm khoảng cách ánh xạ một cặp các chuỗi đến một số thực, số thực có giá trị càng nhỏ thì các chuỗi càng giống nhau. Kỹ thuật khớp dựa vào so khớp chuỗi được sử dụng rộng rãi trong các hệ thống khớp tiền tố, hậu tố, khoảng cách soạn thảo và khoảng cách n- gram. Có nhiều cách để so sánh các chuỗi phụ thuộc vào cách các chuỗi được xem xét: chẳng hạn, dãy chính xác các chữ cái, dãy không đúng các chữ cái, tập các chữ cái, tập các từ. Ta cần phân biệt giữa: (i) các kỹ thuật dùng để rút gọn các chuỗi so sánh đến một dạng chung, (ii) các kỹ thuật chuỗi con hoặc dãy con dựa vào các chữ cái chung giống nhau giữa các chuỗi, (iii) các khoảng cách soạn thảo giúp cho việc đánh giá một chuỗi như thế nào có thể là một bản lỗi của chuỗi khác, (iv) các thước đo thống kê mà sự thiết lập ý nghĩa quan trọng của một từ trong một chuỗi phù hợp với mối quan hệ giữa hai chuỗi và (v) các hướng so sánh. Tìm hiểu một số kỹ thuật khớp Ontology Trang 8 Bài thu hoạch – Môn Biểu diễn tri thức và ứng dụng Trước khi so sánh các chuỗi thực sự có ý nghĩa trong ngôn ngữ tự nhiên, chúng ta xem xét các trường hợp thực tế sau: - Trường hợp tiêu chuẩn hóa: Biến đổi mỗi ký tự chữ cái trong chuỗi thành chữ thường. Ví dụ, CD  cd và SciFi  scifi. - Loại bỏ các ký hiệu dấu. Ví dụ, Montréal  Montreal. - Chuẩn hóa khoảng trống: Chuẩn hóa tất cả các ký tự để trống (khoảng trống, xuống dòng, hoặc dãy các ký tự trống, xuống dòng) thành một ký tự trống đơn. - Xóa bỏ các dấu liên kết các từ. Ví dụ, peer-reviewed  peer reviewed. - Loại bỏ các ký tự số. Ví dụ, book25545-18  book. - Loại bỏ các dấu chấm câu. Ví dụ C.D.  CD. Định nghĩa 3. Đẳng thức xâu: Một đẳng thức xâu là một hàm [ ] 10: →×SS σ mà 1),(,, =∈∀ xxSyx σ và nếu x ≠ y, σ(x,y) = 0. Thước đo này không giải thích được hai xâu khán nhau như thế nào. Vì thế người ta sử dụng khoảng cách Hamming để so sánh hai xâu bằng cách đếm số các vị trí khác nhau trong hai xâu. Định nghĩa 4. Khoảng cách Hamming. Khoảng cách Hamming là một hàm [ ] 10: →× SS σ mà: [ ] [ ] ( ) ( ) ts tstsis ts ts i ,max ),( ),min( 1 −+≠ = ∑ = δ Hai xâu được xem là giống nhau khi xâu này là xâu con của xâu kia. Định nghĩa 5. Kiểm tra xâu con. Kiểm tra xâu con là một hàm: [ ] 10: →× SS σ mà ∀ x,y ∈ S, nếu tồn tại p, s ∈ S trong đó x = p + y + s hoặc y = p + x + s, thì σ(x,y) = 1, ngược lại σ(x,y) = 0. Tìm hiểu một số kỹ thuật khớp Ontology Trang 9 Bài thu hoạch – Môn Biểu diễn tri thức và ứng dụng Thước đo này có thể được tinh chế thành một xâu con tương tự các thước đo tỷ lệ của các thành phần con chung giữa hai xâu. Định nghĩa 6. Xâu con giống nhau. Xâu con giống nhau là một hàm [ ] 10: →× SS σ mà ∀ x,y ∈ S, và t là xâu con chung dài nhất của x và y: yx t yx + = 2 ),( σ Dễ dàng thấy rằng các thước đo này quả thực giống nhau. Định nghĩa này có thể được dùng để xây dựng các hàm dựa vào tiền tố chung dài nhất và hậu tố chung dài nhất. 2.1.1 Tiền tố Nhận hai chuỗi đầu vào và so sánh sự giống nhau của tiền tố. Ví dụ: net = network; hay hot = hotel. 2.1.2 Hậu tố Nhận hai chuỗi đầu vào và so sánh sự giống nhau của hậu tố. Ví dụ: phone = telephone; hay word = sword. 2.1.3 Khoảng cách soạn thảo Một khoảng cách soạn thảo giữa hai đối tượng là giá trị tối thiểu của các phép toán được áp dụng cho một trong các đối tượng để thu được đối tượng khác. Khoảng cách soạn thảo được thiết kế để đo sự đồng dạng giữa các xâu mà có thể chứa các lỗi chính tả. Định nghĩa 7. Khoảng cách soạn thảo. Đưa ra một tập Op các phép toán xâu (Op = S  S), và một hàm giá trị w: Op  R, mà với cặp các xâu bất kỳ tồn tại một dãy các phép toán biến đổi xâu đầu tiên thành xâu thứ hai (và ngược lại), khoảng cách soạn thảo là một hàm không đồng dạng [ ] 10: →× SS σ trong đó δ(s,t) là giá trị của dãy con ít giá trị nhất của các phép toán biến đổi s thành t. Tìm hiểu một số kỹ thuật khớp Ontology Trang 10 [...]... kỹ thuật này được xem xét như các chiến lược khớp IV Thuật toán khớp Ontology dựa trên đồ thị trọng số Như đã trình bày trong phần trước, có rất nhiều kỹ thuật khớp Ontology Phần này trình bày một phương pháp khớp Ontology theo hướng khớp mức cấu trúc Phương pháp này sử dụng đồ thị để biểu diễn các Tìm hiểu một số kỹ thuật khớp Ontology Trang 19 Bài thu hoạch – Môn Biểu diễn tri thức và ứng dụng Ontology. .. và ứng dụng Ontology và các lược đồ, dựa vào sự tương tự về từ vựng của từ gốc tính toán trọng số của mỗi nút trên đồ thị Nhận thấy, trong đồ thị nếu các nút cha khớp thì các con của chúng có thể cũng khớp Điều này giúp chúng ta xây dựng một thuật toán nhanh và hiệu quả cho việc khớp các đồ thị khác nhau biểu diễn Ontology hoặc lược đồ Để tính trọng số các đỉnh trên đồ thị chúng ta có thể sử dụng các... đã thực hiện được một số vấn đề sau: - Nhận thức được vấn đề quan trọng của so khớp Ontology đối với việc tích hợp và trao đổi thông tin giữa các hệ thống Đã trình bày một cách tổng quan về các kỹ thuật khớp Ontology - Tìm hiểu được thuật toán khớp Ontology sử dụng đồ thị có trọng số Trong thời gian tới, em dự kiến sẽ triển khai thuật toán khớp Ontology sử dụng đồ thị vào bài toán tra cứu từ điển thông... Ontology dựa vào việc phân tích vị trí của chúng trong hai đồ thị Nếu hai nút của hai Ontology giống nhau, các nút láng giềng của chúng cũng phải giống nhau Cùng với các kỹ thuật dựa trên đồ thị hoàn toàn, còn có các kỹ thuật dựa trên cấu trúc khác rõ ràng hơn, ví dụ cây bao trùm 3.2 Các kỹ thuật dựa vào câu trúc có thứ bậc (taxonomy) Các kỹ thuật dựa vào cấu trúc có thứ bậc là các thuật toán đồ thị mà... diễn bảng trên bằng đồattributes chỉ ra age đây: thị được dưới sid Hình 3 Biểu diễn đồ thị của lược đồ login name Tìm hiểu một số kỹ thuật khớp Ontology column column type Trang 20 Bài thu hoạch – Môn Biểu diễn tri thức và ứng dụng Thuật toán: Xét hai Ontology O1 và O2 được biểu diễn dưới dạng đồ thị như minh họa ở hình 4 Thuật toán này dựa trên thực tế đơn giản là nếu hai nút A và A’ của hai Ontology. .. thể Ontology hoặc các trường hợp của chúng để so sánh mối quan hệ của chúng với các thực thể khác hoặc các trường hợp của chúng 3.1 Các kỹ thuật dựa trên đồ thị Các kỹ thuật dựa trên đồ thị là các thuật toán đồ thị xem các Ontology đầu vào (gồm có các lược đồ cơ sở dữ liệu và các phân loại) như là các đồ thị có cấu trúc đã được gán nhãn Thông thường, so sánh sự giống nhau giữa cặp các nút từ hai Ontology. .. chúng Một khi đã tính các trọng số, chúng ta có thể so khớp hai Ontology mà chỉ cần một lượt duyệt đồ thị Vấn đề khớp Ontology cũng xuất hiện trong phạm vi liên quan đến việc tích hợp các lược đồ từ các cơ sở dữ liệu không đồng nhất khác nhau Những lược đồ này nếu được biểu diễn trong một khung đồ thị cũng có thể được khớp bằng thuật toán này Lược đồ có thể được biểu diễn dạng đồ thị với các nút là các... Ontology từ hai tệp - Biểu diễn hai Ontology dưới dạng đồ thị - Tính toán trọng số các đồ thị - Thực hiện so sánh các nút trong đồ thị và cuối cùng đưa ra các kết quả khớp Với hai Ontology trong hình 5 ta có thể tính lex_sim dựa vào thuật toán tính dãy con chung dài nhất Kết quả tính lex_sim của hai Ontology này được thể hiện trong bảng 2 Bảng 2 Kết quả tính lex_sim dựa vào dãy con chung dài nhất CSDept2... của nó sẽ khớp Vì thế, một sự tương tự về từ vựng của nút được phổ biến rộng rãi đến các con Mỗi nút được kết hợp với một trọng số Ma trận trọng số của một nút Tìm hiểu một số kỹ thuật khớp Ontology Trang 22 Bài thu hoạch – Môn Biểu diễn tri thức và ứng dụng ở mức i được tính dựa theo lex_sim của nút đó có tính đến trọng số của các nút ở mức trước đó có liên quan đến nó Giả sử A là một nút của Ontology. .. nghĩa (rỗng) để khớp Ví dụ: collection of article collection article Một khi các kỹ thuật này được áp dụng, các thực thể Ontology được biểu diễn như tập các thuật ngữ chứ không phải các từ 2.3 Các kỹ thuật dựa trên ràng buộc Các kỹ thuật dựa trên ràng buộc là các thuật toán giải quyết các ràng buộc nội tại được áp dụng để định nghĩa các thực thể, như các kiểu, các yếu tố trong tập (vô số) các thuộc . chúng. 3.1 Các kỹ thuật dựa trên đồ thị Các kỹ thuật dựa trên đồ thị là các thuật toán đồ thị xem các Ontology đầu vào (gồm có các lược đồ cơ sở dữ liệu và các phân loại) như là các đồ thị có cấu. xuyên. Các kỹ thuật này được xem xét như các chiến lược khớp. IV. Thuật toán khớp Ontology dựa trên đồ thị trọng số Như đã trình bày trong phần trước, có rất nhiều kỹ thuật khớp Ontology. Phần. thể cũng khớp. Điều này giúp chúng ta xây dựng một thuật toán nhanh và hiệu quả cho việc khớp các đồ thị khác nhau biểu diễn Ontology hoặc lược đồ. Để tính trọng số các đỉnh trên đồ thị chúng

Ngày đăng: 10/04/2015, 09:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w