Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 26 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
26
Dung lượng
0,99 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TIỂU LUẬN MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG ĐỀ TÀI: TÌM HIỂU MỘT SỐ KỸ THUẬT SO KHỚP ONTOLOGY VÀ ỨNG DỤNG GVHD: PGS.TS ĐỖ VĂN NHƠN HVTH: NGUYỄN MINH PHÁT MSHV: CH1301047 TP. HỒ CHÍ MINH Tháng 3/2014 Biểu Diễn Tri Thức Và Ứng Dụng MỤC LỤC Lời cảm ơn 3 MỞ ĐẦU 4 I Tổng quan về Ontology Matching 6 1. Một số định nghĩa 6 2. Quy trình Ontology Matching 7 II Các kỹ thuật OM 9 1. Các kỹ thuật khớp mức phân tử 11 1.1. Kỹ thuật khớp dựa vào so khớp chuỗi (String - based) 11 1.1.1 Tiền tố 12 1.1.2 Hậu tố 12 1.1.3 Khoảng cách soạn thảo 12 1.1.4 Khoảng cách n-gram 13 2. Các kỹ thuật dựa trên ngôn ngữ (Language-based) 14 2.1 Các phương pháp bên trong: Tiêu chuẩn hóa ngôn ngữ học 14 2.1.1 Tách từ (Tokenization) 15 2.1.2 Biến đổi về dạng cơ bản của từ (Lemmatization) 15 2.1.3 Loại bỏ từ dừng (stopword elimination) 15 3. Các kỹ thuật dựa trên ràng buộc 16 3.1 So sánh kiểu dữ liệu 16 3.2 So sánh khoảng giá trị (Multiplicity comparison) 17 3.3 Cơ sở ngữ nghĩa (Linguistic resources) 17 3.4 Liên kết dùng lại (Alignment reuse) 18 4. Các kỹ thuật khớp mức cấu trúc 18 4.1 Các kỹ thuật dựa trên đồ thị 19 4.2 Các kỹ thuật dựa vào câu trúc có thứ bậc (taxonomy) 19 4.3 Kho cấu trúc (Repository of structures) 20 4.4 Các kỹ thuật dựa vào mô hình 20 4.5 Các kỹ thuật phân tích và thống kê dữ liệu 21 III Ứng dụng Ontology Matching trong bài toán tích hợp tiến trình nghiệp vụ các doanh nghiệp 21 1. B2Bi - bài toán tích hợp các doanh nghiệp 21 2. Xây dựng mô hình ứng dụng OM cho bài toán tích hợp các doanh nghiệp 21 2.1 Mô hình tổng quát của bài toán 22 2.2. Xây dựng khung ứng dụng OM System 22 2.3 Matching Engine 23 IV Kết luận và hướng phát triển 24 TÀI LIỆU THAM KHẢO 26 Tìm hiểu một số kỹ thuật khớp Ontology Trang 2 Biểu Diễn Tri Thức Và Ứng Dụng Lời cảm ơn Em xin chân thành cảm ơn PGS.TS Đỗ Văn Nhơn đã giảng dạy chúng em môn học “Biểu diễn tri thức và ứng dụng”. Thầy đã truyền đạt những kiến thức để chúng em có thể hiểu nhiều về môn học và tạo điều kiện cho em hoàn thành tiểu luận này. Vì điều kiện thời gian và khả năng có hạn nên tiểu luận không thể tránh khỏi những thiếu sót. Em rất mong nhận được ý kiến đóng góp của thầy để tiểu luận được hoàn thiện. Xin chúc Thầy cùng các Thầy cô trong Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh lời chúc sức khoẻ, hạnh phúc và đạt được nhiều thành công trong sự nghiệp nghiên cứu và đào tạo nguồn nhân lực CNTT cho đất nước Việt Nam. Tìm hiểu một số kỹ thuật khớp Ontology Trang 3 Biểu Diễn Tri Thức Và Ứng Dụng MỞ ĐẦU Ngày này, khoa học máy tính và công nghệ thông tin phát triển mạnh mẽ, thâm nhập hầu hết vào các lĩnh vực hoạt động của con người. Nhu cầu về hệ thống thông minh đã trở thành nhu cầu thiết yếu. Đó là lý do ra đời Trí Tuệ nhân tạo, một lĩnh vực của khoa học máy tính chuyện nghiên cứu, phát triển các hệ thống ngày càng thông minh hơn. Trong đó, Biểu diến tri thức là một phần rất cơ bản và quan trọng trong các hệ thống trí tuệ nhân tạo. Như John Naisbitt đã nói:“Chúng ta đang chìm ngập trong thông tin nhưng lại khát khao tri thức” Đúng vậy, World Wide Web chứa một lượng thông tin khổng lồ, chúng được tạo ra từ các tổ chức, cộng đồng và nhiều cá nhân với nhiều lý do khác nhau. Tuy nhiên, đi kèm với lượng thông tin rất nhiều và phong phú, đa dạng về mọi mặt thì việc tự động tìm kiếm và thu thập những thông tin hữu ích và cần thiết theo nhu cầu người dùng lại trở nên rất khó khăn, do đó nguồn tài nguyên trên Web chưa được khai thác một cách hiệu quả. Hệ thống thông tin trên Web hiện nay tồn tại các vấn đề nêu trên vì nội dung thông tin được cấu trúc hóa nhằm mục đích để con người có thể hiểu được, vì thế rất khó để các máy có thể hiểu, xử lý và tích hợp thông tin một cách có ý nghĩa. Vấn đề đặt ra là cần phải làm sao để thông tin trở nên hữu ích và dễ dàng cho việc tìm kiếm ứng dụng. Để giải quyết vấn đề đó, nhiều tổ chức nghiên cứu và kinh doanh đã phối hợp nghiên cứu và phát triển Web có ngữ nghĩa (Semantic Web).Với Web có ngữ nghĩa, người ta đang hướng tới xây dựng những bộ ngữ nghĩa cho dữ liệu trên Internet, xây dựng một mạng dữ liệu ngữ nghĩa liên kết toàn cầu, giúp ích cho việc tìm kiếm và truy tìm thông tin trên Web hiện nay. Ontology là thành phần trọng tâm của Web có ngữ nghĩa. Để con người hoặc máy móc có thể giao tiếp được với nhau thì cần một sự thống nhất chung về một tập khác khái niệm, được định nghĩa trong các ontology. Kể từ khi ra đời cho đến nay, đi đôi với sự phát triển của Web ngữ nghĩa, ngày càng có nhiều tổ chức cá nhân xây dựng các ontology cho chính các ứng dụng riêng lẽ của họ. Số lượng ontology ngày càng nhiều tạo nên sự phong phú về ngữ nghĩa nhưng cũng mang lại những khó khăn nhất định. Mặc dù các ontology được phát triển cho các ứng dụng khác nhau nhưng nó thường trùng lặp về thông tin và không dễ dàng để có thể kết hợp các ontology này vào một ứng dụng mới. Hơn thế nữa, những người sử dụng ontology hay bản thân các nhà xây dựng ontology lại không chỉ sử dụng ontology của chính họ mà còn muốn mở rộng hay tích hợp các ontology từ nhiều nguồn khác nhau. Tìm hiểu một số kỹ thuật khớp Ontology Trang 4 Biểu Diễn Tri Thức Và Ứng Dụng Khớp Ontology (Ontology Matching) nhằm vào tìm kiếm các ánh xạ giữa mối quan hệ ngữ nghĩa giữa các thực thể của các Ontology khác nhau. Nhiều giải pháp khớp khác nhau đã được đề xuất dựa trên nhiều quan điểm như cơ sở dữ liệu, hệ thống thông tin, trí tuệ nhân tạo,… Đề tài này nhằm mục đích tìm hiều về Ontology và các kỹ thuật khớp Ontology, trên cơ sở đó áp dụng vào một số bài toán khớp Ontology. Tìm hiểu một số kỹ thuật khớp Ontology Trang 5 Biểu Diễn Tri Thức Và Ứng Dụng I Tổng quan về Ontology Matching 1. Một số định nghĩa Định nghĩa 1.1: ”Ontology Matching là quá trình tìm kiếm mối quan hệ hay sự tương đồng giữa các tập thực thể của các ontology khác nhau”[2] Định nghĩa 1.2: “Ontology Alignment là tập các sự tương đồng giữa hai hay nhiều ontology” [3] Như vậy, ta có thể thấy rằng Ontology Alignment chính là kết quả của quá trình OM. Hình 1. Ontology Matching Hình 2. Ví dụ về Ontology Matching Tìm hiểu một số kỹ thuật khớp Ontology Trang 6 Biểu Diễn Tri Thức Và Ứng Dụng Định nghĩa 1.3 (Similarity): Cho O là một tập hợp các thực thể, độ tương tự σ : O× O → R là một ánh xạ có đầu vào là cặp thực thể thuộc O× O và cho kết quả là một giá trị số biểu diễn độ tương tự giữa cặp thực thể thỏa mãn các tính chất sau: ∀x, y ∈ O, σ(x, y) ≥ 0 ∀x ∈ O, ∀y, z ∈ O, σ(x, x) ≥ σ(y, z) ∀x, y ∈ O, σ(x, y)= σ(y,x) Định nghĩa 1.4 (Dissimilarity): Cho O là một tập hợp các thực thể, độ sai khác δ: O × O → R là một ánh xạ có đầu vào là cặp thực thể thuộc O× O và cho kết quả là một giá trị số biểu diễn độ sai khác giữa cặp thực thể thỏa mãn các tính chất sau: ∀x, y ∈ O, δ(x, y) ≥ 0 ∀x ∈ O, δ(x, x)=0 ∀x, y ∈ O, δ(x, y)= δ(y,x) 2. Quy trình Ontology Matching Quy trình OM là một quy trình bao gồm nhiều bước và là một quy trình lặp. Đối với hầu hết các phương pháp hiện nay, quy trình này được chia thành các bước cơ bản. Trong một số phương pháp khác, trật tự các bước có thể khác nhau, hoặc một số bước trong quy trình có thể được sát nhập vào nhau nhưng nhìn chung các phương pháp đều có cùng các thành phần cơ bản. Ta có thể chia quy trình thành 6 bước cơ bản sau: Hình 3. Quy trình Ontology Matching Xây dựng các đặc trưng: Đây là bước khởi đầu của quy trình OM sử dụng các giá trị đầu vào là các ontology và alignment (nếu có). Để chọn lựa ontology đầu vào, đầu tiên chúng ta sẽ dựa vào tập các khái niệm dùng để định nghĩa ontology. Ngoài ra, dựa vào các đặc điểm chung của các thành phần của ontology đầu vào, trong bước này ta sẽ phân loại chúng theo từng nhóm. Các nhóm thuộc tính này sẽ được sử dụng trong quá trình so khớp ở các bước tiếp theo. Tìm hiểu một số kỹ thuật khớp Ontology Trang 7 Biểu Diễn Tri Thức Và Ứng Dụng Tìm và lựa chọn cặp thực thể: Trong bước này, các alignment đầu vào, nếu có, sẽ được sử dụng đến. Dựa vào sự phân loại thuộc tính ở bước một và các alignment ứng cử viên, ta sẽ chọn ra các cặp thực thể của hai ontology để thực hiện việc OM trong bước tiếp theo. Việc chọn ra các cặp phù hợp, loại bỏ các cặp không phù hợp làm cho quá trình OM diễn ra nhanh hơn và kết quả chính xác, giảm thiểu độ dư thừa. Tính toán độ tương tự: Độ tương tự là thước đo xác định sự giống nhau giữa hai thực thể cần OM. Việc tính toán giá trị này được thực hiện thông qua một tập các hàm tương tự. Kết hợp các độ tương tự: Dựa vào các giả thuyết đầu vào, sau khi tính toán độ tương tự ta có thể đưa ra kết quả OM giữa các ontology. Tuy nhiên, có rất nhiều phương pháp để tính toán các độ tương tự cho ra các kết quả khác nhau. Do đó, việc kết hợp các kết quả này để cho ra kết luận đúng đắn nhất là rất quan trọng. Nhiều nhóm nghiên cứu đã đưa ra các công thức kết hợp các độ tương tự nhưng việc đưa ra công thức cho kết quả tối ưu nhất thì vẫn đang trong giai đoạn nghiên cứu. Đưa ra kết luận: Sau khi đã kết hợp được các độ tương tự và đưa ra kết quả cuối cùng, ta cần đưa ra kết luận dựa vào kết quả đó, hay nói cách khác là kết quả cần phải được thông dịch nhằm khẳng định hai thực thể của hai ontology có tương tự nhau hay không. Để thực hiện điều này, hầu hết các hệ thống hiện nay điều sử dụng một giá trị ngưỡng nhất định. Nếu kết quả cuối cùng lớn hơn giá trị ngưỡng này thì kết luận là hai thực thể tương tự nhau, ngược lại là không. Quy trình lặp: Quá trình lặp này sẽ giúp cho việc đưa ra kết quả chính xác hơn, tránh bỏ sót và loại bỏ các trường hợp không phù hợp. Tuy nhiên, để tránh sự lặp vô hạn, người ta thường đưa ra các điều kiện để dừng vòng lặp. Các điều kiện đó là : Quá trình lặp dừng lại sau một số bước nhất định Quá trình lặp dừng lại sau một thời gian nhất định Các giá trị thay đổi vẫn không vượt quá ngưỡng Khi vòng lặp dừng lại, ta đưa ra kết quả cuối cùng. Ứng với ví dụ trên, ta có kết quả cuối cùng được thể hiện trong Bảng 1: Bảng 1. Bảng kết quả sau quá trình OM Tìm hiểu một số kỹ thuật khớp Ontology Trang 8 Biểu Diễn Tri Thức Và Ứng Dụng Ontology O 1 Ontology O 2 Similarity Alignment object vehicle car speed hasSpeed Porsche KA-123 300 km/h motor thing vehicle automobile speed hasProperty Marc’s Porsche fast owner 0.95 0.9 0.85 0.8 0.75 0.75 0.6 0.3 yes yes yes yes yes yes no no II Các kỹ thuật OM Mục đích của quy trình OM là nhằm tìm ra mối quan hệ giữa các thực thể được mô tả ở các ontology khác nhau. Một cách thông thường, mối quan hệ giữa các thực thể cũng chính là mối quan hệ được tìm thấy thông qua việc tìm ra các độ tương tự giữa các thực thể của các ontology. Tìm hiểu một số kỹ thuật khớp Ontology Trang 9 Biểu Diễn Tri Thức Và Ứng Dụng Hình 4. Phân loại các kỹ thuật khớp Tìm hiểu một số kỹ thuật khớp Ontology Matching techniques Element-level Structure-level String-based name similarity, description similarity, global namespase Language- based Tokenisation, lemmatisation morphology, elimiation Linguistic resounces lexicons, thesauri Constraint -based Type similarity, key properties Alignment reuse Entire schema or ontology, fragment Upper level, Domain specific, ontologies SUMO, DOLCE, FMA Data analysis and statistics frequency distributation Graph-based Graph honomophism, path, children, leases Taxonomy - based Taxonomy structure Repository of structures Structure metadata Linguistic resounces lexicons, thesauri Syntactic External Syntactic External Semantics Linguistic Internal Retational Terminological Structural Extensitional Semantic Matching techniques Kind of input Basic techniques Granularity/ Input interpretation Trang 10 [...]... đa,…Những chỉ báo này sau đó được phân tích và tập hợp thành một hệ số đơn, đánh giá sự giống nhau giữa chúng Ví dụ, hai cấu trúc có thể được tìm thấy như một so khớp thích hợp nếu chúng có cùng số nút 4.4 Các kỹ thuật dựa vào mô hình Tìm hiểu một số kỹ thuật khớp Ontology Trang 20 Biểu Diễn Tri Thức Và Ứng Dụng Các kỹ thuật dựa vào mô hình xử lý đầu vào dựa vào sự thể hiện ngữ nghĩa của nó, ví dụ các... hợp với các phương pháp so khớp các đặc điểm nội tại hoặc các phương pháp dựa vào so sánh thuật ngữ Tìm hiểu một số kỹ thuật khớp Ontology Trang 18 Biểu Diễn Tri Thức Và Ứng Dụng Hình 7 Ví dụ về OM hai ontology dựa trên cấu trúc quan hệ 4.1 Các kỹ thuật dựa trên đồ thị Các kỹ thuật dựa trên đồ thị là các thuật toán đồ thị xem các Ontology đầu vào (gồm có các lược đồ cơ sở dữ liệu và các phân loại) như... tầng kết hợp các dữ liệu đầu vào bao gồm ontology metadata, Matching metadata, các ontology cần so khớp, các kỹ thuật OM cơ bản, tập các Rule Thông qua sự kết hợp đó, hệ thống sẽ chọn ra các kỹ thuật OM phù hợp nhất đối với dạng ontology đầu vào Tìm hiểu một số kỹ thuật khớp Ontology Trang 23 Biểu Diễn Tri Thức Và Ứng Dụng Similarity Computation: sau khi đã chọn được các kỹ thuật OM thích hợp ở tầng dưới,... Tìm hiểu một số kỹ thuật khớp Ontology Trang 15 Biểu Diễn Tri Thức Và Ứng Dụng Một khi các kỹ thuật này được áp dụng, các thực thể Ontology được biểu diễn như tập các thuật ngữ chứ không phải các từ 3 Các kỹ thuật dựa trên ràng buộc Kỹ thuật này chủ yếu dựa vào cấu trúc nội tại của các thực thể và sử dụng các điều kiện như tập các thuộc tính, miền giá trị của thuộc tính, các bội số về quan hệ… để tính... chính là các ontology Như vậy, bài toán đặt ra ở đây là thông qua các ontology mô tả các Web Service, hệ thống sẽ tiến hành so khớp, tích hợp, ánh xạ nhằm tìm ra các Web Service phù hợp với yêu cầu đưa vào 2 Xây dựng mô hình ứng dụng OM cho bài toán tích hợp các doanh nghiệp Tìm hiểu một số kỹ thuật khớp Ontology Trang 21 Biểu Diễn Tri Thức Và Ứng Dụng 2.1 Mô hình tổng quát của bài toán Dựa vào bài toán... nghiệp vụ 2.2 Xây dựng khung ứng dụng OM System Khung ứng dụng OM System gồm có 4 phần như sau: Matching Repository: là kho chứa các thành phần OM có thể tái sử dụng và các metadata mô tả các thuộc tính của nó Ontology Repository: quản lý các dữ liệu đầu vào của quá trình OM được mô tả bởi ontology metadata Tìm hiểu một số kỹ thuật khớp Ontology Trang 22 Biểu Diễn Tri Thức Và Ứng Dụng Rule Repository: được.. .Biểu Diễn Tri Thức Và Ứng Dụng Các phân loại được biểu diễn dạng cây với các lá, mỗi lá là một kỹ thuật khớp và các ví dụ cụ thể của chúng Một số phương pháp cơ bản để đánh giá sự giống nhau hoặc các mối quan hệ giữa các thực thể Ontology sẽ được trình bày chi tiết dưới đây 1 Các kỹ thuật khớp mức phân tử Các kỹ thuật mức phân tử xem xét các thực thể Ontology hoặc các trường hợp của chúng một cách... là các phương pháp suy diễn vững chắc Ví dụ: các kỹ thuật định đề thỏa mãn và lập luận logic mô tả 4.5 Các kỹ thuật phân tích và thống kê dữ liệu Các kỹ thuật phân tích và thống kê dữ liệu là những kỹ thuật lợi dụng một mẫu đại diện của một mẫu để tìm các quy tắc và sự không thống nhất Điều này giúp nhóm các mục cùng một nhóm hoặc tính toán khoảng cách giữa chúng Trong số các kỹ thuật phân tích dữ... integer < real Tìm hiểu một số kỹ thuật khớp Ontology Trang 16 Biểu Diễn Tri Thức Và Ứng Dụng Date 2 [1=4=2005 30=6=2005] < date[year=2005] Trạng thái gần giữa các kiểu dữ liệu lớn nhất khi các dữ liệu cùng kiểu, nhỏ hơn khi các kiểu tương thích (ví dụ:integer và float là tương thích) và nhỏ nhất khi chúng không tương thích Thêm vào đó, phạm vi so sánh lý tưởng nên dựa vào so sánh kiểu dữ liệu và so sánh... hàm của một từ dựa vào cùng gốc), cú pháp (biến đổi cấu trúc ngữ pháp của một thuật ngữ) và ngữ nghĩa (biến đổi dạng của thuật ngữ, thường sử dụng hypernym (từ hoặc cụm từ mà nghĩa của nó chứa nghĩa của từ Tìm hiểu một số kỹ thuật khớp Ontology Trang 14 Biểu Diễn Tri Thức Và Ứng Dụng khác) hoặc hyponym (từ hoặc cụm từ mà nghĩa của nó được bao gồm trong nghĩa của từ khác) Bảng 2 Các dạng của thuật ngữ . đích tìm hiều về Ontology và các kỹ thuật khớp Ontology, trên cơ sở đó áp dụng vào một số bài toán khớp Ontology. Tìm hiểu một số kỹ thuật khớp Ontology Trang 5 Biểu Diễn Tri Thức Và Ứng Dụng I. 26 Tìm hiểu một số kỹ thuật khớp Ontology Trang 2 Biểu Diễn Tri Thức Và Ứng Dụng Lời cảm ơn Em xin chân thành cảm ơn PGS.TS Đỗ Văn Nhơn đã giảng dạy chúng em môn học Biểu diễn tri thức và ứng. TP.HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TIỂU LUẬN MÔN HỌC: BIỂU DIỄN TRI THỨC VÀ ỨNG DỤNG ĐỀ TÀI: TÌM HIỂU MỘT SỐ KỸ THUẬT SO KHỚP ONTOLOGY VÀ ỨNG DỤNG GVHD: PGS.TS ĐỖ VĂN NHƠN HVTH: NGUYỄN