SO TRÙNG mờ các đồ THỊ TRI THỨC

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH TẤN ĐẠT SO TRÙNG MỜ CÁC ĐỒ THỊ TRI THỨC Chuyên ngành: Công nghệ thông tin Mã số ngành: 01.02.10 LUẬN VĂN THẠC SĨ TP. Hồ Chí Minh, tháng 07 năm 2005 So trùng mờ các đồ thị tri thức Trang 1 / 77 LỜI CẢM ƠN Trước hết, tôi xin gởi lời biết ơn chân thành sâu sắc đến Thầy Cao Hoàng Trụ, người đã tận tình hướng dẫn, định hướng cho tôi từ phương pháp nghiên cứu khoa học đến cách thức trình bày vấn đề trong suốt quá trình làm luận văn tốt nghiệp. Tôi gởi lời cảm ơn đến các thành viên Huỳnh Ngọc Tuyên, Đỗ Thanh Hải trong nhóm hiện thực hệ thống VNKIM đã hỗ trợ tôi về mặt kĩ thuật trong quá trình hiện thực đề tài. Tôi xin gởi lời cảm ơn đến các tác giả của các bài báo mà tôi đã sử dụng để nghiên cứu và tham khảo trong luận văn tốt nghiệp này. Con xin cảm ơn ba mẹ đã động viên, khuyến khích con trong suốt quá trình làm luận văn tốt nghiệp. So trùng mờ các đồ thị tri thức Trang 2 / 77 TÓM TẮT Tri thức có thể được biểu diễn như là các đồ thị gồm các ý niệm và quan hệ giữa các ý niệm. Luận văn này đưa ra một cách tiếp cận mới cho việc tìm kiếm ngữ nghĩa bằng cách so trùng mờ các đồ thị tri thức dựa trên việc nghiên cứu độ đo về mặt ngữ nghĩa giữa hai kiểu ý niệm, kiểu quan hệ và các ràng buộc thuộc tính trên kiểu ý niệm đó. Trong đó, chúng tôi dẫn ra cách tính độ đo tương tự và bao phủ giữa các kiểu ý niệm, kiểu quan hệ dựa trên số lượng thực thể của các kiểu ý niệm, kiểu quan hệ đó có trong cơ sở tri thức. Từ đó, chúng tôi tính được độ đo tương tự và độ đo bao phủ giữa một đồ thị truy vấn và một kết quả. Mặt khác, để tận dụng khả năng tìm kiếm có sẵn của hệ thống Sesame, công trình này sử dụng kĩ thuật biến đổi truy vấn để tìm các đồ thị kết quả mà gần với đồ thị truy vấn của người sử dụng. Điều đó có nghĩa là, tri thức sẽ được lưu dưới dạng các phát biểu RDF mà có thể được xem là các đồ thị tri thức. Một đồ thị truy vấn mới sẽ được sinh ra thông qua kĩ thuật biến đổi truy vấn và được sử dụng để truy vấn các đồ thị RDF kết quả. Những đồ thị RDF kết quả mà được so trùng chính xác với đồ thị truy vấn vừa được biến đổi sẽ được so trùng với đồ thị truy vấn ban đầu để tính toán các độ đo và trả về cho người sử dụng. So trùng mờ các đồ thị tri thức Trang 3 / 77 SUMMARY Knowledge can be presented as graphs, including concepts and relations between concepts. The work of this thesis proposes a new approach for semantic search engine by fuzzy matching of knowledge graphs based on studying the semantic measures between concept types, relation types and attribute value constraints. In this work, we derived the similarity and subsumption degrees between concept types, relation types calculated from the population of their entities in the knowledgebase. From these points, we propose the similarity and subsumption degrees between a query and a result graph. Moreover, in order to reuse the existing platform of Sesame, this work utilizes the query modification tatic as a solution to retrieve the knowledge graphs which are similar to user’s query knowledge graph. It means that knowledge is presented in RDF statements, which are also knowledge graphs. Due to query modification technique, a new query knowledge graph is generalized from user’s query graph and used for searching results. Then, knowledge graphs retrieved from generalized knowledge graph will be matched with original graph to calculate the measures and return to the user. So trùng mờ các đồ thị tri thức Trang 4 / 77 MỤC LỤC LỜI CẢM ƠN 1 TÓM TẮT 2 SUMMARY 3 MỤC LỤC 4 DANH MỤC CÁC HÌNH 5 DANH MỤC CÁC BẢNG 6 1 - PHÁT BIỂU VẤN ĐỀ 7 2 - CƠ SỞ LÝ THUYẾT 10 2.1 - Ngôn ngữ truy vấn đồ thị tri thức 10 2.1.1 Sesame và SeRQL 10 2.1.2 Đồ thị ý niệm 13 2.2 - Độ tương tự giữa các từ 15 2.2.1 Hướng tiếp cận dựa trên kho ngữ liệu 15 2.2.2 Hướng tiếp cận dựa trên ontology 17 2.3 - Độ đo giữa các chuỗi 25 2.3.1 Các độ đo dựa trên chuỗi 25 2.3.2 Các độ đo dựa trên token 27 3 - CÁC ĐỘ ĐO GIỮA HAI ĐỒ THỊ TRI THỨC 32 3.1 - Độ tương tự giữa các kiểu thực thể 32 3.2 - Độ bao phủ giữa các kiểu thực thể 35 3.3 - Độ bao phủ giữa các tên thực thể 37 3.4 - Độ đo giữa đồ thị truy vấn và kết quả 39 4 - THIẾT KẾ VÀ HIỆN THỰC GIẢI THUẬT SO TRÙNG MỜ ĐỒ THỊ TRI THỨC 42 4.1 - Kĩ thuật biến đổi truy vấn 42 4.2 - Ánh xạ đồ thị ý niệm truy vấn sang ngôn ngữ truy vấn SeRQL 50 4.3 - Giải thuật so trùng mờ các đồ thị ý niệm 57 5 - ĐÁNH GIÁ 64 6 - KẾT LUẬN 71 7 - HƯỚNG MỞ RỘNG 72 DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ 73 TÀI LIỆU THAM KHẢO 74 So trùng mờ các đồ thị tri thức Trang 5 / 77 DANH MỤC CÁC HÌNH Hình 1: Đồ thị RDF cho truy vấn SeRQL 13 Hình 2: Minh họa về đồ thị ý niệm 14 Hình 3: Minh họa ý niệm chung thấp nhất của hai ý niệm 20 Hình 4: Minh họa ý tưởng của Jiang-Conrath 23 Hình 5: Ví dụ minh họa ý tưởng của Jaro 27 Hình 6: Sự phân cấp các kiểu ý niệm trong ontology 32 Hình 7: Sự so sánh giữa độ tương tự và độ bao phủ giữa hai kiểu thực thể 36 Hình 8: Ví dụ về đồ thị ý niệm truy vấn 40 Hình 9: Một ví dụ đồ thị ý niệm truy vấn 41 Hình 10: Một đồ thị ý niệm kết quả 41 Hình 11: Một trường hợp dùng kĩ thuật biến đổi truy vấn 43 Hình 12: Kết quả một trường hợp dùng kĩ thuật biến đổi truy vấn 43 Hình 13: Ví dụ minh họa giải thuật biến đổi truy vấn 47 Hình 14: Đồ thị ý niệm truy vấn mới sau khi dùng giải thuật biến đổi truy vấn 49 Hình 15: Giải thuật so trùng mờ đồ thị tri thức 58 Hình 16: Minh họa bảng kết quả trả về khi thực hiện truy vấn SeRQL 59 Hình 17: Một truy vấn của công cụ soạn thảo đồ thị ý niệm truy vấn 65 Hình 18: Ví dụ minh họa các kết quả tìm kiếm bằng giải thuật so trùng mờ 66 Hình 19: Ví dụ minh họa các kết quả tìm kiếm bằng giải thuật so trùng mờ (tiếp theo) 67 Hình 20: Ví dụ minh họa kết quả tìm kiếm các thực thể có tên trong đồ thị truy vấn 68 So trùng mờ các đồ thị tri thức Trang 6 / 77 DANH MỤC CÁC BẢNG Bảng 1: Bảng mô tả sự ánh xạ giữa các kiểu thực thể trong đồ thị ý niệm truy vấn ở hình 13 và các kiểu thực thể mới sau khi thực thi bước biến đổi truy vấn 48 Bảng 2: Bảng lưu trữ các biến trong truy vấn SeRQL của ví dụ ở hình 13 56 So trùng mờ các đồ thị tri thức Trang 7 / 77 1 - PHÁT BIỂU VẤN ĐỀ Như chúng ta đã biết, ngày nay cùng với sự bùng nổ và phát triển nhanh chóng của World Wide Web, Internet lưu trữ mọi tài nguyên thông tin chia sẻ trên toàn cầu. Vấn đề đặt ra là làm thế nào để có thể khai thác và sử dụng tài nguyên đó một cách hiệu quả trong khi dữ liệu được lưu trữ trên Web là bán cấu trúc và việc tìm kiếm dữ liệu chỉ dựa vào việc so trùng các từ khóa mà không sử dụng ngữ nghĩa là không chính xác. Do đó, một cách tiếp cận mới để có thể biểu diễn, tổ chức thông tin, và xây dựng nên một mô hình tìm kiếm thích hợp là điều cần thiết. Một dạng chuẩn cho việc biểu diễn nội dung, thông tin của các tài liệu và ngữ nghĩa tri thức trên Web là dùng các phát biểu RDF (Resource Description Framework), mà trong đó, các phát biểu có thể xem như là các đồ thị. Từ đó, các hệ thống quản lý thông tin và tri thức dần dần xuất hiện. Cụ thể là Sesame ([14]) với ngôn ngữ truy vấn SeRQL ([23]) cho việc lưu trữ và truy vấn các đồ thị RDF. Tất cả chúng đều là mã nguồn mở và đã được sử dụng trong các hệ thống lớn. Công trình mà chúng tôi đang nghiên cứu và hiện thực cũng sử dụng các phát biểu RDF để lưu trữ và biểu diễn tri thức, đồng thời sử dụng Sesame và ngôn ngữ truy vấn mạnh, cho phép tìm kiếm chính xác của nó là SeRQL để quản lý và truy vấn các đồ thị RDF. Một đồ thị RDF bao gồm các kiểu ý niệm, kiểu quan hệ và các ràng buộc về giá trị thuộc tính trên kiểu ý niệm. Trong đó, các kiểu ý niệm, kiểu quan hệ được định nghĩa trong một mạng phân cấp ontology. Do đó, mục tiêu của luận văn này là đưa ra cách tiếp cận mới cho việc tìm kiếm theo ngữ nghĩa bằng cách so trùng mờ các đồ thị tri thức dựa trên việc nghiên cứu các độ đo khoảng cách ngữ nghĩa giữa các kiểu ý niệm, giữa các kiểu quan hệ và các độ đo giữa các giá trị thuộc tính. Mục tiêu đặt ra của công trình đã hướng chúng tôi nỗ lực nghiên cứu các độ đo giữa các ý niệm, mà cụ thể là nghiên cứu các độ đo giữa các từ của các công trình trước đây mà cách tiếp cận được phân chia làm hai hướng chính, gồm cách tiếp cận dựa trên tập ngữ liệu và cách tiếp cận dựa trên ontology. Trong cách tiếp cận dựa trên tập ngữ liệu, khoảng cách ngữ nghĩa giữa các từ đại diện cho các ý niệm và các quan hệ được xác định dựa trên sự đồng xuất hiện của chúng trong các ngữ cảnh khác nhau trong một tập ngữ liệu. Trong cách tiếp cận dựa trên ontology, khoảng cách về mặt ngữ nghĩa được xác định dựa trên các mạng ngữ nghĩa gắn liền với sự liên hệ giữa các từ. Tuy nhiên, các phương pháp theo các cách tiếp cận trên không thể So trùng mờ các đồ thị tri thức Trang 8 / 77 áp dụng được cho các nhãn kiểu không có ý nghĩa bởi vì chúng đều dựa trên sự xuất hiện thực sự và ý nghĩa của các từ có trong một tập ngữ liệu. Cơ sở tri thức của công trình mà chúng tôi nghiên cứu được xây dựng dựa trên ontology, gồm các nhãn kiểu ý niệm và nhãn kiểu quan hệ. Do đó, để thực hiện việc tính khoảng cách ngữ nghĩa giữa các ý niệm được đại diện bởi các nhãn kiểu ý niệm và nhãn kiểu quan hệ đó, chúng tôi thực hiện việc sửa đổi công thức tính khoảng cách ngữ nghĩa giữa các từ dựa trên mạng phân cấp ontology của Jiang-Conrath ([13]). Cụ thể như sau, thay vì tính xác suất xuất hiện của các từ trong công thức dựa trên một tập ngữ liệu, chúng tôi dẫn ra xác suất xuất hiện của các kiểu ý niệm hoặc kiểu quan hệ được tính dựa trên số lượng thực thể của kiểu ý niệm hoặc kiểu quan hệ đó có trong cơ sở tri thức của công trình đang làm. Mặt khác, các độ đo khoảng cách ngữ nghĩa trên là độ đo tương tự giữa hai kiểu ý niệm, kiểu quan hệ. Đó là các độ đo đối xứng. Điều này hướng chúng tôi đến việc nghiên cứu các độ đo bất đối xứng. Bởi vì trên thực tế, chúng ta có thể cần đo và tính xem một đồ thị truy vấn bao phủ một đồ thị kết quả một giá trị là bao nhiêu. Trong công trình, chúng tôi đưa ra một độ đo bao phủ bất đối xứng cho các kiểu thực thể cũng dựa trên nền tảng xác suất của độ đo khoảng cách ngữ nghĩa của Jiang-Conrath. Ngoài việc nghiên cứu các độ đo giữa các từ của các công trình trước đây để đưa ra phương pháp mới cho công trình của mình, chúng tôi còn tiến hành nghiên cứu các độ đo giữa các giá trị thuộc tính. Trong công trình của luận văn, chúng tôi giới hạn chỉ nghiên cứu các độ đo giữa các giá trị thuộc tính chuỗi là tên của thực thể. Các cách tiếp cận của các công trình trước đây về độ đo giữa các chuỗi được chia làm hai phương pháp, gồm phương pháp đo chuỗi tĩnh và phướng pháp đo chuỗi dựa trên các token. Trong công trình này, chúng tôi áp dụng phương pháp SoftTF-IDF ([1]), là phương pháp đo lai ghép giữa phương pháp đo chuỗi tĩnh và phương pháp đo dựa trên token cho việc tính độ đo giữa các thuộc tính chuỗi là tên thực thể. Nếu xét về khía cạnh hiện thực, việc tiến hành triển khai xây dựng một hệ thống rút trích xấp xỉ các đồ thị tri thức ngay từ ban đầu là công việc khó khăn, đòi hỏi nhiều thời gian và công sức. Vì vậy, chúng tôi sử dụng kĩ thuật biến đổi truy vấn như là một giải pháp chiến lược, đồng thời sử dụng lại các chức năng so trùng có sẵn của Sesame và ngôn ngữ truy vấn của nó là SeRQL cho việc quản lý và so trùng chính xác các đồ thị tri thức. Điều đó có nghĩa là, tri thức sẽ được lưu dưới dạng các phát biểu RDF mà có thể được xem là các đồ thị tri thức có trong cơ sở tri thức được quản lý bởi hệ thống Sesame. Một đồ So trùng mờ các đồ thị tri thức Trang 9 / 77 thị truy vấn mới sẽ được sinh ra thông qua kĩ thuật biến đổi truy vấn và được sử dụng để truy vấn các đồ thị RDF kết quả thông qua ngôn ngữ SeRQL. Những đồ thị RDF kết quả mà được so trùng chính xác với đồ thị truy vấn vừa được biến đổi sẽ được so trùng với đồ thị truy vấn ban đầu để tính toán các độ đo tương tự và bao phủ và trả kết quả về cho người sử dụng. [...]... bài toán so trùng mờ các đồ thị tri thức là tìm ra các độ đo về mặt ngữ nghĩa giữa hai đồ thị ý niệm Như chúng ta đã biết, đồ thị ý niệm bao gồm các ý niệm và quan hệ tạo thành, nên phương hướng để thực hiện việc đo khoảng cách ngữ nghĩa của hai đồ thị ý niệm là tìm ra độ đo ngữ nghĩa giữa các kiểu ý niệm và các kiểu quan hệ có trong hai đồ thị 3.1 - Độ tương tự giữa các kiểu thực thể Cơ sở tri thức chứa.. .So trùng mờ các đồ thị tri thức 2 - CƠ SỞ LÝ THUYẾT 2.1 - Ngôn ngữ truy vấn đồ thị tri thức 2.1.1 Sesame và SeRQL RDF cùng với định dạng cấu trúc của nó là RDF Schema (RDFS) là một dạng chuẩn cho việc biểu diễn nội dung, thông tin của các tài liệu và ngữ nghĩa tri thức trên Web Do đó, chúng ta cần có một hệ thống hữu hiệu để có thể quản lý lưu trữ, truy vấn, sử dụng một cách hiệu quả các tri thức. .. pháp SoftTF-IDF là bất đối xứng Lý do là phương pháp SoftTF-IDF chỉ ra rõ các từ sẽ được sử dụng để tìm các trọng số tf và idf cho việc thực hiện tính toán độ đo là CLOSE (θ , S , T ) , mà là tập các từ có trong truy vấn S mà có độ đo tương tự mức hai lớn hơn mức ngưỡng θ = 0.9 với một từ nào đó có trong kết quả T Trang 31 / 77 So trùng mờ các đồ thị tri thức 3 - CÁC ĐỘ ĐO GIỮA HAI ĐỒ THỊ TRI THỨC... / 77 So trùng mờ các đồ thị tri thức CityID CountryID “Việt Nam” Hình 1: Đồ thị RDF cho truy vấn SeRQL Như vậy, biểu thức đường dẫn của ngôn ngữ truy vấn SeRQL có thể được xem như là một đồ thị Tất cả các phát biểu RDF trong kho dữ liệu tri thức cũng có thể được xem như một đồ thị Điều... trước miền tri thức + Không có thông tin ngữ nghĩa đính kèm theo + Không có tài nguyên tĩnh như từ điển, hoặc từ đồng nghĩa đi kèm theo Ý tưởng của cách tiếp cận này là những từ giống nhau sẽ được sử dụng trong các ngữ cảnh giống nhau, và ngữ cảnh giống nhau sẽ sử dụng các từ giống nhau Tóm lại, sự phân bố Trang 15 / 77 So trùng mờ các đồ thị tri thức của sự đồng xuất hiện của các từ trong các ngữ cảnh... 2.3.2 Các độ đo dựa trên token Ý tưởng của cách tiếp cận dựa trên token (token-based measures) là thứ tự của các từ và trật tự cú pháp là không quan trọng Ví dụ, các chuỗi “Huỳnh Tấn Đạt” hay “Đạt Tấn Huỳnh” Trang 27 / 77 So trùng mờ các đồ thị tri thức là như nhau, kể cả khi chúng khác nhau về khoảng cách so n thảo Để hiện thực được ý tưởng này, các chuỗi s và chuỗi t cần đo được phân tích thành tập các. .. luận văn là nghiên cứu các độ đo mờ giữa hai đồ thị tri thức dựa trên các khoảng cách về ngữ nghĩa giữa các kiểu ý niệm và giữa kiểu quan hệ có trong hai đồ thị Do đó, điều cần thiết là phải tiến hành nghiên cứu các độ đo của các công trình nghiên cứu trước đây về khoảng cách ngữ nghĩa giữa các khái niệm, mà cụ thể là khoảng cách ngữ nghĩa giữa các từ Khoảng cách ngữ nghĩa hoặc độ đo tương tự nhau về... Trang 13 / 77 So trùng mờ các đồ thị tri thức cho một quan hệ của các thực thể của các đỉnh ý niệm nối với nó Các ý niệm được kết nối với cùng một quan hệ được gọi là các ý niệm láng giềng (neighbour concepts) của quan hệ đó Hình 2 sau đây là một ví dụ về đồ thị ý niệm mô tả một câu có nghĩa là “Casumina là một công ty được định vị ở một quốc gia thuộc Châu Á” Hình 2: Minh họa về đồ thị ý niệm Trong... Thay công thức tính khoảng cách ngữ nghĩa của một ý niệm với cha của nó vào phương trình 2.14 Sau khi tri t tiêu các thành phần đối ngẫu nhau, ta có được công thức tính độ đo khoảng cách ngữ nghĩa giữa hai ý niệm bất kì c1 và c2 trong mạng phân cấp như sau dist JC (c1 , c 2 ) = IC (c1 ) + IC (c 2 ) − 2 × IC ( LCS (c1 , c 2 )) (PT 2.15) Hay nói cách khác: Trang 23 / 77 So trùng mờ các đồ thị tri thức dist... có đồ thị ý niệm sau [Công_ty:Casumina] → (được_định_vị_ở) → [Quốc_gia:*] là đúng Trang 14 / 77 So trùng mờ các đồ thị tri thức đắn, nhưng đồ thị ý niệm [Công_ty:Casumina] → (được_định_vị_ở) → [Tổ_chức_thương_mại:*] là không đúng vì kiểu ý niệm Tổ_chức_thương_mại không phải là một kiểu ý niệm con của kiểu ý niệm Nơi_chốn 2.2 - Độ tương tự giữa các từ Mục tiêu của luận văn là nghiên cứu các độ đo mờ . dưới dạng các phát biểu RDF mà có thể được xem là các đồ thị tri thức có trong cơ sở tri thức được quản lý bởi hệ thống Sesame. Một đồ So trùng mờ các đồ thị tri thức Trang 9 / 77 thị truy. nghiệp. So trùng mờ các đồ thị tri thức Trang 2 / 77 TÓM TẮT Tri thức có thể được biểu diễn như là các đồ thị gồm các ý niệm và quan hệ giữa các ý niệm. Luận văn này đưa ra một cách tiếp. tìm kiếm các thực thể có tên trong đồ thị truy vấn 68 So trùng mờ các đồ thị tri thức Trang 6 / 77 DANH MỤC CÁC BẢNG Bảng 1: Bảng mô tả sự ánh xạ giữa các kiểu thực thể trong đồ thị ý niệm

Định dạng
Số trang	77
Dung lượng	1,59 MB