Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 79 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
79
Dung lượng
1,59 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA HUỲNH TẤN ĐẠT SO TRÙNG MỜ CÁC ĐỒ THỊ TRI THỨC Chuyên ngành: Công nghệ thông tin Mã số ngành: 01.02.10 LUẬN VĂN THẠC SĨ TP Hồ Chí Minh, tháng 07 năm 2005 So trùng mờ đồ thị tri thức LỜI CẢM ƠN Trước hết, xin gởi lời biết ơn chân thành sâu sắc đến Thầy Cao Hoàng Trụ, người tận tình hướng dẫn, định hướng cho tơi từ phương pháp nghiên cứu khoa học đến cách thức trình bày vấn đề suốt trình làm luận văn tốt nghiệp Tôi gởi lời cảm ơn đến thành viên Huỳnh Ngọc Tuyên, Đỗ Thanh Hải nhóm thực hệ thống VNKIM hỗ trợ mặt kĩ thuật trình thực đề tài Tôi xin gởi lời cảm ơn đến tác giả báo mà sử dụng để nghiên cứu tham khảo luận văn tốt nghiệp Con xin cảm ơn ba mẹ động viên, khuyến khích suốt q trình làm luận văn tốt nghiệp Trang / 79 So trùng mờ đồ thị tri thức TĨM TẮT Tri thức biểu diễn đồ thị gồm ý niệm quan hệ ý niệm Luận văn đưa cách tiếp cận cho việc tìm kiếm ngữ nghĩa cách so trùng mờ đồ thị tri thức dựa việc nghiên cứu độ đo mặt ngữ nghĩa hai kiểu ý niệm, kiểu quan hệ ràng buộc thuộc tính kiểu ý niệm Trong đó, chúng tơi dẫn cách tính độ đo tương tự bao phủ kiểu ý niệm, kiểu quan hệ dựa số lượng thực thể kiểu ý niệm, kiểu quan hệ có sở tri thức Từ đó, chúng tơi tính độ đo tương tự độ đo bao phủ đồ thị truy vấn kết Mặt khác, để tận dụng khả tìm kiếm có sẵn hệ thống Sesame, cơng trình sử dụng kĩ thuật biến đổi truy vấn để tìm đồ thị kết mà gần với đồ thị truy vấn người sử dụng Điều có nghĩa là, tri thức lưu dạng phát biểu RDF mà xem đồ thị tri thức Một đồ thị truy vấn sinh thông qua kĩ thuật biến đổi truy vấn sử dụng để truy vấn đồ thị RDF kết Những đồ thị RDF kết mà so trùng xác với đồ thị truy vấn vừa biến đổi so trùng với đồ thị truy vấn ban đầu để tính toán độ đo trả cho người sử dụng Trang / 79 So trùng mờ đồ thị tri thức SUMMARY Knowledge can be presented as graphs, including concepts and relations between concepts The work of this thesis proposes a new approach for semantic search engine by fuzzy matching of knowledge graphs based on studying the semantic measures between concept types, relation types and attribute value constraints In this work, we derived the similarity and subsumption degrees between concept types, relation types calculated from the population of their entities in the knowledgebase From these points, we propose the similarity and subsumption degrees between a query and a result graph Moreover, in order to reuse the existing platform of Sesame, this work utilizes the query modification tatic as a solution to retrieve the knowledge graphs which are similar to user’s query knowledge graph It means that knowledge is presented in RDF statements, which are also knowledge graphs Due to query modification technique, a new query knowledge graph is generalized from user’s query graph and used for searching results Then, knowledge graphs retrieved from generalized knowledge graph will be matched with original graph to calculate the measures and return to the user Trang / 79 So trùng mờ đồ thị tri thức MỤC LỤC LỜI CẢM ƠN .1 TÓM TẮT .2 SUMMARY MỤC LỤC .4 DANH MỤC CÁC HÌNH DANH MỤC CÁC BẢNG .6 CHƯƠNG 1: PHÁT BIỂU VẤN ĐỀ CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 10 2.1 - Ngôn ngữ truy vấn đồ thị tri thức .10 2.1.1 Sesame SeRQL 10 2.1.2 Đồ thị ý niệm 13 2.2 - Độ tương tự từ .15 2.2.1 Hướng tiếp cận dựa kho ngữ liệu 15 2.2.2 Hướng tiếp cận dựa ontology 17 2.3 - Độ đo chuỗi 25 2.3.1 Các độ đo dựa chuỗi 25 2.3.2 Các độ đo dựa token 28 CHƯƠNG 3: CÁC ĐỘ ĐO GIỮA HAI ĐỒ THỊ TRI THỨC 33 3.1 - Độ tương tự kiểu thực thể 33 3.2 - Độ bao phủ kiểu thực thể 36 3.3 - Độ bao phủ tên thực thể .38 3.4 - Độ đo đồ thị truy vấn kết 40 CHƯƠNG 4: THIẾT KẾ VÀ HIỆN THỰC GIẢI THUẬT SO TRÙNG MỜ ĐỒ THỊ TRI THỨC 44 4.1 - Kĩ thuật biến đổi truy vấn 44 4.2 - Ánh xạ đồ thị ý niệm truy vấn sang ngôn ngữ truy vấn SeRQL 52 4.3 - Giải thuật so trùng mờ đồ thị ý niệm 58 CHƯƠNG 5: ĐÁNH GIÁ KẾT QUẢ .66 CHƯƠNG 6: KẾT LUẬN 73 CHƯƠNG 7: HƯỚNG MỞ RỘNG 74 DANH MỤC CÔNG TRÌNH ĐÃ CƠNG BỐ 75 TÀI LIỆU THAM KHẢO 76 Trang / 79 So trùng mờ đồ thị tri thức DANH MỤC CÁC HÌNH Hình 1: Đồ thị RDF cho truy vấn SeRQL 13 Hình 2: Minh họa đồ thị ý niệm 14 Hình 3: Minh họa ý niệm chung thấp hai ý niệm 20 Hình 4: Minh họa ý tưởng Jiang-Conrath 23 Hình 5: Ví dụ minh họa ý tưởng Jaro 27 Hình 6: Sự phân cấp kiểu ý niệm ontology 33 Hình 7: Sự so sánh độ tương tự độ bao phủ hai kiểu thực thể 37 Hình 8: Ví dụ đồ thị ý niệm truy vấn .41 Hình 9: Một ví dụ đồ thị ý niệm truy vấn .42 Hình 10: Một đồ thị ý niệm kết .42 Hình 11: Một trường hợp dùng kĩ thuật biến đổi truy vấn .45 Hình 12: Kết trường hợp dùng kĩ thuật biến đổi truy vấn 45 Hình 13: Ví dụ minh họa giải thuật biến đổi truy vấn 48 Hình 14: Đồ thị ý niệm truy vấn sau dùng giải thuật biến đổi truy vấn 51 Hình 15: Giải thuật so trùng mờ đồ thị tri thức 59 Hình 16: Minh họa bảng kết trả thực truy vấn SeRQL .60 Hình 17: Một truy vấn cơng cụ soạn thảo đồ thị ý niệm truy vấn 67 Hình 18: Ví dụ minh họa kết tìm kiếm giải thuật so trùng mờ .68 Hình 19: Ví dụ minh họa kết tìm kiếm giải thuật so trùng mờ (tiếp theo) .69 Hình 20: Ví dụ minh họa kết tìm kiếm thực thể có tên đồ thị truy vấn 70 Trang / 79 So trùng mờ đồ thị tri thức DANH MỤC CÁC BẢNG Bảng 1: Bảng mô tả ánh xạ kiểu thực thể đồ thị ý niệm truy vấn hình 13 kiểu thực thể sau thực thi bước biến đổi truy vấn 50 Bảng 2: Bảng lưu trữ biến truy vấn SeRQL ví dụ hình 13 58 Trang / 79 So trùng mờ đồ thị tri thức CHƯƠNG 1: PHÁT BIỂU VẤN ĐỀ Như biết, ngày với bùng nổ phát triển nhanh chóng World Wide Web, Internet lưu trữ tài ngun thơng tin chia sẻ tồn cầu Vấn đề đặt làm để khai thác sử dụng tài nguyên cách hiệu liệu lưu trữ Web bán cấu trúc việc tìm kiếm liệu dựa vào việc so trùng từ khóa mà khơng sử dụng ngữ nghĩa khơng xác Do đó, cách tiếp cận để biểu diễn, tổ chức thông tin, xây dựng nên mơ hình tìm kiếm thích hợp điều cần thiết Một dạng chuẩn cho việc biểu diễn nội dung, thông tin tài liệu ngữ nghĩa tri thức Web dùng phát biểu RDF (Resource Description Framework), mà đó, phát biểu xem đồ thị Từ đó, hệ thống quản lý thông tin tri thức xuất Cụ thể Sesame ([14]) với ngôn ngữ truy vấn SeRQL ([23]) cho việc lưu trữ truy vấn đồ thị RDF Tất chúng mã nguồn mở sử dụng hệ thống lớn Cơng trình mà chúng tơi nghiên cứu thực sử dụng phát biểu RDF để lưu trữ biểu diễn tri thức, đồng thời sử dụng Sesame ngôn ngữ truy vấn mạnh, cho phép tìm kiếm xác SeRQL để quản lý truy vấn đồ thị RDF Một đồ thị RDF bao gồm kiểu ý niệm, kiểu quan hệ ràng buộc giá trị thuộc tính kiểu ý niệm Trong đó, kiểu ý niệm, kiểu quan hệ định nghĩa mạng phân cấp ontology Do đó, mục tiêu luận văn đưa cách tiếp cận cho việc tìm kiếm theo ngữ nghĩa cách so trùng mờ đồ thị tri thức dựa việc nghiên cứu độ đo khoảng cách ngữ nghĩa kiểu ý niệm, kiểu quan hệ độ đo giá trị thuộc tính Mục tiêu đặt cơng trình hướng chúng tơi nỗ lực nghiên cứu độ đo ý niệm, mà cụ thể nghiên cứu độ đo từ cơng trình trước mà cách tiếp cận phân chia làm hai hướng chính, gồm cách tiếp cận dựa tập ngữ liệu cách tiếp cận dựa ontology Trong cách tiếp cận dựa tập ngữ liệu, khoảng cách ngữ nghĩa từ đại diện cho ý niệm quan hệ xác định dựa đồng xuất chúng ngữ cảnh khác tập ngữ liệu Trong cách tiếp cận dựa ontology, khoảng cách mặt ngữ nghĩa xác định dựa mạng ngữ nghĩa gắn liền với liên hệ từ Tuy nhiên, phương pháp theo cách tiếp cận Trang / 79 So trùng mờ đồ thị tri thức áp dụng cho nhãn kiểu khơng có ý nghĩa chúng dựa xuất thực ý nghĩa từ có tập ngữ liệu Cơ sở tri thức cơng trình mà nghiên cứu xây dựng dựa ontology, gồm nhãn kiểu ý niệm nhãn kiểu quan hệ Do đó, để thực việc tính khoảng cách ngữ nghĩa ý niệm đại diện nhãn kiểu ý niệm nhãn kiểu quan hệ đó, chúng tơi thực việc sửa đổi cơng thức tính khoảng cách ngữ nghĩa từ dựa mạng phân cấp ontology Jiang-Conrath ([13]) Cụ thể sau, thay tính xác suất xuất từ công thức dựa tập ngữ liệu, dẫn xác suất xuất kiểu ý niệm kiểu quan hệ tính dựa số lượng thực thể kiểu ý niệm kiểu quan hệ có sở tri thức cơng trình làm Mặt khác, độ đo khoảng cách ngữ nghĩa độ đo tương tự hai kiểu ý niệm, kiểu quan hệ Đó độ đo đối xứng Điều hướng đến việc nghiên cứu độ đo bất đối xứng Bởi thực tế, cần đo tính xem đồ thị truy vấn bao phủ đồ thị kết giá trị Trong cơng trình, chúng tơi đưa độ đo bao phủ bất đối xứng cho kiểu thực thể dựa tảng xác suất độ đo khoảng cách ngữ nghĩa Jiang-Conrath Ngoài việc nghiên cứu độ đo từ cơng trình trước để đưa phương pháp cho cơng trình mình, chúng tơi cịn tiến hành nghiên cứu độ đo giá trị thuộc tính Trong cơng trình luận văn, chúng tơi giới hạn nghiên cứu độ đo giá trị thuộc tính chuỗi tên thực thể Các cách tiếp cận cơng trình trước độ đo chuỗi chia làm hai phương pháp, gồm phương pháp đo chuỗi tĩnh phướng pháp đo chuỗi dựa token Trong cơng trình này, áp dụng phương pháp SoftTF-IDF ([1]), phương pháp đo lai ghép phương pháp đo chuỗi tĩnh phương pháp đo dựa token cho việc tính độ đo thuộc tính chuỗi tên thực thể Nếu xét khía cạnh thực, việc tiến hành triển khai xây dựng hệ thống rút trích xấp xỉ đồ thị tri thức từ ban đầu cơng việc khó khăn, địi hỏi nhiều thời gian cơng sức Vì vậy, chúng tơi sử dụng kĩ thuật biến đổi truy vấn giải pháp chiến lược, đồng thời sử dụng lại chức so trùng có sẵn Sesame ngơn ngữ truy vấn SeRQL cho việc quản lý so trùng xác đồ thị tri thức Điều có nghĩa là, tri thức lưu dạng phát biểu RDF mà xem đồ thị tri thức có sở tri thức quản lý hệ thống Sesame Một đồ Trang / 79 So trùng mờ đồ thị tri thức thị truy vấn sinh thông qua kĩ thuật biến đổi truy vấn sử dụng để truy vấn đồ thị RDF kết thông qua ngôn ngữ SeRQL Những đồ thị RDF kết mà so trùng xác với đồ thị truy vấn vừa biến đổi so trùng với đồ thị truy vấn ban đầu để tính tốn độ đo tương tự bao phủ trả kết cho người sử dụng Trang / 79 So trùng mờ đồ thị tri thức 19 Set j = index of the column named varName in result table 20 Get result conceptType in column jth of current result 21 Calculate similarity and subsumption between query conceptType and result conceptType 22 For each constraints in current concept 23 { 24 Get the variable varConstraint of current constraint 25 Calculate similarity and subsumption between query constraint and result constraint 26 Get result’s attribute value based on varConstraint variable 27 Calculate similarity and subsumption between the query-value and result-value 28 } 29 } 30 } 31 Calculate similarity and subsumption degree between user’s query CG and current result CG 32 } Trong trình thực việc tính tốn độ đo tương tự bao phủ hai đồ thị tri thức, cần tính số lượng thực thể kiểu ý niệm kiểu quan hệ có sở tri thức Để làm điều này, cần phải thực truy vấn sở tri thức để đếm số thực thể kiểu ý niệm kiểu quan hệ thơng qua việc câu truy vấn SeRQL để thực Sau câu truy vấn sử dụng cho việc thực + Truy vấn SeRQL sau cho phép lấy số thực thể kiểu ý niệm URIConceptType có sở tri thức: select x from {x} rdf:type {< URIConceptType >} + Truy vấn SeRQL sau cho phép lấy số thực thể kiểu quan hệ URIRelationType có sở tri thức: select * from {x} {y} + Câu truy vấn SeRQL sau cho phép thực việc xác định kiểu ý niệm thực thể biết danh hiệu URI sở tri thức: select x from {} serql:directType {x} + Câu truy vấn SeRQL sau cho phép truy vấn để lấy tất kiểu quan hệ có hai danh hiệu: Trang 64 / 79 So trùng mờ đồ thị tri thức select p from {} p {} Trong trình thực giải thuật trên, để tăng tốc độ tính tốn giải thuật, kết tính tốn độ đo hai kiểu ý niệm, kiểu quan hệ đồ thị ý niệm truy vấn kết trả thực lưu lại hệ thống nhằm làm giảm chi phí tính tốn cho lần tính toán cho kết bảng kết trả có nhiều kết có chung kiểu ý niệm, kiểu quan hệ Mặt khác, tất số lượng thực thể kiểu ý niệm, kiểu quan hệ hệ thống tính sẵn trước ứng dụng bắt đầu thực truy vấn lưu kết lại tính số lượng thực thể cho kiểu thực thể mà chưa tính trước Trang 65 / 79 So trùng mờ đồ thị tri thức CHƯƠNG 5: ĐÁNH GIÁ KẾT QUẢ Trong phần này, chúng tơi xin trình bày thử nghiệm thực truy vấn rút trích xấp xỉ đồ thị tri thức hệ thống VN-KIM đồng thời bàn bạc thảo luận kết trình thực Để thực giải thuật so trùng mờ đồ thị tri thức trình bày phần 4, sử dụng lại công cụ soạn thảo đồ thị ý niệm truy vấn cơng trình [28] Đây công cụ cho phép người sử dụng soạn thảo truy vấn cách dùng đồ thị ý niệm để đặc tả câu truy vấn cách trực quan mức giao diện Trong đó, đỉnh ý niệm soạn thảo cách duyệt qua tất kiểu ý niệm có ontology thực thể tương ứng sở tri thức Các đỉnh quan hệ chọn cách duyệt qua kiểu quan hệ có ontology Các thao tác soạn thảo ý niệm, quan hệ thiết kế thân thiện, dễ sử dụng nhằm tạo thuận lợi cho việc soạn thảo truy vấn người sử dụng Bên cạnh đó, cơng cụ soạn thảo đồ thị ý niệm truy vấn cịn có chức cho phép kiểm tra đồ thị ý niệm truy vấn nhập vào có đắn tương thích hay khơng, đồng thời hỗ trợ chức tìm kiếm xác thực thể có sở tri thức mà thỏa mãn đồ thị truy vấn vừa nhập vào Hình 17 ví dụ minh họa đồ thị ý niệm truy vấn vẽ cách dùng công cụ soạn thảo truy vấn nói Ví dụ hình 17 mơ tả cho câu truy vấn “Tìm tất công ty truyền thông định vị quốc gia Việt Nam” trình bày kết hệ thống Sesame trả sau thực truy vấn chức so trùng xác cơng cụ Dựa vào công cụ soạn thảo đồ thị ý niệm trên, tiến hành chèn thêm mã lệnh vào chương trình để thực thêm chức so trùng mờ đồ thị tri thức, bao gồm thực độ đo tương tự, bao phủ kiểu ý niệm, kiểu quan hệ độ đo bao phủ ràng buộc giá trị thuộc tính chuỗi tên thực thể Sau đó, giải thuật biến đổi truy vấn với việc ánh xạ sang câu truy vấn SeRQL thực để rút trích xấp xỉ đồ thị kết Cuối cùng, thực giải thuật so trùng mờ đồ thị ý niệm truy vấn đồ thị ý niệm kết để tính tốn độ đo tương ứng, sau trả cho người sử dụng Các độ đo đồ thị truy vấn đồ thị kết giải thuật để thực việc so trùng mờ trình bày phần phần Do đó, đây, chúng tơi xin Trang 66 / 79 So trùng mờ đồ thị tri thức trình bày vài ví dụ phân tích kết thực việc truy vấn chức so trùng mờ đồ thị tri thức tính tốn độ đo tương tự bao phủ hệ thống rút trích thơng tin tri thức tiếng Việt VNKIM cơng trình làm Hình 17: Một truy vấn công cụ soạn thảo đồ thị ý niệm truy vấn Trước hết, xét ví dụ cụ thể sau Truy vấn nhập mà người sử dụng nhập vào đồ thị ý niệm truy vấn minh họa hình 18, mơ tả câu truy vấn có nghĩa “Tìm tất cơng ty hóa chất sản phẩm hóa chất định vị thành phố cấp một phần quốc gia Việt Nam” Trong tập kết trả minh họa hình 18, chọn số kết hiển thị xếp theo loại công ty Chúng ta thấy thực thể kết thuộc kiểu ý niệm Hóa_chất_và_sản_phẩm_hóa_chất có quan hệ được_định_vị với thực thể kiểu ý niệm Thành_phố_cấp_một kiểu ý niệm Tỉnh có độ đo tương tự độ đo bao phủ đồ thị ý niệm truy vấn kết trả Trang 67 / 79 So trùng mờ đồ thị tri thức Chẳng hạn, xét hai thực thể kết có danh hiệu có mã 15677 1334 thuộc kiểu ý niệm Hóa_chất_và_sản_phẩm_hóa_chất định vị thực thể có danh hiệu Tỉnh_71 Tỉnh_41 thuộc kiểu ý niệm Tỉnh Hai hai thực thể có thuộc kiểu ý niệm Hóa_chất_và_sản_phẩm_hóa_chất có quan hệ được_định_vị_ở tương ứng với hai thực thể thuộc kiểu ý niệm Tỉnh thuộc quốc gia Việt Nam nên hai kết cuối trả tương ứng với hai thực thể có độ đo tương tự bao phủ Hình 18: Ví dụ minh họa kết tìm kiếm giải thuật so trùng mờ Ngồi ra, kết trả hiển thị hình 18 trên, hai kết tương ứng với hai thực thể thuộc kiểu Hóa_chất_và_sản_phẩm_hóa_chất có mã 1334 mã 15677 có độ tương tự 82.1057% độ bao phủ 80% mà 100% Điều giải thích hai thực thể có kiểu Hóa_chất_và_sản_phẩm_hóa_chất vừa nêu có quan hệ được_định_vị_ở tương ứng với hai thực thể có danh hiệu sở tri thức Tỉnh_71 Tỉnh_41 Hai danh hiệu thuộc kiểu ý niệm Tỉnh, mà không thuộc kiểu ý niệm Thành_phố_cấp_một đồ thị truy vấn người sử dụng Do đó, kết Trang 68 / 79 So trùng mờ đồ thị tri thức trả về, độ tương tự bao phủ hai kiểu ý niệm Tỉnh Thành_phố_cấp_một tính tốn đưa vào tính tốn kết độ tương tự bao phủ cuối Trong đó, độ bao phủ kiểu ý niệm Thành_phố_cấp_một kiểu ý niệm Tỉnh không Sau đây, xem xét tiếp số kết khác trả từ đồ thị ý niệm truy vấn ví dụ trên, minh họa hình 19 Hình 19: Ví dụ minh họa kết tìm kiếm giải thuật so trùng mờ (tiếp theo) Trong hình 19, nhận thấy với kiểu ý niệm Tỉnh, thực thể thuộc kiểu ý niệm đại diện cho loại công ty khác có kết độ đo cuối khác Mặt khác, thực thể kết thuộc kiểu ý niệm Hóa_chất_và_sản_phẩm_hóa_chất có quan hệ được_định_vị_ở với thực thể có danh hiệu Tỉnh_11 thuộc kiểu ý niệm Tỉnh có độ bao phủ lớn kết thuộc kiểu ý niệm khác, chẳng hạn Nhựa_và_các_sản_phẩm_nhựa, Dệt, … Điều giải thích sau, độ bao phủ kiểu ý niệm Hóa_chất_và_sản_phẩm_hóa_chất có đồ thị Trang 69 / 79 So trùng mờ đồ thị tri thức truy vấn kiểu ý niệm đại diện cho loại công ty khác bảng kết hình 19 không, độ bao phủ kiểu ý niệm Hóa_chất_và_sản_phẩm_hóa_chất có đồ thị truy vấn kiểu ý niệm Hóa_chất_và_sản_phẩm_hóa_chất kết trả Do đó, độ bao phủ có kết cuối tương ứng với thực thể thuộc kiểu ý niệm kiểu ý niệm Hóa_chất_và_sản_phẩm_hóa_chất có độ bao phủ lớn Tiếp theo, để minh họa phần so trùng mờ thuộc tính chuỗi tên thực thể, sau xét ví dụ đồ thị truy vấn, mà người sử dụng muốn tìm thực thể có tên câu truy vấn Hình 20 sau đồ thị ý niệm truy vấn mô tả câu truy vấn có ý nghĩa “Tìm người nam có chức vụ đại biểu quốc hội Việt Nam khóa XI có tên Nơng Đức Mạnh” Trong đó, chuỗi tên “Nông Đức Mạnh” người sử dụng nhập vào Hình 20: Ví dụ minh họa kết tìm kiếm thực thể có tên đồ thị truy vấn Chúng ta cần ý độ đo kết hiển thị hình 20 độ đo đồ thị truy vấn đồ thị kết Trong đó, độ đo hai đồ thị tính trung bình cộng Trang 70 / 79 So trùng mờ đồ thị tri thức độ đo kiểu ý niệm, kiểu quan hệ giá trị thuộc tính chuỗi có hai đồ thị Độ tương tự hai chuỗi thực so trùng xác, đó, độ bao phủ chuỗi tên truy vấn chuỗi tên kết thực theo độ đo SoftTF-IDF Tập kết trả hình 20 xếp hiển thị theo thứ tự độ đo bao phủ giảm dần dựa tất kết trả từ Sesame Ngoại trừ phần chuỗi tên thực thể, tất kiểu ý niệm, kiểu quan hệ đồ thị truy vấn kết hiển thị hình 20 Do đó, độ đo bao phủ chúng Vì vậy, thứ tự kết độ bao phủ mà hiển thị hình 20 tùy thuộc vào giá trị độ đo bao phủ chuỗi tên có đồ thị truy vấn chuỗi tên kết trả Chúng ta nhận thấy kết tương ứng với thực thể có danh hiệu Nam_106 cột x1 có tên lưu sở tri thức “NÔNG ĐỨC MẠNH” giống hồn tồn xác với truy vấn người sử dụng cần tìm nên có kết trả 100% Các kết đo khác có giá trị nhỏ Mặt khác, độ đo bao phủ đồ thị truy vấn kết tương ứng với thực thể có danh hiệu Nam_2 cột x1 có tên “NGUYỄN MẠNH ĐỨC” có độ đo 94.0836% Trong đó, độ đo bao phủ đồ thị truy vấn kết tương ứng với thực thể Nam_156 có tên “NƠNG THẾ CỪ” 91.5218% Điều giải thích chuỗi tên “NGUYỄN MẠNH ĐỨC” tính tốn giống với chuỗi tên “Nơng Đức Mạnh” nhiều so với chuỗi “NƠNG THẾ CỪ” Cụ thể, độ đo SoftTF-IDF chuỗi “Nông Đức Mạnh” chuỗi “NGUYỄN MẠNH ĐỨC” 0.645018, độ đo SofTF-IDF chuỗi tên “Nông Đức Mạnh” “NÔNG THẾ CỪ” 0.491307 Điều dẫn đến kết đồ thị truy vấn đồ thị kết ứng với chuỗi tên “NGUYỄN MẠNH ĐỨC” (1 + + + + + 0.645018) / = 94.0836%, kết đồ thị truy vấn đồ thị kết tương ứng với chuỗi tên “NÔNG THẾ CỪ” (1 + + + + + 0.491307) / = 91.5218% Ngoài ra, kết độ đo bao phủ hiển thị hình 20, chuỗi tên kết có chứa từ có chuỗi truy vấn người dùng mà có trọng số cao độ đo kết có giá trị lớn Cụ thể, ba từ “Nơng Đức Mạnh” từ “Nơng” có trọng số tf-idf cao (7.4998), từ “Mạnh” (5.1779) cuối từ “Đức” (4.3299) Chuỗi kết “NGUYỄN MẠNH ĐỨC” có giá trị độ đo bao phủ xếp đứng thứ hai có hai từ có trọng số cao giống xác với chuỗi tên đồ thị truy vấn Tất chuỗi tên kết lại có giá trị độ đo bao phủ theo thứ tự gồm chuỗi tên có chứa từ “Nơng”, đến chuỗi tên có chứa từ “Mạnh”, sau chuỗi tên có chứa từ “Đức” Trang 71 / 79 So trùng mờ đồ thị tri thức Chúng ta nhận xét độ đo chuỗi tên thực thể tính từ độ đo SoftTFIDF có kết khơng cao, độ đo bao phủ cuối đồ thị truy vấn đồ thị kết có giá trị lớn Điều giải thích xem xét thành phần gồm kiểu ý niệm, kiểu quan hệ, thuộc tính đồ thị ý niệm thể vai trò tầm quan trọng Vì vậy, thực tính tốn kết đo cuối hai đồ thị tri thức, chúng tơi thực lấy trùng bình kết đo thành phần có hai đồ thị Như vậy, cơng trình nghiên cứu luận văn, với việc nghiên cứu thực xong độ đo đồ thị tri thức, hoàn thành mục tiêu đề ban đầu nghiên cứu độ đo khoảng cách ngữ nghĩa kiểu ý niệm, kiểu quan hệ ràng buộc thuộc tính chuỗi tên thực thể Đồng thời, chúng tơi hồn thành việc thực giải thuật rút trích xấp xỉ đồ thị tri thức với việc so trùng, tính tốn độ đo trả cho người sử dụng Trang 72 / 79 So trùng mờ đồ thị tri thức CHƯƠNG 6: KẾT LUẬN Trong cơng trình nghiên cứu luận văn, đưa cách tiếp cận cho việc tìm kiếm theo ngữ nghĩa cách so trùng mờ đồ thị tri thức thông qua việc nghiên cứu độ đo kiểu ý niệm, kiểu quan hệ, ràng buộc giá trị thuộc tính chuỗi tên thực thể Trong cơng trình, chúng tơi sử dụng phương pháp đo lai ghép Jiang Conrath việc đo giống hai kiểu ý niệm hai kiểu quan hệ mạng phân cấp ngữ nghĩa VNKIM ontology với giải pháp khác mà đề nghị xác suất xuất kiểu ý niệm kiểu quan hệ tính theo số lượng thực thể có sở tri thức Ngồi ra, để tính tốn độ đo chuỗi tên thực thể, áp dụng độ đo SoftTF-IDF vào tốn cụ thể với cách tính trọng số cho từ có tên thực thể tính dựa tập chuỗi tên thuộc kiểu ý niệm tên thực thể Bên cạnh đó, q trình thực hệ thống tìm kiếm xấp xỉ đồ thị tri thức, sử dụng kĩ thuật biến đổi truy vấn tận dụng lại khả tìm kiếm xác hệ thống quản lý thông tin tri thức Sesame với ngơn ngữ truy vấn SeRQL Một đồ thị ý niệm truy vấn trước hết tổng quát cách thay kiểu ý niệm quan hệ kiểu cha trực tiếp chúng ontology với điều kiện tương thích với tất quan hệ Sau đó, giải thuật ánh xạ từ đồ thị ý niệm vừa tổng quát sang ngôn ngữ truy vấn SeRQL thực để thực việc truy vấn Các đồ thị ý niệm kết vừa tìm từ việc truy vấn SeRQL sau so trùng với đồ thị ý niệm truy vấn ban đầu để đo độ đo tương tự bao phủ trả cho người sử dụng Trang 73 / 79 So trùng mờ đồ thị tri thức CHƯƠNG 7: HƯỚNG MỞ RỘNG Trong cơng trình nghiên cứu luận văn, đề tài đưa việc cần thiết hai độ đo việc rút trích xấp xỉ đồ thị tri thức độ đo tương tự độ đo bao phủ đồ thị ý niệm truy vấn đồ thị ý niệm kết Điều hướng đến việc nghiên cứu, thử nghiệm để đưa cách đánh giá, xếp kết dựa độ đo tương tự độ đo bao phủ để trả cho người sử dụng Ngồi ra, cơng trình, phần so trùng mờ giá trị thuộc tính dừng phần so trùng giá trị thuộc tính chuỗi tên thực thể Điều có nghĩa là, vấn đề nghiên cứu thực độ đo mờ ràng buộc giá trị thuộc tính khác tập giá trị số nguyên, số thực, giá trị chuỗi khác, Trang 74 / 79 So trùng mờ đồ thị tri thức DANH MỤC CƠNG TRÌNH ĐÃ CƠNG BỐ Tru H Cao, Dat T Huynh, 2005, “Approximate retrieval of knowledge graphs” Proceedings of the 11th World Congress of International Fuzzy Systems Association (IFSA 2005), July 28-31, 2005, Beijing, China, vol 1, pp 652-657 Tru H Cao, Dat T Huynh, 2005 “Approximate knowledge graph retrieval: Measures and Realization” Book Chapter in Sanchez, E (Ed.): Fuzzy Logic and the Semantic Web Elsevier Science, to appear Trang 75 / 79 So trùng mờ đồ thị tri thức TÀI LIỆU THAM KHẢO [1] Bilenko M., Mooney R., Cohen W., Ravikumar P., and Fienberg S., 2003 “Adaptive Name Matching in Information Integration” IEEE Intelligent system, vol 18, No 5, pp 16-23 [2] Budanitsky A and Hirst G., 2001 “Semantic distance in WordNet: An experimental, application-oriented evaluation of five measures” Proceedings of the Workshop on WordNet and Other Lexical Resources, the 2nd Meeting of the North American Chapter of the Association for Computational Linguistics, Pittsburgh, Pennsylvania, USA [3] Church K.W and Hanks P., 1989 “Word Association Norms, Mutual Information, and Lexicagraphy” Proceedings of the 27th Annual Meeting of the Association for Computational Linguistics, pp 76-83 [4] Cohen W W., Ravikuma P., and Feinberg S E., 2003 “A comparision of string distance metrics for name-matching tasks” Proceedings of the IJCAI-2003 Workshop on Information Integration on the Web [5] Cohen W W., Ravikuma P., and Feinberg S E., 2003 “A comparision of string distance metrics for matching names and records” Proceedings of the KDD-2003 Workshop on Data Cleaning, Record Linkage, and Object Consolidation [6] Gauch S., Wang J., and Rachakonda S M., 1997 “A corpus Analysis Approach for Automatic Query Expansion and its Extension to Multiple Database” Proceedings of the International Conference on Information and Knowledge Management [7] Gotoh O., 1981 “An Improved Algorithm for Matching Bological Sequences” Journal of Molecular Biology, vol 162, pp 705-708 [8] Grefenstette G., 1992 “Use of Syntactic Context to Produce Term Association Lists for Text Retrieval” Proceedings of the 15th Annual International conference on research and Development in Information Retreval, SIGIR’92 [9] Hirst G and St-Onge D., 1998 “Lexical Chains as Representations of Context for the Detection and Correction of Malapropisms” C Fellbaum (ed.): WordNet: An Electronic Lexical Database, Cambridge: MIT Press, pp 305-332 Trang 76 / 79 So trùng mờ đồ thị tri thức [10] Jaccard, 1912, “The distribution of the flora of the alpine zone” New Phytologist vol 11, pp 37-50 [11] Jaro M A., 1989 “Advances in record-linkage methodology as applied to the 1985 census of Tampa, Florida” Journal of the American Statistical Society, vol 84, no 406, pp 414-420 [12] Jaro M A., 1995 “Probabilistic linkage of large public health data file” Statistics in Medicine, vol 14, pp 491-498 [13] Jiang J and Conrath D W., 1997 “Semantic similarity based on corpus statistics and lexical taxonomy” Proceedings of the International Conference on Research in Computational Linguistics, Taiwan [14] Kampman A., Harmelen F., and Broekstra J., 2002 “Sesame: a generic architecture for storing and querying RDF and RDF Schema” Proceedings of the 1st International Semantic Web Conference Also at http://www.openRDF.org/ (Last visited: May 2005) [15] Kozima H and Furugori T., 1993 “Similarity between words computed by spreading activation on an English dictionary” Proceedings of 6th Conference of the European Chapter of the Association for Computational Linguistics (EACL-93), Utrecht [16] Kozima H and Ito A., 1997 “Context-sensitive word distance by adaptive scaling of a semantic space” In Ruslan Mitkov and Nicolas Nicolov, editors, Recent Advances in Natural Language Processing, Amsterdam, John Benjamins Publishing Company, pp 111–124 [17] Leacock C and Chodorow M., 1998 “Combining local context and WordNet similarity for wod sense identification” In C Fellbaum, editor, WordNet: An electronic lexical database, MIT Press, pp 265-284 [18] Lin D., 1998 “An Information-Theoretic Definition of Similarity” Proceedings of the 15th International ConferenceOn Machine Learning, Madison, Wisconsin, USA [19] Monge A E and Elkan C P., 1996 “The Field-Matching Problem: Algorithm and Applications” Proceedings of the Second International Conference on Knowledge Discovery and Data Minning, AAAI Press, pp 267-270 [20] Needleman S B and Wunsch C D., 1970 “A general method applicable to the search for similarities in the amino acid sequences of two proteins” Journal of Molecular Biology 48: 443–453 Trang 77 / 79 So trùng mờ đồ thị tri thức [21] Ho N D and Cédirick F., 2004 “Lexical Similarity based on Quantity of Information Exchanged – Synonym Extraction” Proceedings of the Research Informatics VietnamFrancophony, Hanoi, Vietnam, Feb 2004, pp 193–198 [22] Resnik P., 1995 “Using Information content to evaluate semantic similarity in a taxonomy” Proceedings of the 14th International Joint Conference on Artificial Intelligence, Montreal, Canada, Aug 1995, pp 448–452 [23] SeRQL Manual Available at http://www.openRDF.org/ (Last visited: May 2005) [24] Smith T F and Waterman M S., 1981 “Identification of common molecular subsequences” Journal of Molecular Biology, 147: 195-197 [25] Sussna M J., 1997 “Text Retrieval Using Inference in Semantic Metanetworks” Ph.D thesis, University of California, San Diego [26] Tru H Cao, Dat T Huynh, 2005, “Approximate retrieval of knowledge graphs” Proceedings of the 11th World Congress of International Fuzzy Systems Association (IFSA 2005), July 28-31, 2005, Beijing, China, vol 1, pp 652-657 [27] Tru H Cao, Dat T Huynh, 2005 “Approximate knowledge graph retrieval: Measures and Realization” Book Chapter in Sanchez, E (Ed.): Fuzzy Logic and the Semantic Web Elsevier Science, to appear [28] Tru H Cao, Hai T Do, Bao T N Pham, Tuyen N Huynh and Duy Q Vu, 2005 “Conceptual Graphs for Knowledge Querying in VN-KIM Proceedings of the 13th International Conference on Conceptual Structures, July 18-22, 2005, Kassel, Germany, to appear [29] Winkler W E., 1999 “The state of record linkage and current research problems” Statistics of Income Division, Internal Revenue Service Publication R99/04 Available from http://www.census.gov/srd/www/byname.html (Last visited: June 2005) [30] Wu Z and Palmer M., 1994 “Verb Semantics and Lexical Selection” Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics, Las Cruces, New Mexico, USA, pp 133-138 [31] Yao H and Etzkorn L., 2004 “Conversion from the Conceptual Graph (CG) Model to the Resource Description Framework (RDF) Model” Contributions of the 12th International Conference on Conceptual Structures, pp 98-114 Trang 78 / 79 ... Trang 32 / 79 So trùng mờ đồ thị tri thức CHƯƠNG 3: CÁC ĐỘ ĐO GIỮA HAI ĐỒ THỊ TRI THỨC Như trình bày phần trước, việc giải toán so trùng mờ đồ thị tri thức tìm độ đo mặt ngữ nghĩa hai đồ thị ý niệm... Trang / 79 So trùng mờ đồ thị tri thức TĨM TẮT Tri thức biểu diễn đồ thị gồm ý niệm quan hệ ý niệm Luận văn đưa cách tiếp cận cho việc tìm kiếm ngữ nghĩa cách so trùng mờ đồ thị tri thức dựa việc... vấn đồ thị RDF kết Những đồ thị RDF kết mà so trùng xác với đồ thị truy vấn vừa biến đổi so trùng với đồ thị truy vấn ban đầu để tính tốn độ đo trả cho người sử dụng Trang / 79 So trùng mờ đồ thị