Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 14 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
14
Dung lượng
169,53 KB
Nội dung
Header Page of 126 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG PHẠM AN BÌNH TÌM HIỂU CÔNG NGHỆ KIM XÂY DỰNG ỨNG DỤNG CHÚ GIẢI NGỮ NGHĨA TỰ ĐỘNG Chuyên ngành : Khoa học máy tính Mã số : 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng - 2010 Footer Page of 126 Header Page of 126 MỞ ĐẦU Công trình ñược hoàn thành ĐẠI HỌC ĐÀ NẴNG LÝ DO CHỌN ĐỀ TÀI Với nhiều tỷ trang web phân bố hầu hết quốc gia, World Wide Web (WWW) môi trường tốt cho việc biểu diễn truy cập thông tin dạng số Tuy nhiên, lượng thông tin khổng lồ ñó tạo khó khăn to lớn việc tìm kiếm, chia sẻ thông Người hướng dẫn khoa học: PGS TS Phan Huy Khánh Phản biện : TS Nguyễn Mậu Hân Phản biện : TS Tăng Tấn Chiến tin WWW Hiện thông tin WWW ñược biểu diễn chủ yếu dạng ngôn ngữ tự nhiên Cách biểu diễn ñó phù hợp với người gây nhiều khó khăn cho chương trình hỗ trợ tìm kiếm, chia sẻ trao ñổi thông tin Máy tính không “hiểu” ñược thông tin liệu biểu diễn dạng thích hợp với người Để giải vấn ñề này, nhiều tổ chức nghiên cứu kinh Luận văn ñược bảo vệ Hội ñồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp Đại học Đà Nẵng vào ngày 14 tháng 10 năm 2010 doanh ñã phối hợp nghiên cứu phát triển Web có ngữ nghĩa Theo Tim Berner Lee giám ñốc tổ chức World Wide Web Consortium, ñồng thời cha ñẻ WWW, Web có ngữ nghĩa mở rộng web cách thêm vào mô tả ý nghĩa cho nội dung trang web dạng mà máy tính hiểu ñược, ñó xử lý thông tin hiệu Như web có ngữ nghĩa bao gồm thông tin ñược biểu diễn theo cách truyền thống với ngữ nghĩa thông tin ñược biểu diễn cách tường minh Việc thêm phần ngữ nghĩa cung cấp thêm tri thức cho chương trình, * Có thể tìm hiểu luận văn : - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu - Đại học Đà Nẵng giúp nâng cao chất lượng phân loại, tìm kiếm trao ñổi thông tin Sự ñời web ngữ nghĩa bước tiến vượt bậc so với kỹ thuật web thông thường hứa hẹn hệ web tương lai Các phát triển gần ñây công nghệ thông tin truyền thông ñã tạo khả ñể thu thập lượng lớn liệu mà chúng có liên quan với mặt khái niệm Tuy nhiên, ña số mối quan hệ ñược người “nhớ” không ñược lưu trữ theo Footer Page of 126 4 cách mà giúp cho máy tính hiểu ñể xử lý.Thách thức tạo ngữ nghĩa tự ñộng” ñưa số nhận ñịnh, kết thực hướng nghiên cứu ñó tạo khả cho phép người tạo, ñồng thời ñề xuất hướng phát triển luận văn tương lai lưu giữ, xếp, ghi phụ truy xuất kho liệu cá nhân lớn ĐỐI TƯỢNG VÀ PHẠM VI NGHÊN CỨU Header Page of 126 người khứ theo hình thức nhật ký sống ñược cá thể hóa trợ giúp cho nhớ người Hiện nay, có nhiều hướng nghiên cứu khác web ngữ Đối tượng nghiên cứu luận văn liệu dạng văn ñược biểu diễn môi trường www Luận văn tập trung vào nghiên cứu hệ thống quản lý thông tin tri thức KIM, sau ñó xây dựng ứng nghĩa, chuẩn hóa ngôn ngữ biểu diễn liệu siêu liệu dụng giải ngữ nghĩa tự ñộng web, chuẩn hóa ngôn ngữ biểu diễn ontology phát triển ngữ nghĩa PHƯƠNG PHÁP NGHIÊN CỨU cho web Đối với hướng nghiên cứu phát triển ngữ nghĩa cho web, Luận văn sử dụng phương pháp nghiên cứu sau : người ta tìm cách bổ sung ngữ nghĩa vào trang web, có Thứ nhất, tổng hợp kết nghiên cứu từ tư liệu liên hàng tỷ trang web toàn cầu Do ñó, việc xây dựng hệ thống tự ñộng chuyển ñổi trang web truyền thống sang trang web có ngữ nghĩa vô cần thiết, mang lại nhiều lợi ích quan web ngữ nghĩa, giải ngữ nghĩa, KIM Thứ hai, phân tích ñánh giá phương pháp ñề xuất giải pháp lựa chọn ñể xây dựng ứng dụng có hiệu ý nghĩa to lớn Để thực ñiều này, cần phân tích trích Từ giải pháp lựa chọn ñã ñề xuất, chọn phương lọc ngữ nghĩa ghi tự ñộng xuống trang web dạng pháp hiệu ñể áp dụng cho việc xây dựng ứng dụng giải ngữ giải Đó lý chọn ñề tài: nghĩa tự ñộng “ Tìm hiểu công nghệ KIM Xây dựng ứng dụng giải ngữ nghĩa tự ñộng” Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI Đề tài tập trung nghiên cứu, tìm hiểu công nghệ KIM tìm hiểu khả ứng dụng công nghệ KIM KIM công nghệ MỤC TIÊU VÀ NHIỆM VỤ Luận văn tập trung vào nghiên cứu nội dung sau ñây: Thứ nhất, nghiên cứu nội dung lý thuyết liên web ngữ nghĩa, giải ngữ nghĩa cho trang web Thứ hai, nghiên cứu tìm hiểu hệ thống quản lý thông tin tri thức KIM mẻ giới mà Việt Nam Đề tài ñề xuất hướng tiếp cận tăng cường ngữ cảnh vào trang Web cách bổ sung giải tự ñộng vào trang web, nhằm tăng thêm hiệu tìm kiếm, trích lọc, chia sẻ, thông tin web Đề tài góp phần nâng cao khả tổ chức triển Từ lý thuyết, kiến thức thu ñược sau nghiên cứu khai thành công hệ thống web ngữ nghĩa thực tế, giúp người sử nội dung trên, luận văn tập trung “xây dựng ứng dụng giải dụng hệ thống dễ dàng tìm kiếm ñược thông tin mong muốn xác hiệu Footer Page of 126 Header Page of 126 6 BỐ CỤC CỦA LUẬN VĂN CHƯƠNG - WEB NGỮ NGHĨA VÀ HỆ THỐNG Luận văn gồm chương, sau phần mở ñầu giới thiệu lý chọn ñề tài, mục tiêu nhiệm vụ, ñối tượng phạm vi nghiên cứu, phương pháp nghiên cứu , ý nghĩa khoa học thực tiễn ñề tài là: Chương 1, “Tìm hiểu web ngữ nghĩa hệ thống giải ngữ nghĩa” giới thiệu sơ nội dung tổng quan CHÚ GIẢI NGỮ NGHĨA 1.1 CÁC VẤN ĐỀ LIÊN QUAN ĐẾN WEB NGỮ NGHĨA 1.1.1 Sự hạn chế World Wide Web 1.1.2 Sự ñời Web ngữ nghĩa 1.1.2.1 Web ngữ nghĩa ñời WEB ngữ nghĩa, kiến trúc, ngôn ngữ WEB ngữ nghĩa Theo Tim- Berners Lee, ‘‘ Web ngữ nghĩa mở rộng Trong phần trình bày tổng quan phương pháp truy vấn Web tại, cho phép người dùng truy tìm, phối hợp, sử dụng liệu RDF lại trích lọc thông tin cách dễ dàng xác ’’ Bên cạnh ñó, chương tập trung trình bày giải ngữ nghĩa, mô hình tổng quát cho hệ thống giải ngữ nghĩa tự ñộng, phương pháp tách từ Chương 2, “Tìm hiểu hệ thống quản lý thông tin tri thức KIM” Trong chương này, luận văn giới thiệu hệ thông quản lý thông tin tri thức KIM, ñi sâu vào tảng, cấu hình, kiến trúc KIM Quá trình trích lọc thông tin ngữ nghĩa, giải khôi phục tính khả thi giá trị to lớn KIM Chương 3, “Xây dựng ứng dụng giải ngữ nghĩa tự ñộng” Trong chương tập trung nghiên cứu phân tích xây dựng kiến trúc tổng thể hệ thống gồm thành phần liên quan, cách 1.1.2.2 Một số khái niệm liên quan Phần trình bày Meta data ontology 1.1.3 Kiến trúc Web ngữ nghĩa Web ngữ nghĩa mở rộng web có bổ sung thêm ngữ nghĩa vào liệu web Từ sơ ñồ kiến trúc web ngữ nghĩa ta thấy có bảy tầng kiến trúc Với hệ thống web ñang tầng thứ hai 1.1.3.1 Unicode: bảng mã chuẩn chung chứa ñầy ñủ ký tự nhằm ñáp ứng tính quán toàn cầu web 1.1.3.2 URI (Uniform Resource Identifier):là chuỗi theo hình thức chuẩn cho phép nhận diện tài nguyên vận hành hệ thống, từ kiến trúc tổng thể ñã xây dựng tiếp tục 1.1.3.2 XML: chứa ñịnh nghĩa XML namespace triển khai thiết kế thành phần ñã phân tích, xây dựng sở XML Schema nhằm có cú pháp chung ñược sử dụng web liệu, ứng dụng giải ngữ nghĩa tự ñộng ngữ nghĩa XML ngôn ngữ ñánh dấu tài liệu chứa thông tin có Phần kết luận, tổng hợp kết nghiên cứu cấu trúc Một tài liệu XML chứa element, element luận văn, số hạn chế chưa hoàn thiện cài ñặt Đồng lồng có thuộc tính nội dung XML namespace thời, luận văn ñề xuất số hướng nghiên cứu cụ thể cho phép ñịnh khác từ vựng ñánh dấu tác giả luận văn tài liệu XML Footer Page of 126 8 Header Page of 126 ngữ giống SQL sử dụng ba RDF, tài nguyên ñể so khớp thành phần truy vấn trả kết cho câu truy vấn ñó 1.1.3.7 Logic: Việc biểu diễn tài nguyên dạng từ vựng ontology giúp máy lập luận ñược Cơ sở việc lập luận chủ yếu dựa vào logic Chính vậy, ontology ñược ánh xạ sang logic 1.1.3.8: Proof: Tầng ñưa luật ñể suy luận Cụ thể từ thông tin ñã có ta suy thông tin Để có ñược suy luận sở FOL Tầng nhà nghiên cứu ñang xây dựng ngôn ngữ luật cho SWRL, RuleML 1.1.3.9: Trust: Đảm bảo tin cậy ứng dụng 1.1.4 Ngôn ngữ cho Web ngữ nghĩa Kiến trúc Web ngữ nghĩa 1.1.3.3 Lớp RDF - RDF Schema: ñịnh dạng biểu diễn liệu nồng cốt web ngữ nghĩa RDF RDF khung biểu diễn thông tin tài nguyên dạng hình ảnh Ngôn ngữ biểu diễn liệu tri thức khía cạnh quan trọng Web ngữ nghĩa Có nhiều ngôn ngữ cho Semantic Web, hầu hết dựa XML hay sử dụng XML làm cú pháp Một số ngôn ngữ sử dụng RDF RDFschema 1.1.4.1 XML XML Schema RDFS (RDF Schema) ngôn ngữ ontology ñơn giản, XML siêu ngôn ngữ sử dụng ñể biểu diễn ngôn ngôn ngữ sở web ngữ nghĩa RDFS ngôn ngữ mô tả ngữ web ngữ nghĩa khác XML cho phép ñặc tả ñánh dấu tài từ vựng ba RDF liệu mà máy tính ñọc ñược Nó giống với HTML ñiểm chứa 1.1.3.4 OWL: ontology chi tiết ñược tạo chuỗi ký tự, thẻ dùng ñể ñánh dấu nội dung tài liệu, với OWL OWL ngôn ngữ bắt nguồn từ hình thức biểu diễn liệu XML ñược lưu trữ dạng văn túy Không giống logic cấu trúc RDFS Nó ñược nhúng vào RDF nhằm cung HTML, XML ñược sử dụng ñể biểu diễn tài liệu có cấp thêm từ vựng ñược chuẩn hóa, ñó giống RDFS cấu trúc tùy ý, thẻ cố ñịnh 1.1.3.5 RIF: Để cung cấp luật cho ngôn ngữ RDF OWL Các luật ñược chuẩn hóa cho web ngữ nghĩa Mỗi XML Schema cung cấp khung làm việc cần thiết cho việc tạo danh mục tài liệu XML Schema mô tả thẻ, 1.1.3.6 SPARQL : ñể truy vấn liệu RDF, RDFS các element thuộc tính tài liệu XML danh mục ontology OWL với sở tri thức SPARQL ngôn ñịnh, cấu trúc tài liệu ñúng, ràng buộc, loại liệu Footer Page of 126 10 11 sở Ngôn ngữ XML schema cung cấp số hỗ trợ bị hạn chế object domain Tương tự, có hai loại thuộc tính OWL: ñối việc ñịnh số lượng xuất element con, giá trị mặc tượng quan hệ với ñối tượng khác ñược ñịnh ñịnh, Cú pháp mã hóa ngôn ngữ XML schema XML owl:ObjectProperty ñối tượng quan hệ với giá trị Header Page of 126 1.1.4.2 RDF RDF Schema Khung biểu diễn tài nguyên RDF ngôn ngữ cung cấp mô kiểu liệu ñược ñịnh owl:DatatypeProperty Cú pháp dành cho lớp thuộc tính tương tự DAML OIL hình biểu diễn liệu “những tồn web” có nghĩa tài Ngày nay, OWL ngôn ngữ ñược sử dụng ñể biểu diễn nguyên dạng ba: “chủ ñề – thuộc tính – ñối tượng” ontology ngôn ngữ web ngữ nghĩa mà máy tính ñọc mạng ngữ nghĩa Biểu diễn tài nguyên RDF danh sách hiểu liệu ñưa suy luận từ Thêm vào ñó ñưa các mệnh ñề gồm ba, bao gồm chủ ñề tài nguyên web, luật ñịnh nghĩa tương tự RDF, OWL cho phép rõ thuộc tính chủ ñề ñối tượng Đối tượng văn ràng buộc mối quan hệ tài nguyên, bao gồm tài nguyên khác Mỗi ñặc tả RDF ñược biểu diễn lượng số, ràng buộc miền phạm vi, luật hợp nhất, luật dạng hình ảnh ñược gắn nhãn trực tiếp (mạng ngữ nghĩa) phân tách, luật nghịch ñảo luật ngoại ñộng từ RDF Schema cung cấp từ vựng dựa sở XML ñể rõ lớp mối quan hệ chúng, ñịnh nghĩa thuộc tính kết hợp thuộc tính với lớp, cho phép tạo nguyên tắc phân loại Một ñặc ñiểm quan trọng từ vựng OWL phong phú ñể mô tả mối quan hệ lớp, thuộc tính ñối tượng 1.1.4.4 SPARQL SPARQL sử dụng ñể truy vấn liệu web Chính xác RDF RDF schema cung cấp mô hình chuẩn ñể mô tả ngôn ngữ truy vấn RDF Để hiểu rõ SPARQL, tài nguyên web, mô hình thường cần rõ ngữ xem tài nguyên RDF dạng mạng ngữ nghĩa SPARQL nghĩa tài nguyên web RDFS ñược so sánh ñơn giản với ñược sử dụng ñể: trích lọc thông tin từ lược ñồ RDF, trích lọc ngôn ngữ biểu diễn tri thức ñầy ñủ lược ñồ RDF, xây dựng lược ñồ RDF dựa 1.1.4.3 OWL OWL kế thừa trực tiếp DAML, ngôn ngữ web ngữ nghĩa ñược ghép hai ngôn ngữ ontology khác DAML OIL thông tin có ñược truy vấn lược ñồ RDF SPARQL truy vấn so khớp khuôn mẫu lược ñồ với lược ñồ ñích truy vấn Khuôn mẫu giống lược ñồ RDF, Các từ vựng OWL bao gồm element thuộc tính chứa biến ñược ñặt tên không gian node XML ñược ñịnh nghĩa ñúng Chúng ñược sử dụng ñể ñịnh nghĩa liên kết / vị ngữ Khuôn mẫu lược ñồ ñơn giản tương tự miền ba mối quan hệ chúng ontology ba RDF ñơn Các khuôn mẫu lược ñồ ñơn giản Thực tế, từ vựng OWL ñược xây dựng dựa từ vựng ñược kết hợp sử dụng toán tử khác tạo thành khuôn mẫu RDF OWL ñược chia thành hai thành phần datatype domain lược ñồ phức tạp Footer Page of 126 Header Page of 126 13 12 liệu Web ñich Giai ñoạn gồm pha: Phân tích văn bản, lập 1.2 HỆ THỐNG CHÚ GIẢI CHO WEB NGỮ NGHĨA mục khôi phục tài liệu, trích lọc thông tin trả 1.2.1 Chú giải ngữ nghĩa Chú giải bình luận, ghi chú, giải thích, nhận 1.2.2.3 Một số phương pháp phân tích câu xét mà ñược gán cho tài liệu hay phần ñược Hiện tồn hướng tiếp cận cho việc tách từ: chọn tài liệu - Hướng tiếp cận dựa từ (Word - based approaches ): 1.1.2 Mô hình tổng quát cho hệ thống giải ngữ nghĩa tự Mục tiêu hướng tiếp cận tách thành từ hoàn chỉnh ñộng câu Nó có hướng chính: dựa vào thống kê (statistics-base), dựa vào tự ñiển (dictionarry - base), hybrid ( kết hợp nhiều phương 1.2.2.1 Cấu trúc pháp, hy vọng ñạt ñược ưu ñiểm phương pháp này) Chú giải - Hướng tiếp cận dựa ký tự (Character- based approaches): Chia văn ký tự ñơn (unigram) nhiều ký tự (n-gram) ñể thực tách từ Hiện phương pháp tách văn theo ký tự ñơn không sử dụng Đối với cách n-gram, văn ñược chia thành chuỗi, chuỗi từ ñến Bộ phận phân tích Tài liệu gốc Tài liệu giải ký tự trở lên Cách tiếp cận cho kết ổn ñịnh hơn, dễ thực ứng dụng tốn chi phí lập mục thực truy vấn Những kết nghiên cứu gần ñây cho thấy hướng tiếp cận ñược xem lựa chọn thích hợp, nhiên ñộ Cơ sở liệu giải xác không cao phương pháp dựa từ Chúng ta có số phương pháp tách từ thông dụng sau: Phương pháp so khớp tối ña ( Maximum Matching), phương pháp biến ñổi dựa vào 1.2.2.2 Các giai ñoạn làm việc trình giải việc học (Transformation-based Learning, TBL), mô hình tách từ Quá trình giải ngữ nghĩa tổng quát bao gồm giai ñoạn WFST mạng Neural, phương pháp thống thê dựa a Giai ñoạn : Ontology mô tả miền ứng dụng cần quan Internet Một số phương pháp lập mục khôi phục: phương tâm Thông thường ñể thực ñiều người ta sử dụng công pháp lập mục theo từ khóa, phương pháp lập mục ngữ nghĩa cụ soạn thảo Ontology Ontology ñược chuyển thành mô tả tiềm tàng (LSI-Latent Semantic Indexing) dựa vào RDF chứa kho ngữ nghĩa b Giai ñoạn : Nhận dạng thể liệu khám phá tài Footer Page of 126 14 15 CHƯƠNG - HỆ TH ỐNG QUẢN LÝ khác biệt triết học loại thực thể Ngoài ra, ontology Header Page of 126 THÔNG TIN VÀ TRI THỨC KIM 2.1 GIỚI THIỆU KIM Phần giới thiệu sơ lược KIM 2.2 HỆ THỐNG KIM 2.2.1 Kiến trúc KIM ñi vào chi tiết phần mở rộng loại thực thể có tầm quan trọng giới thực Có ontology làm sở, dễ dàng mở rộng miền, ñể cấu hình giải ngữ nghĩa cho ứng dụng cụ thể Sự phân bố thực thể thường ñược gọi thay ñổi Nền tảng KIM bao gồm nguồn tài nguyên tri thức nhiều qua lĩnh vực khác Mặc dù có khác thức, KIM Server với front end KIM Server bao gồm phân bố loại có nhiều loại thực thể chung xuất thành phần sau: kho ngữ nghĩa, giải ngữ nghĩa, persistence tất kho ngữ liệu Người, tổ chức, ñịa ñiểm, tiền bạc, tài liệu, lập mục truy vấn ngày tháng, Định vị biểu diễn loại sở thích hợp KIM ñược xây dựng dựa sở tảng mã nguồn mở mạnh mẽ: GATE, Sesame Lucene tương ứng với ba lĩnh vực mục tiêu ñằng sau việc thiết kế KIMO Hơn nữa, KIM Ontology ñịnh nghĩa loại thực thể cụ thể khác nhau: kho RDF(S), HLT (ñặc biệt IE) IR Tài nguyên tri Sự mở rộng chuyên môn hóa ontology ñược xác ñịnh dựa thức ñược lưu trữ kho RDF Sesame, cung cấp sở hạ tầng sở nghiên cứu loại thực thể kho ngữ liệu tin tức lưu trữ khả truy vấn Kho Sesame ñược nạp với hàng triệu tổng hợp bao gồm trị, thể thao tài Hiện nay, KIMO câu lệnh RDF(S) bao gồm khoảng 250 lớp khoảng 100 thuộc tính quan hệ Các GATE làm sở cho trình trích lọc thông tin ñược sử dụng cho việc quản lý nội dung giải Nó cung cấp lớp ñỉnh Entity, EntitySource, LexicalResource 2.2.3 Cơ sở tri thức KIM công nghệ phân tích văn thiết yếu, công nghệ 2.2.3.1 Cơ sở tri thức ñịnh nghĩa sẵn KIM KIM ñã ñược xây dựng với thành phần mở rộng nhận thức KIM bao gồm 200.000 thực thể, ñược thu thập từ số ngữ nghĩa, ñặc biệt cho trình trích lọc thông tin KIM Máy phục hồi thông tin Lucene ñã ñược thêm vào ñể lập mục, phục hồi thông tin ñánh giá nội dung liên quan theo thực thể có tên, ñiều cho phép phương thức truy cập ngữ nghĩa 2.2.2 KIM Ontology (KIMO) KIM Ontology cung cấp ontology tối thiểu ñầy ñủ, thích hợp cho miền mở mục ñích chung giải ngữ nghĩa KIMO ontology mức cao ñơn giản, bắt ñầu với số sở Footer Page of 126 lượng lớn nguồn liệu, khoảng 36000 ñịa ñiểm bao gồm lục ñịa, vùng miền toàn cầu, quốc gia với thủ ñô, 4400 thành phố, núi, sông lớn, ñại dương, biển Các tổ chức có tầm quan trọng to lớn ñã ñược xây dựng sẵn sở tri thức KIM Bao gồm tổ chức lớn giới liên hợp quốc, NATO, OPEC, 140000 công ty quốc tế, 140 sàn giao dịch thị trường chứng khoán, với tổng số 147000 tổ chức Cuối cùng, ñể cho phép trình trích lọc thông tin mà 16 17 thực thể mối quan hệ mới, phần sở liệu tốt ñể giải ngữ nghĩa Ngoài ra, corpora tri thức KIM ñược nhận diện, tập hợp tài nguyên từ vựng ñược thích người có giải tuân theo hệ (GATE) ñược biểu diễn sở tri thức KIM Nó bao thống thực thể ñược ñặt tên mà ñược ánh xạ tới KIMO gồm hậu tố tổ chức, tên người, thời gian, tiền tố tiền tệ, ñó cung cấp tiêu chuẩn vàng cho ñánh giá giải ngữ Header Page of 126 2.2.3.2 Điều khiển chất lượng ñộ bao phủ sở tri thức KIM nghĩa 2.2.4.2 Tiếp cận trích lọc thông tin truyền thống tùy biến Cơ sở tri thức KIM ñược xác thực lặp ñi lặp lại nhiều lần cách sử dụng trình xây dựng sở tri thức bao gồm thực thể quan hệ cách ñộc lập a Xác minh chất lượng, sở tri thức ñịnh nghĩa sẵn KIM Độ bao phủ tri thức KIM ñược ñảm bảo với trình xử lý phân tích thường xuyên tiêu ñề tin tức, sử dụng thu thập tin tức – dịch vụ thu thập khoảng từ 500 ñến 2000 ñầu câu chuyện ngày từ khoảng 20 nguồn tin tức phổ biến toàn cầu trích lọc thông tin KIM Khác biệt trình trích lọc thông tin ngữ nghĩa trích lọc thông tin truyền thống không phát loại thực thể ñược trích xuất nhận diện thực thể Điều cho phép thực thể ñược truy tìm thông qua tài liệu ñặc tả chúng ñược làm giàu thông qua trình trích lọc thông tin Những mà trình trích lọc thông tin truyền thống tiếp cận cung cấp thích cho văn tương Tuy nhiên, kiểu b Tầm hiểu biết nhận thức – tài nguyên tin tức cách giải không liên quan ñến ngữ nghĩa Mặc dù loại biểu thức giao tiếp người thông qua phương tiện diễn quan trọng ñối với kiểu thực thể ñược ñặt tên miền thông tin ñại chúng ñộc lập, người ñược ñào tạo trung bình phân loại Việc sử dụng nguồn tin cho việc làm giàu sở tri thức thực thể thành loại cụ thể KIM ñã tạo khác biệt to KIM lựa chọn gây tranh cãi nguồn tin lớn cách thêm ngữ nghĩa vào trình trích lọc thông tin KIM giới không trung lập, mà cách khác xoay liên kết giải mà ñưa ra, không ñiểm quanh việc hầu hết tin tức thành kiến khăng khăng ñến trình phân loại mà mô hình thức toàn miền mức ñộ ñịnh mà thay ñổi phụ thuộc vào ñất nước, trị, tương ứng: ontology, logic nội bộ, luật quan hệ xã hội chuyên môn nguồn tin tương ứng, Hơn nữa, hướng tiếp cận cho phép nhận diện thực thể cụ 2.2.4 Trích lọc thông tin KIM 2.2.4.1 Đánh giá trình trích lọc thông tin KIM thể diễn với giải Quá trình trích lọc thông tin KIM dựa tảng Mặc ñịnh, trích lọc thông tin KIM dựa từ ñiển ngữ GATE Một số thành phần xử lý ngôn ngữ tự nhiên ñược sử dụng nghĩa, phân tích văn ngữ pháp so khớp mẫu Lý ñể ñể xác ñịnh từ, xác ñịnh từ loại cho từ, thành phần khác ñánh giá lại corpora thực thể ñược ñặt tên số ñược sử dụng trực tiếp KIM Từ ñiển ngữ nghĩa KIM tra cứu Footer Page of 126 18 19 thành phần tìm kiếm thông qua bí danh thực thể nguồn mục không tự sử dụng trực tiếp sở tri thức ñặc tả thực thể mà từ vựng khác Ngữ pháp so khớp khuôn mẫu GATE ñã ñược ñược sử dụng trình phục hồi thông tin ñối với truy sửa ñổi ñể xử lý thông tin lớp thực thể cho phép tổng quát hóa vấn có cấu trúc Header Page 10 of 126 luật Các nguyên tắc tảng ñơn giản – tham chiếu ñến Lợi ích việc tiền xử lý là: Có thể tìm thấy tham chiếu ñến thực thể lớp cụ thể, so khớp khuôn mẫu ñược thực thể văn mà không quan tâm ñến bí danh có ñược với lớp tổng quát sử dụng hay không, mức ñộ liên quan với thực thể tương ứng 2.2.5 Lập mục khôi phục thông tin cao KIM cung cấp việc ñánh mục ñối với giải ngữ Độ xác phục hồi thông tin KIM chưa ñược nghĩa, ñược phát sinh cho tài liệu tức lập mục ñối với siêu ñánh giá so với cỗ máy phục hồi thông tin truyền thống, ñây liệu Phương pháp lập mục cho phép phương thức truy chủ ñề ñược nghiên cứu tương lai Tuy nhiên, KIM có cập tin tức (ñã ñược bổ sung ngữ nghĩa) Do ñó người dùng tiềm ñể thực tốt hơn, không hướng tới việc giảm tài ñịnh truy vấn, bao gồm ràng buộc liên quan ñến loại thực thể, liệu không liên quan kết phục hồi thông tiên mối quan hệ thực thể, thuộc tính thực thể liên quan (nâng cao ñộ xác với hệ thống lập mục Bước ñầu tiên trình lập mục tiền xử lý thực thể ñược ñặt tên) mà hướng tới việc tăng số lượng tài mặt ngữ nghĩa cho tài liệu ñược ñưa vào kho ngữ liệu liệu liên quan thực thể mà không chứa bí danh, ñược sử tài liệu cho việc phục hồi thông tin Quá trình tiền xử lý tìm từ dụng cho thực thể giới hạn tên ngữ phụ thuộc liên kết ñịnh danh chuỗi bên 2.2.6 Đầu cuối KIM (một giải ngữ nghĩa) tới thành phần văn mà KIM Server API cho phép xây dựng giao diện người sử dụng biết nghĩa tùy theo ontology sở tri thức mà ñầu cuối khác Các ñầu cuối cho phép truy cập ñầy sử dụng ñủ ñến chức KIM Server bao gồm: tính khôi phục Siêu liệu phục vụ dạng trỏ ñến thực thể thông tin, kho ngữ nghĩa, dịch vụ giải ngữ nghĩa, sở hạ tương ứng trình phục hồi thông tin Sau ñó ñến bước tiếp tầng quản lý tài liệu siêu liệu Một số ñầu cuối ñã ñược xây theo: tài liệu ñể lập mục ñược gởi tới máy lập khôi phục thông tin dựng sẵn KIM: plug in cho trình duyệt (KIM plug in), KIM Lucene với chuỗi ID thủ tục lập mục ñược thực Web UI, KIM Explorer Graph View Sau ñó thực việc tìm kiếm sử dụng 2.2.7 Hiệu suất chuỗi ID dạng mục Việc lập mục KIM có Tốc ñộ giải phụ thuộc vào kích thước tài liệu có khác biệt nhỏ so với lập mục văn chuẩn KIM xu hướng trở nên chậm với tài liệu lớn với ñộ phụ thuộc sử dụng nhận diện loại cụ thể Tuy nhiên, lập lập logarit Footer Page 10 of 126 20 21 CHƯƠNG – XÂY DỰNG ỨNG DỤNG CHÚ GIẢI hệ thống proton ñó tiếp tục mở rộng KIMSO Các thể NGỮ NGHĨA TỰ ĐỘNG học liên quan khác phần hệ thống phân phối Chúng ta có Header Page 11 of 126 3.1 KIẾN TRÚC TỔNG THỂ CỦA HỆ THỐNG CHÚ GIẢI 3.1.1 Kiến trúc hệ thống thể thay thế, thay ñổi bổ sung thêm sở tri thức 3.2.1 PROTON Trong ứng dụng thử nghiệm này, xây dựng sở tri Proton cấp Ontology ñịnh nghĩa 300 lớp thức, ñịnh nghĩa Ontology cho KIM sử dụng ñể giải ngữ 100 thuộc tính, bao gồm hầu hết khái niệm cần thiết cho việc nghĩa Web thích ngữ nghĩa, lập mục, phản hồi Proton ñược chia Các nguồn liệu thực thể, lớp ñược thu thập từ thành ba phân hệ: System module chứa meta cấp vài nguyên Internet ñược tổng hợp Những thông tin ñược GATE quản lý bản, Top module mô-ñun cao chung nhất, khái niệm cấp, bao nội dung giải, sau ñó ñược xếp mục lưu trữ gồm khoảng 20 lớp ñảm bảo cân tốt tiện ích ñộc lập, hệ thống OWLIM cách sử dụng dễ hiểu, Upper module - 200 lớp thực OWLIM cho phép cập nhật liệu từ ứng thể, thường xuất nhiều tên dụng tạo Ontology thứ ba Vậy nhiệm vụ tổng hợp liệu tạo Ontology ñưa vào nên tảng KIM ñể thực giải 3.1.2 Các thành phần hệ thống KIMSO KIMLO mô-ñun tùy chọn mở rộng ontology proton, phần KIM 3.2.2 Mở rộng Ontology Để tích hợp phần mở rộng ontology, lớp phải kế 3.1.2.1 Server KIM Server KIM ñược xây dựng tảng Java Sau khởi ñộng, KIM server chạy dịch vụ máy chủ localhost cổng 1099 thừa http://proton.semanticweb.org/2006/05/protons#Entity cách trực tiếp gián tiếp 3.1.2.2 Popular Import Thiết kết lớp kế thừa từ : Công cụ cho phép Import thực thể ñược nhận dạng - http://proton.semanticweb.org/2006/05/protont#Person từ văn Text thu thập ñược qua hệ thống thông tin - http://proton.semanticweb.org/2006/05/protont#Organization Các dạng ñịnh dạng cho phép DOC, HTML, XML, TXT … 3.1.2.3 RDF import Công cụ RDF Import cho phép cập nhật nguồn tài - http://proton.semanticweb.org/2006/05/protont#Location 3.2.3 Giới thiệu Protégé Protégé công cụ mã nguồn mở Java ñược phát triển nguyên thu nhập ñược lên máy chủ chứa ñịnh nghĩa URI khoa tin học y học Stanford Protégé - OWL công cụ 3.2 THIẾT LẬP KIM ONTOLOGY VÀ CƠ SỞ TRI THỨC Protégé, thư viện cho ngôn ngữ Web Ontology KIM dựa PROTON Ontology phát triển phạm vi (OWL) RDF(S) Nó cung cấp lớp phương thức ñể nạp ngữ nghĩa dự án SEKT KIM phụ thuộc hoàn toàn vào mô-ñun ghi tệp OWL, cung cấp khả xây dựng mô hình Footer Page 11 of 126 Header Page 12 of 126 22 23 liệu OWL thực lập luận DL Bên cạnh ñó cung cấp giao diện ñồ hoạ trực quan, dễ sử dụng Cụ thể Protégé- OWL cung cấp khả sau: 3.3.3 Cấu trúc tổng quát nguyên lý hoạt ñộng 3.3.3.1 Cấu trúc tổng quát - Soạn thảo Ontology cho OWL Tài liệu, văn HTML - Duy trì, phát triển kiểm tra Ontology 3.3 THIẾT KẾ HỆ THỐNG 3.3.1 Giới thiệu khái quát Lõi Ứng dụng Ứng dụng phân tích tài liệu văn qua việc sử Tập hợp thực thể ñược phát dụng mẫu từ ngữ quy chuẩn nhận dạng thành tố ngữ nghĩa tương ñương, thích lớp tự ñộng cho thực thể có tên trang web theo miền Ontology ñã ñược ñịnh nghĩa Các thành phần ứng dụng sử dụng thư viện: - Thư viện Web ngữ nghĩa Seasame - Thư viện khôi phục thông tin Lucence Mẫu biểu diễn quy chuẩn Tạo thực thể Các lớp Ontology Gắn thực thể với thuộc tính Suy diễn Miền Ontology - Chú giải ngữ nghĩa: Nhận dạng ñối tượng chuẩn hóa văn - Ontology: Chuẩn hóa mô hình ñể máy tính hiểu ñược - Biểu diễn mẫu quy chuẩn: chuỗi ñể mô tả so khớp theo số quy tắc cú pháp 3.3.2 Phương pháp Văn ñã Cấu trúc công cụ bao gồm phần: Phần 1: Là nguồn văn ñầu vào HTML, email, văn gốc cần phải ñược giải Phần 2: Là ñầu hệ thống, chứng thực thể Ứng dụng làm việc sử dụng văn sau ñã chuyển Ontology tương ứng với giải văn Thuộc tính ñịnh dạng chung, miền ñặc biệt ñược mô tả miền thực thể ñược làm ñầy cách phát thực thể Ontology sử dụng cho việc chuẩn hóa mẫu cho giải ngữ nghĩa Ontology thông qua mẫu ñược ñịnh nghĩa Ứng dụng phát thành tố ontology ứng dụng miền hành mô hình Ontology Phần 3: Các miền thực thực thể ñược ñịnh nghĩa, mẫu biểu diễn quy chuẩn, thực thể kết quả, tham chiếu từ bên Phần 4: Lõi công cụ gồm giải thuật công cụ : phát hiện, tạo giải, gắn thực thể với giải tương ứng từ miền Ontology ñang xét Footer Page 12 of 126 Header Page 13 of 126 24 3.3.3.2 Nguyên lý hoạt ñộng Hoạt ñộng ứng dụng thực theo bước sau: 25 3.3.5 Xây dựng ontology danh nhân lịch sử Việt Nam 3.4 CÀI ĐẶT THỬ NGHIỆM Nạp văn tài liệu 3.4.1 Môi trường Xác ñịnh biểu thức quy chuẩn chúng ñược tìm 3.4.2 Cài ñặt công cụ thấy tương ứng với thể ontology theo thuộc tính mẫu, 3.5 KẾT QUẢ VÀ ĐÁNH GIÁ chúng ñược bổ sung vào tập hợp cá thể ontology ñược 3.5.1 Kết chạy thử nghiệm tìm thấy 3.5.2 Đánh giá kết ñạt ñược Nếu cá thể ñược tìm thấy phép so Việc xây dựng hệ thống giải ngữ nghĩa Web ngữ khớp mẫu thuộc tính createInstance ñược thiết lập, cá nghĩa làm giảm thiểu ñáng kể thời gian, sai sót so với giải thể kiểu lớp bao gồm thuộc tính hasClass tay, ñặc biệt miền ngữ liệu lớn thay ñổi ñược tạo với thuộc tính rfs:label chứa văn so khớp Hệ thống cài ñặt thử nghiệm thành công Server KIM server bất kỳ, cập nhật thành công liệu có sẵn miền Quá trình lặp lại cho tất biểu thức quy chuẩn, kết tập cá thể ñược tìm thấy KIM PROTON ñồng thời cho phép ñịnh nghĩa miền liệu sở tri thức riêng Một cá thể lớp rỗng biểu diễn cho văn gốc Ứng dụng giải chạy hệ thống Server Apache Tomcat ñược tạo tất thuộc tính lớp ontology với hàm KIM API có sẵn cho phép thực nhiều ứng dụng ñược phát từ lớp ñịnh nghĩa khác Cá thể ñược phát ñược so sánh với kiểu Hướng mở rộng hệ thống cài ñặt nhiều server KIM thuộc tính kiểu thuộc tính tương tự kiểu cá thể, khác nhau, kết nối thông qua môi trường Java RMI, cho phép nhiều thực thể ñược quy cho thuộc tính ứng dụng khác kết nối môi trường Internet Việc so sánh ñược thực cho tất thuộc tính cá thể tương ứng với văn bản/tài liệu 3.3.4 Giới thiệu số lớp quan trọng ứng dụng 3.3.4.1 Lớp SemanticQuery 3.3.4.2 Lớp SemanticQueryResult 3.3.4.3 Lớp DocumentQuery 3.3.4.4 Lớp DocumentQueryResult Footer Page 13 of 126 26 Header Page 14 of 126 KẾT LUẬN Luận văn ñã giới thiệu hệ tới Web Web ngữ nghĩa, trình bày lý thuyết liên quan ñến Web ngữ nghĩa hệ thống giải ngữ nghĩa Bên cạnh ñó, hệ thống quản lý thông tin tri thức KIM ñược tìm hiểu trình bày chi tiết giúp hình thành khung chung cho việc triển khai ứng dụng Web ngữ nghĩa Đặc biệt ñối với Web ngữ nghĩa dành cho tiếng việt, việc xử lý tính toán ñòi hỏi nhiều quy trình phức tạp lưu trữ truy xuất hàng trăm ngàn thực thể nhiều lĩnh vực khác nhau, với miền giá trị khác Việc kết hợp nhiều kỹ thuật, công cụ hỗ trợ cần thiết Nó giúp giảm thiểu ñáng kể thời gian giúp vận hành dễ dàng với nhiều hệ thống công cụ khác nhau.Luận văn ñã xây dựng thành công hệ thống giải ngữ nghĩa tự ñộng giúp người sử dụng tiết kiệm ñược nhiều thời gian, công sức tiền bạc Luận văn mở hướng việc khám phá tri thức từ kho tri thức khổng lồ nhân loại Internet, tiếp cận tri thức theo lĩnh vực mà yêu thích Tuy nhiên, thời gian nghiên cứu tìm hiểu thời gian ngắn nên luận văn tồn ñiểm yếu lượng tri thức sở liệu khiêm tốn.Từ nhìn nhận trên, tác giả mạnh dạn ñề xuất hướng nghiên cứu phát triển tiếp luận văn tương lai sau: Thứ nhất, thử nghiệm nhiều trích lọc khác Thứ hai, nâng cấp giao diện tương tác với người dùng ñể thuận tiện cho người sử dụng Thứ ba, tăng lượng tri thức liệu mở rộng lĩnh vực nghiên cứu khác Footer Page 14 of 126 ... dạng pháp hiệu ñể áp dụng cho việc xây dựng ứng dụng giải ngữ giải Đó lý chọn ñề tài: nghĩa tự ñộng “ Tìm hiểu công nghệ KIM Xây dựng ứng dụng giải ngữ nghĩa tự ñộng” Ý NGHĨA KHOA HỌC VÀ THỰC... KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI Đề tài tập trung nghiên cứu, tìm hiểu công nghệ KIM tìm hiểu khả ứng dụng công nghệ KIM KIM công nghệ MỤC TIÊU VÀ NHIỆM VỤ Luận văn tập trung vào nghiên cứu nội... trích lọc thông tin ngữ nghĩa, giải khôi phục tính khả thi giá trị to lớn KIM Chương 3, Xây dựng ứng dụng giải ngữ nghĩa tự ñộng” Trong chương tập trung nghiên cứu phân tích xây dựng kiến trúc tổng