1. Trang chủ
  2. » Luận Văn - Báo Cáo

TÌM HIỂU WEB NGỮ NGHIÃ, ONTOLOGY VÀ PROTÉGÉ OWL TRONG TÌM KIẾM VĂN BẢN

30 2,4K 12

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 30
Dung lượng 828,93 KB

Nội dung

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TP HỒ CHÍ MINH KHOA KHOA HỌC MÁY TÍNH   BÁO CÁO ĐỀ TÀI MÔN BIỂU DIỄN TRI THỨC VÀ SUY LUẬN Đề tài : TÌM HIỂU WEB NGỮ NGHIÃ, ONTOLOGY VÀ PROTÉGÉ OWL TRONG TÌM KIẾM VĂN BẢN GV: PGS.TS Đỗ Văn Nhơn HV: Dương Thị Xuân Thoại Mã số: CH1301061 TP Hồ Chí Minh, 2014 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN TP HỒ CHÍ MINH KHOA KHOA HỌC MÁY TÍNH   Đề tài : TÌM HIỂU WEB NGỮ NGHIÃ, ONTOLOGY VÀ PROTÉGÉ OWL TRONG TÌM KIẾM VĂN BẢN GV: PGS.TS Đỗ Văn Nhơn HV: Dương Thị Xuân Thoại Mã số: CH1301061 TP Hồ Chí Minh, 2014 MỤC LỤC DANH MỤC HÌNH Tài liệu tham khảo Lương Quý Tịnh Hà. Xây dựng công cụ tìm kiếm tài liệu học tập bằng các truy vấn ngôn ngữ tự nhiên trên kho học liệu mở tiếng Việt. Natalya F. Noy and Deborah L. McGuinness. Ontology Development 101: A Guide to Creating Your First Ontology. Stanford University, Stanford, CA, 94305 Lê Thành Nhân, Võ Trung Hùng, Cao Xuân Tuấn, Hoàng Thị Mỹ Lệ. MATHIS – Hệ thống hỗ trợ tạo chú thích và tìm kiếm tài liệu khoa học. Tạp chí khoa học và công nghệ, Đại học Đà Nẵng - Số 4(39).2010 Trần Đình Khang, Vũ Tuyết Trinh, Đỗ Đức Thành, Đỗ Thị Ngọc Quỳnh. Một phương pháp tìm kiếm dựa trên Ontology phục vụ quản lý thông tin khoa học công nghệ. Bộ môn Hệ thống Thông tin, Trường Đại Học Bách Khoa Hà Nội. Phạm Thị Mỹ Phượng, Từ Thị Ngọc Thanh. Tìm kiếm ngữ nghĩa ứng dụng trên lĩnh vực eDoc. Tài liệu hướng dẫn phiên bản mã nguồn mở OVL – Open 1.0 CNET.com,”Web ngữ nghĩa – Tương lai của WWW”,Sưu tầm: Nguyễn Hoài Tưởng (mailto:nhtuong@cit.ctu.edu.vn), nhtuong,17/4/2007. Đỗ Phúc, Hoàng Kiếm,“Rút trích ý chính từ văn bản tiếng Việt hỗ trợ tạo tóm tắt nội dung”. Đồng Thị Bích Thủy, Hồ Bảo Quốc,”Ứng dụng xử lý ngôn ngữ tự nhiên trong hệ tìm kiếm thông tin trên văn bản tiếng Việt”. Nguyen Phi Minh Tri, Nguyen Tuan Dang. Building a Universal Ontology for Vietnamese Language. Faculty of Computer Science, University of Information Technology. Sean Bechhofer, Ian Horrocks, Daniele Turi. The OWL Instance Store: System Description. Information Management Group, School of Computer Science, The University of Manchester Bijan Parsia and Evren Sirin. Pellet: An OWL DL Reasoner. MINDSWAP Research Group, University of Maryland, College Park, MD Thomas R.Gruber. Toward Principles for the Design of Ontologies Used for Knowledge Sharing. Stanford Knowledge Systems Laboratory, 701 Welch Road, Building C Palo Alto, CA 94304, gruber@ksl.stanford.edu. Nhóm nghiên cứu của thầy Đỗ Phúc. Phát triển một Hệ thống S.E Hỗ trợ Tìm kiếm Thông tin, thuộc lãnh vực CNTT trên Internet qua từ khóa bằng tiếng Việt. L. H. Phuong, N. T.M. Huyen, R. Azim, H. T. Vinh. A hybrid approach to word segmentation of Vietnamese texts. Proceedings of the 2nd International Conference on Language and Automata Theory and Applications, LATA 2008, Springer LNCS 5196, Tarragona, Spain, 2008. B. E. Boser, I. M. Guyon, and V. N. Vapnik. A training algorithm for optimal margin classifiers. In D. Haussler, editor, 5th Annual ACM Workshop on COLT, pages 144-152. Pittsburgh, PA, 1992. Nguyễn Linh Giang, Nguyễn Mạnh Hiển . Phân loại văn bản tiếng Việt với bộ phân loại vectơ hỗ trợ SVM. Boanerges Aleman-Meza, Farshad Hakimpour, I. Budak Arpinar. SwetoDblp Ontology of Computer Science Publications. LSDIS Lab, Computer Science Department, University of Georgia, Athens, GA. Olivier Corby, Rose Dieng, C´edric H´ebert, ”A Conceptual Graph Model for W3C Resource Description Framework”. Pavlin Dobrev, Albena Strupchanska,Kristina Toutanova, ”CGWorld – from Conceptual Graph Theory to the Implementation”. Slim Turki,Christine Aïdonidis,Abdelaziz Khadraoui,Michel Léonard,“Towards Ontology-Driven Institutional IS Engineering” Thanwadee Thanitsukkarn, Anthony Finkelstein, “A Conceptual Graph Approach to Support Multiperspective Development Environments”. Website tham khảo: http :// www . acm . org / http://what.csc.villanova.edu/twiki/bin/view/Main/TheComputingOntology http://knoesis.wright.edu/library/ontologies/swetodblp/ http :// www . acm . org / education / curricula - recommendations [2001 2005 curriculum recommendations] http :// dblp . uni - trier . de / http :// xmlns . com / foaf / spec / http :// dublincore . org / http://www.w3.org/TR/rdf-sparql-query/ http://protege.stanford.edu/ http://www.loria.fr/∼lehong/tools/vnTokenizer.php http://www.csie.ntu.edu.tw/~cjlin/libsvm/ http://vlsp.vietlp.org:8080/demo/?page=resources http://www.xulyngonngu.com/sharing/?p=145 http://mic.gov.vn/Trang/default.aspx http://www.cs.wisc.edu/dbworld/ PGS.TS Đỗ Văn Nhơn CH1301061_Dương Thị Xuân Thoại Chương 1 : WEB Ngữ Nghĩa và Ontolog 1. Web ngữ nghĩa (Semantic Web – SW) 1.1. Giới thiệu Web ngữ nghĩa là sự mởrộng của Web hiện tại mà trong đó thông tin được định nghĩa rõ ràng sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn. Mục tiêu của Web có ngữ nghĩa là để phát triển các chuẩn chung và công nghệ cho phép máy tính có thể hiểu được nhiều hơn thông tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việc khám phá thông tin, tích hợp dữ liệu (dữ liệu liên kết động), và tự động hóa các công việc. 1.2. Web ngữ nghĩa là gì? Web ngữ nghĩa được phát triển bởi Tim- Berners Lee, cha đẻ của WWW, URIs, HTTP và HTML. Theo Ông, ‘‘ Web ngữ nghĩa là sự mởrộng của Web hiện tại, cho phép người dùng có thể truy tìm, phối hợp, sử dụng lại và trích lọc thông tin một cách dễ dàng và chính xác ’’. (Tim- Berners Lee, XML-2000). 1.2.1. Nội dung xây dựng Web ngữ nghĩa Để xây dựng hệ thống Web ngữ nghĩa thay thế cho World Wide Web hiện tại, các nhà nghiên cứu đang nỗlực và tập trung nghiên cứu với ba hướng chính sau: Chuẩn hoá các ngôn ngữ biểu diễn dữ liệu (XML) và siêu dữ liệu (RDF) trên Web. Chuẩn hoá các ngôn ngữ biểu diễn Ontology cho Web có ngữ nghĩa. Phát triển nâng cao Web có ngữ nghĩa (Semantic Web Advanced Development - SWAD). 8 PGS.TS Đỗ Văn Nhơn CH1301061_Dương Thị Xuân Thoại 1.2.2. Kiến trúc phân tầng của Semantic Web Hình - Kiến trúc phân tầng của web ngữ nghĩa năm 2006 Trong cấu trúc trên mỗi tầng có một vai trò nhất định: Tầng URI, UNICODE Unicode:là một bảng mã chuẩn chung có đủ các ký tự để thống nhất sự giao tiếp trên tất cả các quốc gia. URI (Uniform Resource Identifier):là kí hiệu nhận dạng Web đơn giản. Tầng XML XML – (eXtensible Markup Language) là ngôn ngữ đánh dấu mở rộng, cho phép người dùng có thể tùy ý thêm vào những thẻ theo yêu cầu của mình. Tầng RDF RDF (Resource Description Framework): Khung mô tả tài nguyên - RDF được W3C giới thiệu để cung cấp một cú pháp chuẩn để tạo, thay đổi và sử dụng các chú thích trong Web ngữ nghĩa. Tầng Ontology 9 PGS.TS Đỗ Văn Nhơn CH1301061_Dương Thị Xuân Thoại Ontology Vocabulary Bộtừ vựng ontology được xây dựng trên cơ sở tầng RDF và RDFS, cung cấp biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên web và có khả năng hỗ trợ lập luận. Tầng Logic Việc biểu diễn các tài nguyên dưới dạng các bộ từ vựng ontology có mục đích là để máy có thể lập luận được. Mà cơ sở lập luận chủ yếu dựa vào logic. Tầng Proof Tầng này đưa ra các luật để suy luận. Cụ thể từ các thông tin đã có ta có thể suy ra các thông tin mới. TầngTrust Đảm bảo tính tin cậy của các ứng dụng trên Web ngữ nghĩa. 2. RDF Nền tảng của Semantic Web 2.1. Giới thiệu về RDF RDF là một thành phần quan trọng của Semantic Web, được đặt trên XML, RDF sử dụng cú pháp của XML để biểu diễn thông tin. Ngôn ngữ XML dùng để biểu diễn thông tin trong RDF được gọi là RDF/XML. Thông qua định dạng này, các thông tin trong RDF có thể được trao đổi dễ dàng giữa các hệ thống máy tính cũng như các hệ điều hành hay các ngôn ngữ lập trình ứng dụng khác nhau. 2.2. RDF là gì? RDF (Resource Description Framework) là một “bộ khung” được sửdụng để mô tả các nguồn tài nguyên trên Internet 2.3. Mô hình RDF Mô hình cơbản của RDF gồm ba đối tượng sau: Tàinguyên (Resources): là tất cảnhững gì được mô tả bằng biểu thức RDF. Thuộc tính (Properties): thuộc tính, đặc tính, hoặc quan hệ dùng để mô tả tính chất của tài nguyên. Phát biểu (Statements): mỗi phát biểu gồm ba thành phần sau: Subject (Tài nguyên): địa chỉ hay vị trí tài nguyên muốn mô tả 10 [...]... dữ liệu tìm kiếm, mạng ngữ nghĩa Sự khác biệt trong cấu trúc của máy tìm kiếm ngữ nghĩa so với tìm kiếm thông thường nằm ở phần kiến trúc bên trong, cụ thể ở 2 phần: phân tích câu hỏi và tập dữ liệu tìm kiếm Mô hình được đề xuất trong luận văn cho ứng dụng tìm kiếm ngữ nghĩa như hình sau : 17 PGS.TS Đỗ Văn Nhơn CH1301061_Dương Thị Xuân Thoại Hình - Mô hình đề xuất cho hệ thống tìm kiếm văn bản 2.3... máy tìm kiếm theo công nghệ web semantic, về cơ bản cũng có cấu trúc tương tự với một máy tìm kiếm thông thường, bao gồm 2 thành phần chính là giao diện truy vấn và phần kiến trúc bên trong 2.1 Giao diện truy vấn - Cho phép người dùng nhập yêu cầu tìm kiếm - Hiển thị kết quả tìm kiếm 2.2 Phần kiến trúc bên trong Đây là phần cốt lõi của máy tìm kiếm bao gồm các thành phần: phân tích yêu cầu, tìm kiếm. .. loại văn bản, truy vấn hình ảnh, truy xuất thông tin xuyên ngôn ngữ, và mở rộng truy vấn Mô tả chi tiết cho mở rộng truy vấn sẽ được trình bày trong các mục tiếp theo 3.6 Ngôn ngữ OWL OWL (The Web Ontology Language) là một ngôn ngữ gần như XML dùng để mô tả các hệ cơ sở tri thức OWL là một ngôn ngữ đánh dấu dùng để xuất bản và chia sẻ dữ liệu trên Internet thông qua những mô hình dữ liệu gọi là Ontology ... Ontology OWL biểu diễn ý nghĩa của các thuật ngữ trong các từ vựng và mối liên hệ giữa các thuật ngữ này để đảm bảo phù hợp với quá trình xử lý bởi các phần mềm 16 PGS.TS Đỗ Văn Nhơn CH1301061_Dương Thị Xuân Thoại Chương 2 : Hệ Thống Tìm Kiếm Văn Bản 1 Dự kiến chức năng của hệ thống Chúng tôi kiến sẽ phát triển hệ thống tìm kiếm văn bản với các chức năng nổi bật sau : - Hệ thống sẽ có kho dữ liệu về văn bản. .. dữ liệu nhằm cung cấp cho trang web tìm kiếm được thu thập tự động từ các website phổ biến trên Internet hoặc tự nhập vào bằng tay Hệ thống tìm kiếm văn bản sẽ hướng đến việc cập nhật dữ liệu tự động thông qua các robot tìm kiếm, phân tích dữ liệu thông minh Nhân tố con người sẽ đóng vai trò kiểm tra và chỉnh sửa dữ liệu trong hệ thống đó Chương 3: Công Cụ Protégé và Ontology Chúng tôi tập trung trình... triển hệ thống tìm kiếm văn bản 1 Protégé - Công cụ xây dựng ontology 1.1 Đặc điểm của Protégé Protégé là bộ phần mềm mã nguồn mở Java nổi tiếng Protégé được nghiên cứu và phát triển từ năm 1998 bởi nhóm nghiên cứu của Mark Musen, ĐH Stanford nhằm quản lý các thông tin trong lĩnh vực sinh y học Mã nguồn Protégé có thể được tìm thấy tại website: http://smi-protege.stanford.edu/repos/protege /owl/ trunk Hình... dụng tạo ra các ontology để phát triển Web Semantic theo đúng chuẩn của ngôn ngữ W3C OWL Protégé có hai phiên bản OWL và API Phiên bản Protégé- API có nền tảng từ OKBC (Open Knowledge Base Connectivity) OKBC là một ứng dụng lập trình giao tiếp thực hiện truy xuất dữ liệu thông minh Phiên bản Protégé- OWL được phát triển dựa trên hai yêu cầu chính Đầu tiên là yêu cầu định nghĩa các đối tượng và quan hệ tồn... động Protégé cho phép chuyển Ontology thành mã nguồn RDF/XML, OWL, DIG, Java, EMF Java Interfaces, Java Schema Classes Các mã này có thể được nhúng trực tiếp vào ứng dụng và là đầu vào cho các thao tác trên Ontology khi cần 1.2 Protégé sử dụng giao diện đồ hoạ Trong phần hướng dẫn sử dụng này sử dụng chương trình Protégé 4.0.2 với giao diện Protégé- OWL Chúng ta sẽ cùng tìm hiểu cách để: − Tạo và mở... Protégé là : - Classes – tổ chức các quan hệ tham chiếu và các kiểu thực thi - Axioms – mô hình câu lệnh đúng - Instances – các thể hiện, các thành phần của đối tượng - Domain – giới hạn của ontology - Vocabulary – các lớp và khai báo  Các ưu điểm của Protégé là: • Hỗ trợ đầy đủ ba phiên bản của ngôn ngữ OWL là OWL- Full, OWL- Lite và OWL- DL • Nhờ sử dụng mô hình hướng đối tượng của ngôn ngữ Java, Protégé. .. phát triển đều được công bố và mọi người có thể sử dụng mà không cần tính bản quyền Điều này rất phù hợp với định hướng của mã nguồn mở và do vậy có rất nhiều công cụ hỗ trợ để phát triển ứng dụng web ngữ nghĩa Với sở trường và thói quen lập trình với ngôn ngữ C#, chúng tôi quyết định phát triển hệ thống tìm kiếm văn bản trên nền internet, dưới dạng website, sử dụng ngôn ngữ C# và các công cụ cần thiết .  BÁO CÁO ĐỀ TÀI MÔN BIỂU DIỄN TRI THỨC VÀ SUY LUẬN Đề tài : TÌM HIỂU WEB NGỮ NGHIÃ, ONTOLOGY VÀ PROTÉGÉ OWL TRONG TÌM KIẾM VĂN BẢN GV: PGS.TS Đỗ Văn Nhơn HV: Dương Thị Xuân Thoại Mã số:. MINH KHOA KHOA HỌC MÁY TÍNH   Đề tài : TÌM HIỂU WEB NGỮ NGHIÃ, ONTOLOGY VÀ PROTÉGÉ OWL TRONG TÌM KIẾM VĂN BẢN GV: PGS.TS Đỗ Văn Nhơn HV: Dương Thị Xuân Thoại Mã số: CH1301061 TP. PGS.TS Đỗ Văn Nhơn CH1301061_Dương Thị Xuân Thoại Chương 1 : WEB Ngữ Nghĩa và Ontolog 1. Web ngữ nghĩa (Semantic Web – SW) 1.1. Giới thiệu Web ngữ nghĩa là sự mởrộng của Web hiện tại mà trong đó

Ngày đăng: 19/05/2015, 02:06

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w