WEB NGỮ NGHĨA TRONG TRUY XUẤT THÔNG TIN

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	22
Dung lượng	0,91 MB

Nội dung

WEB NGỮ NGHĨA TRONG TRUY XUẤT THÔNG TIN TIỂU LUẬN MÔN HỌC WEB NGỮ NGHĨA VÀ ONTOLOGY (Semantic Web in Information Retrieval) Tiểu luận này trình bày một số cách tiếp cận để truy xuất thông tin trên Web Ngữ nghĩa. Cụ thể, đầu tiên tiểu luận này trình bày về nguyên mẫu thiết kế và thực thi của một framework trong đó cả tài liệu và truy vấn có thể được đánh dấu với các câu lệnh (statement) trong ngôn ngữ Semantic Web DAML+OIL, được gọi là OWLIR. Các câu lệnh này cung cấp cả thông tin cấu trúc và bán cấu trúc về tài liệu và nội dung của nó.

TRƯỜNG ĐẠI HỌC KHOA HỌC HUẾ KHOA CÔNG NGHỆ THÔNG TIN oOo TIỂU LUẬN MÔN HỌC WEB NGỮ NGHĨA VÀ ONTOLOGY Đề tài: WEB NGỮ NGHĨA TRONG TRUY XUẤT THÔNG TIN (Semantic Web in Information Retrieval) Giảng viên hướng dẫn: TS. Hoàng Hữu Hạnh Học viên thực hiện: Nhóm 1 Trần Mừng Nguyễn Thị Tố Châu Nguyễn Văn Đức Hoàng Minh Đức Phạm Thị Mỹ Linh Lớp: KHMTB – Khóa 2010 Huế, tháng 01 năm 2012 MỤC LỤC MỞ ĐẦU 3 NỘI DUNG 4 1.Giới thiệu 4 2. Nền tảng 5 2.1 DAML và Semantic Web 5 2.2 Truy xuất thông tin trong World Wide Web 6 2.3 Trả lời truy vấn trên Web 7 2.4 Truy vấn DAML 8 3. OWLIR : Thiết kế và Thực thi 9 3.1 Ontology Sự kiện (Event) 10 3.2 Trích xuất văn bản 12 3.3 Hệ thống suy luận 13 3.4 Hệ thống truy xuất thông tin 14 3.5 Truy xuất thông tin hỗ hợp 14 3.6. Luồng xử lý OWLIR 16 4. Swoogle 18 4.1 Kiến trúc của Swoogle 19 KẾT LUẬN 21 TÀI LIỆU THAM KHẢO 22 2 MỞ ĐẦU Tiểu luận này trình bày một số cách tiếp cận để truy xuất thông tin trên Web Ngữ nghĩa. Cụ thể, đầu tiên tiểu luận này trình bày về nguyên mẫu thiết kế và thực thi của một framework trong đó cả tài liệu và truy vấn có thể được đánh dấu với các câu lệnh (statement) trong ngôn ngữ Semantic Web DAML+OIL, được gọi là OWLIR. Các câu lệnh này cung cấp cả thông tin cấu trúc và bán cấu trúc về tài liệu và nội dung của nó. Việc lập chỉ mục văn bản và đánh dấu ngữ nghĩa sẽ nâng cao hiệu quả truy xuất đáng kể. Các tiếp cận này cho phép sự suy luận được thực hiện trên thông tin này ở nhiều điểm khác nhau: đó là khi một tài liệu được lập chỉ mục, khi một truy vấn được xử lý và khi kết quả truy vấn được đánh giá. Sau cùng là SWOOGLE, một máy tìm kiếm các ontology Web Ngữ nghĩa, tài liệu và dữ liệu được xuất bản trên web. Swoogle dùng một hệ thống thu thập dữ liệu để khám phá các tài liệu RDF và HTML với nội dung RDF được nhúng bên trong. Do thời gian thực hiện tiểu luận cũng như kinh nghiệm có hạn nên tiểu luận có thể mắc một số sai sót ngoài ý muốn. Chúng em rất mong nhận được các góp ý quý báu của Thầy và các bạn học viên trong lớp để đề tài được hoàn thiện hơn. Cuối cùng, chúng em xin chân thành cảm ơn Thầy TS. Hoàng Hữu Hạnh đã tận tình giảng dạy và hướng dẫn để nhóm hoàn thành tốt tiểu luận này. Xin chân thành cảm ơn! Học viên thực hiện Nhóm 1 Thành phố Huế, ngày 01 tháng 01 năm 2012 3 NỘI DUNG 1.Giới thiệu Chúng ta có thể hình dung web tương lai là các trang chứa cả văn bản và sự đánh dấu ngữ nghĩa. Các kỹ thuật truy xuất thông tin hiện tại không thể khai thác được tri thức ngữ nghĩa bên trong các tài liệu và vì vậy không thể đưa ra các câu trả lời chính xác cho các câu hỏi. Chúng ta chưa thể trích xuất tự động những nội dung như vậy từ nhiều tài liệu. Các tài liệu web được trúc bằng tay, chẳng hạn XML cho phép chúng ta truy xuất nhiều thông tin chính xác hơn bằng cách sử dụng các công cụ đối sánh cấu trúc và chuỗi, như robot web Harvest, WebSQL, và WebLog. Tuy nhiên, với cách tiếp cận này người dùng cần phải nhận thức tốt về cấu trúc của tài liệu, khuôn dạng và tên chính xác của nó và do đó không thể mở rộng được. Các ngôn ngữ biểu diễn tri thức như DAML+OIL mà hỗ trợ suy luận logic có thể giúp chúng ta đạt được sự truy xuất và biểu diễn tri thức chính xác và mềm dẻo hơn. Công nghiệp phần mềm hiện tại đang phát triển nhiều ngôn ngữ metadata (ví dụ RDF (S), OML) cho phép ta lập chỉ mục các tài nguyên thông tin web cùng với sự biểu diễn tri thức (các câu lệnh logic) và lưu trữ chúng trong tài liệu web. Tài liệu web có thể bao gồm văn bản cùng với sự đánh dấu nào đó. Có nhiều sự sử dụng tiềm tàng đối với việc chú thích trên semantic web bao gồm luồng công việc (workflow), truy xuất hình ảnh và tính tương tác với thiết bị. Trong tiểu luận này, chúng tôi sẽ tập trung vào ba kịch bản liên quan đến các tài liệu văn bản và trang web được đánh dấu một cách ngữ nghĩa. - Truy xuất thông tin (IS)- ví dụ, nhận diện và sắp thứ hạng các tài liệu hoặc các trang web thích hợp để một truy vấn tìm kiếm các mô tả chi tiết liên quan đến USA và các lãnh đạo Afganistan. - Trả lời câu hỏi đơn giản (Q&A) –ví dụ, ai là tổng thống của Hoa Kỳ? - Trả lời câu hỏi phức tạp – ví dụ, tình trạng hiện tại ở Afganistan như thế nào? 4 2. Nền tảng 2.1 DAML và Semantic Web Web hiện tại chủ yếu bao gồm các trang web với thông tin trong dạng văn bản ngôn ngữ tự nhiên và hình ảnh nhắm tới sự nhìn nhận và hiểu biết của con người. Hình 1. Tầm nhìn của Berners Lee về Web Ngữ nghĩa Máy tính được dùng chủ yếu để đưa ra thông tin này, bố trí trên màn hình hoặc in trang. Ý tưởng đằng sau Semantic Web là gia tăng các trang web này với sự đánh dấu để giữ ngữ nghĩa nào đó của nội dung trên các trang và mã hóa nó thành dạng mà máy có thể hiểu được [18]. Điều này yêu cầu một loại ngôn ngữ đánh dấu mới; ngôn ngữ mà hỗ trợ việc định nghĩa các mô hình dữ liệu chia sẻ hoặc ontology cho một lĩnh vực (domain) nào đó và cho phép tác giả trang web tạo ra các câu lệnh (statement) sử dụng ontology này. Các ngôn ngữ đánh dấu hiện tại đang được sử dụng bao gồm RDF (S) [2, 23] và DAML+OIL [11, 12]. 5 Chuẩn XML [8] cung cấp các phương tiện cần thiết để khai báo và sử dụng các cấu trúc dữ liệu đơn giản, được lưu trữ trong các tài liệu XML và máy có thể đọc được. Tuy nhiên, vì XML chỉ được định nghĩa ở mức cú pháp, máy tính không thể dựa trên việc xác định một cách mơ hồ ngữ nghĩa chính xác của các thẻ XML được dùng trong một tài liệu XML cho trước. W3C đã phát triển RDF/S với mục đích nhắm tới các thiếu sót này của XML. Hai chuẩn này cung cấp các framework biểu diễn cho việc mô tả các mối quan hệ giữa các tài nguyên trong dạng các giá trị và thuộc tính được đặt tên, mà tương tự với các ngôn ngữ khung (frame) sơ khai như lược đồ RDF. Tuy nhiên, cả hai chuẩn này vẫn còn là các ngôn ngữ biểu diễn tri thức rất hạn chế do sự thiếu hỗ trợ các biến, các quy tắc, định lượng tổng quát, v.v. Mục đích của DAML+OIL là cho phép sự chuyển đổi web hướng con người hiện tại mà đang được dùng rộng rãi chỉ với văn bản và đa phương tiện vào Semantic Web như hình dung của Berners-Lee [6, 7]. Nó cũng tuân theo cùng cách biểu diễn dữ liệu và thông tin trong tài liệu như XML, và cung cấp các quy tắc và định nghĩa tương tự với RDF/S. DAML+OIL vì thế là một nỗ lực để phát triển một ngôn ngữ đánh dấu Semantic Web phổ dụng đủ giàu để cung cấp cho máy tính không chỉ khả năng đọc dữ liệu mà còn với khả năng biên dịch và suy luận trên dữ liệu. DAML+OIL sẽ cho phép phát triển các ứng dụng và agent thông minh mà có thể tự động truy xuất và thao tác thông tin trên Internet và tự Semantic Web của tương lai. 2.2 Truy xuất thông tin trong World Wide Web. Mặc dù một lĩnh vực hoạt động của nghiên cứu cho hơn ba mươi năm, truy xuất thông tin (IR) chỉ trở nên phổ biến với sự ra đời của World Wide Web. Các ứng dụng quen thuộc nhất về truy xuất văn bản là tùy biến truy vấn nơi mà một truy vấn được sử dụng để tìm kiếm một tài liệu tĩnh. Đây là nhiệm vụ mà công cụ thương mại web tìm kiếm như AltaVista và Google được biết đến nhiều nhất để giải quyết. Công cụ tìm kiếm hoạt động trên cơ sở dữ liệu rất lớn và thực hiện một tìm kiếm bằng từ khoá. Trong hầu hết các trường hợp có độ chính xác thấp, không phải tất cả các câu trả lời tài liệu truy xuất là truy vấn của người dùng. Ví dụ, khi một truy vấn "Tổng thống của Mỹ là ai", đã được đặt ra 6 cho Google, một số liên kết truy xuất chứa tên của Tổng thống hiện tại ở một nơi nào đó trong các tài liệu, nhưng tài liệu mô tả “làm thế nào để vận động để trở thành một Tổng thống” và Tổng thống của một tờ báo "USA Today" cũng đã được lấy ra. Công cụ tìm kiếm thông minh phát triển như là một hậu duệ của công cụ tìm kiếm Meta, nó kết hợp các kỹ thuật máy học. thông tin sẽ không chỉ còn được dành cho độc giả của con người, mà cũng cho xử lý bằng máy móc, cho phép các dịch vụ thông tin thông minh, các trang web cá nhân, và các công cụ tìm kiếm về ngữ nghĩa được uỷ quyền. thông tin sẽ không chỉ còn được dành cho độc giả của con người, mà cũng cho xử lý bằng máy móc, cho phép các dịch vụ thông tin thông minh, các trang web cá nhân, và các công cụ tìm kiếm về ngữ nghĩa được uỷ quyền. Tri thức có thể được chú thích trên trang theo một cách mà các công cụ tự động có thể thu thập và hiểu được nó. Ontologies có thể làm cho các tác nhân phần mềm có thể hiểu được tri thức, nó được đánh dấu và tiếp tục rút ra kết luận liên quan đến lĩnh vực quan tâm [28]. Agent Paradigm là một công nghệ đầy hứa hẹn để truy xuất thông tin. Một số ứng dụng thông minh giao diện IR và đám mây và phân loại. Một cách tiếp cận dựa trên tác nhân có nghĩa là các hệ thống IR có thể có khả năng mở rộng, linh hoạt, và tương thích. Tác tử cần một cách để xử lý và "hiểu" thông tin của chúng, cả hai mức độ của tài liệu cá nhân / đối tượng cũng như những thực thể tập hợp rộng. Phương pháp tiếp cận thống kê, đối với siêu dữ liệu suy ra từ thông tin, chẳng hạn như n-gram và lập chỉ mục ngữ nghĩa ẩn là đặc biệt thú vị cho việc phân tích đối tượng văn bản, bởi vì chúng là độc lập về ngôn ngữ của văn bản, khả năng chống lỗi chính tả, và cho phép ứng dụng kỹ thuật toán học được biết đến nhiều để phân tích ngôn ngữ tự nhiên. 2.3 Trả lời truy vấn trên Web Các hệ thống trả lời truy vấn đã có một phạm vi nghiên cứu trong các lĩnh vực khác nhau giống như biểu diễn tri thức, cơ sở dữ liệu, truy xuất thông tin, giao diện người dùng, ngôn ngữ tự nhiên. Ưu điểm của các hệ thống dựa trên sự chính xác này kết hợp với các máy tìm kiếm đã dẫn đến các nỗ lực trong việc mở rộng các hệ thống này đối với 7 web. START [19] là một trong các hệ thống QA đầu tiên với một giao diện web, có từ năm 1993. Tập trung trên các câu hỏi về địa lý và InfoLab của MIT, START sử dụng cơ sở tri thức được biên dịch trước trong dạng bộ ba subject-relation-object và truy xuất các bộ ba này vào lúc thực hiện trả lời các câu hỏi. AskJeeves [1] là một dịch vụ thương mại, cung cấp giao diện câu hỏi ngôn ngữ tự nhiên cho web, nhưng nó dựa trên hàng trăm người biên tập để ánh xạ giữa các mẫu câu hỏi và các site tin cậy. MULDER [22] tự cho là hệ thống trả lời câu hỏi tự động đầu tiên sử dụng web đầy đủ như là cơ sở tri thức của nó. MUDLER sử dụng nhiều bộ phân tích cú pháp ngôn ngữ tự nhiên và các heuristic để trả về các câu trả lời có chất lượng cao. Sử dụng framework này, hệ thống MULDER có thể được mô hình hóa để phù hợp với các yêu cầu của trả lời truy vấn trên web. 2.4 Truy vấn DAML Mục đích của ontology và chú thích trên trang web là cho phép ở một mức độ nào đó khả năng truy vấn và thực thi mà không sẵn có trong kỹ thuật tìm kiếm web hiện tại. RDQL là một sự bổ sung của ngôn ngữ truy vấn giống SQL cho RDF. Nó xem RDF là dữ liệu và cung cấp truy vấn với các mẫu bộ ba và các ràng buộc trên mô hình RDF đơn nhất. TRIPLE là ngôn ngữ lập trình logic dựa trên RDF cho Semantic Web ở nhóm cơ sở dữ liệu trường đại học Stanford. [27] kiến trúc phân tầng của TRIPLE cho phép sự mở rộng hướng đối tượng giống như lược đồ RDF, được thực hiện trực tiếp với các đặc trưng logic Horn mở rộng và các mô đun kiểu DAML+OIL có thể được nhận ra thông qua sự tương tác với các thành phần suy luận bên ngoài. DQL, một ngôn ngữ truy vấn DAML+OIL, là một ngôn ngữ truy vấn đơn giản để truy vấn các cơ sở tri thức của DAML+OIL. Ngôn ngữ này được xác định là ontology của DAML+OIL để cả các truy vấn và các kết quả thu được từ việc yêu cầu truy vấn được biểu diễn trong DAML+OIL. Để truy vấn một cơ sở tri thức DAML+OIL, ta biểu diễn truy vấn trong DAML+OIL và các kết quả truy vấn này được trả về trong DAML+OIL. Một thể hiện của truy vấn lớp biểu diễn câu hỏi được đặt ra đối với người suy luận. Một mẫu truy vấn ảnh hưởng đến hội của một hay nhiều bộ ba (triple). Mỗi bộ ba tương ứng 8 với một câu lệnh RDF ngoài trừ vị từ, chủ thể (subject) và đối tượng (object) của nó có thể là một biến. 3. OWLIR : Thiết kế và Thực thi Có một sự mâu thuẫn cơ bản giữa quan điểm người về SW và quan điểm tác tử phần mềm về SW phải được xử lý như thế nào để hỗ trợ truy xuất đầy đủ. Các tài liệu có chứa đánh dấu ngữ nghĩa có thể được xem theo một trong hai cách. Mọi người sẽ có xu hướng xem chúng như là tài liệu văn bản mà thường có chứa một số thông tin bổ sung đó là truy cập trực tiếp hoặc hữu ích cho họ. Tác tử phần mềm mặt khác sẽ xem chúng như là các mệnh đề để thực hiện suy luận trên đó. Bề ngoài, những quan điểm khác nhau là không tương thích với nhau. Nếu chúng không hòa hợp được, có thể dẫn đến sự phát triển của Web Ngữ nghĩa mà bỏ các trang web truy cập của con người hiện nay. Bằng việc rút ra những quan điểm khác nhau này, và do đó làm tăng giá trị đánh dấu cho người dùng và giá trị của văn bản cho các tác tử phần mềm, chúng tôi cho rằng tìm kiếm và suy luận được ràng buộc chặt chẽ. Mọi người sẽ muốn sử dụng Web Ngữ nghĩa để tìm kiếm không chỉ cho các tài liệu, mà còn cho các thông tin về mối quan hệ ngữ nghĩa cụ thể. Tuy nhiên, bởi vì nó không còn thực tế giả định một cơ sở tri thức nguyên khối, Sự rút ra những suy luận thích hợp đòi hỏi phải có quy tắc và sự kiện mà sẽ hỗ trợ những kết luận mong muốn. Có một phổ rộng các kỹ thuật, có thể được áp dụng đối với truy vấn, và truy xuất các tài liệu ngữ nghĩa đánh dấu. OWLIR là nhằm mục đích để cung cấp một framework, có thể trích xuất và khai thác các thông tin ngữ nghĩa từ những tài liệu, thực hiện lý luận phức tạp và kết quả lọc cho độ chính xác tốt hơn. OWLIR có thể được mô tả trong dạng hai thành phần chính: một tập hợp các ontology và một cơ chế truy xuất thông tin hỗn hợp. OWLIR định nghĩa ontology được mã hóa 9 trong DAML + OIL cho phép người dùng xác định quan tâm của họ trong sự kiện khác nhau. Các ontology cũng được dùng để chú thích các thông báo sự kiện. Các công cụ truy xuất thông tin dựa trên việc sử dụng HAIRCUT. Nó sử dụng khai thác văn bản, chú thích, và cơ chế suy luận, bằng cách sử dụng những kiến thức được thể hiện trong ontology. Dưới đây là phần trình bày các khía cạnh thiết kế và triển khai thực hiện của framework này thông qua ví dụ về ứng dụng OWLIR giải quyết một tác vụ cụ thể đó là – Trích lọc các thông báo sự kiện cho sinh viên của UMBC. Kịch bản như sau: • Hai lần một tuần, sinh viên của UMBC nhận được thông báo email liệt kê khoảng 40-50 sự kiện mà có thể họ quan tâm. Ví dụ, thuyết trình, thi đấu thể thao, xem phim, … • Mỗi sinh viên có một “standing query” được sử dụng để định tuyến thông báo sự kiện. – Mỗi sinh viên chỉ nhận các thông báo sự kiện phù hợp với sự quan tâm và kế hoạch của họ. • Sử dụng hệ thống AeroText LMCO để tự động thêm đánh dấu DAML+OIL vào các mô tả sự kiện. – Phân loại các thông báo dạng văn bản vào các kiểu sự kiện. – Nhận ra các phần tử chủ chốt và thêm đánh dấu DAML. • Sử dụng JESS để suy luận trên đánh dấu, rút ra các suy luận được hỗ trợ bằng ontology. 3.1 Ontology Sự kiện (Event) Ontology là một đặc điểm kỹ thuật rõ ràng của một từ vựng biểu diễn cho một lĩnh vực chia sẻ của các định nghĩa diễn ngôn của các lớp học, quan hệ, chức năng, hạn chế và 10 [...]... định nghĩa Ontology giúp vượt qua những bế tắc trong việc truy xuất thông tin, mà chủ yếu dựa trên các từ khóa tìm kiếm Họ hỗ trợ tìm kiếm thông tin dựa trên nội dung thực tế của một trang và điều hướng không gian thông tin dựa trên khái niệm ngữ nghĩa Ontology cho phép trả lời truy vấn và dịch vụ tiên tiến trích xuất thông tin, tích hợp các nguồn thông tin không đồng nhất và phân tán làm phong phú... đóng góp cho sự xuất hiện các ontology hợp với kinh điển 18 - Tìm dữ liệu thể hiện (instance): để giúp người dùng tích hợp dữ liệu Web Ngữ nghĩa được phân tán trên Web, Swoogle cho phép truy vấn các tài liệu Web Ngữ nghĩa (SWD) với các ràng buộc trên lớp và thuộc tính được sử dụng bởi chúng - Mô tả Web Ngữ nghĩa: bằng cách thu thập metadata, các mối quan hệ bên trong tài liệu về Web Ngữ nghĩa, Swoogle... nghệ bổ sung trong một hệ thống làm cho HAIRCUT khác biệt giữa các hệ thống truy xuất khác WONDIR (Word hoặc N-gram dựa trên công cụ truy xuất thông tin động) là một công cụ truy xuất thông tin bằng văn bản hoàn toàn trong java Nó cung cấp lập chỉ mục cơ bản, truy xuất và chức năng lưu trữ các tài liệu Chức năng chính của nó bao gồm khả năng về chỉ số điều kiện như N-gram hoặc là từ ngôn ngữ đơn giản... tham chiếu đến các hạng thức được dùng trong truy vấn, và sau đó một hệ thống logic hoạt động trên đó gần với thế giới thông tin hữu hạn để xác định một giải pháp tin cậy nếu nó tồn tại 17 Hình 6 Truy vấn DAML 4 Swoogle Swoogle là hệ thống truy xuất và lập chỉ mục dựa trên hệ thu thập dữ liệu cho Web Ngữ nghĩa, ví dụ các tài liệu web dạng RDF hoặc OWL Nó trích xuất metadata cho tài liệu khám phá được,... để xử lý các truy vấn văn bản miễn phí Các đặc trưng WONDIR bao gồm khả năng xử lý tập văn bản động và tương đối dễ dàng sử dụng 3.5 Truy xuất thông tin hỗ hợp Sự bổ sung đánh dấu ngữ nghĩa cho các tài liệu web làm cho có thể thực hiện các suy luận trên nội dung tài liệu Tuy nhiên, đánh dấu cũng hữu ích theo cách khác Truy xuất văn bản truy n thống biểu thị các tài liệu theo các thuật ngữ lập chỉ mục... của SWD và sinh các metadata khách quan cho các SWD ở cả mức cú pháp và ngữ nghĩa Thành phần phân tích dữ liệu sử dụng các SWD được lưu giữ và tạo metadata để rút ra các báo cáo phân tích, ví dụ như sự phân loại các ontology web ngữ nghĩa (SWO) và cơ sở dữ liệu web ngữ nghĩa (SWDB), thứ hạng của các SWD và chỉ mục truy xuất thông tin các SWD này Thành phần giao diện tập trung vào việc cung cấp dịch vụ... cú pháp, mẫu truy vấn này xác định các điều kiện cần và đủ để tìm kiếm Các hệ thống logic cung cấp các câu trả lời tốt, nhưng không mở rộng cho các vấn đề lớn; một khía cạnh mà các máy tìm kiếm có thể xử lý tốt một cách đáng kể Trên Semantic Web chúng ta có thể tưởng tượng một sự kết hợp hệ thống logic với máy truy xuất thông tin Trong suốt hoạt động tìm kiếm, hệ thống truy xuất này truy xuất tất cả... trên trang web Chúng ta sử dụng công cụ tùy biến của người dùng để tinh chỉnh sự thực hiện truy xuất Các thành phần và cụm từ được trích xuất đóng một vai trò quan trọng trong việc 12 xác định loại của các sự kiện và thêm vào đánh dấu ngữ nghĩa Hệ thống AeroText TM có một API java được dùng để truy cập dạng nội tại của các kết quả trích xuất Chúng ta sử dụng các bộ phận phát sinh DAML để truy cập dạng... khác nhau Hình 4 Kiến trúc của OWLIR Điều này cho thấy rằng đánh dấu ngữ nghĩa, nếu có, có thể phục vụ như các từ chỉ mục cho một công cụ truy xuất thông tin (IR) truy n thống Nghĩa là, thêm vào các tài liệu lập chỉ mục theo văn bản của các từ của chúng, các gốc hay n-grams, chúng ta cũng có thể chỉ mục chúng theo văn bản đánh dấu ngữ nghĩa của chúng Ví dụ, chúng ta có thể xử lý mỗi thẻ DAML +OIL phân... Thông tin về các sự kiện trong trường đại học được tập hợp để truy xuất và được phân tích đối với các loại sự kiện tự nhiên (Natural Kinds of Events) Để phần mềm có thể phân tích và hiểu ngữ nghĩa của dữ liệu, một pha phổ biến sử dụng ontology sự kiện để mô tả tài liệu này trong DAML+OIL Các tài liệu chứa các mẫu bộ ba RDF được sinh từ sự đánh dấu và các thẻ DAML+OIL mà được suy luận thông qua hệ thông . ĐẠI HỌC KHOA HỌC HUẾ KHOA CÔNG NGHỆ THÔNG TIN oOo TIỂU LUẬN MÔN HỌC WEB NGỮ NGHĨA VÀ ONTOLOGY Đề tài: WEB NGỮ NGHĨA TRONG TRUY XUẤT THÔNG TIN (Semantic Web in Information Retrieval) Giảng viên. các ứng dụng và agent thông minh mà có thể tự động truy xuất và thao tác thông tin trên Internet và tự Semantic Web của tương lai. 2.2 Truy xuất thông tin trong World Wide Web. Mặc dù một lĩnh. thống truy xuất khác. WONDIR (Word hoặc N-gram dựa trên công cụ truy xuất thông tin động) là một công cụ truy xuất thông tin bằng văn bản hoàn toàn trong java. Nó cung cấp lập chỉ mục cơ bản, truy

Ngày đăng: 07/08/2014, 23:20

Xem thêm