Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 13 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
13
Dung lượng
197,98 KB
Nội dung
1 BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC ĐÀ NẴNG TRẦN NGỌC ĐỨC TÌMHIỂUWEBNGỮNGHĨA,XÂYDỰNGỨNGDỤNGTÌMKIẾMTÀILIỆUTIẾNGVIỆT Chuyên ngành: Khoa học máy tính Mã số: 60.48.01 TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT Đà Nẵng – Năm 2012 2 Công trình ñược hoàn thành tại ĐẠI HỌC ĐÀ NẴNG Người hướng dẫn khoa học: PGS.TSKH TRẦN QUỐC CHIẾN Phản biện 1: TS. Nguyễn Trần Quốc Vinh Phản biện 2: PGS.TS. Lê Mạnh Thạnh Luận văn ñược bảo vệ tại Hội ñồng chấm Luận văn tốt nghiệp Thạc sĩ kỹ thuật họp tại Đại học Đà Nẵng vào ngày 03 tháng 03 năm 2012 Có thể tìmhiểu luận văn tại: - Trung tâm Thông tin - Học liệu, Đại học Đà Nẵng - Trung tâm Học liệu, Đại học Đà Nẵng. 3 MỞ ĐẦU 1. Lý do chọn ñề tài Sự phát triển nhanh chóng của khoa học, công nghệ làm cho kho kiến thức của con người ngày càng mở rộng. Ngày nay, dữ liệu của con người một phần lớn ñược lưu giữ dưới dạng tàiliệu ñiện tử và ñược lưu giữ trong các thiết bị lưu trữ. Với lượng dữ liệu ñồ sộ như vậy, việc tìmkiếm và nắm bắt thông ñã trở thành một nhu cầu không thể thiếu ñối với mỗi con người. Trong các cơ quan, doanh nghiệp, thậm chí là các thư viện hầu hết các văn bản, tài liệu, sách ñều ñược lưu trữ dưới dạng tàiliệu ñiện tử. Hiện nay các công cụ hỗ trợ cho việc tìmkiếm các tàiliệu trong phạm vi một cơ quan, doanh nghiệp thường rất hạn chế về mặt chức năng cũng như khả năng xử lý tiếngViệt và văn bản tiếng Việt. Do ñặc thù của chữ viếttiếngViệt và sự phát triển của nền tin học Việt Nam, các văn bản tiếngViệt ñược lưu trữ với nhiều bảng mã khác nhau làm cho việc tìmkiếm trở nên rất khó khăn. Các hệ thống tìmkiếm hiện nay ñều chưa chuẩn hóa bảng mã trong tài liệu, làm cho kết quả tìmkiếm có thể bị sai lệch. Các hệ thống tìmkiếm hiện nay hầu hết ñều tìm theo từ khóa, không hỗ trợ việc tìmkiếm theo ngữ nghĩa ñiều này làm hạn chể khả năng tìmkiếm cũng như khả năng hỗ trợ người sử dụng trong quá trình tìmkiếm trên hệ thống tìm kiếm. Từ thực tế ñó, việc xâydựng một hệ thống tìmkiếm có thể dễ dàng triển khai trong môi trường cơ quan, doanh nghiệp và có khả năng “hiểu” ngữ nghĩa tiếng Việt, xử lý văn bản tiếngViệt là cần thiết. Vì vậy tôi thực hiện ñề tài“Tìm hiểuwebngữ nghĩa xâydựngứngdụngtìmkiếmtàiliệutiếng Việt”. 4 2. Mục ñích nghiên cứu - Tìmhiểu về công nghệ, phương pháp xâydựngWebngữ nghĩa và các vấn ñề có liên quan. - Tìmhiểu các phương pháp bóc tách dữ liệu tự ñộng bằng cách sử dụng các công cụ xử lý ngôn ngữ thông dụng. - Đề xuất giải pháp xâydựng và tiến hành xâydựng thử nghiệm hệ thống tìmkiếm thông tin tàiliệutiếngViệt dựa trên công nghệ Webngữ nghĩa. - Đưa ra một số nhận ñịnh, ñánh giá về phương pháp ñã lựa chọn ñể thử nghiệm và khả năng phát triển ứngdụng vào thực tế. 3. Đối tượng và phạm vi nghiên cứu - Dữ liệu, tài liệu, thông tin văn bản ñược lưu trữ, truy cập thông qua máy tính và môi trường mạng máy tính. - Các công cụ mã nguồn mở ñược sử dụng ñể thao tác, xử lý ngôn ngữ tự nhiên trên các văn bản ñược lưu trữ trong máy tính. - Ứngdụng bóc tách và khai thác dữ liệu, phục vụ tìmkiếm theo ngữ nghĩa cho văn bản tiếng Việt. 4. Phương pháp nghiên cứu Luận văn sử dụng các phương pháp nghiên cứu như sau: - Thứ nhất, tìmhiểu và ñánh giá các kết quả nghiên cứu về các phương pháp xử lý ngôn ngữ tự nhiên, công nghệ Webngữ nghĩa ñang ñược phát triển hiện nay. 5 - Thứ hai, từ kết quả thu ñược của bước thứ nhất, lựa chọn phương pháp xâydựngứng dụng. - Thứ ba, từ phương pháp ñã lựa chọn, tìmkiếm công cụ thích hợp ñể xâydựngứng dụng. Từ giải pháp và công cụ ñã lựa chọn ñược, tiến hành xâydựngứngdụngtìmkiếmtàiliệutiếng Việt. 5. Ý nghĩa khoa học và thực tiễn của ñề tài Về mặt khoa học, ñề tài tiếp cận vấn ñề xử lý ngôn ngữ tự nhiên một cách tự ñộng dựa trên công nghệ Webngữ nghĩa. Điều này góp phần làm cho việc tìmkiếm trở nên chính xác và hiệu quả hơn. Phục vụ cho việc giải quyết bài toán bóc tách dữ liệu từ văn bản. Về mặt thực tiễn, ñề tài ñưa ra ñược phương pháp xâydựng một ứngdụng xử lý ngôn ngữ dựa trên những công cụ xử lý ngôn ngữ tự nhiên có sẵn và bước ñầu xâydựngứngdụng minh họa. 6. Giải pháp Để xâydựng ñược ứngdụngtìmkiếmtàiliệutiếng Việt, ñề tài có thể có giải pháp như sau: - Xâydựng Ontology tiếngViệt cho một số lĩnh vực nhằm minh họa cho ứng dụng. - Lựa chọn công cụ ñể xâydựng chú giải cho các văn bản tiếngViệt dựa trên Ontology ñã có. - Xâydựngứngdụngtìmkiếmngữ nghĩa dựa trên chú giải ñã gán cho các văn bản tiếng Việt. 6 7. Cấu trúc của luận văn Sau phần mở ñầu, luận văn gồm có 3 chương và phần kết luận. Các chương của luận văn bao gồm: - Chương 1, “Tổng quan về Webngữ nghĩa”. Chương này cung cấp cho chúng ta cái nhìn tổng quan về công nghệ Web hiện tại và Webngữ nghĩa. Phân biệt những ñiểm khác nhau cơ bản giữa Web và Webngữ nghĩa cũng như trình bày một số ngôn ngữ, công cụ và công nghệ hiện có ñể xâydựngứngdụngWebngữ nghĩa. - Chương 2, “Ontology và phương pháp xâydựng Ontology”. Chương này sẽ trình bày khái niệm, các thành phần, ngôn ngữ, phương pháp và công cụ ñể xâydựng Ontology . - Chương 3, “Xây dựngứngdụngtìmkiếmtàiliệutiếng Việt”. Chương này sẽ mô tả các bước xâydựngứngdụngtìmkiếmtàiliệutiếngViệt và các kết quả chạy thử nghiệm. Phần kết luận, tổng hợp các kết quả nghiên cứu của luận văn. Các kết quả ñạt ñược, hạn chế của luận văn. Thông qua các kết quả ñạt ñược của luận văn, ñề xuất hướng phát triển tiếp theo cho ñề tài. 7 Chương 1 - TỔNG QUAN VỀ WEBNGỮ NGHĨA 1.1. Công nghệ Web hiện tại và những hạn chế Khối lượng khổng lồ các tài nguyên trên Web làm nảy sinh vấn ñề nghiêm trọng là làm thế nào ñể tìmkiếm chính xác tài nguyên mình mong muốn. Dữ liệu trong các file HTML – ngôn ngữ trình bày dữ liệu của công nghệ Web hiện tại- hữu ích trong một vài ngữ cảnh nhưng vô nghĩa ñối với những ngữ cảnh khác. Thêm vào ñó HTML không thể mô tả về dữ liệu ñóng gói trong nó. Hiện nay, hầu hết các công cụ tìmkiếmtàiliệu trên Web ñược coi là tìmkiếmhiệu quả cũng chủ yếu tìmkiếm ñược trên bề nổi của Web . Trong khi ở tầng sâu của Web chứa một khối lượng thông tin khổng lồ và thường rất có giá trị cho các nhà nghiên cứu, các học giả hay ñơn thuần là những người thích tìm hiểu. Bên cạch ñó, các trang Web hiện nay có rất ít ñường liên kết với các trang Web khác nên việc tìmkiếm là khó khăn. Ngoài ra, thông tin tìmkiếm ñược không theo chủ ñề mà chỉ là vấn ñề tìm thoả theo từ khoá ñơn thuần, kết quả tìmkiếm phải do con người chọn lại theo chủ ñề mong muốn. Ví dụ, khi chúng ta biết tên một quốc gia và muốn tìm tên thủ ñô của quốc gia ñó. Vì mỗi quốc gia có một thủ ñô khác nhau và Web không biểu diễn ñược mối liên hệ này, nên chúng ta không nhận ñược ñiều chúng ta mong ñợi. Trái lại, ñối với Semantic Web, chúng ta có thể chỉ ra kiểu của mối liên hệ này; ví dụ, tên quốc gia có tên thủ ñô tương ứng. 8 Vì vậy, nếu như các thành phần chính yếu của dữ liệu trong Web trình bày theo dạng thức thông thường, thì rất khó sử dụng dữ liệu này một cách phổ biến ñể có thể mô tả ñược mối quan hệ như tương tự trên. Một thiếu sót của Web hiện nay là thiếu cơ cấu hiệu quả ñể chia sẻ dữ liệu khi ứngdụng ñược phát triển một cách ñộc lập. Do dó cần phải mở rộng Web ñể máy có thể hiểu, tích hợp dữ liệu, cũng như tái sử dụng dữ liệu thông qua các ứngdụng khác nhau. 1.2. Web có ngữ nghĩa Từ những hạn chế, vấn ñề về mặt khai thác dữ liệu của công nghệ Web hiện tại ñã thúc ñẩy sự ra ñời của ý tưởng Webngữ nghĩa (Semantic Web ), một thế hệ mới của Web , mà chính cha ñẻ của World Wide Web là Tim Berners-Lee ñề xuất vào năm 1998. Webngữ nghĩa là sự mở rộng của Web hiện tại mà trong ñó thông tin ñược ñịnh nghĩa rõ ràng sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn. Mục tiêu của Web có ngữ nghĩa là ñể phát triển các chuẩn chung và công nghệ cho phép máy tính có thể hiểu ñược nhiều hơn thông tin trên Web , sao cho chúng có thể hỗ trợ tốt hơn việc khám phá thông tin (thông tin ñược tìmkiếm nhanh chóng và chính xác hơn), tích hợp dữ liệu (dữ liệu liên kết ñộng), và tự ñộng hóa các công việc. 1.3. Kiến trúc của Webngữ nghĩa Webngữ nghĩa là một tập hợp các ngôn ngữ. Tất cả các l ớ p c ủ a Web ng ữ ngh ĩ a ñượ c s ử d ụ ng ñể ñả m b ả o ñộ an toàn và khai thác thông tin m ộ t cách t ố t nh ấ t. 9 Web ng ữ ngh ĩ a ñượ c xây d ự ng trên n ề n h ệ th ố ng web hi ệ n t ạ i. Web ng ữ ngh ĩ a ñượ c coi là s ự m ở r ộ ng c ủ a Web hi ệ n t ạ i có b ổ sung thêm ng ữ ngh ĩ a vào d ữ li ệ u trên web. Hình 3 ch ỉ ra s ơ ñồ ki ế n trúc c ủ a Web ng ữ ngh ĩ a. Hình 1.1: Kiến trúc của webngữ nghĩa 1.4. Vai trò của các tầng trong Webngữ nghĩa 1.4.1. Tầng ñịnh danh tàingu yên -U RI URI - Uniform Resource Identifier, URI ñơ n gi ả n ch ỉ là m ộ t ñị nh danh Web gi ố ng nh ư các chu ỗ i b ắ t ñầ u b ằ ng “http” hay “ftp” mà b ạ n th ườ ng xuyên th ấ y trên m ạ ng. B ấ t k ỳ ai c ũ ng có th ể t ạ o m ộ t URI, và có quy ề n s ở h ữ u chúng. 10 1.4.2. Tầng XML và XML Schema XML là m ộ t m ở r ộ ng c ủ a ngôn ng ữ ñ ánh d ấ u cho các các c ấ u trúc tài li ệ u b ấ t k ỳ . 1.4.3. Tầng RDF - RDF Schema RDF (Resource Description Framework) là n ề n t ả ng c ủ a Web ng ữ ngh ĩ a và x ử lý metadata , ñượ c ñị nh ngh ĩ a b ở i t ổ ch ứ c W3C. RDF cho phép trao ñổ i thông tin gi ữ a các ứ ng d ụ ng trên Web mà máy có th ể hi ể u ñượ c. 1.4.4. Tầng Ontology Ontology là m ộ t t ậ p các khái ni ệ m và quan h ệ gi ữ a các khái ni ệ m ñượ c ñị nh ngh ĩ a cho m ộ t l ĩ nh v ự c nào ñ ó nh ằ m vào vi ệ c bi ể u di ễ n và trao ñổ i thông tin. 1.4.5. Tầng logic Khai báo các nguyên t ắ c logic và cho phép máy tính suy di ễ n (b ằ ng cách suy lu ậ n) b ằ ng cách dùng nh ữ ng nguyên t ắ c này. 1.4.6. Tầng Proof Chúng ta s ẽ xây d ự ng các h ệ hi ể u logic và dùng chúng ñể ch ứ ng minh. M ọ i ng ườ i trên th ế gi ớ i có th ể vi ế t các khai báo logic. Sau ñ ó máy tính có th ể theo nh ữ ng liên k ế t ng ữ ngh ĩ a này ñể ki ể m ch ứ ng. 1.4.7. Tầng Trust T ầ ng này nh ằ m ñả m b ả o tính tin c ậ y c ủ a các ứ ng d ụ ng trên Web ng ữ ngh ĩ a. 11 1.5. Các ngôn ngữ ñược sử dụng trong Webngữ nghĩa 1.5.1. XML–Ngôn ngữ ñánh dấu mở rộng XML là m ộ t ñặ c t ả cho các tài li ệ u mà máy tính ñọ c ñượ c. Đ ánh d ấ u có ngh ĩ a là các chu ỗ i ký t ự nào ñ ó trong tài li ệ u có ch ứ a thông tin ch ỉ ra vai trò n ộ i dung c ủ a tài li ệ u. ñ ánh d ấ u mô t ả s ơ ñồ d ữ li ệ u c ủ a tài li ệ u và c ấ u trúc logic. Các ñ ánh d ấ u này làm thông tin t ự mô t ả tùy vào c ả m nh ậ n. Các ñ ánh d ấ u này ñượ c mô t ả d ướ i d ạ ng các t ừ trong d ấ u ngo ặ c nh ọ n hay còn g ọ i là tag. 1.5.2. RDF - Biểu diễn dữ liệu về dữ liệu XML cung c ấ p cú pháp ñể mã hóa d ữ li ệ u, RDF là m ộ t c ơ c ấ u ch ỉ ra ñ i ề u gì ñ ó v ề d ữ li ệ u. Nh ư tên g ọ i, RDF là m ộ t mô hình ñể bi ể u di ễ n d ữ li ệ u v ề "m ọ i th ứ trên Web". 1.5.2.1. Các khái niệm cơ bản Namespace và cách khai báo Qualified name (QName) và cách s ử d ụ ng Mô hình RDF B ộ ba RDF (RDF Tripple) Đồ th ị RDF D ữ li ệ u nguyên th ủ y(Literal) 1.5.2.2. Cấu trúc RDF/XML Cú pháp RDF/XML c ơ b ả n 12 RDF Container RDF Collection 1.5.2.3. Lược ñồ RDF- RDF Schema - Đị nh ngh ĩ a class (l ớ p) Các tài nguyên trên Web có th ể chia thành các nhóm g ọ i là class. Các thành viên ( member) c ủ a nhóm ñượ c xem nh ư là th ể hi ệ n c ủ a l ớ p ñ ó. Class c ũ ng chính là tài nguyên. Nó ñượ c nh ậ n ra thông qua các ñị nh danh URI và có th ể ñượ c mô t ả b ằ ng cách s ử d ụ ng các RDF properties. - Đị nh ngh ĩ a thu ộ c tính (property) RDF Schema c ũ ng cung c ấ p m ộ t b ộ t ừ v ự ng ñể mô t ả làm th ế nào mà các thu ộ c tính (property) và l ớ p (class) có th ể ñượ c s ử d ụ ng cùng v ớ i nhau trong d ữ li ệ u RDF. 1.5.2.4. Truy vấn dữ liệu trong rdf SPARQL là m ộ t ngôn ng ữ ñể truy c ậ p thông tin t ừ các ñồ th ị RDF. Nó cung c ấ p các tính n ă ng sau: - Trích thông tin trong các d ạ ng c ủ a URI, các nút r ỗ ng và các d ữ li ệ u nguyên th ủ y hay giá tr ị ñượ c ñị nh ngh ĩ a t ừ d ữ li ệ u nguyên th ủ y. - Trích thông tin t ừ các ñồ th ị con. - Xây d ự ng m ộ t ñồ th ị RDF m ớ i d ự a trên thông tin trong ñồ th ị truy v ấ n. 13 Chương 2 - ONTOLOGY VÀ PHƯƠNG PHÁP XÂYDỰNG ONTOLOGY 2.1. Giới thiệu Ontology 2.1.1. Khái niệm Ontology Trong nh ữ ng n ă m g ầ n ñ ây, thu ậ t ng ữ “Ontology” không ch ỉ ñượ c s ử d ụ ng ở trong các phòng thì nghi ệ m trên l ĩ nh v ự c trí tu ệ nhân t ạ o mà ñ ã tr ở nên ph ổ bi ế n ñố i v ớ i nhi ề u mi ề n l ĩ nh v ự c trong ñờ i s ố ng . Đứ ng trên quan ñ i ể m c ủ a ngành trí tu ệ nhân t ạ o, m ộ t Ontology là s ự môt t ả v ề nh ữ ng khái ni ệ m và nh ữ ng quan h ệ c ủ a các khái ni ệ m ñ ó nh ằ m m ụ c ñ ích th ể hi ệ n m ộ t góc nhìn v ề th ế gi ớ i. Trên mi ề n ứ ng d ụ ng khác c ủ a khoa h ọ c, m ộ t Ontology bao g ồ m t ậ p các t ừ v ự ng c ơ b ả n hay m ộ t tài nguyên trên m ộ t mi ề n l ĩ nh v ự c c ụ th ể , nh ờ ñ ó nh ữ ng nhà nghiên c ứ u có th ể l ư u tr ữ , qu ả n lý và trao ñổ i tri th ứ c cho nhau theo m ộ t cách ti ệ n l ợ i nh ấ t. Hi ệ n nay t ồ n t ạ i nhi ề u khái ni ệ m v ề Ontology, trong ñ ó có nhi ề u khái ni ệ m mâu thu ẫ n v ớ i các khác ni ệ m khác, khóa lu ậ n này ch ỉ gi ớ i thi ệ u m ộ t ñị nh ngh ĩ a mang tính khái quát và ñượ c s ử d ụ ng khá ph ổ bi ế n ñượ c Kincho H. Law ñư a ra: “Ontology là bi ể u hi ệ n m ộ t t ậ p các khái ni ệ m ( ñố i t ượ ng), trong m ộ t mi ề n c ụ th ể và nh ữ ng m ố i quan h ệ gi ữ a các khái ni ệ m này”. Ontology chính là s ự t ổ ng h ợ p c ủ a m ộ t t ậ p t ừ v ự ng chia s ẻ và các miêu t ả ý ngh ĩ a c ủ a t ừ ñ ó theo cách mà máy tính hi ể u ñượ c. 14 2.1.2. Các thành phần của Ontology L ớ p (class) là m ộ t b ộ nh ữ ng th ự c th ể , các th ự c th ể ñượ c mô t ả logic ñề ñị nh ngh ĩ a các ñố i t ượ ng c ủ a l ớ p; l ớ p ñượ c xây d ự ng theo c ấ u trúc phân c ấ p cha con nh ư là m ộ t s ự phân lo ạ i các ñố i t ượ ng. Th ự c th ể ñượ c xem là th ể hi ệ n c ủ a m ộ t l ớ p, làm rõ h ơ n v ề l ớ p ñ ó và có th ể ñượ c hi ể u là m ộ t ñố i t ươ ng nào ñ ó trong t ự nhiên (England, Manchester United, b ệ nh s ở i, th ủ y ñậ u…). Thu ộ c tính (Property) th ể hi ệ n quan h ệ nh ị phân c ủ a các th ự c th ể (quan h ệ gi ữ a hai th ự c th ể ) nh ư liên k ế t hai th ự c th ể v ớ i nhau. Ví d ụ thu ộ c tính “làm cho” liên k ế t hai th ự c th ể “ng ườ i” và “công ty” v ớ i nhau. Thu ộ c tính (property) có 4 lo ạ i (1) Functional: M ộ t th ự c th ể ch ỉ liên quan nhi ề u nh ấ t ñế n m ộ t th ự c th ể khác, ví d ụ thu ộ c tính “có h ươ ng v ị ” ñố i v ớ i các th ự c th ể l ớ p “th ứ c_ ă n”; (2) Inverse Functional: Thu ộ c tính ñả o ng ượ c c ủ a Functional, thu ộ c tính “là h ươ ng v ị c ủ a”; (3) Transitive: Th ự c th ể a quan h ệ v ớ i th ự c th ể b, th ự c th ể b quan h ệ v ớ i th ự c th ể c thì th ự c th ể a quan h ệ v ớ i th ự c th ể c; (4) Symmetric: Th ự c th ể a quan h ệ v ớ i th ự c th ể b thì th ự c th ể b quan h ệ v ớ i th ự c th ể a. Thu ộ c tính có 3 ki ể u th ể hi ệ n: - Object Property: Liên k ế t th ự c th ể này v ớ i th ự c th ể khác - DataType Property: Liên k ế t th ự c th ể v ớ i ki ể u d ữ li ệ u XML Schema, RDF literal - Annotation Property: Thêm các thông tin metadata v ề l ớ p, thu ộ c tính hay th ự c th ể khác thu ộ c 2 ki ể u trên. 15 2.1.3. Một số công trình liên quan tới xâydựng Ontology Ngày nay, Ontology ñượ c s ử d ụ ng r ấ t nhi ề u trong các l ĩ nh v ự c liên quan ñế n ng ữ ngh ĩ a nh ư trí tu ệ nhân t ạ o (AI), semantic web, k ĩ ngh ệ ph ầ n m ề m, v.v… Vì nh ữ ng ứ ng d ụ ng c ủ a Ontology nên không ch ỉ riêng Vi ệ t Nam, trên th ế gi ớ i ñ ã có nhi ề u d ự án t ậ p trung xây d ự ng Ontology ñố i v ớ i t ừ ng mi ề n d ữ li ệ u khác nhau và ph ụ c v ụ cho nhi ề u m ụ c ñ ích ñ a d ạ ng khác nhau. Đố i v ớ i mi ề n d ữ li ệ u y t ế có th ể k ể t ớ i r ấ t nhi ề u Ontology trong l ĩ nh v ự c y t ế , sinh h ọ c ñ ã ñượ c ñư a ra b ở i t ổ ch ứ c The National Center for Biomedical Ontology. D ự án này ñ ã ñư a ra ñượ c r ấ t nhiều Ontology trong y tế cũng như trong sinh học, ví dụ như Ontology về cell type, Gene, FMA, Human disease…danh sách các Ontology ñưa ra ñược hiển thị trong . Ngoài ra có thể kể tới Disease Ontology là một tập từ về y khoa ñược phát triển tại Bioinformatics Core Facility cùng với sự cộng tác của dự án NuGene Project tại trung tâm Center for Genetic Medicine. Ontology này ñược thiết kế với mục ñích sắp xếp các bệnh và các ñiều kiện tương ứng ñối với những code về y tế cụ thể như là ICD9CM, SNOMED và những cái khác….Disease Ontology cũng ñược sử dụng ñể liên kết những kiểu hình sinh vật mẫu ñối với các bệnh của con người cũng như trong việc khai phá dữ liệu y học. Disease Ontology ñược thực hiện như là một ñồ thị xoắn có hướng và sử dụng UMLS (Unified Medical Language System) là tập từ vựng ñể truy cập các Ontology về y tế khác như ICD9CM. Một ontology tiếng Anh ñược ñề cập rất nhiều trong lĩnh vực y tế trong thời gian gần ñây ñó là GENIA. Mục ñích chính mà ontology này hướng tới ñó là sự phản ứng lại của tế bào trong não người. 16 Ontology này chủ yếu tập trung trong các lĩnh vực y tế và cũng ñược sử dụng trong các bài toán xử lý ngôn ngữ tự nhiên: truy hồi thông tin (Information Retrieval – IR), trích chọn thông tin, phân lớp và tóm tắt văn bản. DBpedia Ontology là một ontology tổng quát, bao trùm nhiều lĩnh vực. Ontology này ñược tạo ra bằng cách lấy thông tin phổ biến trên Wikipedia và xâydựng lại một cách thủ công. Hiện nay, DBpedia ñã có hơn 320 lớp phân cấp bao gồm nhiều lĩnh vực ñược mô tả bởi hơn 1650 thuộc tính khác nhau. 2.2. Phương pháp xâydựng Ontology 2.2.1. Xâydựng Ontology Ngày nay, việc nghiên cứu quá trình xâydựng ontology ngày càng ñược quan tâm nhiều hơn. Có rất nhiều nhóm sau quá trình nghiên cứu ñã ñưa ra các phương pháp khác nhau nhằm xâydựng Ontology. Nội dung chương này sẽ ñề cập ñến một số nguyên tắc cơ bản của việc xâydựng Ontology qua các các công ñoạn cụ thể sau ñây: Các bước cụ thể như sau: - Bước 1, xác ñịnh miền quan tâm và phạm vi của Ontology - Bước 2, xem xét việc kế thừa các Ontology có sẵn - Bước 3, liệt kê các thuật ngữ quan trọng trong Ontology - Bước 4, xâydựng các lớp và cấu trúc lớp phân cấp 17 - Bước 5, ñịnh nghĩa các thuộc tính và quan hệ cho lớp - Bước 6, ñịnh nghĩa các ràng buộc về thuộc tính và quan hệ của lớp - Bước 7, tạo các thực thể cho lớp 2.2.2. Ngôn ngữxâydựng Ontology Hiện tại, các ngôn ngữxâydựng ontology (ngôn ngữ ontology) ñiển hình bao gồm LOOM, LISP, Ontolingua, XML, SHOE, OIL, DAML+OIL và OWL. 2.2.2.1. RDFS (RDF-Schema) RDFS là một ngôn ngữ Ontology cơ bản. Nó ñược phát triển ở tầng trên của RDF cho nên bản thân RDF-Schema cũng chính là RDF, nó ñược mở rộng từ RDF và bổ sung thêm các tập từ vựng ñể hỗ trợ cho việc xâydựng các Ontology ñược dễ dàng. 2.2.2.2. OWL (Ontology Web Language) OWL là ngôn ngữ ontology khá mạnh, nó ra ñời sau RDFS nên biết kế thừa những lợi thế của ngôn ngữ này ñồng thời bổ sung thêm nhiều yếu tố giúp khắc phục ñược những hạn chế của RDFS. OWL giúp tăng thêm yếu tố logic cho thông tin và khả năng phân loại. 2.2.2.3. DAML + OIL DAML+ OIL ra ñời nhằm khắc phục những hạn chế về kiểu dữ liệu trong các ngôn ngữ Ontology trước ñó là RDF, RDFS. DAML + OIL (gọi tắt là DAML) là ngôn ngữ ñánh dấu cho các tài nguyên trên Web, có hỗ trợ suy luận. 18 2.2.3. Công cụ xâydựng Ontology Về mặt lý thuyết, người xâydựng và quản trị Ontology có thể không cần các công cụ hỗ trợ, thay vào ñó có thể thực hiện trực tiếp bằng các ngôn ngữ. Tuy nhiên, cách thứ hai sẽ không khả thi khi Ontology có kích thước lớn và cấu trúc phức tạp. Thêm vào ñó, việc xâydựng và quản trị Ontology không chỉ ñòi hỏi việc tạo cấu trúc lớp phân cấp, ñịnh nghĩa các thuộc tính, ràng buộc , mà còn bao hàm việc giải quyết các bài toán liên quan trên nó. Có rất nhiều bài toán liên quan ñến một hệ thống Ontology như: - Trộn hai hay nhiều Ontology. - Chuẩn ñoán và phát hiện lỗi. - Kiểm tra tính ñúng ñắn và ñầy ñủ. - Ánh xạ qua lại giữa các Ontology. - Suy luận trên Ontology. - Sao lưu và phục hồi một Ontology. - Xóa, sửa và tinh chỉnh các thành bên trong Ontology. - Tách biệt Ontology với ngôn ngữ sử dụng (DAML, OWL, ). Những khó khăn trên ñã khiến các công cụ trở thành một thành phần không thể thiếu, quyết ñịnh ñến chất lượng của một hệ thống Ontology. Hiện có rất nhiều công cụ có khả năng hỗ trợ người thiết kế giải quyết những bài toán liên quan. Có thể kể ra một số như: Sesame, Protégé, Ontolingua, Chimaera, OntoEdit, OidEd 19 Nội dung phần này sẽ ñề cập giới thiệu sơ lược một số công cụ xâydựng và quản trị Ontology và sẽ trình bày chi tiết hai công cụ là Protégé và Chimaera. 2.2.3.1. Protégé Protégé là bộ phần mềm mã nguồn mở Java nổi tiếng. Protégé ñược nghiên cứu và phát triển từ năm 1998 bởi nhóm nghiên cứu của Mark Musen, ĐH. Stanford nhằm quản lý các thông tin trong lĩnh vực sinh y học. Đây là dự án ñược nhận ñược sự quan tâm và tài trợ từ rất nhiều tổ chức, trong ñó có Bộ Quốc Phòng Mỹ. 2.2.3.2. Chimaera Chimaera cũng là một ứngdụng khác ñược phát triển bởi ñại học Stanford, với mục ñích ban ñầu nhằm giải quyết hai vấn ñề là: trộn các Ontology và chuẩn ñoán lỗi, phân tích tính nhất quán giữa các Ontology phân tán. 20 Chương 3 - XÂYDỰNGỨNGDỤNGTÌMKIẾMTÀILIỆUTIẾNGVIỆT 3.1. Mô tả ứngdụngỨngdụng có thể thực hiện tìmkiếm trong kho dữ liệu của mình bao gồm việc tìmkiếm trong các tàiliệu và trong Ontology ñã ñược xâydựng sẵn. Các tàiliệu bao gồm các tập tin dạng văn bản như: file text, một trang Web, .Ontology ñóng vai trò xử lý gán chú giải ngữ nghĩa cho các tàiliệu cũng như xử lý câu truy vấn do người dùng nhập vào. Kết quả trả về là một hoặc nhiều tàiliệu trong kho dữ liệu của ứng dụng. Hình 3.1: Mô hình hệ thống ứngdụngtìmkiếmtàiliệutiếngViệt