Báo cáo nghiên cứu khoa học: "SEMADESK: KHUNG ỨNG DỤNG NGỮ NGHĨA QUẢN LÝ THÔNG TIN DESKTOP" pptx

12 333 0
Báo cáo nghiên cứu khoa học: "SEMADESK: KHUNG ỨNG DỤNG NGỮ NGHĨA QUẢN LÝ THÔNG TIN DESKTOP" pptx

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

55 TẠP CHÍ KHOA HỌC, Đại học Huế, Số 48, 2008 SEMADESK: KHUNG ỨNG DỤNG NGỮ NGHĨA QU ẢN LÝ THÔNG TIN DESKTOP Nguyễn Quang Hưng, Hoàng Nguyễn Tuấn Minh, Nguyễn Mậu Quốc Hoàn, Nguyễn Văn Trung, Nguyễn Mậu Hân Trường Đại học Khoa học, Đại học Huế Hoàng Hữu Hạnh, Lê Mạnh Thạnh Đại học Huế TÓM TẮT Ý tưởng về Desktop ngữ nghĩa (DesktopNN, tiếng Anh là Semantic Desktop) trong quản lý thông tin cá nhân xuất phát từ khái niệm “Memex” [1]. DesktopNN trở thành mô hình cho hệ quản lý thông tin cá nhân trong phạm vi ứng dụng của Web ngữ nghĩa (Semantic Web) [2]. Từ những nhu cầu và mong muốn của người sử dụng hiện nay, công nghiệp phần mềm hướng đến việc xử lý thông tin ngữ nghĩa trên desktop [3]. Theo đó, đưa Web ngữ nghĩa (Web NN) vào ứng dụng trên máy tính cá nhân và điều này không chỉ là vấn đề công nghệ mà còn cả lý luận và tác động của con người [4]. Những người phát triển ứng dụng cá nhân tập trung vào các dịch vụ WebNN cần một môi trường phát triển RDF và ontology đầy đủ cho việc xây dựng sản phm với mong muốn đem đến cho người sử dụng cuối những tính năng tốt hơn trong các ứng dụng desktop hiện nay. Dự án xây dựng khung ứng dụng SemaDesk ra đời từ những mong muốn đó và từ thực tế là các hướng tiếp cận hiện nay không thể giải phóng người dùng khỏi gánh nặng của sự phức tạp của các ứng dụng WebNN. Cách tiếp cận mà chúng tôi đề xuất hướng đến người sử dụng với việc đưa vào hệ thống các ontology, các phụ chú và quản lý tốt hồ sơ người dùng vào trong hệ quản lý dữ liệu cá nhân nhằm tạo ra nền tảng mới cho việc tổ chức và tìm kiếm trở nên hiệu quả hơn. 1. “SemaDesk„ Trong cu ộc sống thường nhật, chúng ta tạo ra nhiều tài liệu, nhận hàng trăm thư điện tử và duyệt rất nhiều trang web. Tất cả các tài liệu này gắn liền với những ngữ cảnh c ụ thể nào đó. Chẳng hạn, các thư điện tử có đính kèm các tài liệu công việc hay là các trang web chuyên môn c ủa người dùng. Tuy nhiên, cấu trúc lưu trữ thư mục và tập tin nh ư mô hình các hệ điều hành hiện nay không hỗ trợ cho việc tổ chức thông tin trong các tài li ệu [5]. Metadata của các tài liệu này cũng không giúp ích gì cho việc tổ chức và tìm ki ếm thông tin theo hướng có ngữ nghĩa. Do đó, chúng ta cần một hệ quản lý thông tin thông minh h ơn và lọc tốt hơn trong quản lý thông tin cá nhân nói riêng và desktop nói chung. 56 1.1. Định nghĩa Desktop Ngữ Nghĩa Chúng tôi đơn giản hoá định nghĩa DesktopNN theo quan điểm người sử dụng và g ắn liền với tính liên thông và cộng tác của các hệ thống SemaDesk. Định nghĩa: Một DesktopNN là một hệ thống thực thi ở tầng cao nhất của hệ điều hành cá nhân sử dụng công nghệ WebNN, cung cấp lớp ngữ nghĩa đã được làm giàu dùng để tổ chức thông tin cá nhân (bao gồm cả các dạng tài nguyên bên ngoài được sử dụng bởi người dùng) và cung cấp công cụ truy xuất thông tin có ngữ nghĩa. H ệ thống DesktopNN có thể tương tác và cộng tác lẫn nhau thông qua hệ thống mạng ngang hàng (peer-to-peer) s ử dụng giao thức khác nhau. So sánh v ới định nghĩa trong [4], ở đây chúng tôi nhấn mạnh hai điểm: một là, DesktopNN là m ột hệ quản lý thông tin cá nhân (Personal Information Management - PIM); hai là, m ột tập các hệ thống DesktopNN có thể tương tác lẫn nhau nhằm chia sẻ và tái s ử dụng thông tin cũng như tri thức. 1.2.‘SemaDesk’ ‘SemaDesk’ được phát triển nhằm khắc phục những bất lợi của các hệ thống DesktopNN hi ện nay. Đầu tiên là việc làm giàu ngữ nghĩa cho các dữ liệu cá nhân. Các h ệ thống tương tự chú trọng vào quy trình chuyển đổi dữ liệu cá nhân sang RDF [6] b ằng việc xây dựng hệ thống thu thập dữ liệu và làm giàu ngữ nghĩa không kế thừa nh ững công cụ đã có sẵn ở mức thấp hơn. Vì thế, chúng phải quan tâm thường xuyên đến các thay đổi về định dạng tài liệu hay các phiên bản ứng dụng, chẳng hạn như việc truy xu ất vào database thư điện tử, lịch làm việc cần phụ thuộc vào phiên bản phần mềm đã lưu trữ trước đây, như là Microsoft Outlook hay Mozilla Thunderbird. Các công cụ tìm ki ếm cá nhân hiện nay như Google Desktop Search (GDS) 7 , Yahoo! Desktop Search 8 và Windows Desktop Search 9 đã gợi cho chúng tôi ý tưởng sử dụng lại các ứng d ụng này trong việc thu thập dữ liệu cá nhân. Th ứ hai, chúng tôi cũng nhắm đến xây dựng một nền tảng ngữ nghĩa dựa trên thông tin cá nhân. N ền tảng này cung cấp các khung nhìn ngữ nghĩa khác nhau về dữ li ệu. Điều này giúp ích không chỉ cho người dùng trên các dữ liệu mà họ nắm rõ mà còn h ỗ trợ cho các nhà phát triển cần một lớp ngữ nghĩa để khai thác thông tin. Chúng tôi xây d ựng các ontology về nguồn lưu trữ và phát triển một cách linh hoạt việc đưa các ontology này vào l ớp ngữ nghĩa phản ánh khung nhìn của người dùng trên dữ liệu đó. Th ứ ba, những nỗ lực trong nghiên cứu sẽ được phát triển và đưa vào hệ thống nh ư là phụ chú ngữ nghĩa, phân tích ngữ nghĩa của dữ liệu cá nhân; chẳng hạn kết hợp các s ự kiện liên quan, cho phép người dùng lấy thông tin theo ngữ cảnh, công cụ truy v ấn mềm dẻo cho truy xuất dữ liệu một cách thông minh. 7 http://desktop.google.com/ 8 http://desktop.yahoo.com/ 9 http://www.microsoft.com/windows/products/winfamily/desktopsearch/ 57 Cuối cùng và không kém phần quan trọng là cách tiếp cận hướng dịch vụ (Service-Oriented Architecture - SOA) mà chúng tôi l ựa chọn để phát triển hệ thống SemaDesk. Các thành ph ần của SemaDesk được thực thi như các plugin độc lập có khả n ăng tương tác và trao đổi lẫn nhau thông qua dịch vụ nền. Dịch vụ này được xây dựng nh ằm đồng bộ các trao đổi trên kênh dịch vụ, chẳng hạn các lời gọi dịch vụ tổng hợp. 2. Ki ến trúc hệ thống của khung ứng dụng SemaDesk 2.1. Ki ến trúc hệ thống Khung ứng dụng SemaDesk được phát triển dựa trên tính kiến trúc thành phần để lưu trữ, quản lý và truy xuất dữ liệu desktop và những thông tin cá nhân. Nó có thể thu th ập và lưu trữ dữ liệu trong khi cho phép nối kết các mô tả tới dữ liệu trên máy tính cá nhân (email, các trang web, các cu ộc gọi, hình ảnh, video, thông tin liên lạc…) và nh ững nguồn tài nguyên khác. Đồng thời nó cũng cung cấp một kỹ thuật tìm kiếm hiệu qu ả dựa trên việc lưu trữ theo ngữ nghĩa, và giao diện người sử dụng mang tính ngữ ngh ĩa hơn khi được xây dựng dựa trên ngữ cảnh của người sử dụng. Mục đích cuối cùng c ủa dự án này là nhằm xây dựng một hệ thống quản lý thông tin desktop sử dụng ontology nh ư là một nền tảng cho việc hợp nhất, tổ chức và biểu diễn nội dung. Hình 1. Kiến trúc của Khung ứng dụng SemaDesk Toàn bộ hệ thống SemaDesk được thiết kế như là một tập các plugin tương tác l ẫn nhau. Việc thiết kế này đảm bảo tính mềm dẻo và khả năng mở rộng của nền (platform) SemaDesk. Vi ệc giao tiếp bên trong hệ thống dựa trên nền hướng dịch vụ với ưu điểm là tính liên kết không phụ thuộc nhau. Tổng quan về kiến trúc hệ thống SemaDesk được miêu tả ở Hình 1. 58 Dữ liệu desktop với chú thích người dùng được đưa vào hệ thống bằng cách sử d ụng một loạt các plugin cần thiết từ nhiều nguồn dữ liệu khác nhau. Các đối tượng dữ li ệu được thu thập sẽ được chuyển đến plugin Analyst. Plugin này bao gồm một số l ượng xác định các plugin được cung cấp cho việc xây dựng ngữ nghĩa bằng cách áp d ụng một tập các phương thức chiết xuất được lồng vào nhau. Những đối tượng thông tin được làm giàu ngữ nghĩa và bán cấu trúc được lưu trữ theo ontology được sử dụng trong plugin Metastore. Trong h ệ thống này, nguồn dữ liệu được lưu trữ dưới dạng bộ ba RDF (RDF triples) theo ontology c ủa nó. Kho dữ liệu này được gọi là Tầng Ngữ ngh ĩa (Semantic Layer) với ý nghĩa nó là một lớp thêm vào một công cụ tìm kiếm desktop s ẵn có nhằm làm giàu ngữ nghĩa cho dữ liệu. M ột tập quá trình xử lý truy vấn được thực hiện bởi module truy vấn Querier và các công c ụ trình diễn nhằm cung cấp phương tiện cho việc khám phá thông tin. Module Analyst v ới khả năng chiết xuất metadata sẽ tạo nên sự kết hợp giữa các mục/đối tượng desktop và thông tin cá nhân d ựa vào các chú thích người sử dụng, hồ sơ người sử dụng và các ontology h ệ thống. 2.2. Tầng ngữ nghĩa: SemaDesk Metastore B ước đầu tiên trong việc cài đặt SemaDesk ‘Metastore’ là phát triển một kỹ thu ật thu thập dữ liệu và làm phong phú thêm ngữ nghĩa. Về cơ bản, các nguồn dữ liệu khác nhau ở chỗ: − D ữ liệu được thu thập một cách tự động và lưu trữ trong kho dữ liệu có ng ữ nghĩa; − D ữ liệu được làm giàu ngữ nghĩa bởi người sử dụng − Các ngu ồn dữ liệu ngoài được lấy về khi cần, và nó không được lưu vào trong kho d ữ liệu ngữ nghĩa Hình 2. Ontology của SemaDesk dùng cho nguồn dữ liệu và thông tin desktop 59 Sau khi cân nhắc cNn thận và kiểm thử với nhiều lựa chọn khác nhau, chúng tôi nh ận thấy rằng các máy tìm kiếm trên desktop (desktop search engines) thực thi rất hiệu qu ả với vai trò là các bộ thu thập dữ liệu. Hơn nữa, trong số những công cụ tìm kiếm desktop hi ện nay, Google Desktop Search (GDS) là một hệ nền mở cho phép chúng tôi m ở rộng mà sử dụng để chiết xuất những thông tin cần thiết. Đó chính là lý do tại sao chúng tôi ch ọn GDS như là module thu thập dữ liệu cho hệ thống SemaDesk. 2.2.1. Các Ontology trong SemaDesk Các l ược đồ nguồn thu thập dữ liệu (datafeed), các thuộc tính về thông tin desktop và thông tin cá nhân, các định nghĩa hình thức cho các phụ chú được tổ chức bên trong kho ontology h ệ thống và chúng được gọi là SemaDesk Ontologies. Đối với các tác v ụ truy xuất thông tin desktop, chúng tôi phát triển các ontology bao gồm các ontoly cho các datafeed và siêu d ữ liệu desktop (desktop metada) như miêu tả ở Hình 2. Các ontology trong h ệ thống được xây dựng bằng ngôn ngữ OWL [7]. Theo [8], m ột phương pháp tiếp cận dựa trên ontology cho việc tích hợp dữ liệu d ựa trên sự sự đối sánh các khái niệm của ontology toàn cục dùng để mô tả về lĩnh vực ứng dụng với các khái niệm được mô tả trong các ontology mô tả dữ liệu trong cơ sở dữ li ệu cục bộ. Mỗi khi sự đối sánh giữa các ontology toàn cục với các ontology cục bộ được thực hiện, người sử dụng có thể truy vấn hàng trăm cơ sở dữ liệu bằng cách sử d ụng một truy vấn đơn giản mà nó Nn đi các sự phức tạp về thông tin/dữ liệu bên dưới. T ừ những ontology hệ thống này, một dịch vụ ánh xạ sẽ được thực hiện để tạo thành m ột ontology cho người sử dụng. Ontology này sẽ phản ánh cách nhìn (view) và tri th ức của người sử dụng về các thông tin cá nhân của họ được lưu trữ trong SemaDesk; nó được gọi là ontology ngữ cảnh người dùng (user-context ontology). Hơn th ế, các module truy vấn của SemaDesk sẽ chỉ cho ra những kết quả thích hợp nhất với ontology này. Tuy nhiên, v ấn đề về suy diễn và truy vấn theo ngữ cảnh sẽ không được đề cập đến trong bài báo này. 2.2.2.Truy xuất thông tin desktop Các ngu ồn tài nguyên desktop có thể được sử dụng như tài nguyên web, ví dụ m ột nguồn tài nguyên sẽ có một URI. Các nguồn tài nguyên được xác định bởi các URI và các liên k ết có thể được tạo ra từ một nguồn tài liệu đến một nguồn khác. Dữ liệu hi ện tại có thể được chuyển sang các bộ ba RDF và được sử dụng bởi bất cứ ứng dụng theo kiêu liên thông. SemaDesk Metastore có th ể quản lý tất cả các đối tượng dữ liệu tạo bởi GDS. Các ngu ồn dữ liệu sau đó sẽ được chuyển sang các bộ ba RDF và lưu trữ cùng ontology cùa chúng. Metastore s ẽ tự động cập nhật một cách định kỳ thông qua GDS API khi có sự thay đổi thông tin desktop. Bằng cách này, chúng ta có thể đảm bảo tất cả các thông tin trong Metastore luôn được cập nhật. Điều này có thể thực hiện được được bởi vì Google 60 SDK cung cấp các chơ chế làm việc dựa trên các sự kiện và thời gian cho việc theo dõi s ự thay đổi dữ liệu desktop. 2.2.3. RDF Store và việc lập chỉ mục Hi ện tại, RDF Store sử dụng trong khung ứng dụng SemanDesk được xây dựng trên n ền của Jena Framework [9] với sự hỗ trợ của MySQL. RDF Store cũng được trang b ị kỹ thuật lập chỉ mục full-text theo các bộ ba RDF sử dụng Lucene Framework 10 . Chúng tôi đang phát triển các thử nghiệm để kiểm tra các giải pháp khác nhau cho vi ệc lưu trữ các bộ ba RDF bằng cách sử dụng nhiều framework lưu trữ ngữ nghĩa khác nhau nh ư Mulgara 11 InstanceStore [10], Sesame [11] hay một khung ứng dụng mới là JenaSDB 12 . Bằng cách này, chúng tôi sẽ hưởng lợi về mặt hiệu năng cũng như các đặc tính suy diễn có trong các khung ứng dụng này. 2.2.4. Nguồn dữ liệu ngoài (EDS) SemaDesk không thu th ập được các nguồn dữ liệu và cả các kho lưu trữ dữ liệu bên ngoài. Nh ững nguồn tài nguyên này không phù hợp để đưa vào hệ thống, điều này là do chúng thay đổi diễn ra liên tục, hoặc bao gồm một khối lượng lớn dữ liệu được định nghĩa với cấu trúc phức tạp. Các nguồn này có thể là những cơ sở dữ liệu dùng chung, các h ệ thống thông tin doanh nghiệp, các cơ sở dữ liệu đã được tổ chức tốt, các công c ụ tìm kiếm trên web, Các nguồn dữ liệu ngoài này được truy vấn theo yêu cầu và m ột ontology phù hợp cho việc biểu diễn được tạo ra bởi các plugin bên trong hệ th ống. 2.3. SD-Annot: Module Phụ chú SD-Annot, m ột thành phần Phụ chú (annotation) của SemaDesk framework, cung c ấp cho người sử dụng một phương tiện để làm giàu ngữ nghĩa cho dữ liệu của họ b ằng cách thêm vào các chú giải và lời trích dẫn; điều này giúp cho hệ thống về sau nh ận ra những tri thức giá trị dựa vào các thông tin phụ chú này. SD-Annot sử dụng kỹ thu ật phụ chú bán tự động. Một vài hoạt động sẽ được tự động chú giải dựa trên hành động của người sử dụng ví dụ như khi người sử dụng lưu trữ file đính kèm từ một thông điệp email vào ổ đĩa cứng, một lời phụ chú kết hợp sẽ được tạo để đồng thời lưu giữ ng ữ nghĩa của các file lưu trữ và các thư điện tử. Một ví dụ khác là khi một trang web được mở từ một liên kết trong một thư điện tử, thì nó sẽ được tự động được chú thích để t ạo nên một mối liên kết tới các trang khác. Bên c ạnh các lời chú thích tự động, các lời phụ chú được thực hiện thủ công là ch ủ yếu. Người sử dụng có thể tạo ra các lời chú giải trên các đối tượng dữ liệu mà việc ng ữ nghĩa hóa chúng rất khó khăn, ví dụ như ảnh, phim, dòng dữ liệu. Những lời chú 10 Apache Lucene, http://lucene.apache.org/ 11 http://www.mulgara.org/ 12 Jena SDB, http://jena.hpl.hp.com/wiki/SDB/ 61 thích thủ công này phản ánh quan điểm của người sử dụng dựa trên sự hiểu biết của họ. Chúng ta chú ý đến 4 loại phụ chú: lời chú giải, câu hỏi, thông tin và sự hiệu chỉnh. Các l ời phụ chú được lưu trữ cùng với hồ sơ cá nhân và thông tin ngữ cảnh ch ẳng hạn như thông tin thời gian và không gian. Sử dụng phụ chú, việc phân tích và truy v ấn sẽ được thực hiện chính xác hơn trong việc kết hợp các đối tượng phù hợp và trong vi ệc tìm được nhiều thông tin phù hợp hơn. Kết quả là những tri thức mới có thể được tìm thầy từ đây. 2.4. SD-Querier: Module Tìm ki ếm dựa trên ngữ nghĩa Trong Metastore, d ữ liệu đã được lưu trữ theo hướng ngữ nghĩa và được đánh ch ỉ mục full-text hỗ trợ tìm kiếm các yêu cầu không rõ ràng. Vì thế, hệ thống cho phép x ử lý các truy vấn thông qua cơ sở dữ liệu RDF và ontology hệ thống. Một phần của thành ph ần truy vấn dùng metadata và ontology cung cấp cho người dùng kết quả tìm ki ếm sát nghĩa hơn. Hình 3. Một phần giao diện sử dụng của SemaDesk SD-Querier Thành phần SD-Querier thực hiện chức năng xử lý truy vấn trong SemaDesk. SD-Querier không ch ỉ có khả năng xử lý các vấn đề nói trên mà còn giải quyết các yêu c ầu chưa rõ ràng, tối nghĩa từ người sử dụng bằng cách đưa ra khung nhìn tổng quát các thông tin liên quan v ới nhau, thể hiện trong Hình 3. Kết quả là nó giúp người dùng định h ướng lại truy vấn của mình, và sẽ chỉ định các truy vấn chính xác hơn. Nhi ệm vụ cuối cùng của SD-Querier là hỗ trợ truy vấn theo ngữ cảnh thông qua ontology ng ữ cảnh như đã trình bày ở mục trên, và các thành phần trong SD-Analyst: Context-aware Reasoner và User Profiler. Thành ph ần truy vấn theo ngữ cảnh biểu diễn các thông tin thích h ợp dựa trên kinh nghiệm cá nhân được phản ánh qua hồ sơ người dùng và ontology ng ữ cảnh. 62 2.5. SD-Analyst: Module Phân tích SD-Analyst, g ọi tắt là Analyst, là thành phần quan trọng nhất trong khung ứng d ụng SemaDesk. Analyst bao gồm một số các module phân tích cho việc chiết xuất metadata và phân tích ng ữ nghĩa nhằm hỗ trợ cho các tác vụ hệ thống, ví dụ như truy v ấn, chú thích và tìm kiếm các đối tượng thích hợp. Các thành phần của Analyst được mô t ả ở Hình 4. D ữ liệu thu thập được từ G-Desktop plugin sẽ được RDF hóa bởi RDF Tripler c ủa Analyst và được làm giàu bởi các chú giải của người sử dụng. RDF Tripler sẽ chuy ển đổi các thông tin desktop sang các bộ ba RDF dựa theo các ontology dữ liệu ngu ồn của SemaDesk. Đây chính là bước đầu tiên nhằm làm giàu ngữ nghĩa cho thông tin desktop. D ựa vào sự khác nhau tự nhiên của các datafeed, nhiều bước phân tích của các thành ph ần con xử lý dữ liệu có thể được gọi để xử lý nhưng đối tượng dữ liệu cụ th ể. Đây là điều cần thiết để hiểu rằng không có dữ liệu nào bị loại bỏ trong suốt các b ước phân tích này. Điều này đòi hỏi sự bảo đảm rằng không có dữ liệu gốc nào bị mất hay thay đổi và lịch sử quá trình thay đổi sẽ được lưu giữ cho việc phân tích và thu hồi d ữ liệu sau này. Hình 4. Các thành phần trong SD-Analyst Bộ suy diễn theo ngữ cảnh (context-aware reasoner) là thành phần con quan tr ọng nhất trong SD-Analyst. Nó có nhiệm vụ quản lý các tác vụ kết hợp các sự kiện có liên quan v ới nhau về mặt ngữ nghĩa, các thông tin cá nhân và các đối tượng dữ liệu. Sự lý lu ận này dựa trên sự kết hợp các quy tắc và nhận thức ngữ cảnh dựa trên ontology ng ữ cảnh và tiểu sử người dùng. Quá trình này rất hữu ích trong việc tìm ra các tri thức t ừ những kho lưu trữ khổng lồ. Ví dụ, khi tạo một chú giải, với mỗi file lưu trữ chúng ta k ết hợp tên tác giả và người nhận của email: Cuối cùng, User Profiler là thành phần con giúp người dùng và hệ thống có thể t ổ chức và lưu giữ những thông tin cá nhân theo cách của họ. Thành phần này cũng 63 đóng vai trò nắm giữ các chú thích cá nhân của các thông tin người dùng cho các sự hợp tác ti ếp sau. 2.6. Tính cộng tác của các hệ thống SemaDesk SemaDesk được xem như là một hệ quản lý thông tin cá nhân, trở thành một cá th ể có khả năng chia sẻ và sử dụng trong mạng xã hội. Ở đây, chúng tôi muốn gói gọn r ằng giao diện cộng tác là một thành phần của khung ứng dụng SemaDesk hoàn chỉnh. Thành ph ần giao diện cộng tác định nghĩa các thông tin có thể trao đổi và khuôn m ẫu giao tác qua dịch vụ từ các SemaDesk khác. Chúng tôi phân ra hai mức cộng tác: m ức thứ nhất, thông tin trao đổi với nhau giữa các Metastore của SemaDesk trong chia s ẽ thông tin cá nhân. Mức thứ hai, là sự cộng tác với các hệ thống tin cậy khác ở mức cao. 3. Quy trình thu thập và làm giàu ngữ nghĩa dữ liệu Nh ư được miêu tả trong Hình 5, dữ liệu Google Desktop được thu thập thông qua plugin G-Desktop. Plugin G-Desktop dùng Google SDK cho phép l ấy về dữ liệu desktop và metadata c ủa nó. Thông tin desktop lấy về được chuyển thành RDF và làm giàu h ơn qua các phụ chú của người dùng, sau đó chuyển đến RDF Store của Metastore để lưu trữ kèm với ontology của nó. Quá trình này được thực hiện theo định kỳ tuỳ thu ộc vào thiết lập của người dùng. Trong suốt quá trình thu thập dữ liệu, thành phần Analyst có th ể được gọi như suy diễn hay các công đoạn trích xuất siêu dữ liệu. Tất cả công vi ệc này hoạt động dựa vào một ontology về dữ liệu hệ thống. Hình 5. Thu thập dữ liệu từ GDS và Quá trình làm giàu ngữ nghĩa GDS chỉ đánh chỉ mục cho các dạng tập tin và dữ liệu thông thường, như các tài li ệu Microsoft Office, PDF, dữ liệu Outlook (thư điện tử, lịch, danh bạ, công việc, ghi chú, ). Vì v ậy, để mở rộng phạm vi hoạt động của GDS, chúng tôi phát triển một plugin x ử lý các nguồn dữ liệu khác và đính vào GDS. 64 4. Các nghiên cứu liên quan Semantic Desktop thu hút nhi ều sự quan tâm từ cộng đồng nghiên cứu và cho ra nhi ều công cụ, ứng dụng liên quan. Trong phạm vi bài viết, chúng tôi chỉ trình bày nh ững kết quả liên quan gấn nhất đến nghiên cứu của mình. Gnowsis [12] là m ột desktop ngữ nghĩa chú trọng vào tính mở rộng và tích hợp. M ục đích cuối cùng của Gnowsis là nâng cao chất lượng của các ứng dụng cá nhân c ũng như hệ điều hành máy tính cá nhân hiện có bằng cách sử dụng công nghệ WebNN. Đầu tiên là hệ quản lý thông tin cá nhân sử dụng RDF nhằm mô tả thông tin cá nhân. Các ngu ồn dữ liệu bên ngoài, như Microsoft Outlook hay Mozilla Thunderbird được tích h ợp và gởi vào cho Gnowsis thông qua khung ứng dụng Aperture 13 . Các dữ liệu này sau khi nh ận được sẽ chuyển đổi thành các định dạng ngữ nghĩa thông qua các công c ụ plugin. Chẳng hạn như, các thuộc tính của thư điện tử trong Thunderbird sẽ được ánh x ạ vào các khái niệm tương ứng trong ontology cá nhân. Ứng dụng thứ hai mà chúng tôi nói đến là S WIM [13]. Ý tưởng chính của S WIM là nâng cao các tính n ăng có sẵn trong các công cụ tìm kiếm cá nhân như Google Desktop, Beagle hay Spotlight. M ục tiêu đầu tiên của S WIM là tích hợp một cách mềm d ẻo metadata sẵn có. Thời điểm trích xuất metadata chính là lúc S WIM tác động trực tiếp vào. Metadata không ch ỉ được trích xuất bởi các bộ chuyển đổi mà còn từ các loại dữ li ệu khác như văn bản, hình ảnh cần cho việc tìm kiếm sau này. MetaDesk [14] là ứng dụng được xây dựng như một công cụ xác nhận RDF trợ giúp ghi nh ận sự kiện một cách rõ ràng hơn là công cụ tạo ra các ontology sự kiện. MetaDesk chuy ển các khái niệm người dùng thành các node trên cấu trúc RDF. Các m ục tri thức này tập trung vào việc tạo ra một cấu trúc ngữ nghĩa làm cơ sở cho việc thu th ập và diễn dịch dữ liệu. MetaDesk còn là một desktop ngữ nghĩa có thể tham chiếu đến các thư mục lưu trữ và tài liệu gốc bên trong cơ sở tri thức của nó. Tuy nhiên, các h ướng tiếp cận trên đều có những giới hạn riêng. Đầu tiên, các thành ph ần thu thập dữ liệu không sử dụng các dữ liệu sẵn có của các công cụ tìm kiếm mà chúng c ố gắng xây dựng dữ liệu độc lập bằng cách dò tìm trên dữ liệu máy tính cá nhân. Điều này bắt buộc chúng phải luôn lưu giữ trạng thái định dạng tài liệu tại mỗi th ời điểm thu thập. Th ứ hai, các dự án này không cho phép người sử dụng khai thác đặc tính phụ chú ng ữ nghĩa trên dữ liệu về các tài nguyên họ quan tâm cũng như tự đưa ra các khái ni ệm và đặc tính về dữ liệu làm cơ sở cho xây dựng ontology về sau. Các phụ chú ngữ ngh ĩa cần được cung cấp trong thu thập thông tin và biểu diễn kết quả nhằm làm giàu thông tin. Ngoài ra, các công c ụ này cũng không gắn yếu tố thời gian vào thông tin. Điều này rất quan trọng với hệ quản lý thông tin cá nhân, bởi nếu bỏ qua yếu tố thời gian thì các k ết quả truy vấn sẽ trở nên hỗn tạp và khó xác định. Ngoài ra tính hướng 13 http://aperture.sourceforge.net/ [...].. .ngữ cảnh giúp hạn chế không gian truy vấn và suy diễn cũng như nâng cao tính chính xác của thông tin cũng đã không được nhắc đến trong các tiếp cận trên 5 Kết luận Trong bài báo này, chúng tôi đã đưa ra định nghĩa mới về DesktopNN như là một hạt nhân của mạng xã hội cộng tác Mục tiêu cuối cùng của khung ứng dụng SemaDesk là xây dựng một hệ quản lý thông tin cá nhân giàu ngữ nghĩa nhằm quản lý thông. .. của khung ứng dụng SemaDesk là xây dựng một hệ quản lý thông tin cá nhân giàu ngữ nghĩa nhằm quản lý thông tin và máy tính cá nhân với việc xem xét xây dựng một lớp ngữ nghĩa phủ lên kho dữ liệu hiện có Vấn đề đưa ra ngữ cảnh và truy vấn là hai ưu tiên hàng đầu mà chúng tôi đang tập trung nghiên cứu với một số kết quả nhất định và hy vọng sẽ hoàn thành trong thời gian gần đây Cuối cùng, sự cộng tác trong... Ontology alignment for real-world applications, Proceedings of the 2004 annual national conference on Digital government research, (2004), 1-2 9 B McBride, Jena: A Semantic Web Toolkit, IEEE Internet Computing, vol 6, 2002 65 10 I Horrocks, L Li, D Turi, and S Bechhofer, The Instance Store: Description Logic Reasoning with Large Numbers of Individuals, International Workshop on Description Logics (DL 2004), . cuối cùng của khung ứng dụng SemaDesk là xây d ựng một hệ quản lý thông tin cá nhân giàu ngữ nghĩa nhằm quản lý thông tin và máy tính cá nhân v ới việc xem xét xây dựng một lớp ngữ nghĩa phủ lên. quản lý thông tin cá nhân trong phạm vi ứng dụng của Web ngữ nghĩa (Semantic Web) [2]. Từ những nhu cầu và mong muốn của người sử dụng hiện nay, công nghiệp phần mềm hướng đến việc xử lý thông. quản lý thông tin thông minh h ơn và lọc tốt hơn trong quản lý thông tin cá nhân nói riêng và desktop nói chung. 56 1.1. Định nghĩa Desktop Ngữ Nghĩa Chúng tôi đơn giản hoá định nghĩa DesktopNN

Ngày đăng: 23/07/2014, 00:22

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan