Mục đích nghiên cứu của Luận văn nhằm xây dựng Ứng dụng Quản lý tài nguyên thông minh theo Linked Data và hỗ trợ giảng viên và sinh viên trong tìm kiếm các tài nguyên, và dữ liệu liên quan; tiến hành phát triển demo được sản phẩm và định hướng tính ứng dụng của sản phẩm vào thực tiễn. Mời các bạn cùng tham khảo!
i HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN VĂN NHÂN MƠ HÌNH HỐ TÀI NGUN THƠNG TIN TRƯỜNG ĐẠI HỌC VÀ HỖ TRỢ TRUY XUẤT THÔNG TIN THEO TIẾP CẬN LINKED DATA Chuyên ngành Mã số : HỆ THỐNG THƠNG TIN : 8.48.01.04 TĨM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2020 ii Luận văn hoàn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: PGS.TS HOÀNG HỮU HẠNH Phản biện 1: PGS.TS Nguyễn Hà Nam Phản biện 2: TS Nguyễn Vĩnh An Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thơng Vào lúc: 10 30 ngày 20 tháng 06 năm 2020 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Lý chọn đề tài Thuật ngữ “Linked Data” Tim Berner-Lee đưa ghi chép kiến trúc “Linked Data Web” Thuật ngữ cách thức để xuất liên kết liệu có cấu trúc Web Giả thuyết Linked Data lợi ích giá trị liệu tăng lên liên kết với liệu khác Nói cách khác, Linked Data đơn giản sử dụng Web để tạo liên kết định kiểu (typed link) liệu từ nhiều nguồn tài nguyên khác Điều giống hai CSDL hai tổ chức vùng địa lý khác hay đơn giản hệ thống hỗn tạp tổ chức không dễ dàng để trao đổi, liên thông mức liệu Do vậy, Linked Data nhằm vào liệu đưa lên Web theo cách máy tính đọc được, có ngữ nghĩa rõ ràng liên kết đến tập liệu bên ngược lại liệu liên kết đến Linked Data sử dụng công nghệ Web để kết nối tài nguyên (đối tượng liệu) liên quan đến mà không cần liên kết trước, nghĩa bỏ rào chắn liên kết liệu mà liên kết nhiều phương thức khác Linked Data kết nối liệu phân tán Web Linked Data thuật ngữ dùng để mô tả cách thức tốt đề nghị để duyệt, chia sẻ kết nối liệu, thông tin, tri thức Web ngữ nghĩa cách sử dụng URIs RDF Hình Mơ hình liên kết liệu Web ngữ nghĩa 2 Tổng quan vấn đề nghiên cứu Đề tài ứng dụng đặc điểm tính chất mơ hình kỹ thuật Linked Data để triển khai hoàn thiện ứng dụng có tính áp dụng thực tiễn cao giải vấn đề tồn hoa hụt phương thức truyền thống hay ứng dụng chưa đáp ứng Đề tài theo hướng ứng dụng áp dụng kỹ thuật công cu hỗ trợ để đề tài hoàn thiện tốt Mục đích nghiên cứu Tiếp cận tìm hiểu Web ngữ ngĩa (Semantic Web), công nghệ Web ngữ nghĩa (RDF/RDFS, ontology, OWL, SPARQL), Linked Data ứng dụng thông minh Xây dựng Ứng dụng Quản lý tài nguyên thông minh theo Linked Data hỗ trợ giảng viên sinh viên tìm kiếm tài nguyên, liệu liên quan; tiến hành phát triển demo sản phẩm định hướng tính ứng dụng sản phẩm vào thực tiễn Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: + Web ngữ nghĩa, RDF/RDFS, Ngôn ngữ truy vấn SPARQL + Mơ hình liệu Linked Data + OWL - Web Ontology Language Phạm vi nghiên cứu: + Đề tài thực đề tài hướng ứng dụng thử nghiệm sử dụng môi trường nghiên cứu sở giáo dục Phương pháp nghiên cứu: Phương pháp phân loại hệ thống hố lý thuyết Phương pháp phân tích tổng hợp lý thuyết Phương pháp chuyên gia Phương pháp thực nghiệm xây dượng ứng dụng theo quy trình 3 Chương - TỔNG QUAN VỀ WEB NGỮ NGHIÃ VÀ LINKED DATA Tổng quan Web ngữ nghĩa 1.1 Web ngày hôm World Wide Web thay đổi xã hội người vô cung to lớn Như thay đổi cách thức người trao đổi với cách điều hành công việc kinh doanh thay đổi trung tâm cách mạng: chuyển đổi giới phát triển sang kinh tế tri thức, hay nói rộng xã hội tri thức Sự phát triển thay đổi cách nghĩ máy tính Bây máy tính khơng dùng để thực phép tính toán số học mà chúng sử dụng cho việc xử lý thông tin, ứng dụng đặc thù CSDL, xử lý văn bản, bảng tính trị chơi điện tử Những thơng tin World Wide Web chủ yếu biểu diễn dạng HTML, ngơn ngữ phổ dụng để trình diễn thông tin XML đời trở thành công cụ trao đổi liệu khơng có cấu trúc, bán cấu trúc có cấu trúc hệ thống, nâng cao tích hợp ứng dụng Tuy nhiên, giải pháp dựa XML cho trình tích hợp ứng dụng hệ thống chưa đủ, liệu chuyển đổi thiếu mô tả tường minh ngữ nghĩa Sự tích hợp ứng dụng phải bao gồm tích hợp ngữ nghĩa HTTP HTML cung cấp cách để nhận thơng tin trình diễn tài liệu siêu văn Tuy nhiên, có khối lượng khổng lồ tài nguyên thông tin Web, điều làm nảy sinh vấn đề làm để tìm kiếm xác tài nguyên mong muốn Dữ liệu file HTML hữu ích ngữ cảnh vô nghĩa ngữ cảnh khác Nhân loại tiến đến cách mạng công nghệ 4.0 ngày công nghệ thông tin truyền thông có khả để thu thập số lượng lớn liệu mà chúng có liên quan đến mặt khái niệm, nhiên đa số mối quan hệ người “nhớ” không lưu trữ theo cách mà giúp máy tính hiểu để xử lý Thách thức hướng nghiên tạo khả cho phép người tạo, lưu giữ, xếp, ghi phụ truy xuất kho liệu cá nhân lớn người khứ theo hình thức nhật ký sống cá thể hoá trở thành bổ sung trợ giúp cho nhớ người Những hoạt động đặc biệt không hỗ trợ tốt công cụ phần mềm Ngoài tồn liên kết để thiết lập liên kết tài liệu, cơng cụ có giá trị Web tìm kiếm (search engines) Các cơng cụ tìm kiếm theo từ khố Yahoo! Google cơng cụ việc sử dụng Web Rõ ràng Web không thành công lớn khơng có cơng cụ tìm kiếm Tuy nhiên, tồn vấn đề liên quan đến ứng dụng chúng: Truy hồi cao, độ xác thấp: Ngay trang liên quan truy xuất, chũng khơng hữu ích rất nhiều tài liệu liên quan không liên quan lấy Quá nhiều dẫn đến khơng tốt q Truy hồi thấp khơng có Trường hợp xảy khơng có câu trả lời từ yêu cầu chúng ta, tài liệu liên quan quan trọng không lấy Cho dù việc truy hồi thấp có cơng cụ tìm kiếm, nõ xảy Các kết nhạy cảm với từ vựng Thông thường từ khố tìm kiếm ban đầu khơng cho ta kết mong muốn, lý tài liệu liên quan sử dụng thuật ngữ khác với truy vấn Điều rõ ràng khơng thoả mãn truy vấn ngữ nghĩa nên cho kết Kết trang Web đơn giản Nếu cần thông tin dàn trãi tài liệu khác nhau, phải thực nhiều truy vấn khác để tập hợp tài liệu liên quan; sau xử lý tay để trích rút thơng tin phần kết hợp chúng lại với 5 1.2 Web ngữ nghĩa 1.2.1 Khái niệm Web ngữ nghĩa không Web riêng biệt mà mở rộng Web tại, theo cách thông tin xác định ý nghĩa tốt hơn, cho phép máy tính người cộng tác với tốt Web ngữ nghĩa hình thành từ ý tưởng Tim Berners-Lee, người phát minh WWW, URI, HTTP, HTML Web ngữ nghĩa mạng lưới thông tin liên kết cho chúng xử lý dễ dàng máy tính phạm vi tồn cầu Nó xem cách mô tả thông tin hiệu World Wide Web, xem sở liệu có khả liên kết tồn cầu Web ngữ nghĩa phương pháp cho phép định nghĩa liên kết liệu cách có ngữ nghĩa nhằm phục vụ cho máy tính “hiểu” Web ngữ nghĩa cịn cung cấp mơi trường chia sẻ xử lý liệu tự động máy tính 1.2.2 Siêu liệu Metadata (siêu liệu) dùng để mô tả tài nguyên thông tin Thuật ngữ “meta” xuất xứ từ Hy Lạp đùng để có chất cao Một định nghĩa chung dùng phổ biến cộng đồng người làm Công nghệ Thông tin: “Metadata liệu liệu khác” (Metadata is data about other data) hay nói ngắn gọn liệu liệu 1.2.3 Kiến trúc Web ngữ nghĩa Web ngữ nghĩa tập hợp/một chồng (stack) ngôn ngữ Tất lớp Web ngữ nghĩa sử dụng để đảm bảo độ an tồn giá trị thơng tin trở nên tốt 6 Hình 1.2.3 Kiến trúc Web ngữ nghĩa 1.2.4 Các khái niệm Web ngữ nghĩa 1.2.4.1 Thực thể có tên Thực thể có tên người, tổ chức, nơi chốn đối tượng khác tham khảo đến tên Thực thể có tên khác mặt chất lẫn ngữ nghĩa với từ chỗ dùng để cá thể riêng biệt từ dùng để khái niệm, quan hệ, thuộc tính nói chung 1.2.4.2 Tài ngun Thuật ngữ “tài ngun” hay “resource” Web phạm trù rộng lớn dùng để đối tượng tìm thấy Web khái niệm, từ vựng, thực thể, tính chất quan hệ đối tượng Tài nguyên Web liệu trang Web đó, mục tiêu nghiên cứu Web ngữ nghĩa Tài nguyên Web khái niệm rộng thực thể có tên Và thực thể có tên, tài nguyên đặc tên khác có nhiều tài nguyên chất khác lại có tên Điều nảy sinh yêu cầu định danh tài nguyên định danh Các tài nguyên khác có định danh khác Định danh gọi URI (Uniform Resource Identifier) 1.2.4.3 Định danh tài nguyên Tài nguyên định danh URI (Uniform Resource Identifier - định danh tài nguyên thống nhất) URI chuỗi ký tự dùng để định danh tài nguyên Internet Những dịnh danh có khả tương tác với biểu diễn tài nguyên mạng sử dụng giao thức cụ thể phổ biến HTTP, thường gọi lược đồ HTTP URI Có nhiều lược đồ khác ngồi HTTP URI như: ftp, tel, urn, mailto Một URI gồm có nhiều thành phần liệt kê đây: Lược đồ URI thường tên giao thức (chẳng hạn http, ftp, news, mailto) Ở thường lược đồ HTTP URI Tên miền (ví dụ: http://www.portal.ptit.edu.vn) Chỉ định thêm cổng (có thể khơng cần cổng mặc định dịch vụ) Đường dẫn tuyệt đối máy phục vụ tài nguyên (ví dụ: thumuc/trang) Các truy vấn (tuỳ chọn) Chỉ định mục (tuỳ chọn) 1.3 Ngôn ngữ Cơ cấu mô tả tài nguyên 1.3.1 Ngôn ngữ mô tả tài nguyên RDF Ngôn ngữ Cơ cấu mô tả tài nguyên - RDF đề xuất nhằm khắc phục nhược điểm XML giải Định nghĩa ngôn ngữ RDF dùng để mã hóa siêu liệu tài nguyên vào ba (RDF Triple): [chủ ngữ], [vị ngữ] [đối tượng] Ta biết thực thể hay khái niệm có thuộc tính, thuộc tính có giá trị, tài nguyên biểu diễn qua ngôn ngữ RDF RDF mô tả nguồn tài nguyên ba [chủ ngữ], [vị ngữ], [ đối tượng] Một [vị ngữ] khía cạnh, tính chất, thuộc tính, hay mối liên hệ mơ tả cho tài nguyên Một phát biểu bao gồm tài nguyên riêng biệt, thuộc tính đặt tên, giá trị thuộc tính cho tài ngun ([đối tượng]) Giá trị tài nguyên khác hay giá trị mang tính nghĩa đen hay dạng chuỗi văn tùy ý [Chủ ngữ] đối tượng xác định qua Định danh tài nguyên thống – URI, chẳng hạn chúng liên kết trang web Các [vị ngữ] xác định qua URI, định nghĩa khái niệm mới, thuộc tính mới, cách cần định nghĩa URI cho chúng Bởi RDF sử dụng URI để biểu diễn thông tin tài liệu, URI đảm bảo khái niệm không chứa văn túy mà cịn định danh tài nguyên mà tất người dùng tìm kiếm mạng Trong RDF, URI đóng vai trị quan trọng: Chúng ta tạo (siêu) liệu dựa nguồn tài nguyên Web, ngữ nghĩa đưa vào nguồn tài nguyên Web thông qua URI, URI cho phép liên kết phần tử liệu thơng qua thuộc tính 1.3.1.1 Mơ hình liệu RDF Mơ hình RDF gồm ba phận sau: Tài nguyên: tất mơ tả biểu thức RDF Thuộc tính: đặc tính hay quan hệ mơ tả tính chất tài nguyên Phát_biểu: phát biểu gồm ba thành phần sau - [Chủ ngữ]: địa hay vị trí tài ngun muốn mơ tả - [Vị ngữ]: xác định tính chất tài nguyên - [ Đối tượng]: nội dung gán cho thuộc tính 1.3.1.2 RDF Cơ sở liệu quan hệ Trong Cơ sở liệu quan hệ truyền thống, liệu lưu dạng bảng Trong bảng, hàng ghi khơng có giới hạn số lượng trường 1.3.1.3 Đồ thị RDF Tập hợp ba tạo thành đồ thị RDF (đồ thị có hướng) Các nút đồ thị [chủ ngữ] [đối tượng], cung đồ thị [Vị ngữ] có hường từ [chủ ngữ] tới [đối tượng] Dùng đồ thị làm cho thông tin thể rõ ràng dễ hình dung 9 Hình 1.3.1.3 Đồ thị RDF 1.3.1.4 Cú pháp RDF Mơ hình RDF thể mơ hình mức trừu tượng để định nghĩa siêu liệu Cú pháp RDF dùng để tạo trao đổi siêu liệu, RDF dựa cú pháp XMLDòng 7: cho biết kết thúc thẻ rdf:RDF bắt đầu dòng thẻ kết thúc tài liệu RDF Để mô tả tập hợp nhiều đối tượng báo khoa học viết nhiều tác giả, danh sách sinh viên khóa học, v.v RDF cung cấp nhiều kiểu nhiều thuộc tính tích hợp sẵn giúp mô tả tập vậy, có kiểu khai báo “bộ chứa” (container), dùng để lưu danh sách tài nguyên kiểu giá trị (Một chứa nguồn tài nguyên chứa đó, đặt chứa gọi thành viên).Các phần tử chứa tài nguyên URI (có thể rỗng) giá trị kiểu chuỗi kí tự RDF định nghĩa loại đối tượng “bộ chứa”: Bag, Sequence, Alternative 1.3.2 Lược đồ RDF vzà truy vấn RDF 1.3.2.1 Lược đồ RDF RDF cung cấp cách để mô tả phát biểu đơn giản resource, sử dụng thuộc tính giá trị định nghĩa trước Tuy nhiên, RDF cho phép định nghĩa quan hệ, khơng nói rõ có loại quan hệ nào, hay kiểu đối tượng có miền Để làm điều này, phải sử dụng phiên mở rộng RDF, gọi lược đồ RDF (RDF Scheme - RDFS) Lược đồ RDF ngôn ngữ thể luận dạng đơn nhất, cung cấp khung để mơ tả lớp, thuộc tính ứng dụng cụ thể Các lớp RDFS giống lớp lập trình hướng đối tượng, cho phép tài nguyên định nghĩa thực thể lớp, hay lớp lớp 10 Để thực phân chia lớp lớp con, RDFS sử dụng phần tử như: rdfs:Class rdfs:subClassOf 1.3.2.2 Định nghĩa lớp Các tài nguyên Web chia thành nhóm gọi lớp Các thành viên nhóm xem thể lớp Thơng qua định danh URI, tài ngun truy xuất mơ tả thuộc tinh RDF Thuộc tính rdf: type sử dụng để tài nguyên thể lớp 1.3.2.3 Định nghĩa thuộc tính Mơ tả tính chất khái niệm Lược đồ RDF cung cấp từ vựng để mô tả làm mà thuộc tính lớp sử dụng RDF 1.3.2.4 Ngôn ngữ truy vấn RDF RDF cách để mô tả thông tin tài nguyên Web cách linh động Với lượng thông khổng lồ Web cần phải có ngơn ngữ truy vấn tài liệu RDF cách nhanh chóng xác Tổ chức W3C phát triển ngôn ngữ truy vấn tài liệu RDF dựa cú pháp ngôn ngữ truy vấn SQL CSDL quan hệ Trong phần giới thiệu sơ lược ngôn ngữ truy vấn RDF thông dụng SPARQL Chi tiết ngôn ngữ SPARQL xem http://www.w3.org/TR/rdfsparql-query/ SPARQL ngôn ngữ để truy cập thông tin từ lược đồ RDF Nó cung cấp tính sau: - Trích thơng tin từ dạng URI - Trích thơng tin từ lược - Xây dựng đồ thị RDF dựa thông tin đồ thị truy vấn 1.3 Linked Data 1.3.1 Khái niệm Linked Data Trong hoạt động tính tốn máy tính, Linked data mơ tả phương thức tạo liệu có cấu trúc để liên kết với trở nên có ích Linked data xây dựng dựa tiêu chuẩn công nghệ Web HTTP URI để mở 11 rộng khả chia sẻ thơng tin theo cách đọc tự động từ máy tính việc chia sẻ nội dung trang web để phục vụ cho người dùng Điều cho phép nguồn tài nguyên khác kết nối truy vấn 1.3.2 Quy tắc Linked Data Tim Berners-Lee liệt kê bốn quy tắc triển khai Linked data thảo luận tóm gọn dịng sau: Dùng URI để định danh tài nguyên Sử dụng HTTP URI để tài nguyên tham chiếu tìm kiếm ("tham chiếu lại") người hay ứng dụng Cung cấp thông tin hữu ích tài nguyên URI tham chiếu lại, sử dụng định dạng tiêu chuẩn RDF/XML Bao hàm liên kết đến liên kết khác, URL có quan hệ bên liệu tìm thấy để phát triển khả tìm kiếm thơng tin liên quan khác Web Lưu ý luật quy tắc thứ ba đề cập đến "các định dạng tiêu chuẩn", khơng cần tiêu chuẩn đặc tả cả, chẳng hạn RDF/XML 12 Chương - ỨNG DỤNG QUẢN LÝ VÀ TRUY XUẤT TÀI NGUYÊN THÔNG TIN TRONG TRƯỜNG ĐẠI HỌC– LINKED OPEN PTIT DATA (LOPD) 2.1 Tiến trình xây dựng ứng dụng LOPD TIẾN TRÌNH XÂY DỰNG LOPD Chuẩn bị liệu Tạo sinh liên kết Xuất liệu Kiểm thử gỡ lỗi Hình 2.1 Tiến trình xuất Linked Data lên Web Qua khái niệm định nghĩa tơi đưa tiến trình để xây dựng ứng dụng LOPD gồm tiến trình trên: “chuẩn bị liệu, tạo sinh liên kết, xuất liệu, kiểm thử gỡ lỗi” Các bước thực quy trình hình 2.1 yêu cầu phải mật thiết có tương tác mạnh mẽ với để xác theo nguyên lý Linked Data 2.2 Jena 2.2.1 Giới thiệu Jena Java framework dùng cho việc xây dựng ứng dụng web ngữ nghĩa Cung cấp mơi trường lập trình cho RDF, RDFS and OWL, SPARQL Bao gồm công cụ suy diễn từ luật sở (rule-based inference engine) Open source Phiên đời 2000 HP Lab xây dựng Jena đời vào 2003 – phiên Jena 3.14.0 13 Jena Framework bao gồm: RDF API: Giao diện lập trình cho RDF OWL API: Giao diện lập trình cho OWL Xuất đọc file RDF theo dạng RDF/XML, N3 N-Triples Cho phép lưu trữ nhớ, lưu trữ cố định tập tin đơn hay hệ quản trị sở liệu (MySQL, HSQLDB, PostgreSQL, Oracle, Microsoft SQL Server) Hệ truy vấn SPARQL 2.2.2 Jena API Kiến trúc Jena thiết kế phép tích hợp cách dễ dàng thành phần xử lý thay phân tích liệu (parser), xuất (writer), lưu trữ truy vấn Jena API bao gồm tập giao diện Java mô tả nguồn tài nguyên (resources), thuộc tính (properties), phát biểu (statements) mơ hình (model) dạng khung mô tả tài nguyên RDF (Resource Description Framework) 2.2.3 Kiến trúc Jena RDFNode interface: Cung cấp thành phần ba RDF {predicate, subject, object} Literal interface: Dùng để mô tả chuỗi chuyển đổi số kiểu Java String, Int, Double Các đối tượng thực giao diện Property predicate ba {predicate, subject, object} Statement interface: mơ tả ba {predicate, subject, object} Đồng thời dùng đối tượng Các đối tượng thực giao diện Container, Alt, Bag, Seq đối tượng 14 2.3 Mơ hình hóa thơng tin với Jena 2.3.1 Chương trình Hello World! Jena 2.3.2 Tạo mơ hình RDF 2.3.2.1 Tạo tài nguyên thêm thuộc tính 2.3.3 Đọc mơ hình RDF 2.4 Chuyển đổi liệu web ngữ nghĩa 2.4.1 Dữ liệu từ Excel 2.4.2 Dữ liệu từ DBF 2.5 Chuẩn Dublin Core Metadata Dublin Core Metadata3 chuẩn metadata nhiều người biết đến dùng rộng rãi cộng đồng nhà nghiên cứu, chuyên gia thư viện số Dublin Core Metadata lần xuất năm 1995 Dublin Core Metadata Element Initiative Dublin tên địa danh Dublin, Ohio Mỹ nơi tổ chức hội thảo OCLC/NCSA Metadata Workshop năm 1995 Core có nghĩa danh sách thành phần cốt lõi dùng mô tả tài nguyên (Element metadata), thành phần mở rộng thêm Theo [12], tháng 9/2001 yếu tố siêu liệu Dublin Core Metadata ban hành thành tiêu chuẩn Mỹ, gọi tiêu chuẩn “The Dublin Core Metadata Element Set” ANSI/NISO Z39.85-2001 Trong hệ thống chúng tôi, thông tin metadata sau rút từ tài liệu: - Creator (Author): Thông tin tên tác giả tài liệu - Title: tựa đề tài liệu - Description (Abstract): Tóm tắt nội dung tài liệu - Publisher: Nơi công bố, xuất tài liệu - Source (DOI): Nơi download tài liệu địa chứa thông tin báo - Date (Year): Năm công bố, xuất tài liệu 15 Chương - PHÁT TRIỂN ỨNG DỤNG LOPD 3.1 Giới thiệu toán 3.1.1 Yêu cầu tốn Mục tiêu ứng dụng cải thiện kết tìm kiếm truy xuất nhiều thơng tin liên quan cho mục đích sử dụng người dùng Đồng thời trả lời câu hỏi “Các báo năm 2018 PGS TS Hồng Hữu Hạnh?” Vì vậy, chương trình ứng dụng cung cấp chia sẻ thông tin theo phương thức: Tìm kiếm thơng tin: Hệ thống hỗ trợ tìm kiếm xác gần Với tìm kiếm xác, người dùng nhập đầy đủ xác từ khóa cần tìm, lúc hệ thống hiển thị tất lên thông tin liên quan đến giảng viên (Các điểm tương đồng, báo đề tài…) Với tìm kiếm gần đúng, người dùng cần nhập cụm từ liên quan đến thực thể tồn hệ thống Kết trả tên thực thể có liên quan người dùng chọn xem chi tiết để biết thơng tin 3.1.2 Phân tích vấn đề Từ hạn chế thư viện số hay kho lưu trữ thơng tin cơng trình, báo khoa học giảng viên chủ đề tương đồng tìm kiếm gây cho việc tìm kiếm khó khăn khơng tiếp cận tối đa thơng tin tìm kiếm liên quan Hoặc muốn sử dụng liệu từ ác nguồn có sẵn để trả lời câu hỏi chủ đề có tác giả báo tương đồng hay không Hay tác giả có báo chủ đề web bình thường khó trả lời câu hỏi Từ khó khăn tơi đưa giải pháp sử dụng công nghệ web ngữ nghĩa để giải tốn Cơng nghệ web ngữ nghĩa với đặc điểm lưu trữ liệu định dạng XML mơ hình liệu thông minh nên việc lưu trữ liệu có tính tùy biến cao hỗ trợ tìm kiếm nhanh, thông tin chất lượng 16 3.1.3 Chuẩn bị liệu 3.1.3.1 Dữ liệu từ trường Đại học Dữ liệu tài nguyên thông tin trường Đại học bao gồm thông tin khoa học giảng viên, tác giả báo, cơng trình nghiên cứu khoa học cấp Dữ liệu từ file Excel gồm thơng tin đề tài, giải thưởng, cơng trình nghiên cứu… 3.1.3.2 Dữ liệu từ DBLP Computer Science Bibliography DBLP cung cấp thông tin mục báo lĩnh vực khoa học máy tính, hệ thống phát triển trường đại học Universität Trier Đức Tính đến tháng 1/2011 DBLP chứa thơng tin mục 1,5 triệu báo lĩnh vực khoa học máy tính thu thập từ thư viện số, hội nghị tạp chí Dữ liệu DBLP xuất dạng CDF, XML SQL, người phát triển download file từ web hệ thống Hình 3.1.3.2 Cơ sở liệu DBLP 17 3.2 Giải pháp hệ thống 3.2.1 Kiến trúc hệ thống LOPD (Linked Open PTIT DATA): dịch vụ dùng SPARQL để truy vấn liệu DBLP Hình 3.8 cho thấy tổng quan kiến trúc dịch vụ Trong vài trường hợp, Các hệ thống dịch truy vấn SPARQL tới dãy cầu nối (lặp) API, thu thập liệu trả lại cho người dùng Dịch vụ hỗ trợ SPARQL truy vấn thơng qua HTTP GET Bộ phân tích cú pháp sử dụng máy quét để nhận dạng lexemes truy vấn SPARQL tạo cấu trúc liệu cần thiết Query Manager Mô-đun có trách nhiệm tách truy vấn vào truy vấn theo điều khiển từ xa API sẵn có ResultManager xử lý truy vấn phụ kết để tạo đồ kết cuối Result Manager Parser Scanner Server Browser Results SPARQL QUẺY http request SPARQL ser ver over HTTP Jena API Output fomat generator LOPD DB Query manager Client Query results Hình 3.2.1 Quá trình thực LOSM 18 3.2.2 Thiết kế sở liệu 3.2.2.1 Mô tả cấu trúc liệu DBLP Sau cấu trúc bảng SQL DBLP Tiến sĩ Jörg Diederich xây dựng lên từ file XML DBLP Dữ liệu sử dụng hệ thống tìm kiếm Faceted DBLP cập nhật tuần lần cách sử dụng đoạn script đọc liệu trực tiếp từ file XML Dữ liệu lưu trữ bảng: - dblp_pub_new: lưu thông tin báo Thông tin bảng bao gồm: tựa đề báo, năm xuất bản, số trang, tên nhà xuất bản, số thông tin định danh báo file XML DBLP giải thích chi tiết phần mơ tả phía Trong sở liệu báo có id riêng dùng chung cho bảng có liên quan đến báo - dblp_author_ref_new: lưu thông tin tác giả báo Thông tin bảng bao gồm: tên tác giả, tác giả có phải người biên tập (editor) hay không Trong bảng này, tác giả viết báo có id giống giống id tương ứng báo cótrong bảng dblp_pub_new - dblp_ref_new: lưu thơng tin tham chiếu (reference) báo Bài báo có id tương ứng bảng dblp_pub_new tham chiếu báo xác định khóa dblp key 3.2.2.2 Cơ sở liệu hệ thống Như cấu trúc bảng dblp trình bày trên, hệ thống khơng chứa liệu tóm tắt báo (abstract) Từ cấu trúc nhóm bổ sung thêm vào cấu trúc bảng sau để đảm bảo việc cập nhật liệu DBLP lưu thơng tin chủ đề, tóm tắt báo - dbsa_sbj: lưu thông tin chủ đề lĩnh vực khoa học máy tính - dbsa_pub: lưu thông tin báo thu thập từ thư viện số 19 - dbsa_pub_in_dblp: bảng lưu thông tin bổ sung báo liệu dblp bao gồm chủ đề, đường dẫn mở rộng (nơi mà báo tìm thấy – trang cá nhân tác giả …) Hình 3.2.2.2 Các bảng sở liệu hệ thống 3.3 Xây dựng ứng dụng 3.3.1 Mô tả User case Phần xây dựng mơ hình use-case nhằm cung cấp cách chi tiết chức tìm kiếm thơng tin, xem thơng tin địa điểm cụ thể (duyệt thông tin) xem thông tin chi tiết địa điểm Mơ hình use-case thể hình sau: 20 Duyệt thơng tin Kết tìm kiếm Người dùng Tìm kiếm Hình 3.3.1 Use case hệ thống tìm kiếm thơng tin tác giả 3.3.2 Đặc tả chức - Chức tìm kiếm: Chức cho phép người sử dụng tìm thơng tin hệ thống cách nhập từ khóa thơng tin muốn tìm Hệ thống duyệt file TACGIA.rdf tìm tất tài ngun liên quan đến từ khóa muốn tìm trả kết Khi lấy thông tin phù hợp hiển thị - Chức duyệt thông tin: Chức cho phép người sử dụng xem thông tin danh sách tài nguyên liên quan đến từ khóa cách chọn mục thơng tin cần xem Hệ thống tìm thực thể liên quan đến mục thông tin chọn trả kết cho người sử dụng 21 3.3.3 Thiết kế giao diện 3.3.3.1 Giao điện người dùng mặc định Hình 3.3.3.1 Ứng dụng tìm kiếm thơng tin tác giả 3.3.3.2 Kết tìm kiếm với tác giả Hình 3.3.3.2 Kết tìm kiếm tác giả PGS.TS Hồng Hữu Hạnh gợi ý tác giả có báo hay cơng trình chủ đề 22 KẾT LUẬN VÀ KIẾN NGHỊ Luận văn nghiên cứu trình bày kiến thức web ngữ nghĩa kiến thức RDF, RDF Schema, ngôn ngữ truy vấn liệu web ngữ nghĩa SPARQL, mơi trường lập trình web ngữ nghĩa trực quan hóa liệu Qua luận văn đạt số kết sau: Về lý thuyết, luận văn sâu nghiên cứu nhiều kiến thức RDF RDFS, từ hiểu cơng nghệ web ngữ nghĩa để dựa vào triển khai ứng dụng khác Trình bày cụ thể phương pháp lập trình với web ngữ nghĩa, cách chuyển đổi liệu cho web ngữ nghĩa Luận văn trình bày cách trích xuất xử lý liệu từ DBLP Computer Science Bibliography Về ứng dụng minh hoạ, với mục tiêu làm rõ thêm lý thuyết, luận văn ứng dụng xây dựng web ngữ nghĩa với công cụ hỗ trợ Intellij Maven Cụ thể xây dựng liệu RDF tác giả khoa học dựa liệu thu thập từ DBLP trích xuất liệu khai thác tính truy xuất tài liệu có mơ tả ngữ nghĩa nhằm chia sẻ tài ngun thơng tin báo, cơng trình khoa học thực tìm kiếm với kết xác hơn, đồng thời tận dụng hết nguồn tài nguyên hệ thống Hướng phát triển: Xây dựng ontology để hỗ trợ trình truy xuất tìm kiếm thơng tin hiệu Phát triển ứng dụng với chức bổ sung cập nhật thông tin ontology Sử dụng công cụ lập trình di động liệu để tạo ứng dụng truy cập thiết bị di động ... QUẢN LÝ VÀ TRUY XUẤT TÀI NGUYÊN THÔNG TIN TRONG TRƯỜNG ĐẠI HỌC– LINKED OPEN PTIT DATA (LOPD) 2.1 Tiến trình xây dựng ứng dụng LOPD TIẾN TRÌNH XÂY DỰNG LOPD Chuẩn bị liệu Tạo sinh liên kết Xuất liệu... phục vụ tài nguyên (ví dụ: thumuc/trang) Các truy vấn (tuỳ chọn) Chỉ định mục (tuỳ chọn) 1.3 Ngôn ngữ Cơ cấu mô tả tài nguyên 1.3.1 Ngôn ngữ mô tả tài nguyên RDF Ngôn ngữ Cơ cấu mô tả tài nguyên. .. chấm luận văn thạc sĩ Học viện Cơng nghệ Bưu Viễn thông Vào lúc: 10 30 ngày 20 tháng 06 năm 2020 Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thông MỞ ĐẦU Lý chọn đề tài