Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 73 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
73
Dung lượng
2,28 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - NGUYỄN VĂN NHÂN MƠ HÌNH HỐ TÀI NGUN THƠNG TIN TRƢỜNG ĐẠI HỌC VÀ HỖ TRỢ TRUY XUẤT THÔNG TIN THEO TIẾP CẬN LINKED DATA LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) HÀ NỘI - NĂM 2020 HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - NGUYỄN VĂN NHÂN MƠ HÌNH HỐ TÀI NGUN THƠNG TIN TRƢỜNG ĐẠI HỌC VÀ HỖ TRỢ TRUY XUẤT THÔNG TIN THEO TIẾP CẬN LINKED DATA Chuyên ngành: Hệ thống thông tin Mã số: 8.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC : PGS.TS HOÀNG HUỮ HẠNH HÀ NỘI - 2020 CAM ĐOAN Tôi xin cam đoan cơng trình nghiên cứu khoa học độc lập riêng Các số liệu sử dụng phân tích luận văn có nguồn gốc rõ ràng, công bố theo quy định Các kết nghiên cứu luận văn tơi tự tìm hiểu, phân tích cách trung thực, khách quan phù hợp với thực tiễn Việt Nam Kết chưa công bố nghiên cứu khác Tác giả luận văn ký ghi rõ họ tên Nguyễn Văn Nhân LỜI CẢM ƠN Để hoàn thành luận văn, nghiên cứu cố gắng thân, xin cảm ơn thầy giáo PGS.TS Hoàng Hữu Hạnh - người thầy trực tiếp hướng dẫn, tận tình bảo định hướng cho tơi suốt trình thực luận văn Một lời cảm ơn chắn khơng thể diễn tả hết lịng biết ơn sâu sắc tới thầy – người thầy phương diện! Tôi xin gửi lời cảm ơn chân thành cảm ơn tất thầy cô giáo Học viện Công nghệ Bưu Viễn thơng giảng dạy, quan tâm nhiệt tình dìu dắt tơi trong suốt q trình học tập trường Cuối cùng, xin gửi lời cảm ơn tới gia đình, bạn bè người bên cổ vũ, động viên, tạo điều kiện thuận lợi cho học tập, tạo động lực tinh thần vơ giá để tơi hồn thiện luận văn ngày hồn thiện thân Trong trình nghiên cứu thực luận văn, hướng dẫn nhiệt tình thầy giáo PGS.TS Hoàng Hữu Hạnh nỗ lực thân tránh khỏi thiếu sót hạn chế Tơi mong nhận ý kiến đóng góp, sửa chữa từ q Thầy, Cơ bạn bè đồng nghiệp để luận văn hoàn thiện Trân trọng cảm ơn! Tác giả Nguyễn Văn Nhân MỤC LỤC MỞ ĐẦU .1 Chương - TỔNG QUAN VỀ WEB NGỮ NGHIÃ VÀ LINKED DATA .5 Tổng quan Web ngữ nghĩa 1.1 Web ngày hôm 1.2 Web ngữ nghĩa 1.2.1 Khái niệm 1.2.2 Siêu liệu 1.2.3 Kiến trúc Web ngữ nghĩa 1.2.4 Các khái niệm Web ngữ nghĩa .10 1.3 Ngôn ngữ Cơ cấu mô tả tài nguyên 13 1.3.1 Ngôn ngữ mô tả tài nguyên RDF 13 1.3.2 Lược đồ RDF truy vấn RDF 20 1.4 Linked Data .26 1.4.1 Khái niệm Linked Data 26 1.4.2 Quy tắc Linked Data 27 1.5 Tiểu kết chương 1.………………………………………………………… 28 Chương - ỨNG DỤNG QUẢN LÝ VÀ TRUY XUẤT TÀI NGUYÊN THÔNG TIN TRONG TRƯỜNG ĐẠI HỌC– LINKED OPEN PTIT DATA (LOPD) 29 2.1 Tiến trình xây dựng ứng dụng LOPD 29 2.2 Jena 31 2.2.1 Giới thiệu 31 2.2.2 Jena API 31 2.2.3 Kiến trúc Jena 32 2.3 Mơ hình hóa thơng tin với Jena 33 2.3.1 Chương trình Hello World! Jena .33 2.3.2 Tạo mơ hình RDF .33 2.3.3 Đọc mơ hình RDF .39 2.4 Chuyển đổi liệu web ngữ nghĩa .41 2.4.1 Dữ liệu từ Excel 41 2.4.2 Dữ liệu từ DBF 42 2.5 Chuẩn Dublin Core Metadata 44 2.6 Tiểu kết Chương 2………………………………………………………… 44 Chương - PHÁT TRIỂN ỨNG DỤNG LOPD 47 3.1 Giới thiệu toán 47 3.1.1 Yêu cầu toán .47 3.1.2 Phân tích vấn đề 47 3.1.3 Chuẩn bị liệu 48 3.2 Giải pháp hệ thống 49 3.2.1 Kiến trúc hệ thống 49 3.2.2 Thiết kế sở liệu .51 3.3 Xây dựng ứng dụng 57 3.3.1 Mô tả User case 57 3.3.2 Đặc tả chức .58 3.3.3 Thiết kế giao diện .59 KẾT LUẬN VÀ KIẾN NGHỊ 61 DANH MỤC TÀI LIỆ THAM KHẢO .62 PHỤC LỤC .63 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Viết tắt API Tiếng Anh Application Programming Interface Tiếng Việt Giao diện lập trình ứng dụng CDF Computable Document Format Một định dạng file CSDL Database Cơ sở liệu HTML Hyper Text Markup Language Ngôn ngữ đánh dấu siêu văn HTTP Hyper Text Transfer Protocol giao thức chuẩn mạng Internet LOPD Linked Open PTIT Data OWL Web Ontology Language Ngôn ngữ thể web URI Uniform Resource Identifier Một chuỗi ký tự dùng để xác định tài nguyên URL Uniform Resource Locator Địa dùng để tham chiếu đến tài nguyên mạng Internet URN Uniform Resource Name Định danh Tài nguyên thống WWW World Wide Web Hệ thống Web XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng DANH MỤC CÁC BẢNG Bảng 2.5 Các yếu tố chuẩn Dublin Core Metadata 45 Bảng 3.2.2.2 Thông tin cấu trúc bảng dblp_author_ref_new 55 Bảng 3.2.2.3 Thông tin cấu trúc bảng dblp_ref 55 Bảng 3.2.2.4 Thông tin cấu trúc bảng dbsa_sbj 56 Bảng 3.2.2.5 Thông tin cấu trúc bảng dbsa_pub_in_dblp 56 Bảng 3.2.2.6 Thông tin cấu trúc bảng dbsa_pub .57 DANH MỤC CÁC HÌNH Hình Mơ hình liên kết liệu Web ngữ nghĩa Hình 1.3.1.3 Đồ thị RDF 15 Hình 1.3.2.1 Quan hệ kế thừa 20 Hình 1.3.2.3 Khơng gian miền giới hạn thuộc tính RDFS 23 Hình 1.3.1 Mơ hình liên kế liệu Web ngữ nghĩa .27 Hình 2.1 Tiến trình xuất Linked Data lên Web 29 Hình 2.2.2 Các thành phần Jena API 32 Hình 2.2.3 Kiến trúc Jena 32 Hình 2.3.2.1 Biểu diễn phát biểu dạng đồ thị 34 Hình 3.1.3.2 Cơ sở liệu DBLP 48 Hình 3.2.1 Quá trình thực LOSM 50 Hình 3.2.2.1 Các bảng sở liệu DBLP 52 Hình 3.2.2.2 Các bảng sở liệu hệ thống 57 Hình 3.3.1 Use case hệ thống tìm kiếm thơng tin tác giả 58 Hình 3.3.3.1 Ứng dụng tìm kiếm thông tin tác giả 59 Hình 3.3.3.2 Kết tìm kiếm tác giả PGS.TS Hoàng Hữu Hạnh gợi ý tác giả có báo hay cơng trình chủ đề 59 MỞ ĐẦU Lý chọn đề tài Thuật ngữ “Linked Data” Tim Berner-Lee đưa ghi chép kiến trúc “Linked Data Web” Thuật ngữ cách thức để xuất liên kết liệu có cấu trúc Web Giả thuyết Linked Data lợi ích giá trị liệu tăng lên liên kết với liệu khác Nói cách khác, Linked Data đơn giản sử dụng Web để tạo liên kết định kiểu (typed link) liệu từ nhiều nguồn tài nguyên khác Điều giống hai CSDL hai tổ chức vùng địa lý khác hay đơn giản hệ thống hỗn tạp tổ chức không dễ dàng để trao đổi, liên thông mức liệu Do vậy, Linked Data nhằm vào liệu đưa lên Web theo cách máy tính đọc được, có ngữ nghĩa rõ ràng liên kết đến tập liệu bên ngược lại liệu liên kết đến nó[1] Trong đơn vị Web (hay cịn gọi Web siêu liên kết) tài liệu HTML kết nối siêu liên kết không định kiểu (không xác định kiểu liệu hay kiểu quan hệ), Linked Data dựa vào tài liệu chứa liệu dạng RDF Tuy nhiên, tốt tài liệu kết nối đơn giản, Linked Data sử dụng RDF để làm câu định kiểu liên kết đối tượng gới thực Kết quả, tham chiếu Web liệu, thực mô tả Web đối tượng giới thực, mô tả liệu Web Linked Data sử dụng công nghệ Web để kết nối tài nguyên (đối tượng liệu) liên quan đến mà không cần liên kết trước, nghĩa bỏ rào chắn liên kết liệu mà liên kết nhiều phương thức khác Linked Data kết nối liệu phân tán Web Linked Data thuật ngữ dùng để mô tả cách thức tốt đề nghị để duyệt, chia sẻ kết nối liệu, thông tin, tri thức Web ngữ nghĩa cách sử dụng URI RDF 50 Result Manager Parser Scanner Server Browser Results SPARQL QUẺY http request SPARQL ser ver over HTTP Jena API Output fomat generator LOPD DB Query manager Client Query results Hình 3.2.1 Quá trình thực LODP Như mơ tả hình 3.2.1, LODP duợc thiết kế với kiểu kiến trúc lớp tách biệt, đảm nhận nhiệm vụ riêng, dựa tư tưởng mơ hình truy vấn liên hồn Theo dó, kiến trúc ứng dụng phân làm bốn lớp: Lớp giao diện nguời sử dụng: hiển thị khung nhìn tích hợp cho người dùng cuối Lớp mashup: kết hợp nguồn liệu truy vấn với LOPD DB thông qua Query manager Lớp tích hợp, tương tác lưu trữ: đóng vai trị cầu nối chương trình liệu liên kết xuất (LOPD DBLP DB) Lớp liệu xuất bản: sở liệu liên kết ứng dụng 51 3.2.2 Thiết kế sở liệu 3.2.2.1 Mô tả cấu trúc liệu DBLP Sau cấu trúc bảng SQL DBLP Tiến sĩ Jörg Diederich xây dựng lên từ file XML DBLP Dữ liệu sử dụng hệ thống tìm kiếm Faceted DBLP cập nhật tuần lần cách sử dụng đoạn script đọc liệu trực tiếp từ file XML Dữ liệu lưu trữ bảng: - dblp_pub_new: lưu thông tin báo Thông tin bảng bao gồm: tựa đề báo, năm xuất bản, số trang, tên nhà xuất bản, số thông tin định danh báo file XML DBLP giải thích chi tiết phần mơ tả phía Trong sở liệu báo có id riêng dùng chung cho bảng có liên quan đến báo - dblp_author_ref_new: lưu thông tin tác giả báo Thông tin bảng bao gồm: tên tác giả, tác giả có phải người biên tập (editor) hay không Trong bảng này, tác giả viết báo có id giống giống id tương ứng báo cótrong bảng dblp_pub_new - dblp_ref_new: lưu thông tin tham chiếu (reference) báo Bài báo có id tương ứng bảng dblp_pub_new tham chiếu báo xác định khóa dblp key 52 Hình 3.2.2.1 Các bảng sở liệu DBLP 53 Chi tiết trường bảng giải thích sau: Khóa PRIMARY Trường Kiểu Chú thích (Field) (Type) (Comment) id int(8) Khóa Khóa file XML liệu DBLP – dblp_key varchar(150) Cấu trúc: tên loại tài liệu (book, conf)/ nhà xuất bản/tên tác giả tài liệu năm công bố title longtext source varchar(150) Tựa đề tài liệu Tên hội nghị nơi viết công bố: tên hội nghị, tạp chí, … Tham chiếu đến nguồn xuất source_id varchar(50) (phần dblp_key) - cấu trúc: tên tạp chí/tênviết tắt hội nghị + Năm diễn hội nghị series year varchar(100) Series tài liệu (chỉ áp dụng với sách proceeding) int(4) unsigned Năm xuât tài liệu Thể loại tài liệu ví dụ article, type varchar(20) volume varchar(50) number varchar(20) month varchar(30) Tháng tài liệu xuất pages varchar(100) Tài liệu thuộc trang proceedings, … Tập nơi phát hành tài liệu (tài liệu thuộc tập phát hành ) Số tập nơi phát hành tài liệu (nơi phát hành có tập ) 54 xuất ee varchar(200) ee_PDF varchar(200) url varchar(150) Địa URL tới điện tử tài liệu Địa URL tới PDF tài liệu Địa tài liệu liệu DBLP (bắt đầu db/ ) Tên nhà xuất ; tên trường đối publisher varchar(250) với tài liệu luận văn; trang chủ nơi xuất International Standard Book Number - Isbn varchar(25) mã số tiêu chuẩn quốc tế có tính chất thương mại để xác định sách Tham chiếu chéo đến tài liệu khác crossref varchar(50) Các tài liệu hội nghị, năm có crossref giống titleSignature varchar(255) Tựa đề tài liệu không bao gồm khoảng trắng ký tự đặc biệt digital object identifier – cung cấp doi varchar(255) thông tin giúp người dùng tìm tài liệu Internet mdate Date Lần cuối chỉnh sửa thông tin tài liệu Bảng 3.2.2.1 Thông tin cấu trúc bảng dblp_pub_new 55 Trường Kiểu Chú thích (Field) (Type) (Comment) PRIMARY id int(8) PRIMARY author varchar(70) editor int(1) Khóa Khóa tương ứng với id bảng dblp_pub_new Tên tác giả Giá trị trả giá trị tác giả người biên tập (editor) Số thứ tự tác giả (tương ứng file gốc XML) Một báo có tác giả số author_num int(3) tương ứng 0, tác giả có số tương ứng có author_num tương tự Bảng 3.2.2.2 Thông tin cấu trúc bảng dblp_author_ref_new Khóa Chính PRIMARY Trường Kiểu Chú thích (Field) (Type) (Comment) id int(8) ref_id varchar(150) Khóa tương ứng với id bảng dblp_pub_new Khóa dblp_key báo trích dẫn Bảng 3.2.2.3 Thơng tin cấu trúc bảng dblp_ref 3.2.2.2 Cơ sở liệu hệ thống Như cấu trúc bảng dblp trình bày trên, hệ thống khơng chứa liệu tóm tắt báo (abstract) 56 Từ cấu trúc nhóm bổ sung thêm vào cấu trúc bảng sau để đảm bảo việc cập nhật liệu DBLP lưu thơng tin chủ đề, tóm tắt báo - dbsa_sbj: lưu thông tin chủ đề lĩnh vực khoa học máy tính - dbsa_pub: lưu thông tin báo thu thập từ thư viện số - dbsa_pub_in_dblp: bảng lưu thông tin bổ sung báo liệu dblp bao gồm chủ đề, đường dẫn mở rộng (nơi mà báo tìm thấy – trang cá nhân tác giả …) Khóa Chính PRIMARY Trường Kiểu Chú thích (Field) (Type) (Comment) Id int(8) Khóa chủ đề sbj_name varchar(150) Tên chủ đề Bảng 3.2.2.4 Thơng tin cấu trúc bảng dbsa_sbj Khóa Chính Trường Kiểu Chú thích (Field) (Type) (Comment) Id int(8) sbj_id int(8) Links longtext PRIMARY Khóa tương ứng với id bảng dblp_pub_new Khóa ngoại dbsa_sbj Những đường dẫn mà người dùng tìm báo Bảng 3.2.2.5 Thơng tin cấu trúc bảng dbsa_pub_in_dblp Khóa Chính PRIMARY Trường Kiểu Chú thích (Field) (Type) (Comment) Id int(8) Khóa bảng sbj_id int(8) Khóa ngoại dbsa_sbj Abstract longtext Tóm tắt báo 57 Title longtext Tựa đề báo year int(4) Năm xuất tài liệu publisher varchar(250) Tên nhà xuất Authors Varchar(250) Tên tác giả báo, tên cách dấu “ ,” Những đường dẫn mà người dùng Links longtext tìm báo Mỗi link khác cách dâu “,” Bảng 3.2.2.6 Thông tin cấu trúc bảng dbsa_pub Hình 3.2.2.2 Các bảng sở liệu hệ thống 3.3 Xây dựng ứng dụng 3.3.1 Mô tả User case Phần xây dựng mơ hình use-case nhằm cung cấp cách chi tiết chức tìm kiếm thơng tin, xem thông tin nhà khao học cụ 58 thể (duyệt thông tin) xem thông tin chi tiết nhà khoa học Mơ hình usecase thể hình sau: Duyệt thơng tin Kết tìm kiếm Người dùng Tìm kiếm Hình 3.3.1 Use case hệ thống tìm kiếm thơng tin tác giả 3.3.2 Đặc tả chức - Chức tìm kiếm: Chức cho phép người sử dụng tìm thơng tin hệ thống cách nhập từ khóa thơng tin muốn tìm Hệ thống duyệt file TACGIA.rdf tìm tất tài ngun liên quan đến từ khóa muốn tìm trả kết Khi lấy thông tin phù hợp hiển thị - Chức duyệt thông tin: Chức cho phép người sử dụng xem thông tin danh sách tài nguyên liên quan đến từ khóa cách chọn mục thơng tin cần xem Hệ thống tìm thực thể liên quan đến mục thông tin chọn trả kết cho người sử dụng 59 3.3.3 Thiết kế giao diện 3.3.3.1 Giao điện người dùng mặc định Hình 3.3.3.1 Ứng dụng tìm kiếm thơng tin tác giả 3.3.3.2 Kết tìm kiếm với tác giả Hình 3.3.3.2 Kết tìm kiếm tác giả PGS.TS Hồng Hữu Hạnh gợi ý tác giả có báo hay cơng trình chủ đề 60 3.4 Tiểu kết Chƣơng Chương tổng hợp lại kiến thức web ngữ nghĩa để xây dựng ứng dụng minh họa Trước hết phần mơ tả tốn tìm kiếm thơng tin tác giả, nhà khoa học Tiếp theo giải pháp cho hệ thống tìm kiếm thơng tin tác giả: trình bày mơ hình hệ thống, chuyển đổi (RDF) lưu trữ liệu (Jena) Chương trình bày cách thức tải liệu, chỉnh sửa liệu Cuối ứng dụng minh họa cụ thể hệ thống tìm kiếm thơng tin tài nguyên thông tin trường đại học 61 KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN Luận văn nghiên cứu trình bày kiến thức web ngữ nghĩa kiến thức RDF, RDF Schema, ngôn ngữ truy vấn liệu web ngữ nghĩa SPARQL, mơi trường lập trình web ngữ nghĩa trực quan hóa liệu Qua luận văn đạt đƣợc số kết nhƣ sau: Về lý thuyết, luận văn sâu nghiên cứu nhiều kiến thức RDF RDFS, từ hiểu cơng nghệ web ngữ nghĩa để dựa vào triển khai ứng dụng khác Trình bày cụ thể phương pháp lập trình với web ngữ nghĩa, cách chuyển đổi liệu cho web ngữ nghĩa Luận văn trình bày cách trích xuất xử lý liệu từ DBLP Computer Science Bibliography Về ứng dụng minh hoạ, với mục tiêu làm rõ thêm lý thuyết, luận văn ứng dụng xây dựng web ngữ nghĩa với công cụ hỗ trợ Cụ thể xây dựng liệu RDF tác giả khoa học dựa liệu thu thập từ DBLP trích xuất liệu khai thác tính truy xuất tài liệu có mơ tả ngữ nghĩa nhằm chia sẻ tài nguyên thông tin báo, công trình khoa học thực tìm kiếm với kết xác hơn, đồng thời tận dụng hết nguồn tài nguyên hệ thống Hƣớng phát triển: Xây dựng ontology để hỗ trợ trình truy xuất tìm kiếm thơng tin hiệu Phát triển ứng dụng với chức bổ sung cập nhật thông tin ontology Sử dụng cơng cụ lập trình di động liệu để tạo ứng dụng truy cập thiết bị di động 62 DANH MỤC TÀI LIỆ THAM KHẢO [1] Hoàng Hữu Hạnh - Lê Mạnh Thạnh, Giáo trình Web ngữ nghĩa, NXB giáo dục [2] David Wood - Marsha Zaidman and Luke Ruth with Michael Hausenblas, Linked data Structured Data on the Web [3] Glen Hart – Catherine Dolbear, Linked Data A Geographic Perspective [4] Liyang Yu, A Developer’s Guide to the Web ngữ nghĩa Danh mục website tham khảo [5] http://www dblp.uni-trier.de/ [6] https://www.w3.org/2004/02/skos/ 63 PHỤC LỤC DataSample.rdf Hanh Huu Hoang Hue University, Vietnam Vienna University of Technology, Austria 64 provenance information for RDF data of dblp person 'h/Hoang:Hanh_Huu' 2020-03-13T22:10:19+0100 Nguyen Duy Phuong provenance information for RDF data of dblp person 'p/Phuong:Nguyen_Duy' 2020-01-23T22:56:39+0100 ... đề tài: “Mơ hình hố tài nguyên thông tin trường đại học hỗ trợ truy xuất thông tin theo tiếp cận Linked Data? ?? Tổng quan vấn đề nghiên cứu Đề tài ứng dụng đặc điểm tính chất mơ hình kỹ thuật Linked. .. dụng Linked Data Chương 2: Ứng dụng quản lý truy xuất tài nguyên thông tin trường đại học – Linked Open PTIT Data (LOPD) Chương tìm hiểu phân loại nguồn tài nguyên thông tin trường đại học, tập...HỌC VIỆN CƠNG NGHỆ BƢU CHÍNH VIỄN THƠNG - NGUYỄN VĂN NHÂN MƠ HÌNH HỐ TÀI NGUN THƠNG TIN TRƢỜNG ĐẠI HỌC VÀ HỖ TRỢ TRUY XUẤT THÔNG TIN THEO TIẾP CẬN LINKED DATA Chuyên