Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 65 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
65
Dung lượng
4,15 MB
Nội dung
BỘ GIAOTHÔNG VẬN TẢI BỘ GIÁODỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM TÔ THỊ THÌN ỨNGDỤNGWEBNGỮNGHĨAXÂYDỰNGHỆTHỐNGTÀINGUYÊNSỐCHOTRUNGTÂMTINHỌCSỞGIÁODỤCHẢIPHÒNG LUẬN VĂN THẠC SĨ NGÀNH KỸ THUẬT HẢI PHỊNG, 2016 BỘ GIAOTHƠNG VẬN TẢI BỘ GIÁODỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC HÀNG HẢI VIỆT NAM TƠ THỊ THÌN ỨNGDỤNGWEBNGỮNGHĨAXÂYDỰNGHỆTHỐNGTÀINGUYÊNSỐCHOTRUNGTÂMTINHỌCSỞGIÁODỤCHẢIPHÒNG LUẬN VĂN THẠC SĨ NGÀNH KỸ THUẬT NGÀNH: CÔNG NGHỆ THÔNG TIN; MÃ SỐ: 60480201 CHUYÊN NGÀNH: CÔNG NGHỆ THÔNGTIN Người hướng dẫn khoa học: TS Nguyễn Duy Trường Giang HẢI PHÒNG, 2016 LỜI CAM ĐOAN Tơi Tơ Thị Thìn, học viên cao học lớp CNTT 2014-1, chuyên ngành Công nghệ Thông tin, khoá học 2014-2016, Trường Đại học Hàng Hải Việt Nam xin cam đoan: Các nội dung Luận văn Thạc sĩ tự thân nghiên cứu sởtài liệu, số liệu khảo sát thực tế thân tơi thu thập Các số liệu tham khảo khác sử dụng nghiên cứu thuộc quyền tác giả trích dẫn cách rõ ràng, minh bạch Hải Phòng, ngày 12 tháng năm 2016 Người cam đoan Tơ Thị Thìn LỜI CẢM ƠN Hồn thành luận văn này, trước hết tơi xin bày tỏ lòng biết ơn sâu sắc tới TS Nguyễn Duy Trường Giang, người hướng dẫn khoa học tận tình hướng dẫn giúp đỡ suốt thời gian thực Luận văn Nhân dịp tơi xin bày tỏ lòng biết ơn đến thầy giảng viên, phòng đào tạo sau đại học trường Đại học Hàng Hải Việt Nam tận tình giảng dạy giúp đỡ tơi suốt q trình học tập, nghiên cứu Tơi xin gửi lời cảm ơn chân thành đến Ban giám đốc TrungtâmTinhọcSởgiáodụcHải Phòng, đồng nghiệp giúp đỡ, động viên tạo điều kiện cho tơi q trình tìm hiểu, thu thập tài nguyên, xử lý số liệu cho thư viện số Tôi xin cảm ơn tác giả tài liệu, báo khoa học…cho phép sử dụng nguồn tư liệu để viết Luận văn Cuối tơi xin cảm ơn gia đình, bạn bè, đồng nghiệp nguồn động viên, khích lệ vơ giá suốt năm tháng phấn đấu, rèn luyện để có sản phẩm khoa họcHải Phòng, ngày tháng năm 2016 Học viên Tơ Thị Thìn DANH MỤC CÁC CHỮ VIẾT TẮT VÀ KÍ HIỆU Chữ viết tắt URI XML RDF RDFS SGML OWL URL WWW HTML ISO RDA FRBR GEMS GLI CSDL NXB Giải thích Uniform Resource Identifier Extensible Markup Language Resource Description Framework Resource Description Framework Schema Standard Generalized Markup Language Web Ontology Language Uniform Resource Identifier World Wide Web Hyper Text Markup Langguage International Organization for Standarlization Resource Description and Access Functional Requirements of Bibliographic Records Greenstone Editor for Metadata Set Greenstone Librarian Interface Cơ sở liệu Nhà xuất DANH MỤC CÁC BẢNG Số bảng 1.1 1.2 1.3 1.4 2.1 2.2 3.1 3.2 Tên bảng Mơ hình rdf Cú pháp rdf Bảng mơ tả lớp rdfs Các thuộc tính rdfs Bảng tóm tắt 15 yếu tố dublin core theo phân loại Bảng tóm tắt yếu tố mở rộng dublin core Mối quan hệ thuộc tính mơ tả thuộc tính Danh sách plugin greenstone Trang 19 21 23 24 31 32 47 51 DANH MỤC CÁC HÌNH Hình 1.1 Các tầng kiến trúc webngữnghĩa 13 Hình 1.2 Mối quan hệ thành phần rdf 20 Hình 1.3 quan hệ kế thừa 22 Hình 1.4 Trang thơngtin semantic web vn-kim 25 Hình 1.5 Trang tìm kiếm swoogle semantic web search engine 26 Hình 2.1 Kết tìm kiếm google.com theo từ khóa 28 Hình 2.2 Kiến trúc chung thư viện sốngữnghĩa 30 Hình 2.3 Sơ đồ quan hệ thực thể nhóm 34 Hình 2.4 Sơ đồ quan hệ thực thể nhóm 1và 34 Hình 2.5 Sơ đồ quan hệ thực thể nhóm nhóm khác Hình 2.6 Sơ đồ minh họa biểu ghi thư mục theo FRBR 35 36 Hình 2.7 Ontology biểu ghi thư mục 37 Hình 2.8 Ontology cấu trúc nội dung 38 Hình 2.7 Sơ đồ trình tìm kiếm thư viện sốngữnghĩa 39 Hình 3.1 Sơ đồ phân lớp resource (tài nguyên) 42 Hình 3.2 Bản đồ ontology lớp thư viện trungtâmtinhoc Hình 3.3 Màn hình thuộc tính đối tượng 45 Hình 3.4 Màn hình thuộc tính đối tượng 45 Hình 3.5 Màn hình tạo thực thể 48 Hình 3.6 Bộ siêu liệu mở rộng cho thư viện 52 Hình 3.7 Màn hình biên mục cho thư mục 53 Hình 3.8 Màn hình đưa tài liệu vào thư mục 53 Hình 3.9 Màn hình nhập siêu liệu chotài liệu 54 Hình 3.10 Thiết lập số tìm kiếm 54 Hình 3.11 Màn hình thiết lập giao diện browse 55 Hình 3.12 Màn hình nhập thơngtin sưu tập 55 Hình 3.13 Màn hình xâydựng sưu tập 56 Hình 3.14 Hộp thoại kích hoạt máy chủ greenstone 56 43 Hình 3.15 Màn hình trang quản trị hệthống 57 Hình 3.16 Màn hình thư viện trungtâmtinhọc 57 Hình 3.17 Màn hình tìm kiếm tài liệu theo tiêu đề 58 Hình 3.18 Màn hình tìm kiếm tài liệu theo chủ đề 58 Hình 3.19 Tìm kiếm nâng cao theo ngữnghĩa 59 MỤC LỤC MỞ ĐẦU CHƯƠNG TỔNG QUAN VỀ SEMANTIC WEB 1.1 Các khái niệm Semantic Web .6 1.1.1 Webngữnghĩa 1.1.2 Siêu liệu (Metadata) .7 1.1.3 Ontology 1.1.4 Ontology Semantic Web .8 1.2 Các tầng kiến trúc Webngữnghĩa 1.2.1 URI (Uniform Resource Identifier): Bộ nhận dạng tàinguyên .11 1.2.2 Tầng XML (Extensible Markup Language) 12 1.2.3 Tầng RDF (Resource Description Framework) 15 1.2.4 Tầng RDFS (RDF Schema – Lược đồ RDF) 17 1.3.Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài .21 1.3.1 Danh mục số luận văn nghiên cứu công bố 21 1.3.2 Các ứngdụng Semantic web nước 21 1.3.3 Các ứngdụng Semantic web quốc tế 22 CHƯƠNG II CÔNG NGHỆ WEBNGỮNGHĨA TRONG LƯU TRỮ VÀ QUẢN LÝ TÀINGUYÊNSỐ 23 2.1 2.2 2.3 2.4 Khái niệm thư viện số .23 Khái niệm thư viện sốngữnghĩa 23 Hiện trạng thư viện trungtâmTinhọc 23 Giải pháp xâydựng thư viện sốngữnghĩachoTrungtâmTinhọc 24 2.4.1 Phân tích nội dung toán .24 2.4.2 Giải pháp 25 2.5 Cơ sở lý thuyết giải toán 25 2.5.1 Kiến trúc thư viện số 25 2.5.2 Siêu liệu (Metadata) 26 2.5.3 Siêu liệu Dublin Core 27 2.5.4 Biên mục thư viện sốngữnghĩa 28 2.5.5 Ontology cho thư viện sốngữnghĩa .32 2.5.5.1 Xâydựng Ontology 32 2.5.5.2 Ontology biểu ghi thư mục 33 2.5.5.3 Ontology cho cấu trúc nội dung 33 2.5.6 Tìm kiếm thư viện ngữnghĩa 34 2.5.6.1 Tìm kiếm dựa phân loại 34 2.5.6.2 Tìm kiếm theo ngữnghĩa 34 CHƯƠNG PHÂN TÍCH THIẾT KẾ HỆ THỐNG- XÂYDỰNG THƯ VIỆN SỐNGỮNGHĨA DỰA TRÊN PHẦN MỀM GREENSTONE 37 3.1 Xâydựng Ontology .37 3.2 Xâydựng thư viện sốngữnghĩa dựa phần mềm Greenstone 3.07 44 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 56 (Hòm thư điện tử) hasOrganization DatatypeProperties ContactInformation xsd: string DatatypeProperties ContactInformation xsd: int DatatypeProperties PublishedMaterial xsd: int DatatypeProperties PublishedMaterial xsd: int hasCity (thành phố) ObjectProperties Place string hasPlace (địa chỉ) ObjectProperties Place string hasLanguage ObjectProperty Resource Language (tổ chức) hasPhoneNumber (Số điện thoại) hasVolumn (Tập sách) hasEdition (lần xuất bản) (Ngôn ngữ) Bảng 3.1 Mối quan hệ thuộc tính mơ tả thuộc tính Bước Tạo thực thể Việc tạo thực thể cho đối tượng vào việc khảo sát thực tế đối tượng phân vào lớp cho phù hợp Ví dụ: Trong Basic có thực thể tài liệu liên quan đến môn tinhọc bản, Soạn thảo văn Microsoft Word, hướng dẫn sử dụng Windows … Đây hình thực thể tạo lớp Basic 50 Hình 3.5 Màn hình tạo thực thể 3.2 Xâydựng thư viện sốngữnghĩa dựa phần mềm Greenstone 3.07 3.2.1 Giới thiệu phần mềm Greenstone 3.07 Greenstone phần mềm mã nguồn mở thư viện số, tảng thư viện sốngữnghĩa Nó cung cấp phương thức việc tổ chức xuất thôngtin Internet CD-ROM Greenstone kết dự án Thư viện số trường đại học Waikato, NewZealand (New Zealand Digital Library Project), triển khai phân phối với hợp tác hai tổ chức UNESCO Human Info NGO Phần mềm Greenstone 3.07 bao gồm phần: - Greenstone Editor for Metadata Set (GEMS): Tạo siêu liệu cho sưu tập - Greenstone Librarian Interface (GLI): Tạo sưu tập (Collection) - Greenstone3 Server: Các dịch vụ Web server, dịch vụ quản lý CSDL Greenstone cho phép tạo quản lý sưu tập (Collection) Bộ sưu tập 51 Greenstone chứa nhiều dạng tài liệu khác tệp văn (doc, html, xhtlm, txt, rtf, docx, pdf), tệp đa phương tiện (mp3, mpg, jpg), tệp trình chiếu (ppt, pptx) để nhận biết dạng tài liệu Greenstone sử dụng plugin tương ứng Plugin viết ngôn ngữ lập trình Perl Các plugin kế thừa từ BasPlug- plugin sở, thực cơng việc nhận biết tài liệu, tạo tài liệu XML theo định dạng Greenstone, thực gán định danh chotài liệu Các plugin Greenstone mô tả bảng sau: 52 53 Bảng 3.2 Danh sách plugin Greenstone Các plugin có nhiệm vụ đọc tài liệu trích xuất thơngtin dạng siêu liệu (metadata) nội dungtài liệu dạng XML Riêng loại tài liệu dạng văn Word (Doc, docx), PDF Greenstone sử dụng plugin độc quyền WordPlug PdfPlug, Plugin thực chuyển đổi tài liệu sang dạng HTML hay Plain Text, sau tự động tạo mục thành siêu liệu lưu dạng XML 3.2 Sử dụng Greenstone 3.07 tạo thư viện số Qua trình tìm hiểu phần mềm Greenstone 3.07 sở lý thuyết 54 để giải toán đề cập chương II, tác giả xâydựng thư viện số qua trình sau: 3.2.2 Tạo siêu liệu biên tập cho thư mục Bộ siêu liệu cho thư viện sử dụng siêu liệu Dublin Core siêu liệu phát triển thêm sau: Hình 3.6 Bộ siêu liệu mở rộng cho thư viện 3.2.3 Xâydựng sưu tập (Collection) Bước 1: Tạo cấu trúc cho sưu tập Dựa vào sở lý thuyết phân tích chương 2, tơi xâydựng sưu tập dựa lớp ontology Greenstone Librarian Interface 3.07 (giao diện thủ thư Greenstone) sau: 55 Hình 3.7 Màn hình biên mục cho thư mục Sau thực thu thập tài liệu biên mục tạo cho phù hợp: Hình 3.8 Màn hình đưa tài liệu vào thư mục 56 Bước 2: Nhập siêu liệu cho nhóm tài liệu, tài liệu Hình 3.9 Màn hình nhập siêu liệu chotài liệu Bước 3: Thiết kế Thực thêm bớt Plugin cho sưu tập, tạo lập số tìm kiếm, thiết lập giao diện duyệt tài liệu Hình 3.10 Thiết lập số tìm kiếm 57 Browsing Classifier để thiết lập giao diện duyệt sưu tập Hình 3.11 Màn hình thiết lập giao diện browse Bước 4: Thiết lập định dạng cho sưu tập Nhập thôngtin người tạo lập sưu tập, cách hiển thị tìm kiếm thơng tin, định dạng lại giao diện xem sưu tập Hình 3.12 Màn hình nhập thơngtin sưu tập 58 Bước 5: Xâydựng sưu tập Sau hoàn thiện thao tác trên, chọn Create Kích nút Build Collection để xâydựng sưu tập Greenstone tự động xâydựng sưu tập Hình 3.13 Màn hình xâydựng sưu tập 3.2.4 Duyệt sưu tập Để duyệt sưu tập ta khởi động Greenstone3 Sever chọn Enter Library Hình 3.14 Hộp thoại kích hoạt máy chủ Greenstone 59 Máy chủ kích hoạt trình duyệt Web Internet Explorer tự động kích hoạt, Lúc người sử dụng đăng nhập vào hệthốngtài khoản cấp, chọn sưu tập muốn duyệt Hình 3.15 Màn hình trang quản trị hệthống Chọn sưu tập Thư viện trungtâmTinhọc xuất sưu tập giao diện Web sau: Hình 3.16 Màn hình thư viện Trungtâmtinhọc 60 3.3 Tìm kiếm Greenstone 3.3.1 Tìm kiếm theo phân loại Có thể tìm kiểm tài liệu theo tiêu đề cách chọn Title Danh mục tài liệu xếp theo tiêu đề Muốn xem tài liệu nào, kích chọn tài liệu Hình 3.17 Màn hình tìm kiếm tài liệu theo tiêu đề Hoặc tìm tài liệu theo chủ đề Chọn Subjects, tài liệu xếp theo chủ đề dễ dàng cho việc tìm kiếm Hình 3.18 Màn hình tìm kiếm tài liệu theo chủ đề 61 3.3.2 Tìm kiếm nâng cao theo ngữnghĩa Người dùng chọn Form search xuất giao diện tìm kiếm sau: Hình 3.19 Tìm kiếm nâng cao theo ngữnghĩa Chọn tìm kiếm tài liệu (Document) Nhập từ cụm từ cần tìm, chọn lựa phân biệt chữ hoa hay thường, bật tắt xuất phát, so sánh từ với số hay tất cả, chọn thuộc tính cần tìm (theo chủ đề, hay theo tiêu đề…), ngồi bạn thêm phép tốn and, or, not (nếu sử dụng nút Advanced Search) để tăng thêm độ xác từ cần tìm… Sau cung cấp truy vấn tìm kiếm kích vào nút Search Máy thực truy vấn cách tự động theo truy vấn người dùng đưa vào đưa kết bên Người dùng kích vào tài liệu tìm thấy hình bên để duyệt tài liệu Kết luận Trong chương 3, tác giả trình bày quy trình xâydựngứngdụng gồm bước xâydựng ontology chohệthống thư viện Quá trình tìm hiểu sử dụng phần mềm Greenstone 3.07 thiết lập thư viện số quản lý tàinguyênTrungtâmTinhọc gồm bước sưu tập, duyệt sưu tập tìm kiếm thơngtin theo nhiều hướng khác nhau, có đề cập đến tìm kiếm theo ngữnghĩa kết tìm kiếm theo ngữnghĩa nhiều thách thức 62 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong luận văn tác giả tìm hiểu cơng nghệ Webngữ nghĩa, phân tích tìm hướng ứngdụng tạo thư viện quản lý tàinguyênsốtàiTrungtâmTinhọcHảiPhòng dựa phần mềm mã nguồn mở Greenstone 3.07 Tuy vấn đề tác giả đề cập luận văn chưa bao hàm hết vấn đề thư viện sốngữ nghĩa, song tác giả rút kết luận sau : - Nhờ có cơng nghệ Webngữnghĩa mà máy tính có khả hiểu xử lý thơngtin theo ngữ cảnh người dùng - Kết hợp cách biên mục đại RDA chuẩn quốc tế theo mô hình FRBR cơng nghệ webngữnghĩa mà thư viện sốngữnghĩa có khả chia sẻ thơngtin với hệthống khác, hỗ trợ tìm kiếm thôngtin theo cách thông thường theo ngữnghĩa đưa đến cho người dùng kết tìm kiếm nhanh chóng tối ưu - Hệthống thư viện số thiết lập, giải toán đặt Các tàinguyêntrungtâmTinhọc quản lý lưu trữ hệ thống, giúp người dùng dễ dàng tìm kiếm tài liệu nhanh chóng hiệu theo ngữ cảnh Tuy nhiên luận văn hạn chế cần phát triển - Việc chuyển liệu xâydựng từ Ontology sang hệthống thư viện chưa thực cách tự động mà dựa nguyên tắc để xâydựng biên mục giao diện GLI phần mềm Greenstone Vì thời gian tới tơi tìm hiểu khắc phục hạn chế - Các siêu liệu chưa nhập đầy đủ chotàinguyênhệ thống, ảnh hưởng đến kết truy vấn tìm kiếm thơngtin theo ngữnghĩa Trong thời gian tiếp tục nhập hồn thiện thơngtin vào siêu liệu - Số lượng tàinguyên sưu tập hạn chế Cần phải sưu tầmtài liệu từ nhiều nguồn khác để sưu tập đầy đủ phù hợp với đối tượng TrungtâmTinhọcSởgiáodụcHảiPhòng 63 64 ... cho việc thi t kế cấu trúc liệu dạng văn theo khổ mẫu (format) giúp máy tính đọc trao đổi liệu Nó thi t kế cách đơn giản dạng cú pháp để gửi tài liệu qua Web Nó cho phép 19 người dùng thi t kế... Danglam Hai An Hai Phong Tothithin@haiphong.edu.vn Có ba thuật ngữ chủ yếu dùng để miêu tả phần văn... Danglam Hai An Hai Phong Tothithin@haiphong.edu.vn Thẻ: phần chữ dấu ngoặc đơn bên trái (