Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 101 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
101
Dung lượng
2,88 MB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - CAO XUÂN HÀ XÂY DỰNG ONTOLOGY PHỤC VỤ LƯU TRỮ VÀ TÌM KIẾM TRỰC TUYẾN CÁC TÀI LIỆU CỦA CHI CỤC VĂN THƯ LƯU TRỮ TỈNH QUẢNG NGÃI LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Đà Nẵng - Năm 2017 ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA - CAO XUÂN HÀ XÂY DỰNG ONTOLOGY PHỤC VỤ LƯU TRỮ VÀ TÌM KIẾM TRỰC TUYẾN CÁC TÀI LIỆU CỦA CHI CỤC VĂN THƯ LƯU TRỮ TỈNH QUẢNG NGÃI Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60480101 LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS VÕ TRUNG HÙNG Đà Nẵng - Năm 2017 LỜI CAM ĐOAN Tôi xin cam đoan : Những nội dung luận văn thực hướng dẫn trực tiếp PGS.TS Võ Trung Hùng; Mọi tham khảo dùng luận văn trích dẫn rõ ràng trung thực tên tác giả, tên cơng trình, thời gian, địa điểm công bố; Mọi chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tơi xin chịu hồn tồn trách nhiệm Tác giả Cao Xuân Hà i MỤC LỤC LỜI CAM ĐOAN MỤC LỤC i TÓM TẮT LUẬN VĂN iii DANH MỤC CÁC TỪ VIẾT TẮT iv DANH MỤC CÁC HÌNH v DANH MỤC CÁC BẢNG vi MỞ ĐẦU I Lý chọn đề tài II Mục tiêu nghiên cứu III Đối tượng phạm vi nghiên cứu IV Phương pháp nghiên cứu V Ý nghĩa khoa học thực tiễn đề tài VI Bố cục luận văn Chương TỔNG QUAN VỀ WEB NGỮ NGHĨA 1.1 Ontology 1.1.1 Khái niệm Ontology 1.1.2 Mục đích xây dựng Ontology 1.1.3 Yêu cầu sử dụng Ontology 1.1.4 Các thành phần Ontology 1.1.5 Ngôn ngữ OWL 1.2 Khái niệm Web ngữ nghĩa 1.2.1 World Wide Web hạn chế 1.2.2 Sự đời Web ngữ nghĩa 1.2.3 Định nghĩa Web ngữ nghĩa 11 1.3 Kiến trúc Web ngữ nghĩa 13 1.3.1 Giới thiệu 13 1.3.2 Vai trò tầng kiến trúc Web ngữ nghĩa 13 1.4 Xây dựng Web ngữ nghĩa 15 1.4.1 XML RDF Web 15 1.4.2 Các ngôn ngữ biểu diễn Ontology cho Web có ngữ nghĩa 15 1.4.3 Phát triển nâng cao Web ngữ nghĩa 16 1.5 Các ngôn ngữ công cụ xây dựng Web ngữ nghĩa 16 1.5.1 XML (eXtensible Markup Language) 16 1.5.2 RDF - Nền tảng Web ngữ nghĩa 17 1.5.3 RDF Schema 25 1.5.4 Truy vấn liệu Web ngữ nghĩa (SPARQL) 30 1.6 Nhận xét 37 ii Chương GIẢI PHÁP ĐỀ XUẤT 38 2.1 Quản lý văn hồ sơ 38 2.1.1 Nhu cầu trạng tra cứu văn 38 2.1.2 Tổng quan hồ sơ 39 2.1.3 Tổng quan văn 39 2.1.4 Số, ký hiệu văn 42 2.1.5 Tên loại văn 42 2.1.6 Trích yếu nội dung 43 2.2 Phân tích tốn Tìm kiếm văn Chi cục VTLT 44 2.2.1 Giới thiệu toán 44 2.2.2 Tìm kiếm tìm kiếm nâng cao 44 2.2.3 Giải pháp 48 2.2.4 Các chức ứng dụng 49 2.3 Quy trình xây dựng Web ngữ nghĩa 50 2.4 Các công cụ hỗ trợ 52 2.4.1 Công cụ xây dựng ứng dụng Protege 52 2.4.2 Bộ Visual Studio.Net 55 2.4.3 Thư viện phát triển ứng dụng 56 2.5 Nhận xét 61 Chương XÂY DỰNG HỆ THỐNG 62 3.1 Mô hình kiến trúc tổng thể hệ thống 62 3.2 Phát triển ứng dụng 64 3.2.1 Qui trình phát triển ứng dụng 64 3.2.2 Môi trường phát triển ứng dụng 65 3.2.3 Xây dựng Ontology 65 3.2.4 Xây dựng giao diện 70 3.3 Đánh giá kết hệ thống 73 KẾT LUẬN VÀ KIẾN NGHỊ 75 DANH MỤC TÀI LIỆU THAM KHẢO 77 PHỤ LỤC 80 iii TÓM TẮT LUẬN VĂN XÂY DỰNG ONTOLOGY PHỤC VỤ LƯU TRỮ VÀ TÌM KIẾM TRỰC TUYẾN CÁC TÀI LIỆU CỦA CHI CỤC VĂN THƯ LƯU TRỮ TỈNH QUẢNG NGÃI Học viên: Cao Xuân Hà Chuyên ngành: Khoa học máy tính Mã số: 60480101 Khóa: 33 Trường Đại học Bách khoa - ĐHĐN Tóm tắt – Cơng nghệ thông tin (CNTT) ứng dụng rộng rãi tiêu chí quan trọng để đánh giá hiệu hoạt động tổ chức Cùng với ứng dụng CNTT Internet, liệu số gia tăng cách nhanh chóng Nhu cầu tìm kiếm tài liệu số phù hợp với yêu cầu người dùng trở nên cấp thiết Chi cục Văn thư Lưu trữ tỉnh Quảng Ngãi (Chi cục) số hoá lưu trữ lượng tài liệu lớn nhu cầu tìm kiếm tài liệu cao Vì vậy, luận văn nghiên cứu đề xuất giải pháp để xây dựng hệ thống lưu trữ tìm kiếm tài liệu dựa Web ngữ nghĩa Chi cục Đóng góp luận văn xây dựng Ontology phục vụ lưu trữ hệ thống Web để người dùng tìm kiếm trực tuyến tài liệu lưu trữ Chi cục Từ khóa – Web ngữ nghĩa, tài liệu số, tìm kiếm, Ontology EXPANDING Abstract - Information technology (IT) is widely used and this is one of the important criteria for evaluating the performance of an organization Together with IT and the Internet, digital data is growing rapidly The need to find digital documents that match the user requirements has become imperative The Department of Record and Archives of Quang Ngãi province (DRAQ) has digitized and archived a huge number of digital documents and the demand for materials is very high Therefore, this thesis studies proposed solutions to build a system for storing and searching Semantic Web - based documents at the DRAQ The main contribution of the thesis is to have built Ontology for storing and a Web system for users to search online archives at the DRAQ Key words - Semantic Web, Digital Document, Search Engine, Ontology iv DANH MỤC CÁC TỪ VIẾT TẮT STT Từ viết tắt Ý nghĩa CSDL Cơ sở liệu WWW World Wide Web CNTT Công nghệ thông tin Chi cục VTLT Chi cục Văn thư Lưu trữ tỉnh Quảng Ngãi v DANH MỤC CÁC HÌNH Hình 1.1 Sự cần thiết Ontology trình chia sẻ tri thức Hình 1.2 So sánh Web 1.0, Web 2.0 Web 3.0 10 Hình 1.3 Q trình phát triển cơng nghệ Web tương lai 11 Hình 1.4 Sơ đồ phát triển tính thơng minh liệu 12 Hình 1.5 Kiến trúc Web ngữ nghĩa qua thời kỳ 15 Hình 1.6 Mối quan hệ thành phần Triple 21 Hình 2.1 Mẫu Quyết định 42 Hình 2.2 Mơ tả suy luận ngang cấp Semantic Web 49 Hình 2.3 Mơ tả suy luận ngược Semantic Web 51 10 Hình 2.4 Mơ hình quan hệ nút cạnh 58 11 Hình 3.1 Mơ hình kiến trúc tổng thể hệ thống 62 12 Hình 3.2 Quy trình truy xuất liệu 64 13 Hình 3.3 Các thuộc tính liệu Data Properies 66 14 Hình 3.4 Giao diện hệ thống 71 15 Hình 3.5 Kết tìm kiếm theo “Trường THPT Võ Nguyên Giáp” 72 16 Hình 3.6 Xem chi tiết văn 72 vi DANH MỤC CÁC BẢNG Bảng 2.1 Bảng chữ viết tắt tên loại văn 44 Bảng 2.2 Các công cụ phát triển Ontology 53 Bảng 2.3 Các lớp chức OwlDotNetApi 61 Bảng 2.4 Các lớp giao tiếp OwlDotNetApi 62 Bảng 3.1 Mối quan hệ lớp mơ tả thuộc tính 71 Bảng 3.2 Bảng đánh giá kết thử nghiệm hệ thống tìm kiếm văn 75 MỞ ĐẦU I Lý chọn đề tài Ngày 03.01.1946, Chủ tịch Hồ Chí Minh ký Thơng đạt số 01 cơng tác cơng văn, giấy tờ, nêu rõ: “Tài liệu lưu trữ có giá trị đặc biệt phương diện kiến thiết quốc gia” Đây văn Nhà nước ta công tác văn thư lưu trữ, đặt móng cho ngành Lưu trữ Việt Nam hình thành phát triển Đến thời kỳ bùng nổ cách mạng CNTT, làm tốt công tác lưu trữ giúp đẩy mạnh cải cách thủ tục hành chính, giúp cho nhà nước nhân dân tiết kiệm nhiều chi phí cho việc lại, trao đổi, giao dịch, tìm kiếm,… Nhận thức trước điều Bộ Chính trị ban hành Nghị số 36-NQ/TW ngày 01 tháng năm 2014 đẩy mạnh ứng dụng, phát triển công nghệ thông tin đáp ứng yêu cầu phát triển bền vững hội nhập quốc tế Nghị 30c/NQ-CP ngày 08/11/2011 Chương trình tổng thể cải cách hành nhà nước giai đoạn 2011 – 2020 Trong đề cập nhiều đến Ứng dụng CNTT - TT quy trình xử lý cơng việc quan hành nhà nước, quan hành nhà nước với giao dịch với tổ chức, cá nhân quan trọng ứng dụng công nghệ thông tin hoạt động dịch vụ hành cơng, dịch vụ công đơn vị nghiệp công Hầu hết quan, đơn vị lưu trữ tài liệu dạng thủ công văn giấy dẫn đến hạn chế như: nhàu nát, hỏng, mờ, khó khăn việc tìm kiếm tài liệu, nhiều thời gian khơng gian lưu trữ Trong nhu cầu đặt cho việc tìm kiếm thơng tin ngày cao Một số văn đăng tải trang Web dừng lại việc cung cấp thông tin chưa cung cấp tri thức cần thiết nên có khó khăn định việc tìm hiểu, tra cứu Như John Naisbitt nói: "Chúng ta chìm ngập thơng tin lại khát khao tri thức" [11] Đúng vậy, World Wide Web (WWW) chứa lượng thông tin khổng lồ, người sử dụng Web dễ dàng truy cập thông tin địa theo liên kết để tìm tài nguyên liên quan khác Như câu hỏi đặt làm để có kết tìm kiếm nhanh xác tới ngữ nghĩa vấn đề mong muốn Web 2.0 đạt thành tựu đáng kể, nhu cầu người dùng không dừng lại việc cải thiện tốc độ mà phải cải thiện chất lượng xử lý Web 3.0 78 PHỤ LỤC SỐ IV PHIẾU YÊU CẦU ĐỌC TÀI LIỆU (Kèm theo Thông tư số 10/2014/TT-BNV ngày 01 tháng 10 năm 2014 Bộ Nội vụ) TÊN CƠ QUAN CHỦ QUẢN TÊN LƯU TRỮ LỊCH SỬ - PHIẾU YÊU CẦU ĐỌC TÀI LIỆU Số: ……………… Họ tên độc giả: Số CMND/Hộ chiếu: Chủ đề nghiên cứu: Số thứ tự Tên phông/ khối tài liệu, mục lục số Ký hiệu hồ sơ/ tài liệu Tiêu đề hồ sơ/tài liệu ………, ngày …… tháng …… năm …… XÉT DUYỆT CỦA NGƯỜI ĐỨNG ĐẦU LƯU TRỮ LỊCH SỬ Ý kiến Phòng đọc Người yêu cầu (ký, ghi rõ họ tên) 79 PHỤ LỤC SỐ VI (của Thông tư số 10/2014/TT-BNV ngày 01 tháng 10 năm 2014 Bộ Nội vụ) PHIẾU YÊU CẦU SAO TÀI LIỆU Số: ………………… Họ tên độc giả: Số CMND/Hộ chiếu: Số thứ tự Tên phông Ký hiệu hồ sơ/ tài liệu Tên văn bản/tài liệu Từ tờ đến tờ Tổng số trang Ghi 80 PHỤ LỤC ... tài: “XÂY DỰNG ONTOLOGY PHỤC VỤ LƯU TRỮ VÀ TÌM KIẾM TRỰC TUYẾN CÁC TÀI LIỆU CỦA CHI CỤC VĂN THƯ LƯU TRỮ TỈNH QUẢNG NGÃI” làm luận văn tốt nghiệp II Mục tiêu nghiên cứu a Mục tiêu nghiên cứu Xây. .. tin văn Chi cục Văn thư Lưu trữ tỉnh Quảng Ngãi - Phương pháp khảo sát: Tìm hiểu cơng tác lưu trữ, quản lý văn Chi cục Văn thư Lưu trữ tỉnh Quảng Ngãi Tìm hiểu hệ thống tra cứu Chi cục Văn thư Lưu. .. CAO XUÂN HÀ XÂY DỰNG ONTOLOGY PHỤC VỤ LƯU TRỮ VÀ TÌM KIẾM TRỰC TUYẾN CÁC TÀI LIỆU CỦA CHI CỤC VĂN THƯ LƯU TRỮ TỈNH QUẢNG NGÃI Chuyên ngành: KHOA HỌC MÁY TÍNH Mã số: 60480101 LUẬN VĂN THẠC SĨ