Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 78 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
78
Dung lượng
1,72 MB
Nội dung
1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ CHU THỊ THẮM NGHIÊN CỨU VỀ DỮ LIỆU ĐẶC TẢ DÙNG CHO QUẢN LÝ VĂN BẢN ĐIỆN TỬ TRONG CÁC CƠ QUAN NHÀ NƢỚC Chuyên ngành: Hệ thống thơng tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ: CƠNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN: TS PHÙNG VĂN ỔN HÀ NỘI – 2014 TIEU LUAN MOI download : skknchat@gmail.com LỜI CAM ĐOAN Tôi xin cam đoan Luận văn thạc sĩ: " Nghiên cứu liệu đặc tả dùng cho quản lý văn điện tử quan nhà nƣớc" cơng trình nghiên cứu cá nhân Tôi dƣới hƣớng dẫn thầy giáo TS Phùng Văn Ổn Các số liệu luận văn số liệu trung thực, khơng chép tồn văn đƣợc rõ nguồn trích dẫn tài liệu tham khảo Hà Nội, ngày tháng năm 2014 Học viên Chu Thị Thắm TIEU LUAN MOI download : skknchat@gmail.com LỜI CẢM ƠN Tơi xin tỏ lịng biết ơn sâu sắc tới thầy giáo, cô giáo Trƣờng Đại học Công nghệ - Đại học Quốc Gia Hà Nội tận tình giảng dạy truyền đạt cho Tôi kiến thức kinh nghiệm suốt trình học tập Trƣờng Đặc biệt Tơi xin chân thành cảm ơn thầy giáo TS Phùng Văn Ổn, Văn phịng Chính phủ quan tâm hƣớng dẫn tận tình cho Tơi suốt q trình làm luận văn thạc sĩ Nhờ có bảo ý kiến đóng góp q báu Thầy giúp Tơi hoàn thành tốt luận văn thạc sĩ Cuối cùng, Tơi xin chân thành cảm ơn gia đình, bạn bè ln động viên, khuyến khích Tơi suốt q trình học tập hồn thành luận văn Tơi xin chân thành cảm ơn! TIEU LUAN MOI download : skknchat@gmail.com MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC BẢNG DANH MỤC HÌNH Chƣơng DỮ LIỆU ĐẶC TẢ 10 1.1 Các khái niệm định nghĩa 10 1.2.Các chuẩn mực tham khảo áp dụng 11 1.3.Ứng dụng metadata cho quản lý văn số nƣớc 13 Chƣơng MƠ HÌNH THỰC THỂ VÀ CÁC HOẠT ĐÔNG QUẢN LÝ VĂN BẢN TRONG CÁC CƠ QUAN NHÀ NƢỚC 23 2.1 Khung pháp lý hành quy định văn bản, văn điện tử 23 2.2 Hiện trạng sử dụng hệ thống quản lý văn quan nhà nƣớc 28 2.3.Mơ hình hố hoạt động quản lý văn quan nhà nƣớc 36 Chƣơng DỮ LIỆU ĐẶC TẢ DÙNG CHO QUẢN LÝ VĂN BẢN ĐIỆN TỬ TRONG CÁC CƠ QUAN NHÀ NƢỚC 44 3.1 Hệ thống quản lý văn 44 3.2 Dữ liệu đặc tả quản lý văn 45 3.3.Tra cứu văn dựa liệu đặc tả 59 KẾT LUẬN VÀ KIẾN NGHỊ 74 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢLIÊN QUAN ĐẾN LUẬN VĂN 75 TÀI LIỆU THAM KHẢO 76 TIEU LUAN MOI download : skknchat@gmail.com DANH MỤC BẢNG Bảng 1.1 Chuẩn metadata phủ Úc 14 Bảng 1.2 Metadata lƣu trữ ghi Chính phủ Úc phiên 2.0 16 Bảng 2.1 Tình hình triển khai hệ thống Quản lý văn điều hành Bộ, quan ngang Bộ 30 Bảng 2.2 Hiện trạng trao đổi văn môi trƣờng mạng 33 Bảng 2.3 Phân tầng lớp thực thể Agent 39 Bảng 2.4 Phân tầng lớp thực thể Record 40 Bảng 2.5 Phân tầng lớp thực thể Business 41 Bảng 3.1 Tập yếu tố liệu đặc tả tạo lập văn 49 Bảng 3.2 Tập yếu tố liệu đặc tả lƣu trữ văn 52 Bảng 3.3 Các kiện văn điện tử 53 Bảng 3.4 Các trƣờng thuộc tính lƣu vết kiện ghi 57 Bảng 3.5 Danh sách tài liệu sau loại bỏ từ không cần thiết 62 Bảng 3.6 Danh sách từ điển 63 Bảng 3.7 Danh sách đảo ngƣợc 64 Bảng 3.8 Minh họa chuyển đổi sang giá trị hệ số ký tự 65 Bảng 3.9 Cấu trúc Block signature 66 Bảng 3.10 Các từ chủ chốt đƣợc lƣu trữ bitvector 67 Bảng 3.11 Bảng mục trƣờng thuộc tính 72 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 DANH MỤC HÌNH Hình 2.1 Biểu đồ tỉ lệ trung bình số đơn vị thuộc, trực thuộc Bộ, quan ngang Bộ triển khai, sử dụng hệ thống Quản lý văn điều hành năm 20112012 32 Hinh 2.2 Biểu đồ tỉ lệ trung bình văn đi/đến đƣợc chuyển hồn tồn qua mơi trƣờng mạng Bộ, quan ngang Bộ năm 2011-2012 35 Hình 2.3 Mơ hình hóa hoạt động nghiệp vụ 36 Hình 2.4 Phân tầng lớp thực thể 38 Hình 3.1 Kế thừa metadata 45 Hình 3.2 Sự tác thực thể 53 Hình 3.3 Danh sách tài liệu 62 (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 MỞ ĐẦU I Sự cần thiết Ngày Công nghệ thông tin (CNTT) trở thành yếu tố quan trọng xây dựng thành công hành điện tử, phục vụ đắc lực cho cơng cơng nghiệp hóa, đại hóa Việt Nam Trong năm gần đây, việc ứng dụng công nghệ thông tin hoạt động quan nhà nƣớc (CQNN) đƣợc quan tâm, đạo, đầu tƣ sở hạ tầng kỹ thuật, phát triển số ứng dụng quản lý, điều hành sở liệu phục vụ cho ngành kinh tế - xã hội, bƣớc đầu thực có hiệu thu đƣợc kết định Sự bùng nổ CNTT-TT song hành với gia tăng chóng mặt thơng tin, nội dung số quan nhà nƣớc, quy trình nghiệp vụ hành dần đƣợc tin học hóa, việc tạo lập sở liệu từ tài liệu/hồ sơ giấy phục vụ cho hoạt động nghiệp vụ đƣợc Bộ/Ngành địa phƣơng quan tâm Bên cạnh đó, nhu cầu chia sẻ liệu, trao đổi thông tin tƣơng tác hệ thống thông tin quan, tổ chức ngày tăng để tránh lãng phí tài nguyên, tiết kiệm thời gian Do văn công cụ hiệu đƣợc sử dụng mối quan hệ tƣơng tác quan nhà nƣớc với nhau, địi hỏi cần phải có giải pháp thích hợp để giúp quan quản lý nguồn thông tin, văn cách khoa học, phục vụ việc đạo, điều hành, hỗ trợ định, truy cứu trách nhiệm, lƣu trữ Một giải pháp mà phủ điện tử nƣớc dùng sử dụng Metadata, hay gọi liệu đặc tả siêu liệu Dữ liệu đặc tả thơng tin vị trí văn bản, ngƣời sở hữu văn bản, lịch sử hoạt động văn bản, quyền truy nhập văn Các thông tin gọi metadata quản lý văn Metadata quản lý bao gồm tất thông tin văn bản, tác nhân (con ngƣời tổ chức), nghiệp vụ đƣợc sử dụng để quản lý văn phát sinh trình hoạt động quan Metadata quản lý phần không tách rời việc quản lý văn bản, phục vụ loạt chức mục đích Metadata đảm bảo tính xác thực, độ tin cậy, tính tiện dụng toàn vẹn qua thời gian Trong suốt tồn văn bản, lớp metadata đƣợc bổ sung, điều có nghĩa liệu đặc tả tiếp tục tích lũy qua thời gian, thông tin liên quan đến bối cảnh việc quản lý văn quy trình nghiệp vụ văn đƣợc sử dụng Metadata đƣợc sử dụng nhiều mục đích khác để quan/tổ chức xác định, xác thực, mơ tả, tìm kiếm, quản lý (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 nguồn tài nguyên họ cách có hệ thống cho thỏa mãn đƣợc yêu cầu hoạt động nghiệp vụ quan Tuy nhiên, đại đa số quan nhà nƣớc ta nay, xây dựng hệ thống quản lý văn bản, khái niệm chuẩn mực metadata quản lý văn chƣa đƣợc quan tâm đầy đủ xác nên hệ thống văn đƣợc xây dựng quan nhà nƣớc có nhiều mặt hạn chế quản lý liệu nhƣ trao đổi liệu Hiện tại, có Thơng tƣ 24/2011/TT-BTTTT Bộ Thông tin Truyền thông Quy định việc tạo lập, sử dụng lƣu trữ liệu đặc tả trang thông tin điện tử cổng thông tin điện tử quan nhà nƣớc; Nghị định 64/2007/NĐ-CP Chính phủ ứng dụng công nghệ thông tin hoạt động quan nhà nƣớc có quy định liệu đặc tả, nhiên, việc quy định Nghị định mức đƣa định nghĩa, khái niệm liệu đặc tả mà chƣa có quy định cụ thể việc tạo lập liệu đặc tả cho quản lý văn Vì vậy, việc xây dựng đƣa quy định metadata cho quản lý văn quan nhà nƣớc Việt Nam cần thiết, đảm bảo thống sử dụng quan nhà nƣớc nhằm phục vụ tốt cho việc tìm kiếm thơng tin tổ chức, cá nhân, bảo đảm trao đổi trì nguồn thông tin quan nhà nƣớc I Phạm vi nghiên cứu đề tài Các hoạt động văn nói chung văn điện tử nói riêng bao gồm: tạo lập, lƣu trữ, xử lý trao đổi văn Trong phạm vi nghiên cứu đề tài sâu vào phân tích hai công đoạn tạo lập lƣu trữ văn bản, hai hoạt động tạo nên hạ tầng sở liệu để thực thao tác hoạt động khác liệu Do vậy, đề tài tập chung vào tìm hiểu metadata cho cơng đoạn tạo lập lƣu trữ văn phục vụ cho việc quản lý, truy cập, tìm kiếm văn quan nhà nƣớc II Nội dung chƣơng Chƣơng – DỮ LIỆU ĐẶC TẢ: Giới thiệu khái niệm định nghĩa, số chuẩn metadata ứng dụng metadata cho quản lý văn số nƣớc giới Chƣơng - MƠ HÌNH THỰC THỂ VÀ CÁC HOẠT ĐÔNG QUẢN LÝ VĂN BẢN TRONG CÁC CƠ QUAN NHÀ NƢỚC: Đƣa khung pháp lý hành quy định văn bản, văn điện tử; Hiện trạng sử dụng hệ thống quản lý văn quan nhà nƣớc mơ hình hóa hoạt động quản lý văn quan (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 Chƣơng - DỮ LIỆU ĐẶC TẢ DÙNG CHO QUẢN LÝ VĂN BẢN ĐIỆN TỬ TRONG CÁC CƠ QUAN NHÀ NƢỚC: Trình bày liệu đặc tả (metadata) cho quản lý văn điện tử: Dữ liệu đặc tả tạo lập, lƣu trữ văn điện tử; Tra cứu văn điện tử dựa metadata (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 10 Chƣơng DỮ LIỆU ĐẶC TẢ 1.1 Các khái niệm định nghĩa 1.1.1 Văn Văn thông tin đƣợc tạo ra, nhận đƣợc, sửa đổi tƣờng minh quan cá nhân tuân thủ yêu cầu nghiệp vụ quan 1.1.2 Văn số (Văn điện tử) Văn số liệu số đƣợc hình thành cách tƣờng minh từ hoạt động quan nhà nƣớc đƣợc tạo từ việc số hóa tài liệu gốc (scan từ giấy) Văn số đơn vị tài liệu sở liệu 1.1.3 Hệ thống văn Hệ thống văn tập hợp văn đƣợc tổ chức đƣợc quản lý 1.1.4 Lập mục ngƣợc (revert indexing) Lập mục ngƣợc trình tạo lập điểm truy nhập để lấy ghi thông tin hệ thống 1.1.5 Metadata Metadata thông tin mơ tả đặc tính liệu nhƣ nội dung, định dạng, chất lƣợng, điều kiện đặc tính khác nhằm tạo thuận lợi cho q trình tìm kiếm, truy nhập, quản lý lƣu trữ liệu (Thông tư số 24/2011/TTBTTTT) 1.1.6 Hồ sơ Hồ sơ tập tài liệu có liên quan với vấn đề, việc, đối tƣợng cụ thể có đặc điểm chung, hình thành q trình theo dõi, giải cơng việc thuộc phạm vi chức năng, nhiệm vụ Cơ quan, tổ chức, cá nhân (Trích Điều 2, Luật lưu trữ) 1.1.7 Kho liệu số Kho liệu số nơi lƣu trữ liệu văn điện tử, có khả truy cập liệu theo nghi thức chuẩn, liệu đƣa vào lấy dễ dàng Trong luận văn này, thuật ngữ “Văn bản„,“Hệ thống văn bản„ xem tương đương với thuật ngữ „Bản ghi“, „Hệ thống ghi“ Do vậy, việc dùng thuật ngữ „văn bản“ hay „bản ghi“ thuật ngữ „hệ thống văn bản“ hay „hệ (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 64 truy vấn, danh sách đảo ngƣợc đƣợc xây dựng để trỏ tới khu vực phần tài liệu nơi mà từ chủ chốt (term) đƣợc sử dụng Bảng 3.7 mô tả danh sách đảo ngƣợc bao gồm tài liệu vị trí từ chủ chốt (term) tài liệu Ví dụ, từ “wheat” xuất tài liệu thứ ví trí thứ (từ thứ dòng thứ 3) Bảng 3.7 Danh sách đảo ngược Từ chủ chốt banana Tài liệu/Vị trí (5,7) cranb (5,5);(6,4) Hanna (1,7);(8,2) hunger (9,4) manna (2,6) meat (7,6) potato (4,3) query (3,8) rye (3,3);(6,3) sourdough (5,5) spiritual (7,5) wheat (3,5);(6,6) Danh sách đảo ngƣợc trở nên phức tạp máy tìm kiếm cần phải hỗ trợ việc tìm kiếm cụm từ liên tục Một cụm từ liên tục đƣợc dùng nhóm từ kết hợp với đƣợc yêu cầu ngƣời dùng Ví dụ, ta cần tìm kiếm cụm từ “banana bread” có nghĩa ta muốn tìm tài liệu mà có từ “banana” liền sau từ “bread” Nếu danh sách đảo ngƣợc lƣu trữ vị trí từ, chúng đƣa đƣợc (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 65 định nhƣ Tất nhiên, tính hữu dụng nhiều hệ thống làm đƣợc, nhiên để làm đƣợc điều hệ thống phải đánh đổi dung lƣợng lƣu trữ lớn tính tốn phức tạp Với tập hợp tài liệu, khơng có hệ thống file đảo ngƣợc đƣợc tạo Các IFS riêng biệt đƣợc phát triển cho vùng hay có phần khác tài liệu chẳng hạn nhƣ phần tiêu đề hay tóm tắt nội dung Một hệ thống file đảo ngƣợc đƣợc xây dựng cho phần tác giả với số luật lệ đặc biệt chẳng hạn nhƣ khơng có danh sách phần cách (stop list) Điều cho phép ngƣời dùng tìm kiếm nhanh trƣờng riêng biệt CSDL 3.3.1.3 Các cấu trúc file khác Bên cạnh phƣơng pháp IFS đƣợc dùng phổ biến việc xây dựng mục, cịn có phƣơng pháp khác Một số phƣơng pháp signature file từ/khái niệm đƣợc chuyển đổi sang dạng chuỗi nhị phân (gọi chữ ký (signature)) Các từ từ chuỗi tìm kiếm đƣợc chuyển thành signature việc tìm kiếm khớp vị trí bit signature với signature (đã đƣợc tính trƣớc) tài liệu Theo khía cạnh đó, phƣơng pháp signature file sử dụng cách thức tiếp cận ngƣợc với phƣơng pháp IFS Trong IFS so sánh chuối tìm kiếm với từ chủ chốt (term) để tìm đƣợc tài liệu xác signature file loại bỏ tài liệu không khớp Signature chuỗi tìm kiếm đƣợc so sánh tài liệu không khớp đƣợc loại bỏ Những tài liệu cịn lại đƣợc tìm kiếm để xem từ chuỗi tìm kiếm có thực tồn tài liệu không Bảng 3.8 Minh họa chuyển đổi sang giá trị hệ số ký tự Từ chủ chốt Giá trị ký tự hệ số Nor 116 157 162 her 150 145 162 hunger 150 165 156 eased 145 141 163 (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 66 Bảng 3.9 Cấu trúc Block signature f(c) = 2(c mod 8) Từ chủ chốt Nor 01 000 000 10 000 000 00 000 100 her 00 000 001 00 100 000 00 000 100 hunger 00 000 001 00 100 000 00 100 000 eased 00 100 000 00 000 010 00 001 000 Block Signature 01 100 001 10 100 010 00 101 100 Bảng 3.9 minh họa việc mã hóa tài liệu (một câu) từ theo kiểu block signature Trong ví dụ này, ký tự từ đƣợc chuyển sang chuỗi bit hàm băm f(c) = 2(c mod 8) với c mã ASCII ký tự tƣơng ứng hệ có số Sau thực phép tốn logic OR bốn signature để tạo block signature cho toàn câu (tài liệu) Để thực việc tìm kiếm, signature từ cần tìm kiếm đƣợc tính tốn Sau để xem từ xuất tài liệu nào, signature từ cần tìm đƣợc so sánh với block signature tất tài liệu Việc so sánh thực cách kiểm tra xem bit xuất vị trí signature từ cần tìm phải xuất vị trí tƣơng ứng block signature Ví dụ, từ “her” bảng 3.9 có bit vị trí 8, 11 22, tài liệu có chứa từ “her” vị trí 8,11 22 block signature tài liệu bit phải có giá trị Một biến thể khác cấu trúc signature file cấu trúc bitmap Đây cấu trúc mục đơn giản Trong phƣơng pháp này, từ chủ chốt (term) đƣợc lƣu trữ bitvector (Bảng 3.10) Trong bitvector này, vị trí bit số định danh tài liệu có chứa khái niệm (term) Ví dụ, từ “wheat” xuất tài liệu bitvector từ có bit vị trí đƣợc thiết lập (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 67 Bảng 3.10 Các từ chủ chốt lưu trữ bitvector Từ chủ chốt Tài liệu/Vị trí bitvector (5,7) 000 010 000 cranb (5,5);(6,4) 000 011 000 Hanna (1,7);(8,2) 100 000 010 hunger (9,4) 000 000 001 manna (2,6) 010 000 000 meat (7,6) 000 000 100 potato (4,3) 000 100 000 query (3,8) 001 000 000 (3,3);(6,3) 001 001 000 sourdough (5,5) 000 010 000 spiritual (7,5) 000 000 100 (3,5);(6,6) 001 001 000 banana rye wheat Với tài liệu dài độ dài bitvector lớn, với phƣơng pháp bitmap cần khơng gian lƣu trữ lớn để thực đánh mục cho kho tài liệu lớn 3.3.2 Máy tìm kiếm Lucene Search Engine 3.3.2.1 Tổng quan Lucene Search Engine Jakarta Lucene máy tìm kiếm văn có hiệu suất cao, đầy đủ tính đƣợc viết hồn tồn ngơn ngữ Java Đây cơng nghệ thích hợp cho hầu hết ứng dụng địi hỏi việc tìm kiếm tồn văn (full-text), đặc biệt tính khơng phụ thuộc vào tảng hệ điều hành (cross-platform) Khả indexing: Trên 200MB/giờ với CPU Pentium II/266, RAM (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 68 cần 1MB heap Kích thƣớc liệu index 30% so với kích thƣớc liệu gốc Lucene có khả tiềm kiếm nhiều sở liệu indexing khác Lucene có khả tìm kiếm liệu phân tán mạng Lucene đƣợc thiết kế để tạo thuận tiện cho việc thêm chức tạo mục tìm kiếm cho nhiều loại ứng dụng khác nhau, bao gồm: Email có khả tìm kiếm: Một ứng dụng email cho phép ngƣời sử dụng tìm kiếm mẩu tin đƣợc lƣu trữ thêm mẩu tin vào mục chúng đến Tìm kiếm tài liệu trực tuyến: Một chƣơng trình đọc tài liệu - dựa CD, dựa Web đƣợc nhúng vào ứng dụng – cho phép ngƣời sử dụng tìm kiếm tài liệu trực tuyến ấn đƣợc lƣu trữ Các trang web có khả tìm kiếm: Một trình duyệt web xây dựng cơng cụ tìm kiếm cá nhân để tạo mục cho trang web mà ngƣời đến, cho phép ngƣời sử dụng dễ dàng mở lại trang Tìm kiếm website: Một chƣơng trình CGI cho phép ngƣời sử dụng tìm kiếm website bạn Tìm kiếm nội dung: Một ứng dụng cho phép ngƣời sử dụng tìm kiếm tài liệu đƣợc lƣu trữ theo nội dung cụ thể; chức đƣợc tích hợp vào hộp thoại Open Document Việc tạo trì mục đảo ngƣợc (inverted index) công việc trọng tâm xây dựng cơng cụ tìm kiếm từ khóa có hiệu Để tạo mục cho tài liệu, trƣớc tiên ta phải quét qua toàn tài liệu để tạo danh sách postings Các postings mô tả lần xuất từ tài liệu; thông thƣờng posting giá trị bao gồm: () Nếu postings giá trị có dạng nhƣ tập tài liệu sinh danh sách postings đƣợc xếp theo khóa tài liệu Nhƣng để tìm tài liệu có chứa từ cụ thể cách hiệu quả, thay vào ta nên xếp postings theo từ ( vừa theo từ vừa theo khóa (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 69 tài liệu khiến cho hành động tìm kiếm đa từ nhanh hơn) Tóm lại, việc xây dựng mục tìm kiếm vấn đề xếp mục tìm kiếm danh sách postings đƣợc xếp theo từ 3.3.2.2 Phƣơng pháp cài đặt cải tiến Lucene Hầu hết công cụ tìm kiếm sử dụng B-cây để trì mục; B-cây tƣơng đối ổn định xét theo phƣơng diện chèn đặc điểm I/O tốt ( thao tác tìm kiếm chèn có độ phức tạp thuật tốn O(log(n)) Trong đó, Lucene sử dụng phƣơng pháp hợi khác: thay trì mục đơn, tạo nhiều phân đoạn mục trộn chúng lại theo chu kỳ Đối với tài liệu đƣợc tạo mục, Lucene tạo phân đoạn mục mới, nhƣng sau nhanh chóng trộn phân đoạn nhỏ với phân đoạn lớn - điều giữ cho tổng số phân đoạn nhỏ đƣợc thao tác tìm kiếm ln nhanh chóng Để tối ƣu hóa mục cho việc tìm kiếm nhanh, Lucene trộn tất phân đoạn lại thành phân đoạn nhất, điều có ích cho mục đƣợc thƣờng xuyên cập nhật Để ngăn ngừa xung đột đối tƣợng đọc ghi mục, Lucene không thay đổi phân đoạn chỗ, tạo phân đoạn Khi trộn phân đoạn, Lucene ghi thông tin phân đoạn cũ vào phân đoạn xóa phân đoạn cũ – sau đối tƣợng đọc mục hoạt động đóng lại Phƣơng pháp cung cấp cho lập trình viên khả linh hoạt cao việc đánh đổi tốc độ tạo mục với tốc độ tìm kiếm, đạt đƣợc đặc điểm I/O mong muốn cho hai thao tác trộn tìm kiếm Một phân đoạn Lucene bao gồm số tập tin: Một mục từ điển chứa từ đại diện cho 100 từ từ điển Một từ điển chứa từ đại diện cho từ Một tập tin chứa đại diện cho posting Bởi Lucene khơng cập nhật phân đoạn chỗ, nên phân đoạn đƣợc lƣu trữ tập tin bình thƣờng (khơng có cấu trúc) thay cho B-cây phức tạp Để việc truy xuất đƣợc nhanh, mục từ điển chứa offset đến tập tin từ điển, từ điển lƣu giữ offset đến tập tin chứa posting Lucene cung cấp số phƣơng pháp để nén tập tin từ điển posting – giúp làm giảm thao tác I/O đĩa cứng (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 70 3.3.2.3 So sánh - đánh giá khả Lucene với công cụ tìm kiếm khác Cách tạo mục: tăng dần với cách tạo mục theo lô: Một vài công cụ tìm kiếm hỗ trợ cách tạo mục theo lô; chúng tạo mục cho tập tài liệu, việc thêm vào tài liệu trở nên khó khăn nhƣ khơng tạo lại mục cho tồn tài liệu Cách tạo mục tăng dần cho phép việc thêm tài liệu vào mục có sẵn đƣợc dễ dàng Đối với số ứng dụng, cách tạo mục tăng dần có ý nghĩa quan trọng Lucene hỗ trợ hai cách tạo mục Các nguồn liệu: Nhiều cơng cụ tìm kiếm tạo mục cho tập tin trang Web Điều cản trở ứng dụng mà liệu đƣợc tạo mục đƣợc lƣu sở liệu, nhiều tài liệu ảo tồn tập tin, chẳng hạn nhƣ tập tin dạng ZIP Lucene cho phép lập trình viên cung cấp tài liệu cho đối tƣợng tạo mục thông qua đối tƣợng String đối tƣợng InputStream, điều cho phép nguồn liệu đƣợc tách khỏi liệu Tuy nhiên, với phƣơng pháp này, lập trình viên phải cung cấp đối tƣợng đọc thích hợp với liệu Kiểm sốt việc tạo mục: Các định dạng tập tin: Một số cơng cụ tìm kiếm tạo mục cho tài liệu dạng văn TXT HTML; số công cụ khác hỗ trợ chế lọc giúp cung cấp cách đơn giản để tạo mục cho tài liệu xử lý từ, tài liệu SGML, định dạng tập tin khác Lucene hỗ trợ chế nhƣ Tạo thẻ cho nội dung: Một số cơng cụ tìm kiếm xem tài liệu nhƣ luồng liên tục từ; số công cụ khác xem tài liệu gồm nhiều trƣờng liệu, chẳng hạn nhƣ “tiêu đề”, “tóm tắt”, “tác giả” “nội dung” Điều cho phép tạo câu truy vấn giàu nội dung ngữ nghĩa chẳng hạn nhƣ “tác giả có chứa Hamilton nội dung có chứa Constitution” Lucene hỗ trợ việc tạo thẻ cho nội dung cách xem tài liệu nhƣ tập hợp bao gồm nhiều trƣờng, hỗ trợ câu truy vấn có trƣờng dùng để tìm kiếm Xử lý stop words: Các từ phổ biến, chắng hạn nhƣ “a”, “and”, “the” từ có tần số xuất cao tài liệu có giá trị mục tìm kiếm Nhƣng từ phổ biến nên nhƣ ta thêm chúng vào mục làm tăng đáng kể thời gian tạo (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 71 mục kích thƣớc mục Hầu hết cơng cụ tìm kiếm khơng tạo mục cho số từ đó, đƣợc gọi stop words Một số công cụ sử dụng danh sách stop words, số cơng cụ khác chọn stop word cách có thống kê Lucene xử lý stop words thông qua đối tƣợng tổng quát Analyzer cung cấp lớp StopAnalyzer, lớp loại bỏ stop words từ dòng liệu đầu vào Stemming: Thông thƣờng, ngƣời sử dụng muốn câu truy vấn cho từ so khớp với từ gần giống với từ Thí dụ, câu truy vấn cho từ “jump” đồng thời so khớp với từ “jumped”, “jumper”, “jumps” Việc rút gọn từ trở dạng gốc đƣợc gọi stemming Lucene chƣa cài đặt chế stemming, nhƣng ta dễ dàng thêm vào đối tƣợng thực việc thông qua lớp Analyzer phức tạp Các loại câu truy vấn: Một số công cụ tìm kiếm hỗ trợ nhiều loại câu truy vấn khác Một số hỗ trợ câu truy vấn Boolean đầy đủ; số khác hỗ trợ câu truy vấn AND Một số công cụ trả tỉ lệ “thích ứng” với kết trả Một số cơng cụ xử lý câu truy vấn độ liền kề, ví dụ “search theo sau engine” hoăc “Knicks gần Celtics” Các công cụ khác tìm kiếm từ khóa đơn Một số cơng cụ khác tìm kiếm nhiều mục lúc trộn kết tỉ lệ thích ứng có ý nghĩa Lucene hỗ trợ nhiều loại câu truy vấn, bao gồm tất loại kể Sự đồng thời: Một vấn đề đặt nhiều ngƣời sử dụng tìm kiếm mục lúc đƣợc không ? Một ngƣời sử dụng tìm kiếm mục ngƣời khác lại cập nhật ? Lucene cho phép nhiều ngƣời sử dụng tìm kiếm mục đồng thời, chí kể ngƣời sử dụng cập nhật mục Hỗ trợ ngôn ngữ phi tiếng Anh: Nhiều cơng cụ tìm kiếm ngầm giả định tiếng Anh ngơn ngữ đích; điều đƣợc thể rõ qua danh sách stop-words, thuật toán rút gọn từ đƣa từ gốc, việc sử dụng độ xấp xỉ để so khớp câu truy vấn theo cụm từ Bởi Lucene xử lý luồng liệu đầu vào thông qua lớp Analyzer đƣợc cung cấp lập trình viên, cho phép thực việc lọc cụ thể theo ngôn ngữ (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 72 3.3.3 Tiêu chuẩn kỹ thuật tạo lập mục Các mục đƣợc thiết lập bao gồm: - Chỉ mục trƣờng thuộc tính liệu đặc tả - Tập hợp mục theo tự điển tệp text nội dung Lập mục theo trƣờng thuộc tính liệu đặc tả Bảng 3.11 Bảng mục trường thuộc tính Yếu tố liệu đặc tả TT Tiếng Việt Tiếng Anh Yếu tố mở rộng Trƣờng mục Metadata mô tả văn (15 yếu tố DublinCore + yếu tố bổ sung) Định danh Identifier Ngƣời tạo Creator Thời gian Date Ngày văn v v Ngày có hiệu lực Ngày hết hiệu lực Mô tả Cơ quan ban hành Description Publisher v v 10 Loại văn Tiêu đề Chủ đề Quan hệ Ngôn ngữ Type Title Subject Relation Language v v 11 Ngƣời cộng tác Contributor 12 13 14 15 Phạm vi Định dạng Các quyền Nguồn Coverage Format Rights Source Yếu tố bổ sung 16 Độ mật 17 Số văn v Ký hiệu văn v Security Classification Độ khẩn Priority (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 73 18 Nơi nhận Receiver 19 Độc giả Audience 20 Vị trí Location 21 Mức ƣu tiên Precedence 22 Ngƣời tạo lập CreatePerson 23 Cơ quan tạo lập CreateOrganization 24 Thời gian tạo lập CreateDate Metadata lưu trữ văn 25 Số hiệu hồ sơ 26 Số hiệu Kho lƣu trữ IdArchive 27 Thời gian đăng ký văn vào kho lƣu trữ 28 Ngƣời đăng ký văn StoragePerson vào kho lƣu trữ 29 Cơ quan lƣu trữ StorageOrganization 30 Thời hạn lƣu văn currency 31 Chức Function IdCollection v v StorageDate v Các trƣờng đƣợc đánh mục hỗ trợ cho việc tìm kiếm văn đƣợc nhanh chóng (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 74 KẾT LUẬN VÀ KIẾN NGHỊ Hệ thống tin học phục vụ nghiệp vụ hành cần thiết phải đáp ứng yêu cầu, qui định hành Các yêu cầu, qui định hành qui định xác thực thẩm quyền, trách nhiệm tổ chức máy hành chính, quan hệ hành phận Đây yêu cầu pháp lý, nảy sinh hoạt động hành quan Hệ thống tin học đảm bảo đƣợc yêu cầu nêu cần đƣợc phân biệt với Hệ thống tin học túy Việc trao đổi văn hoạt động gửi nhận chuyển yếu tố pháp lý từ pháp nhân đến pháp nhân khác, việc trao đổi văn hành điện tử đƣợc thực thông qua kho văn hành điện tử Hệ thống tin học cần đƣợc thiết kế để tuân thủ đƣợc điều Đề tài “Nghiên cứu liệu đặc tả dùng cho quản lý văn điện tử quan nhà nƣớc” tìm hiểu trạng sử dụng hệ thống quản lý văn quan nhà nƣớc Việt Nam để rút khó khăn, bất cập việc quản lý văn CQNN, đồng thời nghiên cứu số tiêu chuẩn metadata ứng dụng metadata quản lý văn số nƣớc giới, mô hình hóa mơ hình nghiệp vụ CQNN Việt Nam, sở đề xuất metadata tạo lập lƣu trữ văn phù hợp với hệ thống hành quan để đảm bảo khơng cịn bất cập việc tạo lập, lƣu trữ văn quan nhà nƣớc Kiến nghị, trƣờng học đặc biệt Trung tâm thƣ viện Trƣờng xây dựng hệ thống quản lý tài liệu liệu đặc tả (metadata) phục vụ cho tra cứu, quản lý nguồn tài nguyên thông tin cách dễ dàng (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 75 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢLIÊN QUAN ĐẾN LUẬN VĂN - Chu Thị Thắm, 2011, tham chiếu số hóa tài liệu kho lƣu trữ tài liệu số hóa, tạp chí phần mềm nội dung số, ISSN 1859-4689 số 2, trang 55 đến 64 - Chu Thị Thắm, 2012, chuẩn hóa qui trình trao đổi văn điện tử quan nhà nƣớc, tạp chí phần mềm nội dung số, ISSN 1859-4689 số 3, trang 47 đến 51 - Chu Thị Thắm, 2013, chuẩn hóa liệu văn điện tử quan nhà nƣớc, tạp chí phần mềm nội dung số, ISSN 1859-4689 số 4, trang 34 đến 40 (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 76 TÀI LIỆU THAM KHẢO [1] ISO 15386:2003 Dublin Core Standarrd; [2] ISO 15489-1 Information and documentation – Record management Part 1: General; [3] ISO 15489-2 Information and documentation – Record management Part 2: Guideline; [4] ISO 23081-1 Record management processes – Metadata for record Part 1: Principles; [5] ISO 23081-1 Record management processes – Metadata for record Part 2: Guideline [6] Business process: Transfer of digital records Document, http://www.unece.org/cefact/brs/BRS_TransferOfDigitalRecords_V1.0.pdf [7] http://www.archives.gov.vn/Pages/Tin%20chi%20ti%E1%BA%BFt.aspx?itemi d=11&listId=832ab17b-0f81-49a2-ac0b-b1e3aa442c6e&ws=content [8] Báo cáo ứng dụng công nghệ thông tin 2012 Bộ Thông tin Truyền thông (Đăng tải: Tháng 7/2013) [9] AGRkMS - Australian Government Recordkeeping Metadata Standard (Chuẩn metadata lƣu trữ ghi phủ Úc); http://www.naa.gov.au/recordsmanagement/a-z/index.aspx [10] QRKMS - Queensland Recordkeeping Metadata Standard and Guideline [11] GC RMMS - Government of Canada Records Management Metadata Standard; http://www.collectionscanada.gc.ca [12] The New Zealand Government Locator Service (NZGLS) Metadata Element Set; http://www.inst-informatica.pt/servicos/informacao-edocumentacao/biblioteca-digital/infraestrutura-do-software/gestao-de-dados-einformacao/nzgls-element-set-2-1.pdf [13] Báo cáo ứng dụng công nghệ thông tin 2012 Bộ Thông tin Truyền thông (Đăng tải: Tháng 7/2013) [14] Đề tài cấp Thành Phố “Xây dựng giải pháp kỹ thuật tạo lập, xử lý, lƣu trữ, trao đổi văn điện tử quan nhà nƣớc thành phố Hà Nội (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 77 PHụ LụC Bảng mã loại tài liệu BẢNG CHỮ VIẾT TẮT TÊN LOẠI VĂN BẢN VÀ BẢN SAO (Kèm theo Thông tư số 01/2011/TT-BNV ngày 19 tháng 01 năm 2011 Bộ Nội vụ) Stt Tên loại văn hành Chữ viết tắt Nghị (cá biệt) NQ Quyết định (cá biệt) QĐ Chỉ thị (cá biệt) CT Quy chế QC Quy định QyĐ Thông cáo TC Thông báo TB Hƣớng dẫn HD Chƣơng trình CTr 10 Kế hoạch KH 11 Phƣơng án PA 12 Đề án ĐA 13 Dự án DA 14 Báo cáo BC 15 Biên BB 16 Tờ trình TTr 17 Hợp đồng HĐ 18 Công văn (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 TIEU LUAN MOI download : skknchat@gmail.com (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04 (LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04(LUAN.van.THAC.si).nghien.cuu.ve.du.lieu.dac.ta.dung.cho.quan.ly.van.ban.dien.tu.trong.cac.co.quan.nha.nuoc.04