1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu về dữ liệu đặc tả dùng cho quản lý văn bản điện tử trong các cơ quan nhà nước 04

99 24 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 99
Dung lượng 380,59 KB

Nội dung

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƢỜNG ĐẠI HỌC CÔNG NGHỆ CHU THỊ THẮM NGHIÊN CỨU VỀ DỮ LIỆU ĐẶC TẢ DÙNG CHO QUẢN LÝ VĂN BẢN ĐIỆN TỬ TRONG CÁC CƠ QUAN NHÀ NƢỚC Chuyên ngành: Hệ thống thơng tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ: CƠNG NGHỆ THÔNG TIN NGƢỜI HƢỚNG DẪN: TS PHÙNG VĂN ỔN HÀ NỘI – 2014 LỜI CAM ĐOAN Tôi xin cam đoan Luận văn thạc sĩ: " Nghiên cứu liệu đặc tả dùng cho quản lý văn điện tử quan nhà nƣớc" công trình nghiên cứu cá nhân Tơi dƣới hƣớng dẫn thầy giáo TS Phùng Văn Ổn Các số liệu luận văn số liệu trung thực, không chép tồn văn đƣợc rõ nguồn trích dẫn tài liệu tham khảo Hà Nội, ngày tháng năm 2014 Học viên Chu Thị Thắm LỜI CẢM ƠN Tơi xin tỏ lịng biết ơn sâu sắc tới thầy giáo, cô giáo Trƣờng Đại học Công nghệ - Đại học Quốc Gia Hà Nội tận tình giảng dạy truyền đạt cho Tơi kiến thức kinh nghiệm suốt trình học tập Trƣờng Đặc biệt Tôi xin chân thành cảm ơn thầy giáo TS Phùng Văn Ổn, Văn phịng Chính phủ quan tâm hƣớng dẫn tận tình cho Tơi suốt q trình làm luận văn thạc sĩ Nhờ có bảo ý kiến đóng góp q báu Thầy giúp Tơi hồn thành tốt luận văn thạc sĩ Cuối cùng, Tôi xin chân thành cảm ơn gia đình, bạn bè ln động viên, khuyến khích Tơi suốt q trình học tập hồn thành luận văn Tơi xin chân thành cảm ơn! MỤC LỤC LỜI CAM ĐOAN MỤC LỤC DANH MỤC BẢNG DANH MỤC HÌNH Chƣơng DỮ LIỆU ĐẶC TẢ 1.1 Các khái niệm định nghĩa 1.2.Các chuẩn mực tham khảo áp dụng 1.3.Ứng dụng metadata cho quản lý văn số nƣớc Chƣơng MƠ HÌNH THỰC THỂ VÀ CÁC HOẠT ĐƠNG QUẢN LÝ VĂN BẢN TRONG CÁC CƠ QUAN NHÀ NƢỚC 2.1.Khung pháp lý hành quy định văn 2.2.Hiện trạng sử dụng hệ thống quản lý văn 2.3.Mơ hình hố hoạt động quản lý văn quan nhà nƣớc Chƣơng DỮ LIỆU ĐẶC TẢ DÙNG CHO QUẢN LÝ VĂN BẢN ĐIỆN TỬ TRONG CÁC CƠ QUAN NHÀ NƢỚC 3.1.Hệ thống quản lý văn 3.2.Dữ liệu đặc tả quản lý văn 3.3.Tra cứu văn dựa liệu đặc tả KẾT LUẬN VÀ KIẾN NGHỊ DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢLIÊN QUAN ĐẾN LUẬN VĂN TÀI LIỆU THAM KHẢO DANH MỤC BẢNG Bảng 1.1 Chuẩn metadata chí Bảng 1.2 Metadata lƣu trữ gh Bảng 2.1 Tình hình triển khai hệ thống Quản lý văn điều hành Bộ, quan ngang Bộ Bảng 2.2 Hiện trạng trao đổi văn môi trƣờng mạng Bảng 2.3 Phân tầng lớp thực thể Agent Bảng 2.4 Phân tầng lớp thực thể Record Bảng 2.5 Phân tầng lớp thực thể Business Bảng 3.1 Tập yếu tố liệu đặc tả tạo lập văn Bảng 3.2 Tập yếu tố liệu đặc tả lƣu trữ văn Bảng 3.3 Các kiện văn điện tử Bảng 3.4 Các trƣờng thuộc tính lƣu vết kiện ghi Bảng 3.5 Danh sách tài liệu sau loại bỏ từ không cần thiết Bảng 3.6 Danh sách từ điển Bảng 3.7 Danh sách đảo ngƣợc Bảng 3.8 Minh họa chuyển đổi sa Bảng 3.9 Cấu trúc Block sign Bảng 3.10 Các từ chủ chốt đƣợc lƣu trữ bitvector Bảng 3.11 Bảng mục trƣờng thuộc tính DANH MỤC HÌNH Hình 2.1 Biểu đồ tỉ lệ trung bình số đơn vị thuộc, trực thuộc Bộ, quan ngang Bộ triển khai, sử dụng hệ thống Quản lý văn điều hành năm 20112012 32 Hinh 2.2 Biểu đồ tỉ lệ trung bình văn đi/đến đƣợc chuyển hồn tồn qua mơi trƣờng mạng Bộ, quan ngang Bộ năm 2011-2012 Hình 2.3 Mơ hình hóa hoạt động nghiệp vụ Hình 2.4 Phân tầng lớp thực thể Hình 3.1 Kế thừa metadata Hình 3.2 Sự tác thực thể Hình 3.3 Danh sách tài liệu MỞ ĐẦU I Sự cần thiết Ngày Công nghệ thông tin (CNTT) trở thành yếu tố quan trọng xây dựng thành công hành điện tử, phục vụ đắc lực cho cơng cơng nghiệp hóa, đại hóa Việt Nam Trong năm gần đây, việc ứng dụng công nghệ thông tin hoạt động quan nhà nƣớc (CQNN) đƣợc quan tâm, đạo, đầu tƣ sở hạ tầng kỹ thuật, phát triển số ứng dụng quản lý, điều hành sở liệu phục vụ cho ngành kinh tế - xã hội, bƣớc đầu thực có hiệu thu đƣợc kết định Sự bùng nổ CNTT-TT song hành với gia tăng chóng mặt thông tin, nội dung số quan nhà nƣớc, quy trình nghiệp vụ hành dần đƣợc tin học hóa, việc tạo lập sở liệu từ tài liệu/hồ sơ giấy phục vụ cho hoạt động nghiệp vụ đƣợc Bộ/Ngành địa phƣơng quan tâm Bên cạnh đó, nhu cầu chia sẻ liệu, trao đổi thông tin tƣơng tác hệ thống thông tin quan, tổ chức ngày tăng để tránh lãng phí tài nguyên, tiết kiệm thời gian Do văn công cụ hiệu đƣợc sử dụng mối quan hệ tƣơng tác quan nhà nƣớc với nhau, địi hỏi cần phải có giải pháp thích hợp để giúp quan quản lý nguồn thông tin, văn cách khoa học, phục vụ việc đạo, điều hành, hỗ trợ định, truy cứu trách nhiệm, lƣu trữ Một giải pháp mà phủ điện tử nƣớc dùng sử dụng Metadata, hay gọi liệu đặc tả siêu liệu Dữ liệu đặc tả thơng tin vị trí văn bản, ngƣời sở hữu văn bản, lịch sử hoạt động văn bản, quyền truy nhập văn Các thông tin gọi metadata quản lý văn Metadata quản lý bao gồm tất thông tin văn bản, tác nhân (con ngƣời tổ chức), nghiệp vụ đƣợc sử dụng để quản lý văn phát sinh trình hoạt động quan Metadata quản lý phần không tách rời việc quản lý văn bản, phục vụ loạt chức mục đích Metadata đảm bảo tính xác thực, độ tin cậy, tính tiện dụng toàn vẹn qua thời gian Trong suốt tồn văn bản, lớp metadata đƣợc bổ sung, điều có nghĩa liệu đặc tả tiếp tục tích lũy qua thời gian, thơng tin liên quan đến bối cảnh việc quản lý văn quy trình nghiệp vụ văn đƣợc sử dụng Metadata đƣợc sử dụng nhiều mục đích khác để quan/tổ chức xác định, xác thực, mơ tả, tìm kiếm, quản lý nguồn tài nguyên họ cách có hệ thống cho thỏa mãn đƣợc yêu cầu hoạt động nghiệp vụ quan Tuy nhiên, đại đa số quan nhà nƣớc ta nay, xây dựng hệ thống quản lý văn bản, khái niệm chuẩn mực metadata quản lý văn chƣa đƣợc quan tâm đầy đủ xác nên hệ thống văn đƣợc xây dựng quan nhà nƣớc có nhiều mặt hạn chế quản lý liệu nhƣ trao đổi liệu Hiện tại, có Thơng tƣ 24/2011/TT-BTTTT Bộ Thông tin Truyền thông Quy định việc tạo lập, sử dụng lƣu trữ liệu đặc tả trang thông tin điện tử cổng thông tin điện tử quan nhà nƣớc; Nghị định 64/2007/NĐ-CP Chính phủ ứng dụng công nghệ thông tin hoạt động quan nhà nƣớc có quy định liệu đặc tả, nhiên, việc quy định Nghị định mức đƣa định nghĩa, khái niệm liệu đặc tả mà chƣa có quy định cụ thể việc tạo lập liệu đặc tả cho quản lý văn Vì vậy, việc xây dựng đƣa quy định metadata cho quản lý văn quan nhà nƣớc Việt Nam cần thiết, đảm bảo thống sử dụng quan nhà nƣớc nhằm phục vụ tốt cho việc tìm kiếm thơng tin tổ chức, cá nhân, bảo đảm trao đổi trì nguồn thông tin quan nhà nƣớc I Phạm vi nghiên cứu đề tài Các hoạt động văn nói chung văn điện tử nói riêng bao gồm: tạo lập, lƣu trữ, xử lý trao đổi văn Trong phạm vi nghiên cứu đề tài sâu vào phân tích hai công đoạn tạo lập lƣu trữ văn bản, hai hoạt động tạo nên hạ tầng sở liệu để thực thao tác hoạt động khác liệu Do vậy, đề tài tập chung vào tìm hiểu metadata cho cơng đoạn tạo lập lƣu trữ văn phục vụ cho việc quản lý, truy cập, tìm kiếm văn quan nhà nƣớc II Nội dung chƣơng Chƣơng – DỮ LIỆU ĐẶC TẢ: Giới thiệu khái niệm định nghĩa, số chuẩn metadata ứng dụng metadata cho quản lý văn số nƣớc giới Chƣơng - MƠ HÌNH THỰC THỂ VÀ CÁC HOẠT ĐÔNG QUẢN LÝ VĂN BẢN TRONG CÁC CƠ QUAN NHÀ NƢỚC: Đƣa khung pháp lý hành quy định văn bản, văn điện tử; Hiện trạng sử dụng hệ thống quản lý văn quan nhà nƣớc mơ hình hóa hoạt động quản lý văn quan Chƣơng - DỮ LIỆU ĐẶC TẢ DÙNG CHO QUẢN LÝ VĂN BẢN ĐIỆN TỬ TRONG CÁC CƠ QUAN NHÀ NƢỚC: Trình bày liệu đặc tả (metadata) cho quản lý văn điện tử: Dữ liệu đặc tả tạo lập, lƣu trữ văn điện tử; Tra cứu văn điện tử dựa metadata 10 Chƣơng DỮ LIỆU ĐẶC TẢ 1.1 Các khái niệm định nghĩa 1.1.1 Văn Văn thông tin đƣợc tạo ra, nhận đƣợc, sửa đổi tƣờng minh quan cá nhân tuân thủ yêu cầu nghiệp vụ quan 1.1.2 Văn số (Văn điện tử) Văn số liệu số đƣợc hình thành cách tƣờng minh từ hoạt động quan nhà nƣớc đƣợc tạo từ việc số hóa tài liệu gốc (scan từ giấy) Văn số đơn vị tài liệu sở liệu 1.1.3 Hệ thống văn Hệ thống văn tập hợp văn đƣợc tổ chức đƣợc quản lý 1.1.4 Lập mục ngƣợc (revert indexing) Lập mục ngƣợc trình tạo lập điểm truy nhập để lấy ghi thông tin hệ thống 1.1.5 Metadata Metadata thông tin mô tả đặc tính liệu nhƣ nội dung, định dạng, chất lƣợng, điều kiện đặc tính khác nhằm tạo thuận lợi cho trình tìm kiếm, truy nhập, quản lý lƣu trữ liệu (Thông tư số 24/2011/TT-BTTTT) 1.1.6 Hồ sơ Hồ sơ tập tài liệu có liên quan với vấn đề, việc, đối tƣợng cụ thể có đặc điểm chung, hình thành trình theo dõi, giải công việc thuộc phạm vi chức năng, nhiệm vụ Cơ quan, tổ chức, cá nhân (Trích Điều 2, Luật lưu trữ) 1.1.7 Kho liệu số Kho liệu số nơi lƣu trữ liệu văn điện tử, có khả truy cập liệu theo nghi thức chuẩn, liệu đƣa vào lấy dễ dàng Trong luận văn này, thuật ngữ “Văn bản„,“Hệ thống văn bản„ xem tương đương với thuật ngữ „Bản ghi“, „Hệ thống ghi“ Do vậy, việc dùng thuật ngữ „văn bản“ hay „bản ghi“ thuật ngữ „hệ thống văn bản“ hay „hệ 65 định nhƣ Tất nhiên, tính hữu dụng nhiều hệ thống làm đƣợc, nhiên để làm đƣợc điều hệ thống phải đánh đổi dung lƣợng lƣu trữ lớn tính tốn phức tạp Với tập hợp tài liệu, hệ thống file đảo ngƣợc đƣợc tạo Các IFS riêng biệt đƣợc phát triển cho vùng hay có phần khác tài liệu chẳng hạn nhƣ phần tiêu đề hay tóm tắt nội dung Một hệ thống file đảo ngƣợc đƣợc xây dựng cho phần tác giả với số luật lệ đặc biệt chẳng hạn nhƣ khơng có danh sách phần cách (stop list) Điều cho phép ngƣời dùng tìm kiếm nhanh trƣờng riêng biệt CSDL 3.3.1.3 Các cấu trúc file khác Bên cạnh phƣơng pháp IFS đƣợc dùng phổ biến việc xây dựng mục, có phƣơng pháp khác Một số phƣơng pháp signature file từ/khái niệm đƣợc chuyển đổi sang dạng chuỗi nhị phân (gọi chữ ký (signature)) Các từ từ chuỗi tìm kiếm đƣợc chuyển thành signature việc tìm kiếm khớp vị trí bit signature với signature (đã đƣợc tính trƣớc) tài liệu Theo khía cạnh đó, phƣơng pháp signature file sử dụng cách thức tiếp cận ngƣợc với phƣơng pháp IFS Trong IFS so sánh chuối tìm kiếm với từ chủ chốt (term) để tìm đƣợc tài liệu xác signature file loại bỏ tài liệu khơng khớp Signature chuỗi tìm kiếm đƣợc so sánh tài liệu không khớp đƣợc loại bỏ Những tài liệu lại đƣợc tìm kiếm để xem từ chuỗi tìm kiếm có thực tồn tài liệu không Bảng 3.8 Minh họa chuyển đổi sang giá trị hệ số ký tự Từ chủ chốt Nor her hunger eased 66 Bảng 3.9 Cấu trúc Block signature Từ chủ chốt Nor her hunger eased Block Signature Bảng 3.9 minh họa việc mã hóa tài liệu (một câu) từ theo kiểu block signature Trong ví dụ này, ký tự từ đƣợc chuyển sang chuỗi bit hàm băm f(c) = (c mod 8) với c mã ASCII ký tự tƣơng ứng hệ có số Sau thực phép toán logic OR bốn signature để tạo block signature cho toàn câu (tài liệu) Để thực việc tìm kiếm, signature từ cần tìm kiếm đƣợc tính tốn Sau để xem từ xuất tài liệu nào, signature từ cần tìm đƣợc so sánh với block signature tất tài liệu Việc so sánh thực cách kiểm tra xem bit xuất vị trí signature từ cần tìm phải xuất vị trí tƣơng ứng block signature Ví dụ, từ “her” bảng 3.9 có bit vị trí 8, 11 22, tài liệu có chứa từ “her” vị trí 8,11 22 block signature tài liệu bit phải có giá trị Một biến thể khác cấu trúc signature file cấu trúc bitmap Đây cấu trúc mục đơn giản Trong phƣơng pháp này, từ chủ chốt (term) đƣợc lƣu trữ bitvector (Bảng 3.10) Trong bitvector này, vị trí bit số định danh tài liệu có chứa khái niệm (term) Ví dụ, từ “wheat” xuất tài liệu bitvector từ có bit vị trí đƣợc thiết lập 67 Bảng 3.10 Các từ chủ chốt lưu trữ bitvector Từ chủ chốt banana cranb Hanna hunger manna meat potato query rye sourdough spiritual wheat Với tài liệu dài độ dài bitvector lớn, với phƣơng pháp bitmap cần không gian lƣu trữ lớn để thực đánh mục cho kho tài liệu lớn 3.3.2 Máy tìm kiếm Lucene Search Engine 3.3.2.1 Tổng quan Lucene Search Engine Jakarta Lucene máy tìm kiếm văn có hiệu suất cao, đầy đủ tính đƣợc viết hồn tồn ngơn ngữ Java Đây cơng nghệ thích hợp cho hầu hết ứng dụng địi hỏi việc tìm kiếm tồn văn (full-text), đặc biệt tính khơng phụ thuộc vào tảng hệ điều hành (cross-platform)  Khả indexing: Trên 200MB/giờ với CPU Pentium II/266, RAM 68 cần 1MB heap Kích thƣớc liệu index 30% so với kích thƣớc liệu gốc  Lucene có khả tiềm kiếm nhiều sở liệu indexing khác  Lucene có khả tìm kiếm liệu phân tán mạng  Lucene đƣợc thiết kế để tạo thuận tiện cho việc thêm chức tạo mục tìm kiếm cho nhiều loại ứng dụng khác nhau, bao gồm:  Email có khả tìm kiếm: Một ứng dụng email cho phép ngƣời sử dụng tìm kiếm mẩu tin đƣợc lƣu trữ thêm mẩu tin vào mục chúng đến  Tìm kiếm tài liệu trực tuyến: Một chƣơng trình đọc tài liệu dựa CD, dựa Web đƣợc nhúng vào ứng dụng – cho phép ngƣời sử dụng tìm kiếm tài liệu trực tuyến ấn đƣợc lƣu trữ  Các trang web có khả tìm kiếm: Một trình duyệt web xây dựng cơng cụ tìm kiếm cá nhân để tạo mục cho trang web mà ngƣời đến, cho phép ngƣời sử dụng dễ dàng mở lại trang  Tìm kiếm website: Một chƣơng trình CGI cho phép ngƣời sử dụng tìm kiếm website bạn  Tìm kiếm nội dung: Một ứng dụng cho phép ngƣời sử dụng tìm kiếm tài liệu đƣợc lƣu trữ theo nội dung cụ thể; chức đƣợc tích hợp vào hộp thoại Open Document Việc tạo trì mục đảo ngƣợc (inverted index) công việc trọng tâm xây dựng cơng cụ tìm kiếm từ khóa có hiệu Để tạo mục cho tài liệu, trƣớc tiên ta phải quét qua toàn tài liệu để tạo danh sách postings Các postings mô tả lần xuất từ tài liệu; thông thƣờng posting giá trị bao gồm: () Nếu postings giá trị có dạng nhƣ tập tài liệu sinh danh sách postings đƣợc xếp theo khóa tài liệu Nhƣng để tìm tài liệu có chứa từ cụ thể cách hiệu quả, thay vào ta nên xếp postings theo từ ( vừa theo từ vừa theo khóa 69 tài liệu khiến cho hành động tìm kiếm đa từ nhanh hơn) Tóm lại, việc xây dựng mục tìm kiếm vấn đề xếp mục tìm kiếm danh sách postings đƣợc xếp theo từ 3.3.2.2 Phƣơng pháp cài đặt cải tiến Lucene Hầu hết công cụ tìm kiếm sử dụng B-cây để trì mục; B-cây tƣơng đối ổn định xét theo phƣơng diện chèn đặc điểm I/O tốt ( thao tác tìm kiếm chèn có độ phức tạp thuật tốn O(log(n)) Trong đó, Lucene sử dụng phƣơng pháp hợi khác: thay trì mục đơn, tạo nhiều phân đoạn mục trộn chúng lại theo chu kỳ Đối với tài liệu đƣợc tạo mục, Lucene tạo phân đoạn mục mới, nhƣng sau nhanh chóng trộn phân đoạn nhỏ với phân đoạn lớn - điều giữ cho tổng số phân đoạn nhỏ đƣợc thao tác tìm kiếm ln nhanh chóng Để tối ƣu hóa mục cho việc tìm kiếm nhanh, Lucene trộn tất phân đoạn lại thành phân đoạn nhất, điều có ích cho mục đƣợc thƣờng xuyên cập nhật Để ngăn ngừa xung đột đối tƣợng đọc ghi mục, Lucene không thay đổi phân đoạn chỗ, tạo phân đoạn Khi trộn phân đoạn, Lucene ghi thông tin phân đoạn cũ vào phân đoạn xóa phân đoạn cũ – sau đối tƣợng đọc mục hoạt động đóng lại Phƣơng pháp cung cấp cho lập trình viên khả linh hoạt cao việc đánh đổi tốc độ tạo mục với tốc độ tìm kiếm, đạt đƣợc đặc điểm I/O mong muốn cho hai thao tác trộn tìm kiếm Một phân đoạn Lucene bao gồm số tập tin: Một mục từ điển chứa từ đại diện cho 100 từ từ điển Một từ điển chứa từ đại diện cho từ Một tập tin chứa đại diện cho posting Bởi Lucene khơng cập nhật phân đoạn chỗ, nên phân đoạn đƣợc lƣu trữ tập tin bình thƣờng (khơng có cấu trúc) thay cho B-cây phức tạp Để việc truy xuất đƣợc nhanh, mục từ điển chứa offset đến tập tin từ điển, từ điển lƣu giữ offset đến tập tin chứa posting Lucene cung cấp số phƣơng pháp để nén tập tin từ điển posting – giúp làm giảm thao tác I/O đĩa cứng 70 3.3.2.3 So sánh - đánh giá khả Lucene với cơng cụ tìm kiếm khác Cách tạo mục: tăng dần với cách tạo mục theo lô: Một vài cơng cụ tìm kiếm hỗ trợ cách tạo mục theo lô; chúng tạo mục cho tập tài liệu, việc thêm vào tài liệu trở nên khó khăn nhƣ khơng tạo lại mục cho toàn tài liệu Cách tạo mục tăng dần cho phép việc thêm tài liệu vào mục có sẵn đƣợc dễ dàng Đối với số ứng dụng, cách tạo mục tăng dần có ý nghĩa quan trọng Lucene hỗ trợ hai cách tạo mục Các nguồn liệu: Nhiều công cụ tìm kiếm tạo mục cho tập tin trang Web Điều cản trở ứng dụng mà liệu đƣợc tạo mục đƣợc lƣu sở liệu, nhiều tài liệu ảo tồn tập tin, chẳng hạn nhƣ tập tin dạng ZIP Lucene cho phép lập trình viên cung cấp tài liệu cho đối tƣợng tạo mục thông qua đối tƣợng String đối tƣợng InputStream, điều cho phép nguồn liệu đƣợc tách khỏi liệu Tuy nhiên, với phƣơng pháp này, lập trình viên phải cung cấp đối tƣợng đọc thích hợp với liệu Kiểm soát việc tạo mục:  Các định dạng tập tin: Một số cơng cụ tìm kiếm tạo mục cho tài liệu dạng văn TXT HTML; số công cụ khác hỗ trợ chế lọc giúp cung cấp cách đơn giản để tạo mục cho tài liệu xử lý từ, tài liệu SGML, định dạng tập tin khác Lucene hỗ trợ chế nhƣ  Tạo thẻ cho nội dung: Một số công cụ tìm kiếm xem tài liệu nhƣ luồng liên tục từ; số công cụ khác xem tài liệu gồm nhiều trƣờng liệu, chẳng hạn nhƣ “tiêu đề”, “tóm tắt”, “tác giả” “nội dung” Điều cho phép tạo câu truy vấn giàu nội dung ngữ nghĩa chẳng hạn nhƣ “tác giả có chứa Hamilton nội dung có chứa Constitution” Lucene hỗ trợ việc tạo thẻ cho nội dung cách xem tài liệu nhƣ tập hợp bao gồm nhiều trƣờng, hỗ trợ câu truy vấn có trƣờng dùng để tìm kiếm  Xử lý stop words: Các từ phổ biến, chắng hạn nhƣ “a”, “and”, “the” từ có tần số xuất cao tài liệu có giá trị mục tìm kiếm Nhƣng từ phổ biến nên nhƣ ta thêm chúng vào mục làm tăng đáng kể thời gian tạo 71 mục kích thƣớc mục Hầu hết cơng cụ tìm kiếm khơng tạo mục cho số từ đó, đƣợc gọi stop words Một số công cụ sử dụng danh sách stop words, số công cụ khác chọn stop word cách có thống kê Lucene xử lý stop words thông qua đối tƣợng tổng quát Analyzer cung cấp lớp StopAnalyzer, lớp loại bỏ stop words từ dòng liệu đầu vào  Stemming: Thông thƣờng, ngƣời sử dụng muốn câu truy vấn cho từ so khớp với từ gần giống với từ Thí dụ, câu truy vấn cho từ “jump” đồng thời so khớp với từ “jumped”, “jumper”, “jumps” Việc rút gọn từ trở dạng gốc đƣợc gọi stemming Lucene chƣa cài đặt chế stemming, nhƣng ta dễ dàng thêm vào đối tƣợng thực việc thông qua lớp Analyzer phức tạp  Các loại câu truy vấn: Một số cơng cụ tìm kiếm hỗ trợ nhiều loại câu truy vấn khác Một số hỗ trợ câu truy vấn Boolean đầy đủ; số khác hỗ trợ câu truy vấn AND Một số cơng cụ trả tỉ lệ “thích ứng” với kết trả Một số công cụ xử lý câu truy vấn độ liền kề, ví dụ “search theo sau engine” hoăc “Knicks gần Celtics” Các cơng cụ khác tìm kiếm từ khóa đơn Một số cơng cụ khác tìm kiếm nhiều mục lúc trộn kết tỉ lệ thích ứng có ý nghĩa Lucene hỗ trợ nhiều loại câu truy vấn, bao gồm tất loại kể  Sự đồng thời: Một vấn đề đặt nhiều ngƣời sử dụng tìm kiếm mục lúc đƣợc khơng ? Một ngƣời sử dụng tìm kiếm mục ngƣời khác lại cập nhật ? Lucene cho phép nhiều ngƣời sử dụng tìm kiếm mục đồng thời, chí kể ngƣời sử dụng cập nhật mục  Hỗ trợ ngôn ngữ phi tiếng Anh: Nhiều cơng cụ tìm kiếm ngầm giả định tiếng Anh ngơn ngữ đích; điều đƣợc thể rõ qua danh sách stop-words, thuật toán rút gọn từ đƣa từ gốc, việc sử dụng độ xấp xỉ để so khớp câu truy vấn theo cụm từ Bởi Lucene xử lý luồng liệu đầu vào thông qua lớp Analyzer đƣợc cung cấp lập trình viên, cho phép thực việc lọc cụ thể theo ngôn ngữ 72 3.3.3 Tiêu chuẩn kỹ thuật tạo lập mục Các mục đƣợc thiết lập bao gồm: - Chỉ mục trƣờng thuộc tính liệu đặc tả - Tập hợp mục theo tự điển tệp text nội dung Lập mục theo trƣờng thuộc tính liệu đặc tả Bảng 3.11 Bảng mục trường thuộc tính TT Tiếng Việt Metadata mô tả văn (15 yếu tố DublinCore + yếu tố bổ sung) Định danh Ngƣời tạo Thời gian Mô tả Cơ quan ban hành 10 Loại văn Tiêu đề Chủ đề Quan hệ Ngôn ngữ 11 Ngƣời cộng tác 12 13 14 15 Phạm vi Định dạng Các quyền Nguồn 16 Độ mật 17 Độ khẩn Yếu tố bổ sung 18 Nơi nhận 19 Độc giả 20 Vị trí 21 Mức ƣu tiên 22 Ngƣời tạo lập 23 Cơ quan tạo lập 24 Thời gian tạo lập Metadata lưu trữ văn 25 26 27 28 29 30 Số hiệu hồ sơ Số hiệu Kho lƣu trữ Thời gian đăng ký văn vào kho lƣu trữ Ngƣời đăng ký văn vào kho lƣu trữ Cơ quan lƣu trữ Thời hạn lƣu văn 31 Chức Các trƣờng đƣợc đánh mục hỗ trợ cho việc tìm kiếm văn đƣợc nhanh chóng 74 KẾT LUẬN VÀ KIẾN NGHỊ Hệ thống tin học phục vụ nghiệp vụ hành cần thiết phải đáp ứng yêu cầu, qui định hành Các yêu cầu, qui định hành qui định xác thực thẩm quyền, trách nhiệm tổ chức máy hành chính, quan hệ hành phận Đây yêu cầu pháp lý, nảy sinh hoạt động hành quan Hệ thống tin học đảm bảo đƣợc yêu cầu nêu cần đƣợc phân biệt với Hệ thống tin học túy Việc trao đổi văn hoạt động gửi nhận chuyển yếu tố pháp lý từ pháp nhân đến pháp nhân khác, việc trao đổi văn hành điện tử đƣợc thực thơng qua kho văn hành điện tử Hệ thống tin học cần đƣợc thiết kế để tuân thủ đƣợc điều Đề tài “Nghiên cứu liệu đặc tả dùng cho quản lý văn điện tử quan nhà nƣớc” tìm hiểu trạng sử dụng hệ thống quản lý văn quan nhà nƣớc Việt Nam để rút khó khăn, bất cập việc quản lý văn CQNN, đồng thời nghiên cứu số tiêu chuẩn metadata ứng dụng metadata quản lý văn số nƣớc giới, mơ hình hóa mơ hình nghiệp vụ CQNN Việt Nam, sở đề xuất metadata tạo lập lƣu trữ văn phù hợp với hệ thống hành quan để đảm bảo khơng cịn bất cập việc tạo lập, lƣu trữ văn quan nhà nƣớc Kiến nghị, trƣờng học đặc biệt Trung tâm thƣ viện Trƣờng xây dựng hệ thống quản lý tài liệu liệu đặc tả (metadata) phục vụ cho tra cứu, quản lý nguồn tài nguyên thông tin cách dễ dàng 75 DANH MỤC CƠNG TRÌNH KHOA HỌC CỦA TÁC GIẢLIÊN QUAN ĐẾN LUẬN VĂN Chu Thị Thắm, 2011, tham chiếu số hóa tài liệu kho lƣu trữ tài liệu số hóa, tạp chí phần mềm nội dung số, ISSN 1859-4689 số 2, trang 55 đến 64 Chu Thị Thắm, 2012, chuẩn hóa qui trình trao đổi văn điện tử quan nhà nƣớc, tạp chí phần mềm nội dung số, ISSN 1859-4689 số 3, trang 47 đến 51 Chu Thị Thắm, 2013, chuẩn hóa liệu văn điện tử quan nhà nƣớc, tạp chí phần mềm nội dung số, ISSN 1859-4689 số 4, trang 34 đến 40 76 TÀI LIỆU THAM KHẢO [1] ISO 15386:2003 Dublin Core Standarrd; [2] ISO 15489-1 Information and documentation – Record management Part 1: General; [3] ISO 15489-2 Information and documentation – Record management Part 2: Guideline; [4] ISO 23081-1 Record management processes – Metadata for record Part 1: Principles; [5] ISO 23081-1 Record management processes – Metadata for record Part 2: Guideline Business process: Transfer of digital records Document, http://www.unece.org/cefact/brs/BRS_TransferOfDigitalRecords_V1.0.pdf [6] [7] http://www.archives.gov.vn/Pages/Tin%20chi%20ti%E1%BA%BFt.aspx?itemi d=11&listId=832ab17b-0f81-49a2-ac0b-b1e3aa442c6e&ws=content [8] Báo cáo ứng dụng công nghệ thông tin 2012 Bộ Thông tin Truyền thông (Đăng tải: Tháng 7/2013) AGRkMS - Australian Government Recordkeeping Metadata Standard (Chuẩn metadata lƣu trữ ghi phủ Úc); http://www.naa.gov.au/recordsmanagement/a-z/index.aspx [9] [10] QRKMS - Queensland Recordkeeping Metadata Standard and Guideline GC RMMS - Government of Canada Records Management Metadata Standard; http://www.collectionscanada.gc.ca [11] [12] The New Zealand Government Locator Service (NZGLS) Metadata Element Set; http://www.inst-informatica.pt/servicos/informacao-edocumentacao/biblioteca-digital/infraestrutura-do-software/gestao-de-dados-einformacao/nzgls-element-set-2-1.pdf [13] Báo cáo ứng dụng công nghệ thông tin 2012 Bộ Thông tin Truyền thông (Đăng tải: Tháng 7/2013) [14] Đề tài cấp Thành Phố “Xây dựng giải pháp kỹ thuật tạo lập, xử lý, lƣu trữ, trao đổi văn điện tử quan nhà nƣớc thành phố Hà Nội 77 PHụ LụC Bảng mã loại tài liệu BẢNG CHỮ VIẾT TẮT TÊN LOẠI VĂN BẢN VÀ BẢN SAO (Kèm theo Thông tư số 01/2011/TT-BNV ngày 19 tháng 01 năm 2011 Bộ Nội vụ) Stt Tên loại văn Nghị (cá biệt) Quyết định (cá biệt) Chỉ thị (cá biệt) Quy chế Quy định Thông cáo Thông báo Hƣớng dẫn Chƣơng trình 10 Kế hoạch 11 Phƣơng án 12 Đề án 13 Dự án 14 Báo cáo 15 Biên 16 Tờ trình 17 Hợp đồng 18 Cơng văn 19 Cơng điện 20 Bản ghi nhớ 21 Bản cam kết 22 Bản thỏa thuận 23 Giấy chứng nhận 24 Giấy ủy quyền 25 Giấy mời 26 Giấy giới thiệu 27 Giấy nghỉ phép 28 Giấy đƣờng 29 Giấy biên nhận hồ sơ 30 Phiếu gửi 31 Phiếu chuyển 32 Thƣ công Bản văn Bản y Bản trích Bản lục ... quản lý văn quan nhà nƣớc mơ hình hóa hoạt động quản lý văn quan 9 Chƣơng - DỮ LIỆU ĐẶC TẢ DÙNG CHO QUẢN LÝ VĂN BẢN ĐIỆN TỬ TRONG CÁC CƠ QUAN NHÀ NƢỚC: Trình bày liệu đặc tả (metadata) cho quản. .. pháp lý hành quy định văn 2.2.Hiện trạng sử dụng hệ thống quản lý văn 2.3.Mơ hình hố hoạt động quản lý văn quan nhà nƣớc Chƣơng DỮ LIỆU ĐẶC TẢ DÙNG CHO QUẢN LÝ VĂN BẢN ĐIỆN TỬ TRONG. .. Luận văn thạc sĩ: " Nghiên cứu liệu đặc tả dùng cho quản lý văn điện tử quan nhà nƣớc" cơng trình nghiên cứu cá nhân Tôi dƣới hƣớng dẫn thầy giáo TS Phùng Văn Ổn Các số liệu luận văn số liệu

Ngày đăng: 11/11/2020, 22:07

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w