TT
Yếu tố dữ liệu đặc tả
Quy định áp dụng Tiếng Việt Tiếng Anh Yếu tố mở rộng
Metadata mô tả văn bản (15 yếu tố DublinCore + 5 yếu tố bổ sung)
2 Ngƣời tạo Creator
3 Thời gian
Date Ngày văn bản Bắt buộc
Ngày có hiệu lực Tùy chọn Ngày hết hiệu lực Tùy chọn
4 Mô tả Description Bắt buộc
5 Cơ quan ban hành Publisher Bắt buộc
6 Loại văn bản Type Bắt buộc
7 Tiêu đề Title Bắt buộc
8 Chủ đề Subject Tùy chọn
9 Quan hệ Relation
10 Ngôn ngữ Language Khuyến nghị
11 Ngƣời cộng tác Contributor Khuyến nghị
12 Phạm vi Coverage Tùy chọn
13 Định dạng Format Tùy chọn
14 Các quyền Rights Tùy chọn
15 Nguồn Source Số văn bản Tùy điều kiện
Ký hiệu văn bản Tùy điều kiện
Yếu tố bổ sung
16 Độ mật Security
Classification
Tùy chọn
17 Độ khẩn priority Tùy chọn
18 Nơi nhận receiver Tùy chọn
19 Độc giả Audience Khuyến nghị
20 Vị trí Location Tùy chọn
21 Mức ƣu tiên Precedence Tùy chọn
Metadata tạo lập văn bản
y) văn bản
23 Cơ quan tạo lập
(sao y) văn bản
CreateOrganiz ation
Bắt buộc
24 Thời gian tạo lập
(sao y) văn bản
CreateDate Bắt buộc
3.2.2. Dữ liệu đặc tả lƣu trữ văn bản
Lƣu trữ văn bản là lƣu các văn bản phát sinh ra trong quá trình các đơn vị thực hiện nghiệp vụ.
Đối với các văn bản có thời hiệu lƣu trữ, việc lƣu trữ văn bản thực hiện theo Pháp lệnh văn thƣ lƣu trữ Quốc gia ngày 04/4/2011.
Khác với văn bản giấy, việc lƣu trữ văn bản hành chính điện tử đƣợc lƣu trữ vật lý thành tệp trong hệ thống máy tính và sử dụng metadata để mô tả hình thức lƣu trữ logic.
Lƣu trữ logic phản ánh đúng theo mô hình lƣu trữ, quản lý tài liệu nhƣ trên thực tế, nghĩa là theo đúng mô hình nhƣ trên mô tả, lƣu trữ logic chia thành 4 tầng, tầng Văn bản (Item), tầng Chuỗi các văn bản xử lý (Transaction Sequence), Hồ sơ các văn bản cùng một nhiệm vụ (File), Kho lƣu trữ văn bản (Archive)
Các thông tin mô tả, dùng để quản lý việc (Metadata) lƣu trữ Hồ sơ:
Số hiệu Kho lƣu trữ (Kho Văn bản soạn thảo, Văn bản lƣu hoặc Văn
bản chuyển)
Số hiệu Nhiệm vụ
Số hiệu Hồ sơ
Quyền sử dụng
Thời hiệu Hồ sơ
Các thông tin mô tả dùng để quản lý việc (Metadata) lƣu trữ Văn bản
Số hiệu Hồ sơ
Số hiệu Văn bản
Quyền sử dụng
Ngoài các dữ liệu đặc tả tạo lập văn bản, để quản lý văn bản trong quá trình lƣu trữ cần phải có thêm các dữ liệu đặc tả về lƣu trữ văn bản, các dữ liệu đặc tả lƣu trữ văn bản trong phạm vi đề tài này đƣợc xây dựng tuân theo các quy định của Nhà nƣớc về văn thƣ lƣu trữ. Tập các yếu tố dữ liệu đặc tả lƣu trữ văn bản đƣợc đề xuất xây dựng nhƣ thể hiện trong Bảng 3.2
Bảng 3.2 Tập các yếu tố dữ liệu đặc tả lưu trữ văn bản
TT
Yếu tố dữ liệu đặc tả Quy định áp dụng
Tiếng Việt Tiếng Anh
1 Định danh Identifier Bắt buộc
2 Số hiệu hồ sơ IdCollection Bắt buộc
3 Số hiệu Kho lƣu trữ IdArchive Bắt buộc
4 Thời gian đăng ký văn bản vào kho lƣu trữ
StorageDate Bắt buộc
5 Ngƣời đăng ký văn bản vào kho lƣu trữ
StoragePerson Bắt buộc
6 Cơ quan lƣu trữ StorageOrganization Bắt buộc
7 Thời hạn lƣu văn bản currency Khuyến nghị
8 Chức năng Function Khuyến nghị
3.2.3. Dữ liệu đặc tả xử lý văn bản
Hoạt động đối với văn bản có sự tƣơng tác của ba thực thể bao gồm: Records (Bản ghi), Agents (Tác nhân), Relationship (Quan hệ).
Records (Bản ghi): Văn bản điện tử
Agents (Tác nhân): Con ngƣời thao tác trên bản ghi
Relationship (Quan hệ): Quan hệ của Tác nhân đối với văn bản, mỗi sự kiện xảy ra trong quá trình xử lý văn bản là một mối quan hệ giữa Agents- Records, Agents-Agents, hoặc Records-Records
Hình 3.2 Sự tác giữa các thực thể
3.2.3.1. Các sự kiện đối với một văn bản điện tử
Danh mục các sự kiện đối với một văn bản điện tử đƣợc thể hiện trong bảng 3.3
Bảng 3.3 Các sự kiện đối với một văn bản điện tử
STT Tên sự kiện
lƣu trữ dữ liệu Chú giải
1 Assigns (Gán) Gán quyền và trách nhiệm nghiệp vụ cho
các tác nhân
2 Attached to (Đính kèm
tới)
Tạo liên kết giữa hai vật thể, thông thƣờng là các tài liệu
3 Authorises (Ủy quyền) Thẩm quyền để thực hiện nghiệp vụ hoặc
một tác vụ.
4 Backs up (Sao lƣu) Sao chép một thực thể bản ghi sang một số
phƣơng tiện truyền thông lƣu trữ để bảo vệ chống bị mất mát.
5 Changes (Thay đổi) Thay đổi giá trị hoặc trạng thái của một
thành phần siêu dữ liệu (metadata) hoặc
with
Agents do Relationship
STT Tên sự kiện
lƣu trữ dữ liệu Chú giải
các nội dung của một tài liệu
6 Closes (Đóng) Kết thúc các thao tác thực hiện trên bản
ghi
7 Compress (Nén) Quá trình giảm thiểu tối đa không gian
chiếm chỗ của một tài nguyên.
8 Contributes to (Đóng
góp)
Tạo ra sự đóng góp nội dung cho bản ghi này.
9 Converts (Chuyển) Chuyển đối bản ghi đã số hóa từ dạng
chuẩn này sang chuẩn khác.
10 Creates (Tạo) Tạo ra nội dung của bản ghi.
11 Decrypts (Giải mã) Quá trình chuyển đổi các dữ liệu đã đƣợc
mã hóa trở lại bên trong dạng gốc để cho
dễ hiểu.
12 Deletes (Xóa) Một hành động xóa (không thay đổi) các
giá trị từ các thành phần siêu dữ liệu (metadata).
13 Destroys (Hủy bỏ) Quá trình hủy vật lý nội dung của một bản
ghi.
14 Digitises (Số hóa) Quá trình chuyển đối bản ghi sang dạng số
hóa để sử dụng thay thế
15 Documents (Tài liệu) Văn bản đƣợc đƣa ra làm bằng chứng cho
một giao dịch hoặc sự kiện đã đƣợc diễn ra.
STT Tên sự kiện
lƣu trữ dữ liệu Chú giải
16 Downloaded (Tải xuống) Quá trình sao chép dữ liệu từ vị trí lƣu trữ đến một ổ đĩa cục bộ
17 Embedded in (Đƣợc nhúng
vào)
Quá trình đƣa một đối tƣợng có khả năng đứng độc lập vào trong tài liệu khác.
18 Encrypts (Mã hóa) Quá trình áp dụng một giao thức mã hóa
dữ liệu mà trả lại dữ liệu số hóa không đọc đƣợc ngoại trừ việc có các xử lý để giải mã.
19 Is version of (là phiên bản của)
Sự tạo ra liên kết giữa hai tài liệu nơi mà tài liệu sau đó thay đổi tài liệu trƣớc và cả hai đều đƣợc giữ lại.
20 Microfilms Quá trình chuyển đổi một tài liệu giấy hoặc
tài liệu số hóa vào trong một bộ dịch đƣợc lƣu trữ trên microfilm.
21 Migrates (Dịch chuyển) Quá trình truyền các bản ghi từ một hệ thống này tới hệ thống khác trong đó duy trì tính xác thực và không có sự biến đổi lớn hoặc việc nhập vào dữ liệu.
22 Next in Sequence (Kế tiếp
tuần tự)
Sự xác lập một liên kết giữa một giao dịch hoặc hoạt động với giao dịch hoặc hoạt động trƣớc đó mà chúng diễn ra theo tuần tự. Khác với mối quan hệ 'Kế vị' nguồn, nó có xu hƣớng chuyển tải cái gì đó diễn ra đặt hay thay thế cái khác.
STT Tên sự kiện
lƣu trữ dữ liệu Chú giải
25 Previous in Sequence (Tuần tự phía trƣớc)
Sự xác lập một liên kết giữa một giao dịch hoặc hoạt động với giao dịch hoặc hoạt động sau đó mà chúng diễn ra theo tuần tự. Khác với mối quan hệ 'Kế vị' nguồn, nó có xu hƣớng chuyển tải cái gì đó diễn ra đặt hay thay thế cái khác.
25 Prints (Bản in) Quá trình diễn tả một bản ghi trên giấy.
26 Receives (Nhận đƣợc) Quá trình nhận một bản ghi
27 Redacts (Biên soạn) Quá trình chỉnh sửa một bản tài liệu để loại
bỏ thông tin nhạy cảm hoặc có tính chất mật trƣớc khi phân phối.
28 References (Tham chiếu) Sự tạo lập một liên kết bên trong hoặc giữa các thực thể thông qua một trích dẫn.
29 Refreshes (Làm cho mới) Quá trình sao chép nội dung của một mảnh phƣơng tiên truyền thông để làm mới lại.
30 Registers (Đăng kí) Quá trình thu nhận metadata ban đầu về
một tài liệu hoặc một thực thể khác trong hệ thống và đảm bảo có một định danh duy nhất.
31 Removes (Di chuyển) Quá trình sao chép vật lý một bản ghi và
ghi nhận vắng mặt của nó đối với việc sử dụng lại hoặc chỉnh sửa bởi một tác nhân cụ thể, đôi khi đƣợc gọi là 'booked out' or 'checked out'.
32 Renders (Hoàn lại) Quá trình chuyển đổi đƣợc yêu cầu để cho
STT Tên sự kiện
lƣu trữ dữ liệu Chú giải
có thể đƣợc đọc bởi một thiết bị chuyên dụng.
33 Replaces (Thay thế) Quá trình sao chép vật lý một bản ghi trở
lại kho lƣu trữ sau khi tái sử dụng hoặc chỉnh sửa bởi một tác nhân cụ thể. Đôi khi đƣợc gọi là 'booked in' or 'checked in'.
34 Reviews (Xem lại) Quá trình kiểm tra các nội dung để đề
phòng một tiêu chuẩn mở rộng đƣợc tạo lập.
35 Sends (Gửi đi) Quá trình phân phối các bản sao của một
bản ghi tới một hay nhiều ngƣời nhận.
36 Transfers (Offline) Quá trình di chuyển một bản ghi tới một vị
trí lƣu trữ khác
37 Views (Xem) Quá trình lấy thông tin để hiển thị màn
hình (Không sao chép hay tải để lƣu trữ cục bộ)
3.2.3.2. Metadata quản lý các sự kiện
Khi có một sự kiện xảy ra đối với bản ghi, cần phải lƣu lại các thông tin về thời gian, kiểu sự kiện, các thành phần tham gia vào sự kiện, những thay đổi hay phát sinh để tiện cho việc truy vết xử lý. Một metadata lƣu lại các thông tin đó có các trƣờng thuộc tính nhƣ bảng 3.4 sau:
Bảng 3.4 Các trường thuộc tính lưu vết sự kiện đối với bản ghi
Thuộc tính Ràng buộc
Thuộc tính Ràng buộc
sử dụng Thuộc tính con Lƣợc đồ sử dụng
1. Identifier Bắt buộc 1.1 Identifier String [M]
1.2 Identifier Scheme [C] Mã số định danh dành cho metadata. Có thể tham khảo một số quy tắc về mã số định danh nhƣ UUID hoặc TimeUnix
2. Name Bắt buộc 2.1 Name Words [M]
2.2 Name Scheme [C]
Tên sự kiện
Sự kiện lƣu giữ bản ghi 3. Date
Range
Bắt buộc 3.1 Start Date [M]
3.2 End Date [C] ISO 8601 ISO 8601 4. Description Tùy chọn - 5. Related Entity
Bắt buộc 5.1 Assigned Entity ID
[M] 5.2 Assigned Entity ID Scheme [C] 5.3 Relationship Role [M] Mã số định danh thực thể tham gia Lƣợc đồ sử dụng của mã số định danh thực thế
Vai trò của thực thể trong sự kiện 6. Change History Có điều kiện 6.1 Property Name [M] 6.2 Prior Value [M]
Tên thuộc tính bị thay đổi giá trị
Giá trị trƣớc khi thay đổi
Relationship Role: Nhận một trong hai giá trị 1 hoặc 2. Thực thể có relationshipRole = 1 là thực thể thực hiện tác động lên thực thể có relationshipRole = 2.
Change History: Khi sự kiện xảy ra làm thay đổi một hoặc nhiều thuộc tính metadata của một thực thể, cần phải lƣu lại thông tin về những thuộc tính bị thay đổi và giá trị trƣớc đó của thuộc tính.
3.3.Tra cứu văn bản dựa trên dữ liệu đặc tả
Hầu hết mọi ngƣời đã quen thuộc với việc sử dụng các bảng chỉ mục trong một cuốn sách. Đó là một phần thƣờng đặt ở cuối mỗi cuốn sách, và khi bạn muốn
tìm một từ chẳng hạn nhƣ từ chỉ mục, bạn sẽ tìm trong phần bảng chỉ mục từ đó
và nó sẽ chỉ cho bạn các trang có liêu quan tới từ chỉ mục. Việc sử dụng bảng
chỉ mục giúp chúng ta có thể tìm đƣợc các thông tin mong muốn mà không cần phải tìm kiếm trên từng trang của cuốn sách. Đƣơng nhiên, với một cuốn sách thì chúng ta vẫn có thể đọc lƣớt qua từng trang của cuốn sách để tìm kiếm thông tin mong muốn. Tuy nhiên, với các thông tin đƣợc lƣu trữ trong máy tính, kích thƣớc của chúng là hàng gigabyte với hàng triệu trang tài liệu. Vì thế, việc duyệt qua các dữ liệu này đối với con ngƣời là không thể hay thậm chí nếu đƣợc thực hiện bằng máy móc cũng sẽ tốn rất nhiều chi phí và thời gian nếu các thông tin không đƣợc đánh chỉ mục. Với các lý do này, Các hệ thống lƣu trữ và truy vấn thông tin tự động cần phải có khả năng đánh chỉ mục các dữ liệu của mình.
3.3.1. Các công nghệ đánh chỉ mục 3.3.1.1. Các khái niệm
Xây dựng một chỉ mục cho một tài liệu không chỉ là việc trích xuất các từ và xây dựng một dữ liệu có cấu trúc dựa trên sự xuất hiện của chúng. Các từ phải đƣợc phân tích/mổ xẻ trƣớc khi đặt vào một cấu trúc file chỉ mục nào đó. Quá
trình này đƣợc biết đến nhƣ là chuẩn hóa item (item normalization).
Nói cách khác, đó chính là quá trình lấy ra đơn vị nhỏ nhất của tạo liệu (trong hầu hết các trƣờng hợp đó là các từ) để xây dựng lên một cấu trúc dữ liệu có thể tìm kiếm đƣợc. Các từ đƣợc định nghĩa là các biểu tƣợng (là ký tự hoặc số) đƣợc phân cách bởi các biểu tƣợng liên từ (ví dụ nhƣ là khoảng trắng). Một hệ thống tìm kiếm phải đƣa ra quyết định dựa trên việc xử lý các từ, số và các liên từ này. Các tài liệu không chỉ đơn giản đƣợc tạo bởi các từ, chúng đƣợc tập hợp từ các
processing token. Việc xác định các processing token chính là phần việc đầu tiên của chuẩn hóa item. Việc miêu tả các đặc điểm của tokens hay diễn giải nghĩa của các từ chủ chốt (terms) đƣợc xử lý sau khi việc chuẩn hóa đƣợc hoàn thành.
Bƣớc tiếp theo trong quá trình chuẩn hóa item là áp dụng danh sách từ phân
cách (stop list) vào tập hợp các processing token. Danh sách từ phân cách là danh sách các từ mà có ít hoặc không có giá trị trong việc tìm kiếm (ví dụ trong tiếng anh các từ able, about, after, allow, became, been, before, certainly, clearly, enough, everywhere, …). Các từ này thƣờng có ảnh hƣởng ít đến việc phân biệt các khái niệm hay các chủ đề trong khi tìm kiếm. Từ quan điểm nén
giảm kích thƣớc của chỉ mục đồng thời giảm lƣợng thời gian và không gian cần thiết để xây dựng cấu trúc dữ liệu có thể tìm kiếm. Tuy nhiên, không gian lƣu
trữ cho danh sách phân cách là không đáng kể so với không gian lƣu trữ tổng
thể của chỉ mục, vì vậy không gian lƣu trữ tiết kiệm đƣợc là không đáng kể.
3.3.1.2. Cấu trúc file đảo ngƣợc (Inverted File Structure - IFS)
Cấu trúc file đảo ngƣợc đƣợc sử dụng rất rộng rãi trong các hệ thống truy vấn thông tin hay các hệ thống CSDL. Chúng bao gồm 3 thành phần đƣợc dùng
để xác định tài liệu nào ứng với từ chủ chốt (term) nào trong chỉ mục. Thay vì
tìm kiếm một từ chủ chốt nào đó trên toàn bộ cơ sở dữ liệu về tài liệu, IFS sắp
xếp các thông tin vào một danh sách rút gọn các từ chủ chốt (term), với mỗi một
từ chủ chốt (term) sẽ có một tập hợp các tài liệu tƣơng ứng nào đó. Việc tìm kiếm này tƣơng tự nhƣ khi bạn muốn tìm thông tin về một ngọn núi A trong một cuốn sách tham khảo về địa lý, bạn có thể giở lần lƣợt các trang của cuốn sách để tìm thông tin về ngọn núi hoặc bạn có thể kiểm tra phần chỉ mục trƣớc. Phần chỉ mục sẽ chỉ cho bạn biết những trang nào có thông tin về ngọn núi A đó. Trong cả 2 trƣờng hợp, bạn đều có thể tìm đƣợc thông tin bạn cần, tuy nhiên cách sau sẽ nhanh hơn rất nhiều.
Nhƣ đã nêu ở trên, Có 3 thành phần trong IFS:
File tài liệu (document file): là nơi mỗi tài liệu đƣợc gán một con số định danh duy nhất. Đồng thời tất cả các khái niệm (processing tokens) bên trong tài liệu cũng đƣợc xác định (trích xuất) và đặt vào trong thành phần này.
Từ điển (dictionary): là một danh sách đƣợc sắp xếp của tất cả các từ chủ chốt (term) duy nhất cùng với một con trỏ đến danh sách đảo ngược(inversion list)
Danh sách đảo ngược (inversion list): bao gồm các con trỏ để trỏ các từ chủ chốt đến các tài liệu tƣơng ứng có chứa các từ đó (Ví dụ trong một chỉ mục của cuốn sách, con trỏ chính là số trang nơi mà từ chủ chốt có thể đƣợc tìm thấy).
Để hiểu rõ hơn từng thành phần trong IFS, chúng ta sử dụng bài thơ tiếng