.1 Tập các yếu tố dữ liệu đặc tả tạo lập văn bản- 123docz.net

Yếu tố dữ liệu đặc tả

Quy định áp dụng Tiếng Việt Tiếng Anh Yếu tố mở rộng

Metadata mô tả văn bản (15 yếu tố DublinCore + 5 yếu tố bổ sung)

2 Ngƣời tạo Creator

3 Thời gian

Date Ngày văn bản Bắt buộc

Ngày có hiệu lực Tùy chọn Ngày hết hiệu lực Tùy chọn

4 Mô tả Description Bắt buộc

5 Cơ quan ban hành Publisher Bắt buộc

6 Loại văn bản Type Bắt buộc

7 Tiêu đề Title Bắt buộc

8 Chủ đề Subject Tùy chọn

9 Quan hệ Relation

10 Ngôn ngữ Language Khuyến nghị

11 Ngƣời cộng tác Contributor Khuyến nghị

12 Phạm vi Coverage Tùy chọn

13 Định dạng Format Tùy chọn

14 Các quyền Rights Tùy chọn

15 Nguồn Source Số văn bản Tùy điều kiện

Ký hiệu văn bản Tùy điều kiện

Yếu tố bổ sung

16 Độ mật Security

Classification

Tùy chọn

17 Độ khẩn priority Tùy chọn

18 Nơi nhận receiver Tùy chọn

19 Độc giả Audience Khuyến nghị

20 Vị trí Location Tùy chọn

21 Mức ƣu tiên Precedence Tùy chọn

Metadata tạo lập văn bản

y) văn bản

23 Cơ quan tạo lập

(sao y) văn bản

CreateOrganiz ation

Bắt buộc

24 Thời gian tạo lập

(sao y) văn bản

CreateDate Bắt buộc

3.2.2. Dữ liệu đặc tả lƣu trữ văn bản

Lƣu trữ văn bản là lƣu các văn bản phát sinh ra trong quá trình các đơn vị thực hiện nghiệp vụ.

Đối với các văn bản có thời hiệu lƣu trữ, việc lƣu trữ văn bản thực hiện theo Pháp lệnh văn thƣ lƣu trữ Quốc gia ngày 04/4/2011.

Khác với văn bản giấy, việc lƣu trữ văn bản hành chính điện tử đƣợc lƣu trữ vật lý thành tệp trong hệ thống máy tính và sử dụng metadata để mô tả hình thức lƣu trữ logic.

Lƣu trữ logic phản ánh đúng theo mô hình lƣu trữ, quản lý tài liệu nhƣ trên thực tế, nghĩa là theo đúng mô hình nhƣ trên mô tả, lƣu trữ logic chia thành 4 tầng, tầng Văn bản (Item), tầng Chuỗi các văn bản xử lý (Transaction Sequence), Hồ sơ các văn bản cùng một nhiệm vụ (File), Kho lƣu trữ văn bản (Archive)

Các thông tin mô tả, dùng để quản lý việc (Metadata) lƣu trữ Hồ sơ:

 Số hiệu Kho lƣu trữ (Kho Văn bản soạn thảo, Văn bản lƣu hoặc Văn

bản chuyển)

 Số hiệu Nhiệm vụ

 Số hiệu Hồ sơ

 Quyền sử dụng

 Thời hiệu Hồ sơ

Các thông tin mô tả dùng để quản lý việc (Metadata) lƣu trữ Văn bản

 Số hiệu Hồ sơ

 Số hiệu Văn bản

 Quyền sử dụng

Ngoài các dữ liệu đặc tả tạo lập văn bản, để quản lý văn bản trong quá trình lƣu trữ cần phải có thêm các dữ liệu đặc tả về lƣu trữ văn bản, các dữ liệu đặc tả lƣu trữ văn bản trong phạm vi đề tài này đƣợc xây dựng tuân theo các quy định của Nhà nƣớc về văn thƣ lƣu trữ. Tập các yếu tố dữ liệu đặc tả lƣu trữ văn bản đƣợc đề xuất xây dựng nhƣ thể hiện trong Bảng 3.2

Bảng 3.2 Tập các yếu tố dữ liệu đặc tả lưu trữ văn bản

Yếu tố dữ liệu đặc tả Quy định áp dụng

Tiếng Việt Tiếng Anh

1 Định danh Identifier Bắt buộc

2 Số hiệu hồ sơ IdCollection Bắt buộc

3 Số hiệu Kho lƣu trữ IdArchive Bắt buộc

4 Thời gian đăng ký văn bản vào kho lƣu trữ

StorageDate Bắt buộc

5 Ngƣời đăng ký văn bản vào kho lƣu trữ

StoragePerson Bắt buộc

6 Cơ quan lƣu trữ StorageOrganization Bắt buộc

7 Thời hạn lƣu văn bản currency Khuyến nghị

8 Chức năng Function Khuyến nghị

3.2.3. Dữ liệu đặc tả xử lý văn bản

Hoạt động đối với văn bản có sự tƣơng tác của ba thực thể bao gồm: Records (Bản ghi), Agents (Tác nhân), Relationship (Quan hệ).

Records (Bản ghi): Văn bản điện tử

Agents (Tác nhân): Con ngƣời thao tác trên bản ghi

Relationship (Quan hệ): Quan hệ của Tác nhân đối với văn bản, mỗi sự kiện xảy ra trong quá trình xử lý văn bản là một mối quan hệ giữa Agents- Records, Agents-Agents, hoặc Records-Records

Hình 3.2 Sự tác giữa các thực thể

3.2.3.1. Các sự kiện đối với một văn bản điện tử

Danh mục các sự kiện đối với một văn bản điện tử đƣợc thể hiện trong bảng 3.3

Bảng 3.3 Các sự kiện đối với một văn bản điện tử

STT Tên sự kiện

lƣu trữ dữ liệu Chú giải

1 Assigns (Gán) Gán quyền và trách nhiệm nghiệp vụ cho

các tác nhân

2 Attached to (Đính kèm

tới)

Tạo liên kết giữa hai vật thể, thông thƣờng là các tài liệu

3 Authorises (Ủy quyền) Thẩm quyền để thực hiện nghiệp vụ hoặc

một tác vụ.

4 Backs up (Sao lƣu) Sao chép một thực thể bản ghi sang một số

phƣơng tiện truyền thông lƣu trữ để bảo vệ chống bị mất mát.

5 Changes (Thay đổi) Thay đổi giá trị hoặc trạng thái của một

thành phần siêu dữ liệu (metadata) hoặc

with

Agents do Relationship

STT Tên sự kiện

lƣu trữ dữ liệu Chú giải

các nội dung của một tài liệu

6 Closes (Đóng) Kết thúc các thao tác thực hiện trên bản

ghi

7 Compress (Nén) Quá trình giảm thiểu tối đa không gian

chiếm chỗ của một tài nguyên.

8 Contributes to (Đóng

góp)

Tạo ra sự đóng góp nội dung cho bản ghi này.

9 Converts (Chuyển) Chuyển đối bản ghi đã số hóa từ dạng

chuẩn này sang chuẩn khác.

10 Creates (Tạo) Tạo ra nội dung của bản ghi.

11 Decrypts (Giải mã) Quá trình chuyển đổi các dữ liệu đã đƣợc

mã hóa trở lại bên trong dạng gốc để cho

dễ hiểu.

12 Deletes (Xóa) Một hành động xóa (không thay đổi) các

giá trị từ các thành phần siêu dữ liệu (metadata).

13 Destroys (Hủy bỏ) Quá trình hủy vật lý nội dung của một bản

ghi.

14 Digitises (Số hóa) Quá trình chuyển đối bản ghi sang dạng số

hóa để sử dụng thay thế

15 Documents (Tài liệu) Văn bản đƣợc đƣa ra làm bằng chứng cho

một giao dịch hoặc sự kiện đã đƣợc diễn ra.

STT Tên sự kiện

lƣu trữ dữ liệu Chú giải

16 Downloaded (Tải xuống) Quá trình sao chép dữ liệu từ vị trí lƣu trữ đến một ổ đĩa cục bộ

17 Embedded in (Đƣợc nhúng

vào)

Quá trình đƣa một đối tƣợng có khả năng đứng độc lập vào trong tài liệu khác.

18 Encrypts (Mã hóa) Quá trình áp dụng một giao thức mã hóa

dữ liệu mà trả lại dữ liệu số hóa không đọc đƣợc ngoại trừ việc có các xử lý để giải mã.

19 Is version of (là phiên bản của)

Sự tạo ra liên kết giữa hai tài liệu nơi mà tài liệu sau đó thay đổi tài liệu trƣớc và cả hai đều đƣợc giữ lại.

20 Microfilms Quá trình chuyển đổi một tài liệu giấy hoặc

tài liệu số hóa vào trong một bộ dịch đƣợc lƣu trữ trên microfilm.

21 Migrates (Dịch chuyển) Quá trình truyền các bản ghi từ một hệ thống này tới hệ thống khác trong đó duy trì tính xác thực và không có sự biến đổi lớn hoặc việc nhập vào dữ liệu.

22 Next in Sequence (Kế tiếp

tuần tự)

Sự xác lập một liên kết giữa một giao dịch hoặc hoạt động với giao dịch hoặc hoạt động trƣớc đó mà chúng diễn ra theo tuần tự. Khác với mối quan hệ 'Kế vị' nguồn, nó có xu hƣớng chuyển tải cái gì đó diễn ra đặt hay thay thế cái khác.

STT Tên sự kiện

lƣu trữ dữ liệu Chú giải

25 Previous in Sequence (Tuần tự phía trƣớc)

Sự xác lập một liên kết giữa một giao dịch hoặc hoạt động với giao dịch hoặc hoạt động sau đó mà chúng diễn ra theo tuần tự. Khác với mối quan hệ 'Kế vị' nguồn, nó có xu hƣớng chuyển tải cái gì đó diễn ra đặt hay thay thế cái khác.

25 Prints (Bản in) Quá trình diễn tả một bản ghi trên giấy.

26 Receives (Nhận đƣợc) Quá trình nhận một bản ghi

27 Redacts (Biên soạn) Quá trình chỉnh sửa một bản tài liệu để loại

bỏ thông tin nhạy cảm hoặc có tính chất mật trƣớc khi phân phối.

28 References (Tham chiếu) Sự tạo lập một liên kết bên trong hoặc giữa các thực thể thông qua một trích dẫn.

29 Refreshes (Làm cho mới) Quá trình sao chép nội dung của một mảnh phƣơng tiên truyền thông để làm mới lại.

30 Registers (Đăng kí) Quá trình thu nhận metadata ban đầu về

một tài liệu hoặc một thực thể khác trong hệ thống và đảm bảo có một định danh duy nhất.

31 Removes (Di chuyển) Quá trình sao chép vật lý một bản ghi và

ghi nhận vắng mặt của nó đối với việc sử dụng lại hoặc chỉnh sửa bởi một tác nhân cụ thể, đôi khi đƣợc gọi là 'booked out' or 'checked out'.

32 Renders (Hoàn lại) Quá trình chuyển đổi đƣợc yêu cầu để cho

STT Tên sự kiện

lƣu trữ dữ liệu Chú giải

có thể đƣợc đọc bởi một thiết bị chuyên dụng.

33 Replaces (Thay thế) Quá trình sao chép vật lý một bản ghi trở

lại kho lƣu trữ sau khi tái sử dụng hoặc chỉnh sửa bởi một tác nhân cụ thể. Đôi khi đƣợc gọi là 'booked in' or 'checked in'.

34 Reviews (Xem lại) Quá trình kiểm tra các nội dung để đề

phòng một tiêu chuẩn mở rộng đƣợc tạo lập.

35 Sends (Gửi đi) Quá trình phân phối các bản sao của một

bản ghi tới một hay nhiều ngƣời nhận.

36 Transfers (Offline) Quá trình di chuyển một bản ghi tới một vị

trí lƣu trữ khác

37 Views (Xem) Quá trình lấy thông tin để hiển thị màn

hình (Không sao chép hay tải để lƣu trữ cục bộ)

3.2.3.2. Metadata quản lý các sự kiện

Khi có một sự kiện xảy ra đối với bản ghi, cần phải lƣu lại các thông tin về thời gian, kiểu sự kiện, các thành phần tham gia vào sự kiện, những thay đổi hay phát sinh để tiện cho việc truy vết xử lý. Một metadata lƣu lại các thông tin đó có các trƣờng thuộc tính nhƣ bảng 3.4 sau:

Bảng 3.4 Các trường thuộc tính lưu vết sự kiện đối với bản ghi

Thuộc tính Ràng buộc

sử dụng Thuộc tính con Lƣợc đồ sử dụng

1. Identifier Bắt buộc 1.1 Identifier String [M]

1.2 Identifier Scheme [C] Mã số định danh dành cho metadata. Có thể tham khảo một số quy tắc về mã số định danh nhƣ UUID hoặc TimeUnix

2. Name Bắt buộc 2.1 Name Words [M]

2.2 Name Scheme [C]

Tên sự kiện

Sự kiện lƣu giữ bản ghi 3. Date

Range

Bắt buộc 3.1 Start Date [M]

3.2 End Date [C] ISO 8601 ISO 8601 4. Description Tùy chọn - 5. Related Entity

Bắt buộc 5.1 Assigned Entity ID

[M] 5.2 Assigned Entity ID Scheme [C] 5.3 Relationship Role [M] Mã số định danh thực thể tham gia Lƣợc đồ sử dụng của mã số định danh thực thế

Vai trò của thực thể trong sự kiện 6. Change History Có điều kiện 6.1 Property Name [M] 6.2 Prior Value [M]

Tên thuộc tính bị thay đổi giá trị

Giá trị trƣớc khi thay đổi

Relationship Role: Nhận một trong hai giá trị 1 hoặc 2. Thực thể có relationshipRole = 1 là thực thể thực hiện tác động lên thực thể có relationshipRole = 2.

Change History: Khi sự kiện xảy ra làm thay đổi một hoặc nhiều thuộc tính metadata của một thực thể, cần phải lƣu lại thông tin về những thuộc tính bị thay đổi và giá trị trƣớc đó của thuộc tính.

3.3.Tra cứu văn bản dựa trên dữ liệu đặc tả

Hầu hết mọi ngƣời đã quen thuộc với việc sử dụng các bảng chỉ mục trong một cuốn sách. Đó là một phần thƣờng đặt ở cuối mỗi cuốn sách, và khi bạn muốn

tìm một từ chẳng hạn nhƣ từ chỉ mục, bạn sẽ tìm trong phần bảng chỉ mục từ đó

và nó sẽ chỉ cho bạn các trang có liêu quan tới từ chỉ mục. Việc sử dụng bảng

chỉ mục giúp chúng ta có thể tìm đƣợc các thông tin mong muốn mà không cần phải tìm kiếm trên từng trang của cuốn sách. Đƣơng nhiên, với một cuốn sách thì chúng ta vẫn có thể đọc lƣớt qua từng trang của cuốn sách để tìm kiếm thông tin mong muốn. Tuy nhiên, với các thông tin đƣợc lƣu trữ trong máy tính, kích thƣớc của chúng là hàng gigabyte với hàng triệu trang tài liệu. Vì thế, việc duyệt qua các dữ liệu này đối với con ngƣời là không thể hay thậm chí nếu đƣợc thực hiện bằng máy móc cũng sẽ tốn rất nhiều chi phí và thời gian nếu các thông tin không đƣợc đánh chỉ mục. Với các lý do này, Các hệ thống lƣu trữ và truy vấn thông tin tự động cần phải có khả năng đánh chỉ mục các dữ liệu của mình.

3.3.1. Các công nghệ đánh chỉ mục 3.3.1.1. Các khái niệm

Xây dựng một chỉ mục cho một tài liệu không chỉ là việc trích xuất các từ và xây dựng một dữ liệu có cấu trúc dựa trên sự xuất hiện của chúng. Các từ phải đƣợc phân tích/mổ xẻ trƣớc khi đặt vào một cấu trúc file chỉ mục nào đó. Quá

trình này đƣợc biết đến nhƣ là chuẩn hóa item (item normalization).

Nói cách khác, đó chính là quá trình lấy ra đơn vị nhỏ nhất của tạo liệu (trong hầu hết các trƣờng hợp đó là các từ) để xây dựng lên một cấu trúc dữ liệu có thể tìm kiếm đƣợc. Các từ đƣợc định nghĩa là các biểu tƣợng (là ký tự hoặc số) đƣợc phân cách bởi các biểu tƣợng liên từ (ví dụ nhƣ là khoảng trắng). Một hệ thống tìm kiếm phải đƣa ra quyết định dựa trên việc xử lý các từ, số và các liên từ này. Các tài liệu không chỉ đơn giản đƣợc tạo bởi các từ, chúng đƣợc tập hợp từ các

processing token. Việc xác định các processing token chính là phần việc đầu tiên của chuẩn hóa item. Việc miêu tả các đặc điểm của tokens hay diễn giải nghĩa của các từ chủ chốt (terms) đƣợc xử lý sau khi việc chuẩn hóa đƣợc hoàn thành.

Bƣớc tiếp theo trong quá trình chuẩn hóa item là áp dụng danh sách từ phân

cách (stop list) vào tập hợp các processing token. Danh sách từ phân cách là danh sách các từ mà có ít hoặc không có giá trị trong việc tìm kiếm (ví dụ trong tiếng anh các từ able, about, after, allow, became, been, before, certainly, clearly, enough, everywhere, …). Các từ này thƣờng có ảnh hƣởng ít đến việc phân biệt các khái niệm hay các chủ đề trong khi tìm kiếm. Từ quan điểm nén

giảm kích thƣớc của chỉ mục đồng thời giảm lƣợng thời gian và không gian cần thiết để xây dựng cấu trúc dữ liệu có thể tìm kiếm. Tuy nhiên, không gian lƣu

trữ cho danh sách phân cách là không đáng kể so với không gian lƣu trữ tổng

thể của chỉ mục, vì vậy không gian lƣu trữ tiết kiệm đƣợc là không đáng kể.

3.3.1.2. Cấu trúc file đảo ngƣợc (Inverted File Structure - IFS)

Cấu trúc file đảo ngƣợc đƣợc sử dụng rất rộng rãi trong các hệ thống truy vấn thông tin hay các hệ thống CSDL. Chúng bao gồm 3 thành phần đƣợc dùng

để xác định tài liệu nào ứng với từ chủ chốt (term) nào trong chỉ mục. Thay vì

tìm kiếm một từ chủ chốt nào đó trên toàn bộ cơ sở dữ liệu về tài liệu, IFS sắp

xếp các thông tin vào một danh sách rút gọn các từ chủ chốt (term), với mỗi một

từ chủ chốt (term) sẽ có một tập hợp các tài liệu tƣơng ứng nào đó. Việc tìm kiếm này tƣơng tự nhƣ khi bạn muốn tìm thông tin về một ngọn núi A trong một cuốn sách tham khảo về địa lý, bạn có thể giở lần lƣợt các trang của cuốn sách để tìm thông tin về ngọn núi hoặc bạn có thể kiểm tra phần chỉ mục trƣớc. Phần chỉ mục sẽ chỉ cho bạn biết những trang nào có thông tin về ngọn núi A đó. Trong cả 2 trƣờng hợp, bạn đều có thể tìm đƣợc thông tin bạn cần, tuy nhiên cách sau sẽ nhanh hơn rất nhiều.

Nhƣ đã nêu ở trên, Có 3 thành phần trong IFS:

 File tài liệu (document file): là nơi mỗi tài liệu đƣợc gán một con số định danh duy nhất. Đồng thời tất cả các khái niệm (processing tokens) bên trong tài liệu cũng đƣợc xác định (trích xuất) và đặt vào trong thành phần này.

 Từ điển (dictionary): là một danh sách đƣợc sắp xếp của tất cả các từ chủ chốt (term) duy nhất cùng với một con trỏ đến danh sách đảo ngược(inversion list)

 Danh sách đảo ngược (inversion list): bao gồm các con trỏ để trỏ các từ chủ chốt đến các tài liệu tƣơng ứng có chứa các từ đó (Ví dụ trong một chỉ mục của cuốn sách, con trỏ chính là số trang nơi mà từ chủ chốt có thể đƣợc tìm thấy).

Để hiểu rõ hơn từng thành phần trong IFS, chúng ta sử dụng bài thơ tiếng

.1 Tập các yếu tố dữ liệu đặc tả tạo lập văn bản

.3 Mô hình hóa hoạt động nghiệp vụ

Hệ thống quản lý văn bản