Bảng 3.3 Các sự kiện đối với một văn bản điện tử
STT Tên sự kiện
lƣu trữ dữ liệu Chú giải
1 Assigns (Gán) Gán quyền và trách nhiệm nghiệp vụ cho
các tác nhân
2 Attached to (Đính kèm
tới)
Tạo liên kết giữa hai vật thể, thông thƣờng là các tài liệu
3 Authorises (Ủy quyền) Thẩm quyền để thực hiện nghiệp vụ hoặc
một tác vụ.
4 Backs up (Sao lƣu) Sao chép một thực thể bản ghi sang một số
phƣơng tiện truyền thông lƣu trữ để bảo vệ chống bị mất mát.
5 Changes (Thay đổi) Thay đổi giá trị hoặc trạng thái của một
thành phần siêu dữ liệu (metadata) hoặc
with
Agents do Relationship
STT Tên sự kiện
lƣu trữ dữ liệu Chú giải
các nội dung của một tài liệu
6 Closes (Đóng) Kết thúc các thao tác thực hiện trên bản
ghi
7 Compress (Nén) Quá trình giảm thiểu tối đa không gian
chiếm chỗ của một tài nguyên.
8 Contributes to (Đóng
góp)
Tạo ra sự đóng góp nội dung cho bản ghi này.
9 Converts (Chuyển) Chuyển đối bản ghi đã số hóa từ dạng
chuẩn này sang chuẩn khác.
10 Creates (Tạo) Tạo ra nội dung của bản ghi.
11 Decrypts (Giải mã) Quá trình chuyển đổi các dữ liệu đã đƣợc
mã hóa trở lại bên trong dạng gốc để cho
dễ hiểu.
12 Deletes (Xóa) Một hành động xóa (không thay đổi) các
giá trị từ các thành phần siêu dữ liệu (metadata).
13 Destroys (Hủy bỏ) Quá trình hủy vật lý nội dung của một bản
ghi.
14 Digitises (Số hóa) Quá trình chuyển đối bản ghi sang dạng số
hóa để sử dụng thay thế
15 Documents (Tài liệu) Văn bản đƣợc đƣa ra làm bằng chứng cho
một giao dịch hoặc sự kiện đã đƣợc diễn ra.
STT Tên sự kiện
lƣu trữ dữ liệu Chú giải
16 Downloaded (Tải xuống) Quá trình sao chép dữ liệu từ vị trí lƣu trữ đến một ổ đĩa cục bộ
17 Embedded in (Đƣợc nhúng
vào)
Quá trình đƣa một đối tƣợng có khả năng đứng độc lập vào trong tài liệu khác.
18 Encrypts (Mã hóa) Quá trình áp dụng một giao thức mã hóa
dữ liệu mà trả lại dữ liệu số hóa không đọc đƣợc ngoại trừ việc có các xử lý để giải mã.
19 Is version of (là phiên bản của)
Sự tạo ra liên kết giữa hai tài liệu nơi mà tài liệu sau đó thay đổi tài liệu trƣớc và cả hai đều đƣợc giữ lại.
20 Microfilms Quá trình chuyển đổi một tài liệu giấy hoặc
tài liệu số hóa vào trong một bộ dịch đƣợc lƣu trữ trên microfilm.
21 Migrates (Dịch chuyển) Quá trình truyền các bản ghi từ một hệ thống này tới hệ thống khác trong đó duy trì tính xác thực và không có sự biến đổi lớn hoặc việc nhập vào dữ liệu.
22 Next in Sequence (Kế tiếp
tuần tự)
Sự xác lập một liên kết giữa một giao dịch hoặc hoạt động với giao dịch hoặc hoạt động trƣớc đó mà chúng diễn ra theo tuần tự. Khác với mối quan hệ 'Kế vị' nguồn, nó có xu hƣớng chuyển tải cái gì đó diễn ra đặt hay thay thế cái khác.
STT Tên sự kiện
lƣu trữ dữ liệu Chú giải
25 Previous in Sequence (Tuần tự phía trƣớc)
Sự xác lập một liên kết giữa một giao dịch hoặc hoạt động với giao dịch hoặc hoạt động sau đó mà chúng diễn ra theo tuần tự. Khác với mối quan hệ 'Kế vị' nguồn, nó có xu hƣớng chuyển tải cái gì đó diễn ra đặt hay thay thế cái khác.
25 Prints (Bản in) Quá trình diễn tả một bản ghi trên giấy.
26 Receives (Nhận đƣợc) Quá trình nhận một bản ghi
27 Redacts (Biên soạn) Quá trình chỉnh sửa một bản tài liệu để loại
bỏ thông tin nhạy cảm hoặc có tính chất mật trƣớc khi phân phối.
28 References (Tham chiếu) Sự tạo lập một liên kết bên trong hoặc giữa các thực thể thông qua một trích dẫn.
29 Refreshes (Làm cho mới) Quá trình sao chép nội dung của một mảnh phƣơng tiên truyền thông để làm mới lại.
30 Registers (Đăng kí) Quá trình thu nhận metadata ban đầu về
một tài liệu hoặc một thực thể khác trong hệ thống và đảm bảo có một định danh duy nhất.
31 Removes (Di chuyển) Quá trình sao chép vật lý một bản ghi và
ghi nhận vắng mặt của nó đối với việc sử dụng lại hoặc chỉnh sửa bởi một tác nhân cụ thể, đôi khi đƣợc gọi là 'booked out' or 'checked out'.
32 Renders (Hoàn lại) Quá trình chuyển đổi đƣợc yêu cầu để cho
STT Tên sự kiện
lƣu trữ dữ liệu Chú giải
có thể đƣợc đọc bởi một thiết bị chuyên dụng.
33 Replaces (Thay thế) Quá trình sao chép vật lý một bản ghi trở
lại kho lƣu trữ sau khi tái sử dụng hoặc chỉnh sửa bởi một tác nhân cụ thể. Đôi khi đƣợc gọi là 'booked in' or 'checked in'.
34 Reviews (Xem lại) Quá trình kiểm tra các nội dung để đề
phòng một tiêu chuẩn mở rộng đƣợc tạo lập.
35 Sends (Gửi đi) Quá trình phân phối các bản sao của một
bản ghi tới một hay nhiều ngƣời nhận.
36 Transfers (Offline) Quá trình di chuyển một bản ghi tới một vị
trí lƣu trữ khác
37 Views (Xem) Quá trình lấy thông tin để hiển thị màn
hình (Không sao chép hay tải để lƣu trữ cục bộ)
3.2.3.2. Metadata quản lý các sự kiện
Khi có một sự kiện xảy ra đối với bản ghi, cần phải lƣu lại các thông tin về thời gian, kiểu sự kiện, các thành phần tham gia vào sự kiện, những thay đổi hay phát sinh để tiện cho việc truy vết xử lý. Một metadata lƣu lại các thông tin đó có các trƣờng thuộc tính nhƣ bảng 3.4 sau:
Bảng 3.4 Các trường thuộc tính lưu vết sự kiện đối với bản ghi
Thuộc tính Ràng buộc
Thuộc tính Ràng buộc
sử dụng Thuộc tính con Lƣợc đồ sử dụng
1. Identifier Bắt buộc 1.1 Identifier String [M]
1.2 Identifier Scheme [C] Mã số định danh dành cho metadata. Có thể tham khảo một số quy tắc về mã số định danh nhƣ UUID hoặc TimeUnix
2. Name Bắt buộc 2.1 Name Words [M]
2.2 Name Scheme [C]
Tên sự kiện
Sự kiện lƣu giữ bản ghi 3. Date
Range
Bắt buộc 3.1 Start Date [M]
3.2 End Date [C] ISO 8601 ISO 8601 4. Description Tùy chọn - 5. Related Entity
Bắt buộc 5.1 Assigned Entity ID
[M] 5.2 Assigned Entity ID Scheme [C] 5.3 Relationship Role [M] Mã số định danh thực thể tham gia Lƣợc đồ sử dụng của mã số định danh thực thế
Vai trò của thực thể trong sự kiện 6. Change History Có điều kiện 6.1 Property Name [M] 6.2 Prior Value [M]
Tên thuộc tính bị thay đổi giá trị
Giá trị trƣớc khi thay đổi
Relationship Role: Nhận một trong hai giá trị 1 hoặc 2. Thực thể có relationshipRole = 1 là thực thể thực hiện tác động lên thực thể có relationshipRole = 2.
Change History: Khi sự kiện xảy ra làm thay đổi một hoặc nhiều thuộc tính metadata của một thực thể, cần phải lƣu lại thông tin về những thuộc tính bị thay đổi và giá trị trƣớc đó của thuộc tính.
3.3.Tra cứu văn bản dựa trên dữ liệu đặc tả
Hầu hết mọi ngƣời đã quen thuộc với việc sử dụng các bảng chỉ mục trong một cuốn sách. Đó là một phần thƣờng đặt ở cuối mỗi cuốn sách, và khi bạn muốn
tìm một từ chẳng hạn nhƣ từ chỉ mục, bạn sẽ tìm trong phần bảng chỉ mục từ đó
và nó sẽ chỉ cho bạn các trang có liêu quan tới từ chỉ mục. Việc sử dụng bảng
chỉ mục giúp chúng ta có thể tìm đƣợc các thông tin mong muốn mà không cần phải tìm kiếm trên từng trang của cuốn sách. Đƣơng nhiên, với một cuốn sách thì chúng ta vẫn có thể đọc lƣớt qua từng trang của cuốn sách để tìm kiếm thông tin mong muốn. Tuy nhiên, với các thông tin đƣợc lƣu trữ trong máy tính, kích thƣớc của chúng là hàng gigabyte với hàng triệu trang tài liệu. Vì thế, việc duyệt qua các dữ liệu này đối với con ngƣời là không thể hay thậm chí nếu đƣợc thực hiện bằng máy móc cũng sẽ tốn rất nhiều chi phí và thời gian nếu các thông tin không đƣợc đánh chỉ mục. Với các lý do này, Các hệ thống lƣu trữ và truy vấn thông tin tự động cần phải có khả năng đánh chỉ mục các dữ liệu của mình.
3.3.1. Các công nghệ đánh chỉ mục 3.3.1.1. Các khái niệm
Xây dựng một chỉ mục cho một tài liệu không chỉ là việc trích xuất các từ và xây dựng một dữ liệu có cấu trúc dựa trên sự xuất hiện của chúng. Các từ phải đƣợc phân tích/mổ xẻ trƣớc khi đặt vào một cấu trúc file chỉ mục nào đó. Quá
trình này đƣợc biết đến nhƣ là chuẩn hóa item (item normalization).
Nói cách khác, đó chính là quá trình lấy ra đơn vị nhỏ nhất của tạo liệu (trong hầu hết các trƣờng hợp đó là các từ) để xây dựng lên một cấu trúc dữ liệu có thể tìm kiếm đƣợc. Các từ đƣợc định nghĩa là các biểu tƣợng (là ký tự hoặc số) đƣợc phân cách bởi các biểu tƣợng liên từ (ví dụ nhƣ là khoảng trắng). Một hệ thống tìm kiếm phải đƣa ra quyết định dựa trên việc xử lý các từ, số và các liên từ này. Các tài liệu không chỉ đơn giản đƣợc tạo bởi các từ, chúng đƣợc tập hợp từ các
processing token. Việc xác định các processing token chính là phần việc đầu tiên của chuẩn hóa item. Việc miêu tả các đặc điểm của tokens hay diễn giải nghĩa của các từ chủ chốt (terms) đƣợc xử lý sau khi việc chuẩn hóa đƣợc hoàn thành.
Bƣớc tiếp theo trong quá trình chuẩn hóa item là áp dụng danh sách từ phân
cách (stop list) vào tập hợp các processing token. Danh sách từ phân cách là danh sách các từ mà có ít hoặc không có giá trị trong việc tìm kiếm (ví dụ trong tiếng anh các từ able, about, after, allow, became, been, before, certainly, clearly, enough, everywhere, …). Các từ này thƣờng có ảnh hƣởng ít đến việc phân biệt các khái niệm hay các chủ đề trong khi tìm kiếm. Từ quan điểm nén
giảm kích thƣớc của chỉ mục đồng thời giảm lƣợng thời gian và không gian cần thiết để xây dựng cấu trúc dữ liệu có thể tìm kiếm. Tuy nhiên, không gian lƣu
trữ cho danh sách phân cách là không đáng kể so với không gian lƣu trữ tổng
thể của chỉ mục, vì vậy không gian lƣu trữ tiết kiệm đƣợc là không đáng kể.
3.3.1.2. Cấu trúc file đảo ngƣợc (Inverted File Structure - IFS)
Cấu trúc file đảo ngƣợc đƣợc sử dụng rất rộng rãi trong các hệ thống truy vấn thông tin hay các hệ thống CSDL. Chúng bao gồm 3 thành phần đƣợc dùng
để xác định tài liệu nào ứng với từ chủ chốt (term) nào trong chỉ mục. Thay vì
tìm kiếm một từ chủ chốt nào đó trên toàn bộ cơ sở dữ liệu về tài liệu, IFS sắp
xếp các thông tin vào một danh sách rút gọn các từ chủ chốt (term), với mỗi một
từ chủ chốt (term) sẽ có một tập hợp các tài liệu tƣơng ứng nào đó. Việc tìm kiếm này tƣơng tự nhƣ khi bạn muốn tìm thông tin về một ngọn núi A trong một cuốn sách tham khảo về địa lý, bạn có thể giở lần lƣợt các trang của cuốn sách để tìm thông tin về ngọn núi hoặc bạn có thể kiểm tra phần chỉ mục trƣớc. Phần chỉ mục sẽ chỉ cho bạn biết những trang nào có thông tin về ngọn núi A đó. Trong cả 2 trƣờng hợp, bạn đều có thể tìm đƣợc thông tin bạn cần, tuy nhiên cách sau sẽ nhanh hơn rất nhiều.
Nhƣ đã nêu ở trên, Có 3 thành phần trong IFS:
File tài liệu (document file): là nơi mỗi tài liệu đƣợc gán một con số định danh duy nhất. Đồng thời tất cả các khái niệm (processing tokens) bên trong tài liệu cũng đƣợc xác định (trích xuất) và đặt vào trong thành phần này.
Từ điển (dictionary): là một danh sách đƣợc sắp xếp của tất cả các từ chủ chốt (term) duy nhất cùng với một con trỏ đến danh sách đảo ngược(inversion list)
Danh sách đảo ngược (inversion list): bao gồm các con trỏ để trỏ các từ chủ chốt đến các tài liệu tƣơng ứng có chứa các từ đó (Ví dụ trong một chỉ mục của cuốn sách, con trỏ chính là số trang nơi mà từ chủ chốt có thể đƣợc tìm thấy).
Để hiểu rõ hơn từng thành phần trong IFS, chúng ta sử dụng bài thơ tiếng anh sau làm ví dụ minh họa:
There once was a searcher named Hanna Who needed some info on manna She put “rye” and “wheat” in her query
Along with “potato” or “cranbeery” But no mention of “sourdough” or “banana”
Instead of rye, cranberry, or wheat The results had more spiritual meat
So Hanna was not pleased, Nor was her hunger eased,
'Cause she was looking for something to eat
File tài liệu (document file)
Bƣớc đầu tiên trong việc tạo IFS là trích xuất các từ chủ chốt (term) có
thể cần dùng trong chỉ mục và gán cho mỗi tài liệu một con số duy nhất. Ví dụ với bài thơ trên, để đơn giản, mỗi dòng trong bài thơ trên sẽ đƣơc coi là một tài liệu (Hình 3.4).
1 There once was a searcher named Hanna
2 Who needed some info on manna 3 She put “rye” and “wheat” in her
query
4 Along with “potato” or “cranbeery” 5 But no mention of “sourdough” or
“banana”
6 Instead of rye, cranberry, or wheat 7 The results had more spiritual meat 8 So Hanna was not pleased,
10 'Cause she was looking for something to eat
Hình 3.3 Danh sách các tài liệu
Chú ý rằng chúng ta không chỉ bỏ đi các dấu chấm, dấu phẩy, mà các từ thông dụng mà có ít giá trị trong việc tìm kiếm cũng không đƣợc đƣa vào chỉ mục. Điều này dẫn tới việc giảm đáng kể số lƣợng từ đƣợc đánh chỉ mục. Với việc loại bỏ nhƣ vậy ta có bảng 3.5
Bảng 3.5 Danh sách các tài liệu sau khi loại bỏ các từ không cần thiết
Số tài liệu Từ chủ chốt
1 searcher, Hanna
2 manna
3 rye, wheat, query
4 potato, cranbeery
5 sourdough, banana
6 rye, cranberry, wheat
7 spiritual, meat
8 Hanna
9 hunger
10 không có từ chủ chốt
Danh sách từ điển (Document list)
Bƣớc thứ 2 là trích xuất các từ chủ chốt (term) và tạo ra một từ điển có thể
tìm kiếm đƣợc của các từ chủ chốt (term). Thông thƣờng, để cho việc tìm kiếm
đƣợc dễ dàng thuận lợi, các từ chủ chốt (term) đƣợc sắp xếp theo thứ tự
alphabet. Tuy nhiên, có thể có cách sắp xếp khác để nhằm mục đích tích kiệm
tới mức từng ký tự với các cấu trúc dữ liệu chuyên biệt mà có thể đem lại hiệu suất cao hơn trong việc tìm kiếm. 2 cấu trúc dữ liệu đƣợc biết đến nhiều nhất cho việc xử lý từ điểm là N-grams và PAT tree.
Đôi khi, danh sách từ điển có thể chỉ rõ cả số lần xuất hiện của từ chủ
chốt trong tài liệu. Danh sách từ điển cho ví dụ trên đƣợc mô tả trong bảng 3.6
Bảng 3.6 Danh sách từ điển Từ chủ chốt Tần suất Từ chủ chốt Tần suất banana 1 cranb 2 Hanna 2 hunger 1 manna 1 meat 1 potato 1 query 1 rye 2 sourdough 1 spiritual 1 wheat 2
Danh sách đảo ngƣợc (Inversion List)
Bƣớc cuối cùng trong việc xây dựng một IFS là kết hợp danh sách từ điển
với danh sách tài liệu để hình thành cái gọi là danh sách đảo ngược(inversion
list). Danh sách đảo ngƣợc sẽ trỏ đến một hoặc nhiều tài liệu tƣơng ứng khi một
truy vấn, danh sách đảo ngƣợc đƣợc xây dựng để có thể trỏ tới khu vực hoặc
phần trong tài liệu nơi mà từ chủ chốt (term) đƣợc sử dụng. Bảng 3.7 mô tả một
danh sách đảo ngƣợc bao gồm cả tài liệu và vị trí của từ chủ chốt (term) trong tài
liệu đó. Ví dụ, từ “wheat” sẽ xuất hiện đầu tiên trong tài liệu thứ 3 tại ví trí thứ 5 (từ thứ 5 ở trong dòng thứ 3).
Bảng 3.7 Danh sách đảo ngược
Từ chủ chốt Tài liệu/Vị trí banana (5,7) cranb (5,5);(6,4) Hanna (1,7);(8,2) hunger (9,4) manna (2,6) meat (7,6) potato (4,3) query (3,8) rye (3,3);(6,3) sourdough (5,5) spiritual (7,5) wheat (3,5);(6,6)
Danh sách đảo ngƣợc có thể trở nên phức tạp hơn khi máy tìm kiếm cần phải hỗ trợ việc tìm kiếm các cụm từ liên tục. Một cụm từ liên tục đƣợc dùng khi một nhóm từ kết hợp với nhau đƣợc yêu cầu bởi ngƣời dùng. Ví dụ, khi ta cần tìm kiếm một cụm từ “banana bread” có nghĩa là ta chỉ muốn tìm những tài