8. Bố cục của luận văn:
2.1. Yờu cầu khi ứng dụng CNTT trong chỉnh lý tài liệu
- Về mặt nghiệp vụ lưu trữ, trước hết phần mềm ứng dụng phải đảm bảo hỗ trợ cho cỏn bộ lưu trữ thực hiện cỏc thao tỏc nghiệp vụ chỉnh lý, kết quả sau chỉnh lý phải đỏp ứng được cỏc yờu cầu của cụng tỏc lưu trữ. Cú nghĩa là khối tài liệu bú gúi phải được phõn loại theo phương ỏn phõn loại đó lựa chọn. Sau chỉnh lý, tài liệu phải được lập thành những hồ sơ hoàn chỉnh; Mỗi hồ sơ sau chỉnh lý phải được xỏc định thời hạn bảo quản; Hồ sơ tài liệu phải được hệ thống hoỏ theo một phương ỏn hệ thống hoỏ của phụng lưu trữ. Ngoài ra, kết quả chỉnh lý cũn phải giỳp cho việc lập Mục lục hồ sơ và lập được mục lục tài liệu hết giỏ trị loại ra để tiờu huỷ.
- Về mặt kỹ thuật, phần mềm phải được sử dụng như một mạng mỏy tớnh, cú thể cựng một lỳc sử dụng nhiều mỏy PC để nhập dữ liệu vào kho dữ liệu chung. Ngoài ra phần mềm phải đảm bảo tốc độ xử lý nhanh, cú sự
phõn quyền cỏc cấp xử lý dữ liệu (người nhập thụng tin đầu vào, người chỉnh lý tài liệu, người quản trị CSDL…).
- Hệ thống phải đảm bảo lưu trữ được số lượng lớn cỏc dữ liệu, trước hết là cỏc thụng tin về từng văn bản (thụng tin cấp 2), thụng tin về từng hồ sơ để phục vụ cụng tỏc quản lý tài liệu.
- Hệ thống dữ liệu phải đảm bảo an toàn, cú khả năng mở rộng khi yờu cầu về cụng tỏc quản lý tài liệu cú sự thay đổi.
Để đảm bảo cỏc yờu cầu trờn và làm rừ khả năng thiết kế một phần mềm chuyờn dụng cho quy trỡnh chỉnh lý, trước hết cần xỏc định được bài toỏn trong chỉnh lý tài liệu mà trọng tõm là giải quyết bài toỏn khụi phục và hoàn thiện hồ sơ từ tài liệu bú gúi. Từ việc khụi phục hồ sơ này sẽ thực hiện được cỏc cụng việc cũn lại của quy trỡnh chỉnh lý.
Từ bài toỏn tỡm tin đến bài toỏn về chỉnh lý tài liệu
Khoa học lưu trữ và khoa học thụng tin là hai lĩnh vực hết sức gần nhau. Trong lưu trữ cú thụng tin và trong thụng tin cú lưu trữ.
Trong lưu trữ, thụng tin cung cấp cho người dựng là những thụng tin quỏ khứ, cú thực, chứa đựng trong cỏc hồ sơ lưu trữ. Cụng tỏc xỏc định giỏ trị tài liệu, chỉnh lý tài liệu, hệ thống húa hồ sơ đưa vào bảo quản trong cỏc kho lưu trữ thực chất là việc tổ chức cơ sở dữ liệu theo một hệ thống, cấu trỳc nhất định để phục vụ cụng tỏc bảo quản, tra cứu hay cũn gọi là cung cấp thụng tin cho cỏc yờu cầu khai thỏc sử dụng. Việc xỏc định đỳng giỏ trị tài liệu cần lưu trữ và tổ chức khoa học tài liệu lưu trữ quyết định hiệu quả của cụng tỏc lưu trữ. Chẳng hạn, phụng lưu trữ Bộ Khoa học và Cụng nghệ bao gồm những tài liệu phản ỏnh cụng tỏc quản lý KH&CN của Bộ trong phạm vi cả nước. Những tài liệu trong phụng lưu trữ được tổ chức khoa học theo một phương ỏn, một hệ thống nhất định nhằm phản ỏnh quỏ trỡnh hỡnh thành và phỏt triển của cơ quan quản lý khoa học và cụng nghệ đầu ngành - Bộ Khoa học và Cụng nghệ khi thực hiện chức năng quản lý nhà nước lĩnh
liệu trong phụng lưu trữ vẫn được tổ chức theo phương ỏn đó chọn bởi lẽ tài liệu lưu trữ tồn tại khỏch quan cựng với sự tồn tại của Bộ Khoa học và Cụng nghệ, nú phản ỏnh chức năng, nhiệm vụ và những hoạt động của Bộ Khoa học và Cụng nghệ trong từng thời điểm lịch sử. Do vậy cụng tỏc xỏc định giỏ trị và tổ chức tài liệu lưu trữ phải là mục đớch của lưu trữ hiện hành Bộ Khoa học và Cụng nghệ. Tiờu chớ để đỏnh giỏ hiệu quả phụng lưu trữ phải là giỏ trị và mức độ hoàn chỉnh của tài liệu cú trong phụng lưu trữ chứ khụng thể đỏnh giỏ phụng lưu trữ qua số lượng người đến khai thỏc và sử dụng tài liệu.
Như vậy, trong lưu trữ, chuỗi tổ chức dữ liệu - thụng tin đầu ra thỡ việc tổ chức dữ liệu là quan trọng hơn vỡ việc lưu trữ tài liệu, tổ chức dữ liệu khụng phụ thuộc vào nhu cầu khai thỏc và sử dụng tài liệu mà phụ thuộc vào chớnh giỏ trị của tài liệu đú.
Cũn trong thụng tin, căn cứ vào nhu cầu những loại thụng tin mà người dựng thường tỡm kiếm mà cỏc cơ quan làm cụng tỏc thụng tin thu thập và tổ chức dữ liệu liờn quan. Cỏc dữ liệu thu thập từ bất cứ nguồn nào được tổ chức theo một cấu trỳc, hệ thống nhất định nhằm phục vụ tối đa cỏc yờu cầu khai thỏc thụng tin.
Trong khoa học thụng tin, hiệu quả của một hệ thống thụng tin được đỏnh giỏ dựa vào cỏc yếu tố sau:
- Khối lượng thụng tin trong hệ thống, tần xuất sử dụng và độ bền vững của hệ thống. Những yếu tố này càng lớn thỡ hiệu quả của hệ thống thụng tin càng cao.
- Tốc độ đưa tin và tớnh kinh tế của hệ thống. Những yếu tố này càng nhỏ thỡ hiệu quả của hệ thống thụng tin càng cao.
- Tỷ số giữa lượng tin đưa ra đỳng yờu cầu với lượng tin thực tế cú trong hệ thống phự hợp với yờu cầu; Tỷ số giữa lượng tin đưa ra đỳng yờu cầu với với toàn bộ số tin cú trong lượt đưa. Cỏc tỷ số này lần lượt núi lờn
Tớnh đầy đủ và tớnh chớnh xỏc của hệ thống. Khi cỏc tỷ số này tiến đến 1 tức là hệ thống thụng tin đó đạt đến mức hoàn hảo [11]
.
Với cỏc tiờu chớ đỏnh giỏ hiệu quả của hệ thống thụng tin như trờn cú thể thấy mục đớch cuối cựng của hệ thống thụng tin là phục vụ tối đa cỏc yờu cầu tỡm kiếm. Và như vậy, trong thụng tin, chuỗi tổ chức dữ liệu -
thụng tin đầu ra thỡ thụng tin đầu ra là quan trọng vỡ từ nhu cầu sử dụng thụng tin đầu ra sẽ tổ chức dữ liệu đầu vào.
Như vậy, trong lưu trữ và thụng tin thỡ đều cú việc tổ chức dữ liệu đầu vào và khai thỏc thụng tin đầu ra. Chỉ khỏc là tổ chức dữ liệu đầu vào là vấn đề quan trọng đối với lưu trữ cũn khai thỏc thụng tin đầu ra là vấn đề quan trọng đối với thụng tin.
Trở lại bài toỏn khụi phục hồ sơ từ tài liệu bú gúi mà luận văn đặt ra cú thể thấy bài toỏn khụi phục hồ sơ liờn quan đến bài toỏn tỡm tin trong khoa học thụng tin.
Trong khoa học thụng tin, bài toỏn tỡm tin là một trong những bài toỏn phổ biến của cụng tỏc khai thỏc và sử dụng thụng tin. Quỏ trỡnh tỡm tin tồn tại trong mọi trường hợp, mọi cụng việc khi con người cần thiết phải nhận tin. “Bài toỏn” với nghĩa chung nhất đều cú dạng: “cho A tỡm B” trong đú A là đầu bài (điều kiện) và B là kết quả. Nội dung của bài toỏn chớnh là việc tỡm ra biện phỏp tối ưu để từ những điều kiện A cú kết quả B.
Nội dung của bài toỏn tỡm tin là trờn cơ sở một khối tin cú cấu trỳc, cần phải thụng bỏo về đặc tớnh của một sự vật, một quỏ trỡnh, hiện tượng, đối tượng hay vị trớ mang đặc tớnh đú.
Theo PGS. TS. Nguyễn Hữu Hựng, một trong những chuyờn gia đầu ngành về khoa học thụng tin, bài toỏn tỡm tin được phỏt biểu như sau:
“Cho một khối tin gồm n bản ghi B1, B2,…Bn . Mỗi bản ghi Bi (1≤ i ≤ n) tương ứng với một chủ đề ti . Hóy tỡm cỏc bản ghi cú giỏ trị khúa tương ứng bằng Q cho trước”.
Q được gọi là khúa tỡm kiếm hay đối tượng tỡm kiếm được thể hiện trong cỏc yờu cầu tỡm tin nhận được từ phớa người dựng tin. Kết quả tỡm tin sẽ xảy ra một trong 2 tỡnh huống sau:
- Tỡnh huống 1: Tỡm được cỏc bản ghi cú giỏ trị tương ứng với Q. Lỳc đú ta núi phộp tỡm tin cú kết quả.
- Tỡnh huống 2: Khụng tỡm được cỏc bản ghi nào cú chứa giỏ trị khúa bằng Q. Ta núi phộp tỡm khụng kết quả.[12]
Qua bài toỏn tỡm tin cú thể thấy:
Điều kiện cần: Phải là một khối tin cú cấu trỳc và cú yờu cầu tỡm
tin.
Điều kiện đủ: Một thủ tục tỡm.
Với cụng nghệ thụng tin, bài toỏn tỡm tin như trờn đó được giải quyết tương đối cơ bản. Cú thể thấy kết quả giải bài toỏn tỡm tin này qua phần mềm mang tớnh toàn cầu của hóng Google, phần mềm Vinasick và nhiều ứng dụng tỡm tin khỏc trờn mạng Internet hoặc cỏc phần mềm tỡm tin chuyờn dụng trong cỏc trung tõm thụng tin, thư viện ở Việt Nam và cỏc Trung tõm lưu trữ của Cục Văn thư và Lưu trữ nhà nước.
Nghiờn cứu về cỏch giải bài toàn tỡm tin cú thể thấy đối tượng trong bài toỏn tỡm tin là những thụng tin đó được tổ chức theo một cấu trỳc nhất định trong khối tin. Điều này cũng thường gặp trong việc tỡm tin trong cụng tỏc khai thỏc và sử dụng tài liệu lưu trữ. Cấu trỳc thụng tin trong cỏc phụng lưu trữ được tổ chức dưới hỡnh thức cỏc bộ thẻ chuyờn đề hoặc đưa vào cơ sở dữ liệu của phần mềm mỏy tớnh chuyờn dụng.
Cụng việc khụi phục hồ sơ từ khối tài liệu bú gúi, nếu nhỡn nhận dưới gúc độ cụng nghệ thụng tin thỡ đú chớnh là quỏ trỡnh xử lý thụng tin. Quỏ trỡnh đú thực chất là một quỏ trỡnh tỡm tin chứa trong từng tài liệu với những đặc trưng nhất định để thực hiện việc lập hồ sơ, sắp xếp tài liệu trong hồ sơ. Tuy nhiờn do đặc điểm của tài liệu bú gúi là một khối tin đó cú
“yờu cầu tỡm tin” nhưng chưa cú cấu trỳc vỡ vậy nú thiếu điều kiện Cần,
do đú nú chưa trở thành một bài toỏn tỡm tin.
Để xỏc lập bài toỏn tỡm tin cho khối tài liệu bú gúi trước hết cần phải tạo cho nú một cấu trỳc nhất định. Trong trường hợp này, việc tạm gỏn cho mỗi tài liệu trong khối tài liệu bú gúi một số tự nhiờn và cố định chỳng theo thứ tự của dóy số tự nhiờn là một cỏch đơn giản để tạo cho khối tài liệu bú gúi đú trở thành một khối tin cú cấu trỳc. Khi đó cú một cấu trỳc tạm thời như vậy, bài toỏn khụi phục hồ sơ từ những tài liệu rời lẻ, bú gúi cú thể được phỏt biểu như sau:
“Cho một khối n tài liệu, gồm t1, t2,..., tn được sắp xếp theo thứ tự của dóy số tự nhiờn. Tồn tại cỏc nhúm tài liệu Txthuộc hồ sơ Hx, Ty thuộc hồ sơ Hy, Tz thuộc hồ sơ Hz ...trong khối tài liệu n. Hóy tỡm cỏc tài liệu tx,y,z...
cú giỏ trị bằng Qx,y,x... thuộc hồ sơ Hx, y, z và sắp xếp cỏc hồ sơ Hx, y, z... theo một phương ỏn P cho trước.”
Trong đú:
n: Là số lượng tài liệu cú trong khối tài liệu
t1, 2,...n : Là một tài liệu cú nội dung bất kỳ trong khối tài liệu và đó được gỏn một số thứ tự theo dóy số tự nhiờn để cố định vị trớ của nú trong khối tài liệu bú gúi..
Tx, y, z... :lànhững nhúm tài liệu riờng biệt, chưa xỏc định được vị trớ trong khối tài liệu bú gúi và cỏc tài liệu trong nhúm tài liệu này cựng phản ỏnh về một cụng việc, một việc hay một sự việc.
Hx, y, z... : là Hồ sơ tài liệu sau khi được khụi phục.
Q: là những tiờu chớ cụ thể để phõn loại, tỡm kiếm tài liệu trong khối tài liệu bú gúi.
P: Là giỏ trị của cỏc khối tài liệu cơ bản, lớn, nhỏ...và đó được sắp xếp theo phương ỏn phõn loại tài liệu của phụng lưu trữ trong khung phõn loại.
Bài toỏn khụi phục hồ sơ từ tài liệu rời lẻ cú thể được minh hoạ bằng một vớ dụ cụ thể như sau:
Giả thiết của bài toỏn: Cho A
Khối tài liệu bú gúi thu thập vào lưu trữ hiện hành Bộ Khoa học và Cụng nghệ năm 2007 là 100 một giỏ. Sau khi khảo sỏt và loại bỏ những giấy tờ khụng phải tài liệu, văn bản trựng thừa, số tài liệu cũn lại là n tài liệu và được đỏnh số theo dóy số tự nhiờn từ 1 đến n (tạo cấu trỳc cho khối tài liệu), khối tài liệu cũn lại sẽ lần lượt gồm t1, t2,..., tn tài liệu. Trong khối tài liệu đú cú một số tài liệu (Tx) sẽ được lập thành hồ sơ (Hx), một số tài liệu khỏc (Ty) sẽ được lập thành hồ sơ (Hy)...
Kết luận của bài toỏn: Tỡm B
Do tài liệu đang trong tỡnh trạng bú gúi nờn việc xỏc định chớnh xỏc những tài liệu Tx, Ty để lập thành cỏc hồ sơ đũi hỏi phải cú một phần mềm mỏy tớnh lựa chọn những tài liệu thoả món cỏc điều kiện tỡm kiếm do cỏn bộ chỉnh lý đưa ra (giỏ trị Q) sau đú hệ thống hoỏ hồ sơ theo phương ỏn hệ thống hoỏ của phụng lưu trữ (Phương ỏn P).
Như vậy quỏ trỡnh giải bài toỏn trờn chớnh là quỏ trỡnh khụi phục hồ sơ từ những tài liệu rời lẻ và chỉnh lý khối tài liệu đú. Vẫn đề là ở chỗ, cụng đoạn nào trong quy trỡnh là do cỏn bộ lưu trữ thực hiện và cụng đoạn nào cần cú sự trợ giỳp của mỏy tớnh và phần mềm mỏy tớnh.
Thụng thường, quỏ trỡnh giải một bài toỏn nào cũng gồm cú 4 giai đoạn chủ yếu: (1) Tỡm hiểu đầu bài hay làm quen với những điều kiện của bài toỏn; (2) lập kế hoạch giải; (3) tiến hành giải và cuối cựng là (4) kiểm tra kết quả. Bốn giai đoạn của quỏ trỡnh giải bài toỏn chớnh là thủ tục tim tin (Điều kiện đủ).
Trong phạm vi nghiờn cứu của luận văn, mụ hỡnh giải một bài toỏn về chỉnh lý tài liệu cú sự trợ giỳp của mỏy tớnh cú thể được biểu diễn như sau:
Điều kiện của bài toỏn (Dữ liệu đầu vào) là cỏc thụng tin về từng tài liệu trong khối tài liệu bú gúi do cỏn bộ chỉnh lý lựa chọn. Việc lựa chọn những thụng tin nào để phản ỏnh đầy đủ về mỗi tài liệu là một vấn đề quan trọng. Số lượng thụng tin về tài liệu là nguyờn liệu đầu vào cho một quy trỡnh xử lý trờn, vỡ vậy thụng tin lựa chọn phải đảm bảo nguyờn tắc: Lượng thụng tin là tối thiểu nhưng nội dung phản ỏnh phải là tối đa. Nguyờn tắc này nhằm mục đớch hạn chế đến mức thấp nhất chi phớ cụng lao động cho việc nhập dữ liệu vào mỏy tớnh và hạn chế những sai sút cú thể xảy ra khi nhập dữ liệu vào mỏy tớnh. Tuy là lượng thụng tin tối thiểu nhưng vẫn phải đảm bảo rằng khi cỏn bộ chỉnh lý thoỏt ly khỏi tài liệu vẫn cú thể biết được đầy đủ về tài liệu. Mỗi loại thụng tin được lựa chọn sẽ là một trường trong đầu vào của hệ thống vỡ vậy việc lựa chọn những thụng tin đầu vào là nhõn tố quyết định cho quy trỡnh chỉnh lý. Mỗi loại thụng tin của đầu vào sẽ đúng vai trũ một mẫu tin. Đõy chớnh là giỏ trị Q trong bài toỏn chỉnh lý.
Lập kế hoạch giải là cụng việc của cỏc chuyờn gia tin học. Trờn cơ
sở phõn tớch cỏc yờu cầu tỡm kiếm, lựa chọn cỏc dữ liệu đầu vào trong Điều
kiện của bài toỏn để thiết lập một chương trỡnh mỏy tớnh cú khả năng tỡm
kiếm thụng tin theo yờu cầu của người dựng. Dựa trờn cỏc mẫu tin của đầu vào, cỏc chuyờn gia tin học sẽ phải xõy dựng cỏc lệnh tỡm hay cũn gọi là xõy dựng cỏc biểu thức tỡm. Cỏc lệnh tỡm này được xõy dựng trờn cơ sở một hệ thống cỏc lệnh tỡm tin nhằm hướng tới yờu cầu cuối cựng của người chỉnh lý với sự trợ giỳp của cỏc phộp toỏn logic (AND, OR, NOT) và cỏc cụng cụ phần mềm trong ngụn ngữ lập trỡnh (cỏc Tools). Để thực hiện cỏc lệnh tỡm liờn tiếp, cỏc chuyờn gia tin học phải thiết kế, xõy dựng một trỡnh
Điều kiện của đầu bài (Cỏc dữ liệu đầu vào) Lập kế hoạch giải và tiến hành giải (Mỏy tớnh và phần mềm ứng dụng)
Kiểm tra kết quả (Thụng tin đầu ra - Cỏc yờu cầu sau