Tạo lập cơ sở dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu xây dựng phòng đọc ảo phục vụ khai thác sử dụng tài liệu lưu trữ ở việt nam (Trang 73 - 79)

CHƢƠNG 2 : CƠ SỞ NGHIÊN CỨU XÂY DỰNG PHÒNG ĐỌC ẢO

3.1. Mơ hình hệ thống

3.1.1. Tạo lập cơ sở dữ liệu

Phòng đọc ảo phục vụ khai thác, sử dụng TLLT là nơi đáp ứng nhu cầu của người dùng thông qua việc cung cấp những nội dung thông tin lưu trữ. Động cơ đầu tiên để người dùng truy cập vào phịng đọc ảo là có được những nội dung thơng tin TLLT hoặc những dịch vụ có liên quan. Trong đó, những thơng tin TLLT đóng vai trị quan trọng hơn cả so với các yếu tố khác thuộc phòng đọc ảo. Nội dung thơng tin khơng đầy đủ, khơng phù hợp thì cho dù phịng đọc ảo có thiết kế được các yếu tố nổi trội thì cũng không thể thu hút độc giả đúng với mục tiêu của việc xây dựng hình thức tổ chức khai thác, sử dụng mới này. Để xây dựng và phát triển nội dung thơng tin, phịng đọc ảo buộc phải được trang bị một hệ thống các CSDL. Hay nói cách khác, CSDL chính là nịng cốt của một phịng đọc ảo, phục vụ nhu cầu tra tìm và khai thác thơng tin của độc giả. Trong đó, CSDL là tập hợp các dữ liệu được sắp xếp, tổ chức để truy cập, khai thác, quản lý và cập nhật thông qua phương tiện điện tử. [27] Việc tạo lập các CSDL này có thể được chia thành 2 phạm vi:

Một là, tạo lập các CSDL trong phạm vi cơ quan lưu trữ xây dựng phòng đọc ảo (cụ thể là TTLTQG III)

Các CSDL này đóng vai trị chính yếu trong tổng thể tài nguyên thông tin của phịng đọc ảo. Độc giả có thể khai thác các thơng tin đa dạng về thể loại và phong phú về nội dung được truy xuất từ các nhóm CSDL này, bao gồm:

- Cơ sở dữ liệu phơng/cơng trình/sưu tập lưu trữ; - Cơ sở dữ liệu hồ sơ;

- Cơ sở dữ liệu văn bản;

- Cơ sở dữ liệu toàn văn của văn bản.

(Tên gọi CSDL trên được sử dụng theo Hướng dẫn số 169/HĐ- VTLTNN về Xây dựng cơ sở dữ liệu lưu trữ, ngày 10 tháng 3 năm 2010 của Cục Văn thư và Lưu trữ Nhà nước)

Về nguồn tài liệu để tạo lập các cơ sở dữ liệu, đối với cơ sở dữ liệu phông/công trình/sưu tập lưu trữ, cơ sở dữ liệu hồ sơ và cơ sở dữ liệu văn bản thì tài liệu được thu thập ở đây chính là Sách chỉ dẫn các phơng lưu trữ bảo quản tại Trung tâm Lưu trữ quốc gia III được xuất bản năm 2006; các quyển mục lục hồ sơ; danh mục tài liệu trong hồ sơ. Riêng đối với cơ sở dữ liệu toàn văn của văn bản, đầu vào của cơ sở dữ liệu chính là nội dung văn bản của hồ sơ. Đầu vào này cần được khoanh vùng phạm vi cho phép khai thác sử dụng rộng rãi, đặc biệt là khi bản tồn văn của văn bản được số hóa nhằm mục đích phục vụ nhu cầu của độc giả qua mạng Internet. Phạm vi tài liệu có thể được khoanh vùng như sau:

+ Xét khía cạnh loại hình: TLLT được phép phục vụ độc giả qua phòng đọc ảo gồm tất cả các loại hình tài liệu khơng phân biệt tài liệu hành chính, tài liệu nghe - nhìn, tài liệu khoa học - công nghệ... Điều đặc biệt là các dạng tài liệu này đã được số hóa (nếu tài liệu tồn tại trên vật mang tin là giấy, băng, đĩa, phim...). Những tài liệu đã ở dạng số ngay từ khi được sản sinh cũng sẽ được cung cấp dưới dạng số.

+ Xét khía cạnh nội dung: phịng đọc ảo cho phép độc giả có thể tiếp cận các tài liệu trong cơ sở dữ liệu của phòng đọc theo Điều 30, luật Lưu trữ về

việc sử dụng tài liệu lưu trữ tại Lưu trữ lịch sử: "Tài liệu lưu trữ tại Lưu trữ lịch sử được sử dụng rộng rãi, trừ tài liệu thuộc Danh mục tài liệu hạn chế sử dụng và Danh mục tài liệu có đóng dấu chỉ các mức độ mật." Trong đó, tài liệu hạn chế sử dụng có một trong các đặc điểm: tài liệu lưu trữ không thuộc Danh mục tài liệu có đóng dấu chỉ các mức độ mật nhưng có nội dung thơng tin nếu sử dụng rộng rãi có thể ảnh hưởng nghiêm trọng đến lợi ích của Nhà nước, quyền, lợi ích hợp pháp của cơ quan, tổ chức, cá nhân; tài liệu lưu trữ bị hư hỏng nặng hoặc có nguy cơ bị hư hỏng chưa được tu bổ, phục chế; tài liệu lưu trữ đang trong quá trình xử lý về nghiệp vụ lưu trữ. Tài liệu lưu trữ thuộc Danh mục tài liệu có đóng dấu chỉ các mức độ mật được sử dụng rộng rãi trong các trường hợp sau đây: Được giải mật theo quy định của pháp luật về bảo vệ bí mật nhà nước; Sau 40 năm, kể từ năm công việc kết thúc đối với tài liệu có đóng dấu mật nhưng chưa được giải mật; Sau 60 năm, kể từ năm công việc kết thúc đối với tài liệu có đóng dấu tối mật, tuyệt mật nhưng chưa được giải mật. Tài liệu liên quan đến cá nhân được sử dụng rộng rãi sau 40 năm, kể từ năm cá nhân qua đời, trừ một số trường hợp đặc biệt theo quy định của Chính phủ.

Bên cạnh đó, với đặc thù về nhiều phương diện khác nhau, các tài liệu cá nhân, gia đình, dịng họ chỉ được phép đưa ra phục vụ trên mạng diện rộng ở dạng thông tin cấp hai, đồng nghĩa với việc độc giả chỉ có thể khai thác trong nhóm CSDL phơng/cơng trình/sưu tập lưu trữ. Việc khai thác và sử dụng các tài liệu này ở dạng bản văn chỉ có thể được diễn ra tại phịng đọc truyền thống với các thủ tục và quy định hiện hành.

+ Xét khía cạnh tần suất được khai thác, sử dụng tại phòng đọc truyền thống: Qua thống kê định kỳ về tình hình khai thác, sử dụng tài liệu tại phịng đọc truyền thống, TTLTQG III sẽ xác định được các khối/nhóm tài liệu, hồ sơ được khai thác, sử dụng thường xuyên. Điều này đồng nghĩa với một thực tế

là nhu cầu của độc giả đối với các tài liệu này cao hơn so với các tài liệu khác, địi hỏi phải có một hình thức tổ chức sử dụng mới đáp ứng nhu cầu độc giả và cũng góp phần hạn chế mức độ hư hại tới bản gốc của tài liệu.

Về cách thức tạo lập, đối với bốn cơ sở dữ liệu là cơ quan lưu trữ; phơng/cơng trình lưu trữ; hồ sơ; văn bản thì cơ quan lưu trữ có thể thực hiện dựa trên kết quả thống kê và tiến hành nhập dữ liệu. Tuy nhiên, việc xây dựng CSDL tồn văn của văn bản lại địi hỏi một quy trình phức tạp và quy mơ bởi yêu cầu phải thực hiện số hóa các văn bản của hồ sơ lưu trữ trên vật mang tin truyền thống. Quy trình này được thể hiện như sau:

Trong đó,

- Lập kế hoạch, chuẩn bị tài liệu để tạo lập cơ sở dữ liệu bao gồm các khâu: khảo sát, lựa chọn, thống kê tài liệu để tạo lập cơ sở dữ liệu; xây dựng, trình duyệt kế hoạch tạo lập cơ sở dữ liệu; bàn giao tài liệu cho bộ phận biên mục phiếu tin; vận chuyển tài liệu từ kho bảo quản đến nơi biên mục phiếu tin; làm vệ sinh tài liệu.

- Dữ liệu đặc tả (siêu dữ liệu hoặc metadata) là những thơng tin mơ tả các đặc tính của dữ liệu như nội dung, định dạng, chất lượng, điều kiện và các đặc tính khác nhằm tạo thuận lợi cho quá trình tìm kiếm, truy nhập, quản lý và lưu trữ dữ liệu.

- Xây dựng dữ liệu đặc tả là công việc xây dựng các trường thông tin và nội dung các trường thông tin mô tả về dữ liệu được số hóa trong cơ sở dữ liệu, phục vụ tìm kiếm, khai thác sử dụng nội dung dữ liệu, đáp ứng mục tiêu và yêu cầu sử dụng dữ liệu.

- Nhập dữ liệu là công việc đưa các dữ liệu vào trong cơ sở dữ liệu để quản lý và khai thác sử dụng, bao gồm nhập phiếu tin; bàn giao tài liệu, phiếu tin, dữ liệu đặc tả cho bộ phận thực hiện số hóa; bàn giao tài liệu và thực hiện số hóa (số hóa là việc biến đổi các loại hình thơng tin sang thơng tin số.)

- Chuẩn hóa và chuyển đổi dữ liệu là cơng việc chuyển đổi dữ liệu dạng số sang dạng có cùng cấu trúc thiết kế với sơ sở dữ liệu.

- Kiểm tra dữ liệu đã tạo lập là công việc kiểm tra dữ liệu nhằm bảo đảm dữ liệu được nhập đầy đủ, chính xác, phù hợp với yêu cầu xây dựng cơ sở dữ liệu.

- Nghiệm thu và bàn giao sản phẩm là công việc nghiệm thu kết quả tạo lập cơ sở dữ liệu trên cơ sở đã được kiểm tra. Sau khi nghiệm thu, đơn vị tạo lập cơ sở dữ liệu tiến hành bàn giao kết quả cho đơn vị vận hành và sử dụng.

Sau khi được tạo lập theo lưu đồ trên, cơ sở dữ liệu được tích hợp vào cổng thơng tin điện tử (tức phịng đọc ảo)

Hai là, tạo lập các cơ sở dữ liệu trong phạm vi toàn bộ hệ thống các cơ quan lưu trữ (mạng lưới lưu trữ từ trung ương đến địa phương)

: Thu thập và kết nối nguồn tài nguyên thơng tin Lưu đồ 3.2: Mơ hình kết nối các hệ thống cơ sở dữ liệu số hóa của các

cơ quan lưu trữ các cấp và các cơ quan khác

Xét ở phạm vi rộng hơn, TTLTQG III sẽ huy động các cơ sở dữ liệu của các cơ quan lưu trữ và các cơ quan khác như trên. Mục tiêu của việc kết nối cơ sở dữ liệu này là tạo nên một mạng lưới nguồn thông tin lưu trữ khổng lồ và bao quát nhiều lĩnh vực được tích hợp trong phịng đọc ảo của Trung tâm.

Hệ thống CSDL của Lưu trữ lịch sử các tỉnh/thành phố trực thuộc Trung ương Hệ thống CSDL của

Trung tâm Lưu trữ quốc gia

I, II, IV

Hệ thống CSDL của các cơ quan thuộc lĩnh vực khác có liên

quan (Bảo tàng)

Hệ thống cơ sở dữ liệu của Trung tâm Lưu trữ quốc gia III

tài liệu một cách toàn diện nhất. Cụ thể, khi độc giả thực hiện tìm kiếm một hồ sơ lưu trữ về một chủ đề cụ thể, phòng đọc ảo sẽ truy xuất ra màn hình tồn bộ các tài liệu có liên quan đến hồ sơ đó và cung cấp các thơng tin về các tài liệu này (siêu dữ liệu của các tài liệu). Tuy nhiên, việc khai thác bản toàn văn của văn bản sẽ phức tạp hơn và yêu cầu đặt ra đối với độc giả cao hơn (chẳng hạn, lệ phí cho một lượt đọc và tải tài liệu cao hơn so với tài liệu thuộc CSDL nội sinh của Trung tâm Lưu trữ quốc gia III). Để có thể hỗ trợ độc giả trong việc khai thác thêm các nguồn tài liệu liên quan này, TTLTQG III cần huy động và kết nối các cơ sở dữ liệu sau:

- Cơ sở dữ liệu phơng/cơng trình/sưu tập lưu trữ - Cơ sở dữ liệu hồ sơ

- Cơ sở dữ liệu văn bản

- Cơ sở dữ liệu toàn văn của văn bản.

Việc kết nối các cơ sở dữ liệu trên địi hỏi sự hợp tác từ phía các cơ quan, tổ chức đang bảo quản tài liệu. Trong đó, sự hợp tác đa chiều này cần một điều kiện triển khai là chủ trương, chính sách của các cơ quan quản lý đầu ngành, nhằm tạo điều kiện thuận lợi cho độc giả trong việc tìm kiếm thơng tin tài liệu và nhằm hướng tới mục tiêu cuối cùng là phát huy tối đa giá trị của TLLT.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu xây dựng phòng đọc ảo phục vụ khai thác sử dụng tài liệu lưu trữ ở việt nam (Trang 73 - 79)