Quy trình xử lý tài liệu

Xử lý tài liệu là quá trình tiếp nhận các tài liệu đầu vào, chế biến/xử lý bao gói và tạo ra các sản phẩm, dịch vụ thông tin (SP & DVTT) đầu ra để phục vụ NDT trong quá trình tìm kiếm tài liệu theo nhu cầu của họ.

Xử lý tài liệu là công đoạn quan trọng trong dây chuyền thông tin tư liệu, bao gồm hai giai đoạn: giai đoạn xử lý hình thức (xử lý kỹ thuật) và giai đoạn xử lý nội dung tài liệu (phân loại, tóm tắt, chú giải, định từ khóa, tổng luận,… )

Kết quả của quy trình xử lý tài liệu cho phép NDT nắm được thông tin về mọi mặt của tài liệu: nội dung, công dụng, hình thức để tiến hành lựa chọn chúng hợp với yêu cầu của mình. Tại TV TQB quy trình xử lý tài liệu được thể hiện qua sơ đồ sau:

Hình 2.1: Sơ đồ xử lý tài liệu tại TV TQB

Công tác xử lý tài liệu sẽ được thực hiện tại phòng Xử lý thông tin của Thư viện.

2.1.1.1. Xử lý hình thức tài liệu

Xử lý hình thức tài liệu là quá trình kiểm tra tài liệu sau khi nhập về thư viện, căn cứ vào các dấu hiệu đặc trưng cơ bản của mỗi tài liệu mà quyết định phân chia tài liệu về các kho khác nhau ( kho sách tiếng Việt, kho sách Latinh, kho sách tiếng Nga), trong mỗi kho lại phân chia tài liệu theo các kích cỡ để tiết kiệm diện tích giá sách (cỡ lớn, cỡ vừa, cỡ bé). Công đoạn tiếp theo là gán các mã đăng ký cá biệt, mã vạch, …

Tại TV Tạ Quang Bửu, tài liệu sau khi tiếp nhận (qua bổ sung, trao đổi, biếu tặng hoặc nhận lưu chiểu) sẽ tiến hành xử lý hình thức trước khi thực hiện xử lý nội dung. Việc xử lý hình thức tại Thư viện bao gồm:

Phân loại sơ bộ theo chuyên ngành

Chia số bản theo cơ cấu từng kho

Xử lý tài liệu

Xử lý hình thức

Xử lý nội dung Tài liệu bổ sung vào thư viện

- Tra trùng sách trùng bản

+ Đối với sách giáo trình: kiểm tra xem thư viện đã có chưa, nếu chưa có ở phòng đọc thì chuyển vào kho phòng đọc chỉ để mỗi loại giáo trình 10 cuốn.

+ Sách tham khảo, ngoại văn: lấy cho phòng đọc mỗi loại 02 cuốn, số còn lại sẽ chuyển cho phòng mượn sách tham khảo mượn về.

+ Từ điển thuộc ngành nào sẽ để ở phòng đọc ngành đó. VD: Từ điển toán học để theo phân loại Toán học tại phòng 411 (phòng đọc Toán),

Sau khi tra trùng, sách được đóng dấu và gán số mã vạch (barcode) vào trang tên sách và trang 17 (nếu là sách biếu tặng có thêm dấu sách biếu)

- Mã vạch được dán ở giữa bìa trước mỗi cuốn sách (lưu ý dán tránh hình hoặc chữ viết, cách mép dưới bìa sách 1.5 cm và dán thêm lớp băng dính lên mã vạch)

- Đối với tài liệu đưa vào kho mở còn được dán thêm chỉ từ và tem bảo vệ RFID

- Dán nhãn vào sách : với sách có độ dày trên 1,5 cm thì nhẫn được dán ở gáy sách, cách phía dưới 2cm, ưu tiên dán nhãn thẳng đứng nếu gáy đủ độ dày để nhìn thấy hết kí kiệu phân loại, nếu sách mỏng thì dán ngang ưu tiên kí hiệu phân loại và cutter), nếu sách quá mỏng thì nhãn được dán ở góc dưới bên trái.

Sau khi sách được xử lý hình thức và chia kho, sách sẽ được chuyển cho phòng Xử lý thông tin của Thư viện để xử lý nội dung tài liệu.

2.1.1.2 Xử lý nội dung tài liệu

Xử lý nội dung tài liệu là quá trình phân loại nội dung tài liệu và thể hiện nội dung đó bằng các ký hiệu phân loại, từ khóa, chủ đề hoặc một sản phẩm thông tin khác ngắn gọn và cô đọng hơn như bản tóm tắt, chú giải, tổng luận,... giúp NDT nhanh chóng tìm kiếm toàn bộ tài liệu theo nội dung - khía cạnh nghiên cứu của bộ môn/chuyên ngành/lĩnh vực tri thức cụ thể.

a. Đối với tài liệu truyền thống

Tài liệu sau khi được bổ sung vào Thư viện sẽ được phân loại sơ bộ theo từng chuyên ngành lớn ứng với từng môn loại tri thức của khung phân loại. Trên cơ sở số lượng cụ thể của từng tên tài liệu và cơ cấu tổ chức các kho, cán bộ phòng Xử lý thông tin sẽ phân chia tài liệu về các kho với số bản phù hợp.

Tiếp đó, tài liệu sẽ được chuyển sang khâu xử lý tài liệu bao gồm xử lý hình thức như: đăng ký, đóng dấu, dán chỉ từ, nhãn, mã vạch, mô tả thư mục… và xử lý nội dung như: phân loại, làm tóm tắt, định chủ đề.

Quy trình xử lý tài liệu được hoàn tất khi chủ đề phản ánh nội dung tài liệu được định ký hiệu phân loại - ký hiệu xếp giá, định chủ đề và làm tóm tắt. Trong khuôn khổ đề tài của luận văn tác giả chỉ đề cập đến một phần trong khâu xử lý nội dung tài liệu đó là phân loại và định ký hiệu phân loại xếp giá tài liệu.

 Phân loại và định ký hiệu xếp giá tài liệu

Phân loại tài liệu và định ký hiệu phân loại

Hiện nay thư viện Tạ Quang Bửu sử dụng khung phân loại LCC ((Library of Congress - LC) trong định ký hiệu xếp giá cho tài liệu trong thư viện.

Cấu trúc của khung phân loại LCC:

Bảng chính của LCC phân chia tri thức của nhân loại thành 21 lớp cơ bản, sử dụng 21 chữ cái tiếng Anh làm ký hiệu. Trong đó có 05 chữ cái: I, O, W, X, Y còn để trống dự kiến sẽ dành cho các ngành khoa học mới sẽ phát triển trong tương lai. LCC xuất bản lần đầu tiên gồm 34 tập, sau nhiều lần tái bản bổ sung đến nay đã lên tới 43 tập.

Ký hiệu phân loại trong LCC mang tính thân thiện, nó cho phép dễ dàng cập nhật các chủ đề mới hoặc có sự phân chia phù hợp đối với các chủ đề đang tồn tại.

Charles Martel đã nhận xét: “Sự mềm dẻo và mở không giới hạn của bảng phân loại thư viện Quốc hội Mỹ, sự phong phú, đa dạng về chỉ số chỉ việc phân chia chủ đề theo hình thức, vùng hay theo các chủ đề chia nhỏ mà không sử dụng các tiêu chuẩn hay ký tự quá dài, quá phức tạp đã cho phép thêm vào hoặc mở rộng các chủ đề mới ở bất kỳ đâu trong bảng phân loại ” [36.Tr.3].

Khung phân loại LC đã có lịch sử hình thành và được liên tục cập nhật phát triển hơn 100 năm qua. Với mục đích ban đầu LCC chỉ phục vụ cho thư viện Quốc hội Hoa kỳ, nhưng với nhiều ưu điểm về mặt cấu trúc và những tiện ích mà nó mang lại nên ngày càng trở nên phổ biến. Rất nhiều thư viện trên thế giới đã đưa LCC vào sử dụng. Trong khu vực châu Á, LCC được áp dụng rộng rãi tại các nước như Hàn Quốc, Nhật bản, Singapore… Tại Thái lan nhiều thư viện đang từng bước chuyển đổi sang sử dụng khung phân loại này.

Chỉ số Cutter (Kí hiệu mã hoá tên tác giả)

Theo định nghĩa trong đại từ điển của nhà xuất bản Ramdom (Ramdom House Uniagridge Dictionary) xuất bản năm 1993.“Cutter là một mã kết hợp các số thập phân với các chữ cái lấy từ họ tác giả, được sử dụng trong một hệ thống xếp theo chữ. Các ký hiệu tác giả này do nhà thư viện học lỗi lạc người Mỹ Charles Ammi Cutter biên soạn vào cuối thế kỷ XIX” [29, Tr. 3].

Thư viện Tạ Quang Bửu tự xây dựng phần mềm gán chỉ số Cutter riêng cho mình dựa trên bảng Cutter Sanborn 3 chữ số đựa vào:

1. Các nguyên âm và phụ âm (phụ âm đơn, phụ âm kép, một cụm phụ âm). 2. Bảng mã hoá mã hoá các vần thông dụng trong tiếng Việt.

Yếu tố mã hoá được chọn để xây dựng kí hiệu là phụ âm đầu tiên của họ tác giả và từ đầu tiên của tên tác giả.

Cấu trúc mã Cutter gồm 3 phần: (TP1, TP2 và TP3)

TP1: là một nguyên âm hoặc phụ âm hoặc cụm phụ âm đầu của họ tác giả. TP2: là mã số vần còn lại của cụm từ đầu tiên

TP3: là từ đầu tiên của tên tác giả

Thư viện Tạ Quang Bửu mã hoá chỉ số Cutter theo tiêu đề mô tả chính (Tác giả + tên sách).

+ Đối với tác giả Việt nam (sách bằng ngôn ngữ tiếng Việt)

Trường hợp 1: Tác giả có cả trường con a và b thì thông tin để mã hoá sẽ lấy từ trường con ^a của trường tác giả, lấy từ đầu tiên, hoặc phụ âm ghép Ch, Th, Ng…+ với phiên âm theo mã hoá vần còn lại của họ, tiếp sau lấy chữ cái đầu tiên của từ đầu tiên sau ^b

Ví dụ: ^aCung Thị Bích ^bHà được gán mã Cutter là C513H

Trường hợp 2: Họ tên tác giả chỉ có ở trường con ^b thì thông tin để mã hoá sẽ lấy ở ^b, lấy từ đầu tiên, hoặc phụ âm ghép Ch, Th, Ng…+ phiên âm theo bảng mã hoá phần còn lại, tiếp sau là lấy theo chữ cái đầu tiên của từ cuối cùng.

Ví dụ: Hồ Chí Minh = ^bHồ Chí Minh được gán mã Cutter là H450M + Đối với tác giả nước ngoài (Sách tiếng nước ngoài)

Trường hợp 1: Tác giả có cả ^a và ^b thì thông tin mã hoá sẽ lấy từ ^b của tác giả, lấy từ đầu tiên, bỏ các từ là phụ âm tiếp theo đến nguyên âm sẽ mã hoá phần còn lại của họ theo bảng mã hoá tiếng Việt, tiếp sau lấy đến chữ cái đầu tiên của tên tác giả là từ đầu tiên sau ^a

Ví dụ: Sylvia Browne = ^a Sylvia ^bBrowne được gán mã Cutter là B435S Trường hợp 2: Đối với sách dịch tác giả là người nước ngoài, nhưng ngôn ngữ của sách là tiếng Việt thì lúc đó phải kết hợp với truờng người dịch và mã hoá họ tên tác giả theo trường hợp 1(mã hoá tên tác giả nước ngoài).

Ví dụ: Tên sách là: Niềm vui chiến thắng

Người dịch: Thanh Vân

Tên tác giả: Carbara Taylor Bradford = ^aCarbara Taylor ^bBradford được gán mã Cutter là B102 C.

Số thứ tự tập, năm xuất bản và thứ tự bản coppy

Sau khi phân loại và định ký hiệu phân loại LC, định cutter tên sách sẽ ghi số thứ tập (đối với sách trên 2 tập), năm xuất bản của sách và số thứ tự bản coppy ( đối với sách có trên 2 bản tại Thư viện).

b. Đối với tài liệu số

Như trên đã nói, nguồn tài liệu số của Thư viện TQB hiện chưa có nhiều, chủ yếu bao gồm một số bài giảng điện tử, các CD luận án tiến sĩ và luận văn thạc sĩ, một số sách điện tử (ebook) và các đĩa audio và video

Để biên mục tài liệu số cần phải tiến hành hai giai đoạn là: chuẩn hóa dữ liệu và tạo lập biểu ghi biên mục.

+ Chuẩn hóa dữ liệu: Các bước thực hiện chuẩn hoá dữ liệu tại Thư viện TQB

như sau:

- Sao và và kiểm tra tệp (file) dữ liệu gốc: Yêu cầu file gốc đầy đủ, không lỗi,

nếu file gốc lỗi không sửa được sẽ bị loại.

Sao dữ liệu từ đĩa CD hoặc đĩa mềm vào ổ cứng phục vụ cho quá trình chuyển đổi (convert)

- Chuyển đổi dữ liệu sang định dạng file PDF: Yêu cầu đảm bảo chất lượng file, đánh bookmark theo các chương - mục, nội dung file phải liền mạch, không bị lỗi font chữ, không thiếu hoặc thừa trang (kể cả trang trắng).

Tổ chức website Thư viện

Họat động khai thác nguồn lực thông tin