1. Trang chủ
  2. » Luận Văn - Báo Cáo

Quá trình số hóa giáo trình phục vụ cho việc dạy và học tại trường Đại học sư phạm tp hồ chí minh

110 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Quá trình số hóa giáo trình phục vụ cho việc dạy và học tại Trường Đại học Sư phạm TP. Hồ Chí Minh
Tác giả Phạm Thị Hiền Hoa, Lê Quỳnh Chi, Trần Thanh Hùng, Nguyễn Vĩnh Khương, Trần Quang Quý
Trường học Trường Đại học Sư phạm Thành phố Hồ Chí Minh
Chuyên ngành Công nghệ thông tin
Thể loại Báo cáo tổng kết đề tài
Năm xuất bản 2006
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 110
Dung lượng 22,7 MB

Nội dung

HCM ir it a những điểm mẫu chốt sầ lưu ý để thục hiệnviệ số hoá nguồn di liệu của thư viên ~ _ Thu thập các giáo tình dưới dạng thô ~ _ Phân tích, đảnh giả, chọn lựa để số hóa tả liệu ~

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRUONG DAI HQC SU PHAM THANH PHO HO CHÍ MIN!

BAO CAO TONG KET

Đề tài:

*QUÁ TRÌNH SÓ HOÁ GIÁO TRÌNH PHỤC VỤ CHO VIỆC

DẠY VÀ HỌC TẠI TRƯỜNG ĐẠI HỌC SƯ PHẠM

Trang 2

“QUA TRINH SO HOA GIAO TRINH PHUC VỤ CHO VIỆC

DẠY VÀ HQC TAI TRUONG DAI HQC SU PHAM

‘TP HO CHi MINH”

Danh sách những người tham gia thực hiện đề tài

Chủ nhiệm đề tài - Phạm Thị Hiền Hoa

Các thành viên : - Lẻ Quỳnh Chỉ Trần Thanh Hùng, Nguyễn Vĩnh Khương Trần Quang Quý

MỤC LỤC

Trang 3

DE TAI KHOA HQC VA CONG NGHE CAP TRƯỜNG

Tên đề tài: “Quả tình số bôa gid trnh phục vụ cho việc giảng đạy và học tại Trường Đại học Sư phạm Thành phố Hỗ Chí Minh"

quế trình xây đựng giáo mình điệ tử tại Thư viện DHSP Tp, HCM năng

lượng phục vụ của giáo trình điện tử đối với người sử dụng

.Hỗ trợ cho các loại hình đào tạo của Trường: ại chỗ, tr tuyển, tử xa

~ _ Thực hiện việc trao đối và chỉa sẻ nguồn ti nguyên thông tin của Thư viện Trường với các thư viện và trung tâm thông tin khác,

Nội đơng chỉnh

Nghiên cứu quy trình số hôa một sổ giáo nh ại Thư viện DHSP Tp HCM ir it

a những điểm mẫu chốt sầ lưu ý để thục hiệnviệ số hoá nguồn di liệu của thư viên

~ _ Thu thập các giáo tình dưới dạng thô

~ _ Phân tích, đảnh giả, chọn lựa để số hóa tả liệu

~ _ Xử lý liệu thô sang tả liệu điện từ

- _ Cập nhật tải lệ lên mạng

Giới thiệu và hưởng dẫn bạn đọc sử dụng

Kết quả chính đạt được (khoa học, ứng dụng, đào tạo, kính -xã hội): Chuyên khảo - Ứng đụng

Trang 4

SUMMARY OF THE RESEARCH RESULTS FOR THE SCIENTIFIC

ND TECHNOLOGICAL SUBJECT OF THE UNIVERSITY SUBJECT: “The proce of dighalcng labuce wich serves the testing fod he dying the Hechiminh Cy Universty of Es CS.20052:

Supporting all wuining Winds of id waive at se, eatin, R6 4 distance ceeding the exchange and sharing the information resource of the welvenie mu th ter varies and information ecw

= Introducing and guiding for users

3 Main achieved results (science, application, training, social economics) Monograph ~ Application

Trang 5

MỤC LỤC

Trang

A Mục địch và tính ấp thiết của đỀ ải 4

Phin 1: Cơ sở để xây dựng nguồn ti liệu dạng số 2

Phần 2: Thực hiện quá trình số hóa

Chương 1: Thu thập, phân tích, đánh giá, lựa chọn giáo trình dé số hóa

Chương 2: Quá trình xử ý giáo trình từ bản thô sang tà liệu điện tử 15

'Chương 3: Cập nhật giáo trình được số hỏa lên mạng

“Chương 4: Tìm kiếm và khai thác tư liệu số qua phân hg OPAC

Trang 6

VIỆC DAY VA HQC TAI TRUONG ĐẠI HỌC SƯ PHAM THANH PHO HO CHi MINH

Mục đích và tính cấp thiết của đề tài

Mục Địch:

~ _ Nhằm hoàn thiện quá trình xây dựng bộ sưu tập Giáo trình điện tử nối chúng và bộ sưu tập CSDLL của Thư viện ĐHSP

~ _ Nâng cao chất lượng phục vụ đối với người dùng tin

~ _ Hỗ trợ các loại hình đào tạo của nhả trường: tại chỗ, trực tuyển từ xa

~ _ Đổi mới phương pháp dạy và học đối với giảng viên, sinh viễn trong nhà trường,

= Thực biện việc tay đổi, đa sẽ nguy đỉ nguyện sŠ hỏi cần Thự viện trường với các thư viện và trung tâm thông tin khác

= Đưa thư viện trường trở thành thư viện số

= Nang cao khả năng và đảo tạo cần bộ nghiệp vụ thư viện số

Tính cắp thiết

~ _ Số hoá giáo trình là việc cấp thiết để xây dung cơ sở dữ liệu điện tử cho thư viện trường Giúp thư viện đa dạng hóa nguồn tải liệu vả tăng cường khả năng phục vụ

~ _ Sử dụng nguồn tải liệu điện tử đang là xu hưởng tắt yêu trong thời đại hiện nay

~ Các trường đại học Việt Nam đang nỗ lực đẩy mạnh việc xây dựng nguồn giáo trình điện tử để phục vụ cho nhu cẩu dạy và học trong nhà trường

Trang 7

PHAN 1: COSO DE XAY DUNG NGUON TAI LIEU DANG SO

1 Sự phát triển của công nghệ thông tin:

Ngày nay, cuộc cách mạng khoa học - công nghệ vã những thành tựu của

nó đang góp phần làm biến đổi nhanh cháng và sâu sắc mới mật của đời sống xã

đụng trong công tác quan ly, nghiên cửu, hỗ trợ công tác chuyên môn vả trao đỗi

thông tỉn Đặc biệt, nó cảng trở nên quan trọng đổi với các ngành liên quan tới trì thức, thông tin, tư liệu

“Trong lĩnh vực thông tin - thư viện các nhà thư viện thể giới đã thực sự đặt

chân vào thể giới của thư viện điện tử tử những năm đầu thập kỷ 90 của thé ky

30 với các ngân hàng dữ liệu không lỗ củu Dielog, Pascal Kỷ nguyên thông tin

thư viện, mở ra một hướng đi mới cho hoạt động Thỏ Thư viện Ở Việt

Nam, sau năm 1991, với việc đưa Internet vào img dụng rộng rãi đã tạo đã khởi thông tin vào các hoạt động nghiệp vụ Đối với các hệ thống thông tin, sy phát phần: nội dung thong tin đầy đủ được tổ chức trong các Cơ sở dữ liệu (CSDL)

và phản hạ tằng công nghệ thông tin (bao gồm máy tính va hệ thẳng mạng) đảm bảo về mật công cụ kỹ thuật dé truyền tải thông tin tới người sử dụng

‘Voi kha ning lưu trữ thông tin to lớn, kết hợp với phương tiện tra cửu trực tuyến, đã hình thảnh nên các thư viện điện tử Thư viện điện tử sẽ cho phép

người dùng thoả mãn tới mức cao nhu cầu théng tin của mình Hay nói một cách

khác thư viện điện tử sẽ là phương tiện kết nổi và thúc đẩy sự phát triển trí tuệ toàn cầu, lá đẫu hiệu và nda tang cho sy phát triển không ngừng của con người

Trang 8

Hiện nay, việc phát triển từ thư viện truyễn thống thành thư viện điện từ

đang là xu hướng tất yếu ở tắt cả các thư viện Việt Nam Để có một thư viện

điện tử theo đúng nghĩa cằn có một số quan điểm thing nhất, có cách tiếp cận

như cấu trúc của thư viện điện tử, ha ting cơ sở kỹ thuật, kho tư

liệu số hoá, các vin đề về bảo quản, khai thác và bản quyỂn Thư viện điện từ

tiêu chi uu việt như: sự chuẩn hoá về nghiệp vụ, sự hiệu quả và tối tru trong hoạt

hiện đại như: bổ sung, biển mục, tra cứu trực tuyển, quản lý lưu thông tả liệu

(ấn phẩm và các nguồn tin điện tử), quản lý xuất bản phẩm nhiều kỳ (tap chí, tập

viện, quản trị hệ thống Đặc biệt, tắt cả các module được tích hợp vào trong một

hệ thống thống nhất và có thể liên thông và chuyển đổi tương tác với nhau một

cách để dàng

“Thư viện điện tử trong tương lai sẽ cõ quy mô lớn hơn bắt kỷ một mô hình thông tin thư viện nào trước đó Thong tin ở đây sẽ được lưu trữ đưới nhiều hình bin viết, âm thanh, hình ảnh hoạt họa, dữ liệu thô, ca nhạc, hội họa hay cũng có

ú

nhiễu vị

các website thương mại, cơ sở dữ liệu ở các phòng thí nghiệm quốc gia, thông tin trên máy chủ hay thậm chí là các loại hình truyễn thông giáo dục

Ngoài lĩnh vực quản lý thư viện truyển thống, các tính năng của thư viện

điện tử, thư viện số sẽ đưa Thư viện thành trung tâm thông tỉn hiện đại Tạo cho

người sử đụng một cổng vảo mọi dạng thông tin, dù là xuất bản phẩm, tải liệu

điện từ hay âm thanh, hình ảnh v.v Hệ thống luôn được cập nhật thưởng xuyên

các công nghệ hiện đại nhằm đáp ứng đầy đủ các nhu cảu phát triển ngày cảng

cao của thư viện cũng như người đũng tin Tương thích với các chuẩn quốc tế: Intranet, Intemet, 239.50, Cé khả năng trao đổi, liên kết với các cơ quan

Trang 9

người ding tin,

Tinh năng ưu việt nhất của thư viện số là cung cắp được cho người dùng bộ

ur tip tai liệu điện từ vả các sản phẩm số hóa Sự phát triển mạnh mẽ của công nghệ thông tìn và truyền thông đồng nghĩa với sự phát triển và ứng dụng mạnh thư viện - đó là sự hình thành và phát triển các sản phẩm thông tỉn số hóa Kết quả là làm cho nhu cầu của bạn đọc đối với các vật mang tìn điện tử ngảy cảng nguồn tin truyễn thống, chủng ta có thêm một loại hỉnh nguồn tín mới đồ là

nguồn tin số hóa Các bộ sưu tập sách đưới dạng điện tử đang được phổ biến

ngày cảng nhiều vì điều kiện tra tìm thuận lợi quản trị các kho tải liệu nhẹ

nhàng khả năng tích hợp các kho nảy với các hệ thống tự động hoá vả với các

mục lục, sự toàn ven của tài liệu cũng được đảm bảo vì sách điện tử không bi hur

hỏng hoặc bị mắt Theo xu hướng hiện nay, các thư viện không chỉ mua, mã còn

ra các bộ sưu tập đó là thông qua quá trình số hóa

3 Số hóa tài liệu:

Đó là tiến trình chuyển đổi tài liệu thư viện truyền thống (cụ thể các chương sách, báo tạp chỉ văn bản, băng t ) thành các đổi tượng số mà vẫn tính Đồng thời áp dụng các phương pháp biên mục, đánh chỉ mục để hỗ trợ việc cđạng chữ viết, âm thanh, hình ảnh được số hoá dễ dàng, ắt thuận tiện cho việc

xử lý bằng máy tỉnh vả trao đối qua Internet Mục tiêu của các đự án số hoá tải

liệu trong thư viện có thể nhằm gii quyết vấn đề báo quản tải liệu gốc, đăm bảo,

la bạn đọc và tạo thuận lợi cho việc sử dụng (hông qua việc

li dat những lŠf liễu nổỹ tung các mạng tức bộ Và bên inter, tp đu kiện cho việc tìm todn van (Full text), Sé hoá là sản phẩm của ngành công nghệ

sự truy cập tối đa

Trang 10

‘Sip ứng nha tần người đông của thự việt và ong sổ những nguôu tơ đã chịn, thì những nguồn tin nào nền nhập vào CSDLL, chủng edn được bảo quản như thể hành ra sao Đó lá vấn đề quan trong mà các thư viện điện tử cắn thực hiện Hẳu

sản phẩm số hóa với quy mô khác nhau Việc tổ chức các nguồn tin điện tử

trồng th viện đã đâm) bšu chờ bập đục được tấp Sân các nghiền th: này hiện dang là những vẫn để rất cắp thiết

.4 Thực trạng Thư viện trường

Thư viện Trường ĐHSP TP Hỗ Chí Minh qua nhiều dự án đầu tư, nay

đã cũ những đội mỗi nhất đu Trang bối cảng hiện nay, Thử viện Barge đánh giá là một trong những Thư viện đại học hiện đại Hiện nay Thư viện DHSP có

bộ sưu tập như sau: 9 CSDLL trực tuyển; CSDL biên mục với hơn 120.000 bản

700 bang video‘cassette: va CSDL điện tử đang được xây dựng Thư viện cũng

đã được trang bị khoảng 120 máy vi tỉnh, tắt cả đều đã nối mạng và kết nối

Internet C6 2 phòng tra cứu Internet, một phỏng dành cho sinh viên, một phòng dành cho giảng viên và cán bộ trong nhà trường Đẳng thời được trang bị các

thiết bị cổng từ và hệ thống barcode hỗ trợ cho công tác quản lý tài liệu cũng

như người dùng tin Dưới đây là biểu đồ thống kê số liệu bạn đọc sử dụng thư

viện được lấy trong Phân hệ quản lý MƯỢN TRẢ (phản tải liệu dưới dạng sách) qua § năm để đánh giá khả năng phục vụ ngày cảng cao của thư viện trường qua việc chuyển đổi và nâng cấp dẫn thành thư viện điện tử:

Trang 11

Thu viện ĐHSP sử dụng phần mềm Libol của công ty Tỉnh Vân Phần mềm nảy

dđã phát huy được các tính năng ưu việt trong việc quản lý và sự chuẳn hóa về 'nghiệp vụ thứ việu C thể ới đáp ứng được câc quy trình nghiệp vụ của imắC

thư viện hiện đại như bổ sung biên mục, tra cứu trực tuyển quản lý lưu thông

tái liệu (ấn phẩm va các nguồn tin điện tử), quân lý xuất bản phẩm nhiều ky’ (tap chí, tập san báo ) quản lý kho tải liệu quản lý thông tin về bạn đọc, mượn

liên thư viện, quản trị hệ thống - tắt cả đều có thể kết hợp dùng mã vạch Đặc

bigt tất cả 0R module được tích hợp vào trong một hệ thống thẳng nhất và có

thể liên thông chuyển đổi tương tác với nhau một cách đễ đăng Hiện nay sự ra

đời các thư viện điện tử với một phản vốn tải liệu được số hóa đang là xu thể tắt yếu và là nhiệm vụ cấp thiết của các thư viện đại học Chính vi vậy thư viện trường cẩn có sự quan tâm và đầu tư thích đáng hơn nữa để xây dựng bộ sưu tập

số hóa vả quản lý nguồn tải liệu nảy bằng phẩn mễm số hỏa Để quản lý và phục

‘vu duge nguồn tài liệu số hóa thì phẫn mềm hiện hữu chưa đáp ứng được yêu cầu, cằn phải được bổ sung thêm module quản trị thư viện sé

Hiện nay thư viện Đại học Sư phạm đang cổ gắng để đi đến mục tiểu la

trở thành thư viện số, mong mudn dem dén cho người đùng sản phẩm tải liệu

dưới dang 6 hóa Việc cung cắp tải liệu dạng toàn văn (full tex\) sẽ đem lại hiệu cquả rất cao cho công tắc nghiên cửu giảng day, học tập trong nhả trường mã đặc

Trang 12

viện số sẽ khẳng bị hạn chế trong khuởn khổ hạn hẹp của khuôn viên thư viện

vậy để có thé thực hiện quá trình số hóa, cần phải có sự quan tâm và đầu tư dng

vige số hỗa là công nghệ mới đối với các thư viện ở Việt Nam ĐỂ Thư viện điểm thì nhiệm vụ xuất bản và phục vụ tài liệu số hỏa của thư viện phải được tối quyết định nghiên câu, thực hiện thử nghiện số höã Hiột số tí lu cố hoạ

hiện việc số hỏa Mục đích số hoá các giáo trình này để giúp cán bộ, giảng viên

sinh viên trong trường có thể truy cập đồng thời cũng sử dụng rộng rãi một tải

t kiệm được thời gian, công sức và kinh phí cho việc

&u tổ thiết để tiến hành dạy

liệu tương đổi thuận lợi như vậy sẽ thúc đẩy năng

nghiên cứu được tải liệu,

phân phối giáo trình

học từ xa Việc sử dụng san đầu và c

Trang 13

thụ một chiễu, rèn luyện nếp tư duy sáng tạo của người học, từng bước áp dụng các phương pháp tiên tiễn và phương tiện hiện đại vào quả trình dạy và học.

Trang 14

CHƯƠNG L THU THAP, PHAN TICH, DANH GIA, LU'A CHON GIÁO TRÌNH ĐỀ SỐ HÓA

1/Chính sách số hóa:

Phan quan trọng nhất trong thư viện điện tử chính là kho tư liệu số hoá của

bắn thân thư viện Trước khi bắt tay vào xây đựng bộ sưu tập tải liệu số hoá, thư viện cẳn phải lên kế hoạch và quan tâm đến những vấn dé sau:

“Xác lập chỉnh sách lựa chọn ưu tiên số hóa của đơn vị

3 Nhỏm đối tượng thư viện quan tâm

Số lượng tải liệu muỗn số hoá

'Quyền hạn và bản quyền của các tải liệu (các vấn đề liên quan đến cơ sở pháp lý khi ạo lập)

Kinh phí đảnh cho việc xây dựng bộ tài liệu số hoá Nhân lực đành cho việc thực hiện quả trình số hoá (biên tập tải lều, quết tải liệu, ập trình cập nhật đưa lên mạng hướng dẫn sử dụng )

Cần bao nhiêu máy tỉnh cấu hình của mây để tiền hãnh số hoa Nghiên cứu, lựa chọn và xác lập những chuẩn, những quy định chung

trong việc số hoá tải liệu

.Các vấn để liên quan đến sử dụng phần mềm, và việc chọn lựa, áp dụng .các chuẩn lưu trữ

10.Các vẫn để liên quan đến khái niệm, kỹ thuật và công nghệ của việc tạo lập, tổ chức, quản trị và chia sẻ nguồn dữ liệu số hóa trong các cơ quan thông tín thư viện

1U Đánh giá bộ sưu tập tài liệu của thư viện trường: trường trước

thư viện h

Để có được sự chọn lựa ưu tiên số hỏa nguồn tải liệu nào có trong thư viện

ên chúng ta cẳn xem xét số lượng vả đặc điểm bộ sưu tập tải liệu

cô như sâu:

1 Sách bảo xuất bản trước năm 1975 tại miễn Nam:

Trang 15

“Có khoảng 28.655 đầu sách với 43.763 bản sách, chiếm I3 tổng số kho sách được xuất bản bằng nhiều thử tiếng, nhưng chủ yêu lã tiểng Anh, Pháp,

'Việt, Ngoài ra còn có 75 nhan để bio tap chỉ được đóng thảnh 625 tập Day là

kho tải liệu được đảnh giá cao vẻ gid trị lịch sử giả trị nghiền cứu, đã hỗ trợ rất

sÄ và để tải nghiên cửu khoa học cấp Bộ và cấp

nhiều cho các để tải ti

Trường Kho sách có nhiều tải liệu quý lá trì nội dung giả trị nghiên cửu ( như các bộ bách khoa thư Anh, Mỹ, bộ Who's and who thời điểm xuất Được xuất bản trước năm 1975 ở miễn Nam nên nội dung tài liệu cần được thẳm định lại nhất là mảng khoa học xã hội Đổi tượng sử dụng loại ti được chọn lọc và hạn chế, chỉ phục vụ cần bộ giảng day, cán bộ nghiên cứu,

sinh viên làm luận văn tốt nghiệp Kho sách chưa có chế độ bảo quản tốt và

đúng chuẩn về môi trường, nhiệt độ, ảnh sáng cũng như biện pháp phòng chẳng mọi, Hằu hết giấy của mảng sách tiếng Việt và báo tạp chỉ đông tập đã chuyển

"mâu vàng ỗ, độ đôn cao, cần có chính sách bảo quản tốt hơn hiện nay

2 Sách mới sau năm 1975:

Có gần 80.000 bản sách, được phục vụ ở hai kho: Lưu hành l (cơ sở 1), Lưu

hn If (co 56 1),

Sách tham khảo chủ yếu bằng 3 thứ tiếng:Việ, Ảnh Pháp, được phục vụ

rong rãi hỗ trợ cho tải liệu giảo trình Rất nhiều tải liệu quỷ hiểm như các bộ

bách khoa thư, từ điển ngôn ngữ và chuyên ngành, các sách ngoại chỉ có một đầ hiệt Bách §ghạl.4ufe bỖ ng (heo dự 4ø: sião, dục đụ bọ mức A Giá trị của kho sách được đánh giá cao, thu hút lượng cán bộ giảng day tim đến kho sách nhiều hơn

bản và đất

vong quay cia sách rất

Sách giáo trình được sinh viên sử đụng nl

cao Do số lượng bản của mỗi nhan để chỉ cỏ từ 5 đến 10 cuốn cầu của sinh

viên thường tập trung sau khi giáo viên lên lớp nên luôn không đủ đáp ứng Da

10

Trang 16

những tải liệu chữ đã mờ, giấy ố văng nhưng sinh viên vẫn tranh nhau mượn

Thu viện thường xuyên tu bổ và tự nhân bản đối với một số giáo trình quả cũ và quả thiểu

'Có khoảng 1400 Luận án, luận vân và các để tải nghiên cứu khoa học của

Trường được Thư viện lưu giữ và đưa vào phục vụ Dây là mảng tải liệu rất được quan tâm và sử dụng nhiễu ở sinh viên đại học và sau đại học Mỗi ải liệu chỉ có một bản nên độc giả chỉ được đọc tại chỗ

3 Báo, tạp chí:

(C6 181 nhan dé, trong 6 có 36 nhan đề tạp chí ngoại vẫn, được sử dụng

tự do, không qua khâu mượn trả nên vòng quay khá cao, Tuy nhiên, do hạn chế ngoài rất có giá trị nhưng it được độc giả khai thác

4 Bang tir, CD-ROM:

Véi 250 CDROM, 200 bản đỗ và hơn 700 bằng video/cassete các dang túi liệu này có tuổi thọ ngẫn, chỉ có thể lưu giữ và bảo quản tối đa từ 10 đến 15 năm

.HU/Phân tích, chọn lựa tài liệu để số h

"Với bộ sưu tập khả phong phi va da dạng nêu rên số hoá tắt cả các tài

cổ trong thư viện là một điều ảo tưởng Đây là việc lâm rất tổn thi gian, tiễn trữ thông in đễ cỗ nguy cơ lạc hậu Đồng thời vẫn đề bản quyền ải liệu rắt quan tin là *Thông tin phổ biển không được vi phạm bản quyền” Một khi tả liệu đã cia te git ti liệu đó phải được tôn trọng và đảm bảo bằng pháp luật Chính từ

_vắn để nhạy cảm này, chủng ta cần xác định ưu tiên số hoá nguồn tải liệu nào có

lêu

trong thư viện

“rước đây phục vụ giáo trình cho sinh viên là khâu quan trọng nhất trong,

số nguồn tải liệu mà thư viện có nhưng việc phụ vụ lạ rất khó khăn Thứ viện

"

Trang 17

phải thụ hồi lại sau mỖi năm cho các khóa học sau Việc bảo quản các giáo trình này rất khó khăn kh mã các sinh viên đã lưu giữ sau một năm học tập đồng thời

những bản in cũ bị huỷ bỏ Sau này do tỉnh chất quan lý phức tạp đồng thời

khả năng lưu rữ (điện tích kho han hẹp) thư viện đã bỏ hình thức phục vụ nà

"em giáo trình cũng như một ải liệu tham khả

cho mỗi nhan đề giảo trình nhập vào kho để phục vụ còn sinh viên sẽ phải tự ứng được nhu cầu học tập cắn thiết nhất cho sinh viên và theo đánh giá của khâu

phục vụ thì các giáo trình được xem là nguồn tải liệu được sử dụng nhiều vả

vòng quay nhanh nhất Năm bất được như cầu và lẪm quan trọng này, đẳng thôi

số lượng đầu sách không lớn Nguồn tài liệu này không bị vướng mắc nhiều về

vin để bản quyền so với các tải liệu khác ở thư viện Do vậy, giáo trình được

hoạch tiến hành số hỏa toan bộ giáo trình hiện có Giáo trình điện tử sẽ được

học Sư phạm Chinh vì vậy Thư viện đã giao cho nhóm chúng tôi thực hiện để

tài "Quá trình số hóa Giáo trình phục vụ cho việc dạy và học tại trường ĐHSP

Hiện nay hằu hết các giáo trình đều do Ban Án Bản của nhà trường xuất

bản Các giáo trình luôn được Thư viện bổ sung một cách cân đổi và phù hợp

viện có kế hoạch số hoá toàn bộ giáo trinh trong thời gian tới Trong phạm vi

giới hạn của để ải chúng tôi sẽ lựa chọn 50 giáo trình sao cho mỗi khoa có tử

một đến hai nhan để nhằm giới thiệu dạng giáo trình số đến các khoa trong

trường

Trang 18

xuất bản những năm gắn đây (sau năm 2000) được in dưới dang typo, offset va

các giáo trình đủ xuất bản từ những năm 1990 trở về trước phẩn lớn dưới dạng

im roneo: Những giáo trình in roneo đã quá cũ nhưng vẫn đáp ứng như cầu của

šm của số giáo trình nảy lả giấy quá cũ vắng chữ in bị lem rắt khó

u nảy rất khó khăn

vụ Đặc

doe nén việc số hỏa tải

Khi xem xét để tiến hành số hóa, chúng tôi phân loại các dạng giáo trình hiện có và dự kiến phương pháp sổ hóa như sau:

~ _ Giáo trình được Ban An bin giao dưới dạng văn bản (Word) được lưu giữ trên đĩa CD

~ _ Giáo trình in bằng giấy sẽ cho tiến hành Sean từng cuốn

~ _ Giáo trình bản in quả cũ không thể scan sẽ cho đánh máy lại 'Với 3 loại giáo trình này, tắt cả sẽ được chuyển sang dang anh, dang PDF,

Trong quá trình chọn lọc ban đầu này sinh một số hạn chế khi tiến hành

số hóa giáo trình cho các khoa Do đặc thủ trong ngành sư phạm có nhiều khoa

nên các giáo trình mặc di không chuyên ngảnh sâu nhưng lại hầu hết là các

'khoa học cơ bản nên giáo trình rất đa đạng từ các bộ môn: Toán, Lý, Hóa, Sinh

Sử Địa Ngọại nga, Mim non, Tiểu học, Giáo dục chính tỉ, Giáo dục thể chất do đố trong quả trình số héa cin xem xét bao quát cấn thận Mỗi giáo

trình đều có những đặc thù khác nhau về hình ảnh, công thức, chữ viết, biểu

đđồ cần phải được lưu ý kỹ cảng trong quá trình nhận dạng Ngoài vi còn có Pháp thí trình độ đọc, hiểu để sửa chính tả các bản giáo trình sau khi nhận

dạng với chúng tôi còn nhiễu hạn chế Và nhất là với giáo trình tiếng Hoa,

ciảng tối chưa thể thực hiện số hốa được vĩ nhấn viên không đã khả năng hiểu biết về ngôn ngữ nay Đây cũng là điểm yếu mà tới đầy Thư viện sẽ phải lưu ý

để nâng cao khả năng về nhiễu ngoại ngữ cho nhản viên thư viện Qua xem xét

hiện được số hoá các giáo trình tiểng Việt Anh Pháp, Ngã

B

Trang 19

và đa dạng, có thể được trình bày đẩy đủ với cả âm thanh, hình ảnh động song

bước đầu chúng tôi chỉ thực hiện số hóa các giáo trình đưới dạng văn bản

chuyển các giáo trình ín sang dang số nhưng trong quá trình xây dựng để tải, điểm việc số hóa các giáo trình có thể ở nhiễu dạng, hình thức (văn bản, bản viết tay, đồ họa, bản đỏ, ảnh chụp, phim, âm thanh )

Trang 20

BẢN THÔ SANG TÀI LIỆU ĐIỆN TỪ

Với nguồn giáo trình chủ yêu dưới dang in nên sẽ chủ trọng vào việc số hỏa

thực hiện dưới hình thức quết ảnh Để hiểu thực hiện được công việc nảy cho

kết quả tốt và hiểu quả, chúng ta cần nắm bắt một số van để như sau;

U KỆ thuật số hóa

Chương này được trình bày dựa trên việc tham khảo từ tài liệu nghiên cứu

thực tế số hóa của đại học Conell tại Mỹ,

Có hai giai đoạn rong tiến trình số hóa đó là:

«- Giải đoạn cho ra sản phẩm số hỏa dang hình (ảnh số) bảng tiến trình

201 la quét hinh ~ scanning,

«©_ Giai đoạn hai cho ra sản phẩm đạng số hóa văn bản bằng một tiến trình

ọi là nhận dạng kỹ tự quang học ~ OCR (Optical character Recognition)

Để thực hiện được tiến trình số hóa trên, ching ta cin nim một số khải niện

và thuật ngữ cơ bản sau:

1ƯẢnh số:

1.1 Khái niệm:

Ảnh số là các "ảnh điện tử" được quết từ các ti liệu gốc Một ánh số có thể

thể hiện chính xác nội dung bổ cục và cách trình bảy của văn bản gốc bao gồm

kiểu chữ, chủ thích và ảnh minh hoạ

Một ảnh số được lắy mẫu và vẽ đưới dạng một hệ thống các điểm hay các nguyên tổ ảnh được gọi các pixel MỸ Ìxel thể hiện một don vi mau (den, trắng hoặc các gam mâu khác) và về mật sở được biểu diễn dudi dạng các mã pixel được ghi theo một trình tự nhất định trong máy tính, hoặc được rit gon đọc để tạo ra một hình ảnh analog hiện trên mắn hình hoặc bản in

Is

Trang 21

“ảnh mảnh” ("raster image") hoặc "ảnh nhị phân” (*bitrapped image") song ảnh

n dưới dang các đường thẳng va đường cong toán học xác định mả được th

ém Anh vecta nhìn chung là cỏ thể được tạo ra với kích cỡ

dạng hệ thông các

và độ chính xác bắt kỹ, côn chất lượng của ảnh sổ lại phụ thuộc vào độ phần giải được Ấn định tử trước khi quất

Mặc dù kỹ thuật ảnh số đã được biết đến từ khá lâu nhưng nó mới bất đầu

được sử đụng rộng rãi từ thập nién 1990, khi những tiến bộ kỹ thuật cho ra đời

những hình ảnh rõ nét hơn, chỉ phí thấp hơn và khả năng truy cập cao hơn Các

nhân tổ đã tạo ra những điều kiện thuận lợi đó là:

~ _ Sự phát triển kỳ điệu của máy tính cá nhân

~ _ Các hệ thống mạng rộng lớn cỏ tốc độ cao trở nên phổ biển

‘+ Trung thy so với nguyên bản

~_ Tương đương với kỹ thuật ánh sáng thấu kính +

—_ Thay đổi được kích cỡ ảnh

Trang 22

vả văn thư hiện nay, bao gồm:

~ _ Cơ sở kỹ thuật thay đổi nhanh chóng,

~ Chịu nhiều sức ép về mặt pháp luật trong đó có luật bản quyển

~ _ Chất lượng vả khả năng của các phần cứng phần mém rất không đông nhất

~ Cô những yêu cầu cao về sao chép, lưu trữ

‘Nhu edu và khả năng của các cơ sở lưu trữ chưa cao

Thiểu tinh dn định vả sự hỗ trợ của các hãng dịch vụ

Khi quết ánh số phải tỉnh toán đến các quy trình kỹ thuật liên quan đến việc

chuyển từ ánh analog sang ảnh số cũng như các thuộc tính của chính các văn

bản gốc như: kích thước, mức độ chỉ iết, thang màu Các văn bản có thể được

định tính bằng các quy trình kỹ thuật được sử dụng để tạo ra nó, bao gồm các

ất là điện tử,

phương pháp bằng tay, bằng mây, chụp ảnh hay mới

“Toàn bộ các văn bản bằng giấy hoặc bằng phim có thể được chia thành 4 loại

sau:

= Bản văn/Đông (Textine art}: GỒm những hình ảnh đồng mâu có ranh giới

rò rằng thường đơn sắc, có thể được tạo ra bằng tay, máy chữ hoặc máy in, bao

gồm: bản văn, bản viết tay, đồ thị, bản khắc gỗ, văn bản được đánh mây hay in

laser, bản thiết kể, bản đỗ vả bản chép nhạc

~_ Tông màu chuyển tiếp (Continuous tone): Những văn bản gồm các gam chuyển tiếp nhau, có thể đơn sắc hoặc đa sắc, bao gồm ảnh chụp, một số loại

Trang 23

các thuộc tỉnh gam chuyển tiếp như bản khắc đồng, in đá, in chụp

~_ Nữa tông hoặc kiểu nữa tông (Halfione or halflone-like): Những hình ảnh

tạo thành từ các điểm hoặc đường nằm cách đều, có thể đơn hoặc đa sắc, bao

ôm những ảnh đồ hoạ được tao thánh từ các nét hoặc đường kẻ song song sit

nhau nằm cách đều, vi dụ bản chạm khắc hoặc khiic axit

~_ Hỗn hợp (Mixed): Tổng hợp cả 3 loại văn bản trên, đơn hoặc đa sắc, bao

‘26m báo, tạp chỉ, sách có tranh minh hoạ

1.2 Kỹ thuật quét ai

© "Ben tring" ("bitonal”): mét pixel gồm một số nhị phân thể hiện màu

trắng hoặc đen thích hợp với các loại bản văn và một số loại nửa tông

© "Dai xém* ("grayscale"): một pixel gồm nhiều số nhị phân thể hiện các

gam màu xám khác nhau, thích hợp với các văn bản gam chuyển tiếp den trắng,

nữa tông, hỗn hợp và một số bản viết tay

© "Miu" ("color"): mét pixel gồm nhiễu số nhị phân thể hiện các máu sắc

khác nhau thích hợp với tất cả các loại văn bản trong đó mẫu sắc giữ vai trỏ quan trọng,

Chất lượng ảnh số được quét chịu ảnh hưởng của những vấn dé sau:

~_ Độ phân giải và ngưỡng

—_ Kỹ thuật chỉnh sửa ảnh

~ Quá trình nén

~ _ Thiết bị sử dụng và hiệu suất của thiết bị đó

~ _ Vận hành hợp lý, cắn thận

Đô phân giải (Resolution) được xác định bằng số lượng pixel tạo ra ảnh theo

don vj dpi (số điểm trên 1 inch) Số lượng pixel cảng lớn thì độ phân giải cảng

‘cao và khả năng thể hiện các chỉ tiết của ảnh cảng cao, Tuy nhiên, đến một mức

449 nào đó, độ phân giải cao hơn cũng không cải thiện đáng kể chất lượng ảnh

mã chỉ lắm tăng kích dhước của tập: Vấn dễ mẫu chốt khi quết ảnh là phải xác

Trang 24

pixel của máy quết

'Ngưỡng (threshold) là thuật ngữ được dùng trong kỹ thuật quét đen trắng

để chỉ một điểm trên thước đo mã tại đó các giá trị thể hiện màu xám được dịch thành các pixel trắng hoặc den

Trong kỹ thuật quét den trắng độ phân giải và ngường lả mắu chốt của

chất lượng ảnh Kỹ thuật này phù hợp nhất với các văn bản có độ tương phản phản thấp như ảnh chụp cần đến kỹ thuật quét dải xám hoặc nhiễu màu Trong 2

loại kỹ thuật quét này độ phân giải và số bịt là 2 yếu tố cấu thảnh nên chất

lượng ảnh

Độ sâu màu (bit depth) được xác định bằng số lượng chữ sổ nhị phân được sử đụng để thể hiện mỗi pixel Số bit cảng lớn thì cảng nhiều sắc màu đổi các gam mau - được đo bằng mật độ kế - tử vùng sáng nhất đến vùng tối

nhất của văn bản Các vật liệu trong suốt cô đãi biển động rộng hơn, do đó thể

cả các sắc màu của máy quét, bao gồm những chỉ tit trong ving sing và vùng phụ thuộc vào đãi bị

đến độ phân giải cần thiết, kích thước tệp và phương pháp nén

6 dng cia may va sé it Số bì tăng lên sẽ ảnh hưởng

Chỉnh sửa ảnh (Image enhancement) là quả trình cải thiện chất lượng ảnh Tuy

sửa còn làm tăng chỉ phi quét ảnh Các đặc điểm chỉnh sửa điển hình có thể (filter), ede đường cong tải tạo tông mau (tonal reproduction curves) va quản lý mau (color management)

Nén (Compression) lim giảm kích thước tập rong quá trình xử lý

Trang 25

dụng để giảm bớt kích thước tệp ảnh số, tạo điều kiện cho lưu trữ, xử lý và ảnh

Thiết bị sử dụng và hiệu suất của nó qua thời gian sẽ ảnh hưởng đến chất lượng

hình ảnh Những công nghệ quét khác nhau có ảnh hưởng rõ rệt đến sản phẩm

và độ chính xác của kỹ thuật xác định chuẩn chất lượng Vì vậy những đỏi hi

thận Phải đảm bảo rằng những yêu cầu về chất lượng ánh đã

được đáp ứng bằng cách kiểm tra các sản phẩm qua màn hình vả giấy sử dụng

kết hợp các vị trí kiểm tra kỹ thuật và các mẫu nguyễn bản

cảnh hưởng rất lớn đến chất lượng hình ảnh thu được Những quyết định hợp lý

“của người điều hành là võ cũng quan trọng khi quét đen trắng vì ở đó chất lượng ảnh hoàn toàn phụ thuộc vào ngưỡng và độ phân giải Quá trình quét xám phụ Xuyên một chương trình bảo đảm chất lượng ảnh để kiểm tra sản phẩm của mọi

kỹ thuật quét

Chất lượng ảnh cần đảm báo việc lưu tô, khai thắc và vẫn để chỉ phí:

‘Cin áp dụng một nguyên tắc quết ảnh đảm bảo chất lượng và tính thực dụng cao nhất với chỉ phí thấp nhất Các yêu cầu về lưu rủ, khai thác và tính

có trong nguyên bản Chuyển đổi bảng kỹ thuật số hay analog chỉ là các cách khác nhau để ghi lại nội dung thông tin chứa trong nguyên bản dưới dạng cắt

lữ hay trưng bày Còn về mặt giá trị thực hay giá trị nhân văn thì bản copy chỉ

có thể đại điện chứ không thể thay thể được nguyên bản

La tr, nêu ảnh số được sử dụng với mục địch lưu trữ thì chất lượng ảnh

là yếu tổ quan trọng bởi vì nó sẽ được sử dụng để thay thé cho nguyên bản còn

nguyễn bản sẽ được cắt giữ ở một nơi khác, trong môi trường phù hợp Số lượng

20

Trang 26

nguyên bản

Khai ;hác, ảnh số là cơng cụ để thuận tiện hố việc khai thúc, nhưng

trong mọi trưởng hợp, một anh số khơng thể thộ mãn được tắt cả các nhu cầu

“của người sử dụng Mội tệp số chủ cần được tạo ra và sử dụng đễ nhân bản hãng loại hình ảnh vì các nguyễn nhân sau:

~ Với những khả năng khác nhau của máy tính, tit cả các nhu cầu sử đụng

cĩ thể được đáp ứng thơng qua các bản phái sinh

~ _ Các yêu cầu và khả năng ví hiển thị và xử lý ảnh vơ cùng đa dạng

~_ Khơ cĩ thể cùng một lúc đáp ứng được tất cả các nhủ cẩu về sự hồn

chỉnh, chỉ tiết của ảnh và tốc độ xử lý

~ _ Quế trình quét cảng tốt thì chất lượng bản phái sinh* cảng tốt

~ _ Những địi hồi của người sử dụng ngây cảng cao, phải cĩ đủ các chủ để cung cắp cho những ứng dụng rong tương lai

Chi phí, tạo ảnh số là một cơng việc tốn kém; chỉ phí vào nhân lực và

với chính chi phí quét ảnh Chất lượng ảnh cao khơng đồng nghĩa với độ phân

giải và số bit cao nhất, mà chính là sự phi hop giữa quá trình quét ảnh với nội

dung của nguyễn bản vả quét ở mức độ đảm bảo bắt được đúng những thơng tin

đĩ, khơng nhiều hơn cũng khơng ít hơn Bằng cách đĩ, cĩ thé trắnh được khả năng phải quết lại ảnh sau này: chỉ phí cho lưu trữ và di nhập thơng tin khơng

phải là nhỏ nhưng ở mức độ hợp lý và cỏ thể được bù lại bằng giá trị lâu dài của

ảnh số chứ khơng bị hạn chế bởi những phán quyết về mặt kỹ thuật tại thời điểm quế

Những yếu tổ để đàm bảo chất lượng ảnh: Xem phần Phụ lục 1

‘Dam bảo số bit, kích thước tệp, độ nén vả chất lượng ảnh:

Xem phần Phụ lục 2

Trang 27

Hiện nay chưa có tiêu chuẩn chất lượng ảnh chính thức đối với ảnh sé

Có nhiều loại tư liệu cân được những quy trình quét khác nhau Những mức độ

“đặt ra và khẳng định qua các sản phim quét Một số kinh nghiệm quát ảnh về nhiễu loại tư liệu khác nhau như sau

~ Tự liệu bản văn đã được xuất bản: 600 dpi quét đen tring đổi với các ảnh

~ Tự liệu bản văn có tranh minh hoạ: 600 dpi quét den tring cỏ chỉnh sửa - (đủ để quết thay thể phần lớn các tranh minh boạ nếu vì phím và bin photocopy photocopy khing được chấp nhận, hãy bắt đẫu bằng quết xám 8-bit ở độ phân cẩn quét miu 24-bit, Các bản đỗ mẫu cỡ lớn, quét màu 24-bit 200 dpi la dim bảo độ rõ thoả đăng

~ Tự liệu nửa tông: 600 dpi quét đen trắng hoặc quết xám ở độ phân giải = 1.5 lần độ mảnh Tư liệu màu nửa tông cần quét màu 24- bit, bắt đầu ở độ phân giải = 1.5 lần độ mảnh

— Tư liệu văn thư lưu trữ: các bản đánh máy/ in lasez/ viết bằng bất bi: chỉ

cẵn quét 2-bit ở độ phản giải tối thiểu là 300 đợi Bản viết bằng chì/ bút lông

‘mau 6 300 dpi 2-bit, Ban viết tay: quét mau 600 dpi, 24 bit

~ Ảnh chụp: quét xám 8-bit, độ phân giải cần thiết phụ thuộc vào chất lượng,

chỉ tiết của nguyên bản và mức độ sử dụng Ảnh chụp mau cin quét 24 bit, yêu

cầu về độ phản giải phụ thuộc vào chất lượng chỉ tiết của nguyên bản vả mức

độ sử dụng

Cân bằng giữa chất lượng và năng suất đầu vào: Độ phân giải số bịt và các

cấu hình thể hiện phức hợp của thời gian quét ảnh chỉ phi kích thước tệp và các

Trang 28

cập va in trong chuỗi sỗ hoá, và năng cao những đổi hôi về mật hệ thẳng

Sản phẩm này được xuất ra thông qua tiến trình nhận dạng kỷ tự quang học

(OCR) từ các ảnh số nêu trên Nhận dạng ki tự làm công việc chuyển thể các

đổi các ảnh số thảnh đạng gần tương đương với nguyên bản Đầu vào là một

hình ảnh kỹ thuật số ở định đạng TIFF hoặc Bipmap đầu ra là văn bản hoặc

trang Web định dang RTF, Word, HTML, PDF

OCR là một trong những công nghệ chính giúp cho duyệt toàn văn trở nên phỏ biến Tuy nhiền, chúng ta phái lưu ý rằng OCR không phải là một thiết bị

hoàn hảo Tỉ lệ nhận dạng của OCR đối với những văn bản chất lượng tốt có thể

vượt quá 99% - nghĩa là ở những trang gồm khoảng 2000 ký tự, sẽ còn lại 20 ký

tự có thể chứa lỗi ở văn bản sau xử lý OCR Thực tế, chính xác của OCR chỉ ở

mức 94% cũng không ảnh hưởng đáng kể đến hiệu suất của thiết bị duyệt Tuy

nhiên, đối với những tư liệu được bảo quản không tốt và không phải dạng đảnh

quá của OCR không được như vậy

máy, tính

lại đòi hỏi nhiều thời gian và nhân lực, vì vậy chỉ cằn áp dụng khi phân vùng tự

động không nhận dạng được những vùng chữ quá nhỏ (ví đụ: phụ chủ và chủ thích) hoặc thường xuyên đọc sa trình tự

“Trong bước xử lý nhận dang kỷ tự này các thuật toán nhận đạng tương ứng

sẽ dịch từng vùng bằng cách đọc từng kỷ tự Danh mục nhận dạng OCR gồm

3

Trang 29

el miu đen trên nên các pixel mu trắng, Độ chính xác thưởng bị ảnh hưởng

~_ Những ky tự quả sảng hoặc quả tối

— _ Những ký tự không liễn nét

~ Những ký tự viết chồng chéo lên nhau

~ _ Độ tương phản giữa mực vả giấy quá thấp

~ _ Các phương tiện không phải là mực

~ _ Nhiễu (vết ô, bắn, nhoè)

Một chương trình số có thé chi la tạo một đĩa CD-ROM được sử đụng ở một

iy tinh đơn lẻ, song cũng cỏ thể lả cả một thư viện số hoá được sử dụng rộng,

Dù có kích thước và phạm vi nào thì một chương trình ảnh vẫn phải cẳn

Phin cứng và phần mễm

(Các nguyên tắc và chuẩn ngôn ngữ chỉ phối mỗi quan hệ gi0a các phần

chức năng khác nhau (như chuyển đổi, truy cập)

(Ci gino thức trong giao tiếp và phân phối

Những cá nhân có khả năng và trình độ phù hợp với công việc

(Cac cau hình của hệ thông

Trang 30

Một hệ thẳng ảnh dẫy đủ gồm 05 loại phẩn cứng và các phẫn mễm đi kèm Các phẫn sẽ lẫn lượt được tình bảy cũng với những lưu ý riễng khi sở dụng trong thư viện và lưu tr, gỗm:

~_ Máy quét

~ May tinh

= Hé théng tuu tro

~ Mang

~ Hé thong hién thi

"hình được liệt kế ở trên là những phẫn cimg va phan mềm riêng biệt

Song các phẳn chức năng của một chương trinh ảnh lại có quan hệ chặt chẽ với nhau, Các cấu hình phải được chọn lọc một cách thống nhất với mục tiêu sử dụng hữu hiệu tắt cả các nguồn, kể cả nhân lực, Chúng ta sẽ phản tích, xem xét các cấu hình nêu trên để đánh giả khả năng thư viện trường cô thể thực hiện

được quy trình số hỏa như thể nào Từ đỏ đưa ra những giải pháp yêu cẩu thực

hiện,

1 Phần cứng:

1.1 Máy quết: Thiết bị bắt ảnh

Ding dé chụp hình các tải liệu ở dạng giấy và chuyển vảo máy tính dưới dạng ảnh Tùy vào các máy quét khác nhau để có chất lượng ảnh bắt được, hiệu

suất và tính thực dụng khác nhau

“Các máy quét làm việc như thể nào 2 (Xem phẩn Phụ lục 4)

Chất lượng ảnh phụ thuộc vào các đặc tính quang học, những tiền bộ tong

kỹ thuật quế (gdm cả khả năng của phần mễm) và tính chính xác của các bộ phận cơ khi / điện tử

Các kỹ thuật quết

- Điểm

= Dang

Trang 31

Trong quết điễm, thông tin của ảnh được bắt liên tục tữ pixel này đến pixel

khác Các dụng cụ quét

hiệu - nhiễu thắp nhưng năng suất đầu vào thấp

Trong quét đông, thông tin ảnh được thu bằng một đây detector có chức

năng đỏ soát bể mặt tư liệu theo từng dòng một Một số hệ thông có mảng quét 3

đông (ti-linear array) để bắt các đải mẫu đỏ, xanh lá cây và xanh lơ của thông

tin Đây là đạng máy quét phố biến nhất trên thị trường vì nó cân bằng giữa độ

ích kèm theo Ta có thể tạm chia theo tính năng thảnh 02 loại:

~ Máy quết văn phỏng

~ Máy quét công nghiệp

Với việc số hoá có quy mô như ở thư viện hiện nay, ching ta cn quan tim

kỹ đến loại thiết bị quét này để cô sự chọn lựa chính xác

Mây quét văn phòng chỉ xử lý được từng trang, tốc độ scan thấp, phải có

người nạp lạ tải liệu mỗi khi sean xong

Mây quét công nghiệp tốc độ sean cao có thể tự ding scan liên tục và di

kèm với các thiết bị phụ cũng như các tính năng phù hợp Vi dụ như:

~ _ Độ phân giải quang học: các hình ảnh dùng để đưa lên trang web hoặc để in

ra cờ 3ˆ x 5" hoặc 4" x 6° thì chọn độ phần giái 100dpi là tốt nhất; còn khi nhận

‘dang văn bản thì 300dpi là chuẩn nhất Nhưng néu ta muốn có được các tắm ảnh

có độ phân giải quang học là 1200dpi hoặc 2400dpi Chúng ta sẽ có được khả

năng linh hoạt trong việc sửa chữa các hình ảnh khi bắt đâu với độ phân giải cao

26

Trang 32

lính phải mạnh, Chẳng hạn, với việc quết | ảnh cỡ 4" x 6* ở độ phân giải 1200đpi sẽ nhận được tắm ảnh có dung lượng cỡ 25MB vả thời gian quết sẽ lâu hơn,

= BO phan nạp giấy tự động: cũng giống như máy photocopy, bộ phân nạp nhiều dung lượng đĩa cứng, mát

tuần tự từng trang ti liệu khi cẳn quét lượng lớn tải liệu

~ Giao tiếp với máy tính: đếp ứng được với công nghệ mới nht hiện nay nên 2.0 vẫn giao tiếp được với các tmainboard có cổng USB 1.1) Higa nay 0b 1 số máy quết sử dụng công nghệ kết nỗi FireWire có tốc độ nhanh hơn các loại máy

quết sử dụng chuẩn giao tiếp USB

= BO sau mâu: là số lượng mâu sắc (kế cả thang độ xảm) mã Ì máy quét có thể nhận dạng và lưu trữ được, tính bằng đơn vị 1 Cae may quét thông thường có thể “bit” (capture) nhiều dữ liệu hơn trình điều khiển (driver) của nó

“có thể lưu trổ, thường thấy một số thuật ngữ vỀ mức giới hạn của độ sâu mẫu, như là 48-bit màu nội tại (intemal) hoặc phần cứng (hardteare) ~ biểu thị cho số

(external) hoặc mâu thực (true color) mô tả số lượng mâu tối đa mà trình điều

khiển của máy quết có thể lưu trữ được Đối với tắt cả các kiểu máy quét thông cdụng thì độ sâu 24-bit màu là có thể dùng tốt

~_ Phẩn mềm: Tắt cả các máy quét đều có các gói phẩn mềm đi kẻm theo để

cho phép máy tính nhận dạng các hình ảnh từ máy quết Hằu hết các máy quét hiện các thao tác như: thay đổi kích thước, cắt xén, chỉnh độ sáng, va in ra Các

loại máy quét cao cắp có thể còn bao gồm cả phần mềm Adobe Photoshop cho

phép các thao tác phúc tạp hơn Và đa số các loại máy quát đều có phần mắm

quết các trang văn bản và chuyển chủng tir dang anh quét sang dạng văn bản để

có thể chỉnh sửa

Trang 33

loại và đánh giá để tìm ra máy quết phủ hợp với nhu câu vả công việc Khi lưu ÿ

về độ phân giải đản chủ ý rằng phần nhỏ nhất của 2 con sổ chỉ ra số lượng điểm

mà mắy quết có thể bất được trên mỗi inch tuyển tỉnh của đầu qui (còn gọi là

độ phần gidi quang học) Phân lớn nhất lá số các đòng dẫu quét bắt được khi đầu cquết qua mỗi inch của hình ảnh hoặc văn bản

Thông thường bỏ qua độ phân giải nội suy, đây là phương pháp sử dụng phẩn mễm để bổ sung thêm thông tỉn vào hình ánh Cách này có thể lăm cho

ấp có thể sẽ thấy 1 tính năng gọi là đải động (Dynamic Range hoặc

max) diy là độ nhạy của thiết bị trong sự chuyển đổi chính xác các mẫu sáng mâu tối vã bỏng của hinh ảnh Dmax được xem là tốt cỡ 3.2 hoặc cao hơn Nên chủ ý Dmax là hệ thống lõ-gx-ft nên Ì my quốt cổ lì số Dmax 3⁄4 hoặc 36 thì tốt hơn máy quết có tỉ số 3⁄2

iii |Rất quan trọng: Độ phản giải cing coo thi ảnh quết được cảng nét Yêu

ố này cảng quan trọng hơn khi định phỏng lớn ảnh 2x17 fi "XI?" đến 8.5°x14" Ninh

Trang 34

uct sir dung công nghệ

in| cing &8

| Cổng giao Luuết chưa 2 Đa số các may quét hign nay déu sir dung cing USB 1.1, nd tiếp {chi div nhanh cho các công việc nhỏ Một vải máy quét còn có cả 2 cổng

Mê kết nói: USB và parallel (cổng máy in), cho phép chúng làm việc với Kác máy tính đối cũ Nếu muỗn dùng mãy quết có cổng kết nối USB 2 Âbi máy tính của cũng phải cổ công UISB 20

Độ phân giải quang 7 48 2400 x 2400

Mae dai mẫu xám

ones Uncen te meen 200 Me, XP Professional a Hone Eons: PC with

ime! Penium i 253 Mile poesor Celeron ơi patible: MB

255 MB free hard disk space,

Mt Microsoft Windows Internet ti 5.01 SP2 oF

Trang 35

Qua cic yêu cẫu và các chỉ tết kỹ thuật nêu trên, sơ sinh với mây sean Thư

viện có, chúng tôi thấy đã có thé scan được các giáo trình hiện có nhưng đây

cũng chỉ là loại máy ding cho vin phông, chưa phái là mây scan công nghiệp để

có thể sean tự động toàn bộ một cuỗn giáo trình hay scan dai trà phù hợp với

ất cần những loại máy có chế độ "Cung cắp

tính năng của thư viện Thư viện

giấy tự động” Với loại máy hiện có, việc scan chỉ có thé đưa giấy theo từng tờ

rời sẽ mắt rất nhiều thời gian, không linh hoạt ~ mang tính thủ công Với khổ

giấy sử dụng cho 2 máy scan trên là chưa thích hợp Với các giáo trình khổ lớn

hay các bản vẽ, bản đồ thi việc sean trở nên rất khó khăn, không phủ hợp Đối

với độ phân giải, theo yêu cầu của chương trình thì những văn bản có font chữ

cỡ 10 trở lên thì chọn độ phân giải 300 dpi là thích hợp, còn font chữ cỡ 9pt trở quả đạt được mới khả quan Còn các chỉ tiết kỹ thuật khác xem như phủ hợp

"Với các loại giáo trình in roneo gidy vàng trước đây, chúng tôi chọn phương

án nhập lại dỡ liệu bằng tay (manual entry) - đây thường là giải pháp duy nhất một sưu tập không thể duyệt được bằng OCR hoặc duyệt với độ chính xác thấp đưới 95% v

1.2 Máy tính:

Đông 4 để nhận ảnh từ máy sean và xử ý ảnh sau khi sea xong Quá rnh xử

nguyên của máy tính, Mục đích của việc xác định các yêu cầu về máy tính lã tìm cách tránh các vướng mắc ở mọi công đoạn: quét, lưu ảnh vào đĩa, tạo ra các ảnh pI anh cho khai thắc, vận chuyển

ảnh qua mạng hoặc gửi ảnh đến mản hình hoặc máy in Các yêu cẩu đổi với hệ phân giải cao hoặc một lượng ảnh lớn Hiệu suất của máy thường được đánh giá

(bus architecture) và các giao điện trong máy tính giữ những vai trò quan trọng

như nhau trong việc tối đa hoá năng suất đầu vảo Do vậy, máy tính cần phải có

cấu hình và cổng kết nỗi phù hợp Năng suất thoả đáng đạt được với máy tính có những chỉ tiết kỹ thuậ tôi thiểu như sau:

30

Trang 36

thiết bị này ảnh hưởng rất lớn năng lực tổng thể của máy tỉnh CPU dùng để xử

ý các chí thị lệnh do chương trinh được nap vio bộ nhớ CPU sẽ thực hiện tuẫn

cache lớn thì việc xử lý của ứng dụng sẽ tăng lên Đối với qui trình số hỏa, sản

phẩm trung gian thường là các tập tin ảnh dung lượng lớn và các chương trình cắn trang bị CPU có tốc độ cao và có cache lớn

Bộ nhớ (RAM): đùng để lưu trữ dữ liệu do các ứng dụng nạp vào để CPU

xử lý, Có nhiều loại thiết bị để nạp ứng dụng nhưng RAM là thiết bị xử lý nhanh

chỉ thị lệnh do ứng dụng nạp vào Dung lượng RAM cảng lớn thì tốc độ xử lý

của máy tính cảng nhanh Đối với qui trình số hóa, sản phẩm trung gian thường

là các tập tin ảnh dung lượng lớn, để việc xử lý được “nhẹ nhàng”, các tập tin sẽ

ớn để việc xử lý diễn ra nhanh chóng

Mân hình máy tinh (Monitor): ding để biển thị hình ảnh Thiết bị có kích cỡ

cảng lớn thi có độ phân giải cao và hiện thị hình ảnh sắc nét hơn

1.3 Thiết bị lưu trữ: có 02 loại

+ Ô đĩa cứng (Hard disk): © dia cimg ding để lưu trữ dữ liệu và đôi lúc hỗ trợ một phần cho RAM (ở đây đĩa cứng ghỉ trực tuyến các chương trình, chủ

cảng nhiều thông tin Ngoai ra tốc độ truy xuất của ỏ đĩa cứng còn phụ thuộc

nhất (thời gian phân ứng tinh bằng miligiáy); chỉ phí giảm Nhược điểm: phức

31

Trang 37

phương tiện quang học

+ Ô đĩa quang (CD-ROM, DVD- ROM Read Write)

CD - ROM, ing dyng: lưu trữ tệp số chủ lâu dài Đây là phương tiện trao đổi

ảnh tốc độ trung binh và phân phối rộng rãi Ưu điểm: chuẳn ISO 9660 cho phép,

đọc và viết phố thông; có phương tiện ổn định; giá thành thấp (đổi với các với nhiều phương tiện Nhược tốc độ ghi và đọc chậm; sức chứa nhỏ,

650MB,

DVD - ROM được xem là thế hệ phương tiện lưu trữ mới nhất, có thể trở

thành một chuẩn chung để ghỉ âm thanh hỉnh ảnh và dữ liệu máy tính của toàn

thể giới Đĩa có dung lượng bộ nhớ từ 4.7-17GB

Theo nghiền cứu của chúng tôi cầu hình máy tính để thực hiện số hóa như

sau

HDD SATA: 120 GB ‘VGA: 128 MB DDR chip Geforce

Diu doc DVD-ROM Monitor: 19 inch

‘Tuy nhiên với điều kiện của Thư viện hiện na

máy tính IBM của thư viện có cấu hình như sau: chủng tôi tạm thời sử dụng

không é người sử dụng có thể cùng khai thác thông tin chính

tốc độ thỏa đáng Muốn đạt được hiệu quả cao trong việc khái thác tài

nguyên thông tin, cần hiểu rõ mỗi quan hệ giữa kích thước tệp và bãng thông đường truyền cũng như độ ổn định của hệ thống mạng

xác vệ

32

Trang 38

~ Bộ phân nối mạng cáp (lines), may chi (server), may tram (client)

- Card nỗi mạng ở mỗi máy trạm

Tốc độ phân phối ảnh sổ được xắc định bằng:

~ Sức chứa của mạng (bãng thông)

~ Kích thước têp

~ Phương tiện để hiển thị ảnh và các tính năng của máy tính Sức chứa của mạng: Dược đø bằng tổn sốt (không phải byte) có thể được truyền đi mỗi giây (bps) gọi la dai thông (bandwidth) Tay thude mạng mã thông tin có thể được truyền đi từng bit một hoặc từng

Có thể ước lượng tốc độ truyền của mạng thông qua dải thông của một mạng

con Tắc độ phân phổi ảnh có thể quy về mắt xích chậm nhắt trong mạng Ngoài

cứu nhằm đánh giá nhu cẳu của người sử dụng bao gồm thời điểm, tằn số và

thời gian khai thác mạng Tốc độ truyền tối đa nền được tính ở mức thấp hơn điểm Tại giờ cao điểm, có khi tốc độ truyễn chỉ còn 20%,

card) cũng như các quy trình được sử dụng để tạo ra các ảnh phái sinh từ tệp số

đổi dạng tệp (xi dụ tử TIFF sang GIF) và các chương trình tạo tệp phải sinh

nhằm làm giám kích thước tệp chứa ảnh, nâng cao tốc độ xử lý vả hiển thị Chúng ta sẽ xét đến các đặc tính của hệ thống hiển thị cỏ ảnh hưởng đến chất

lượng và tỉnh hoàn chỉnh của ảnh, gồm các phẩn mm và các thao tác tạo tệp phái sinh, và các công thức quy ước chất lượng ảnh hiển thị

Trang 39

tập số và yêu cầu của người sử dụng Nhìn chung, các nhà nghiên cứu thường

thể); sự hiển thị toàn bộ ảnh trên mân hình; sự thể hiện chính xác kích thước của

ồn ảnh trên man hinh giống với bản in vả yêu cẩu hoàn hảo về: chất lượng ảnh, tính hoàn

nguyên bản: và tốc độ truyền ảnh cao Ngưởi sử dụng hưởng mì

1 đúng kích cỡ, tốc độ truyền ảnh Tuy nhiên, khả năng của các mạng và

monitor hiện nay chưa cho phép thoả mãn đồng thời cả 4 yêu cẩu trên Chị

lượng ảnh trên màn hình phụ thuộc nhiều vảo độ phân giải của màn hình kích

cỡ màn hinh vã kích thước pixel

2 Phần mềm cơ bản:

2.1 Phần mềm nl dang:

'Quết ảnh là khẩu rất quan trọng và ảnh hưởng rất nhiễu đến độ chính xác đổi

với quá trình nhận dạng Một văn bản rõ nét ma quét với độ sáng tối không thích cảnh sẽ ảnh hưởng nhiễu đến độ chính xác của quá trinh nhận dang Ngược lại

đối với các trang vân bản không rõ nét nhưng được thiết lập độ sáng tối độ phân

giải, đồ tương phân thích hợp cũng với sự hỗ tợ xử lý ảnh như: xóa nhiễu, dông nằm ngang) thì kết quả nhận dạng tốt hơn,

'Để đánh giá các phần mềm nhận dạng, cần kiểm tra những đặc tính sau da

~_ Các thông số ngằm định để phù hợp được với nhiễu dạng tư liệu với

"những tỉnh trạng khác nhau (ví dụ: các tư liễu có độ tương phản thấp, trung bình cao: ảnh nửa tông có độ mảnh khác nhau; ảnh chụp)

~_ Phân trang và phân vũng (tự động hoặc bing tay) đối với những tư liệu hỗn hợp

“Các tính năng xử lý ảnh (vỉ dụ: đặt ngường đái biển động, tăng độ nét, lâm lại cắt xén chỉnh)

Trang 40

(preview)

— Tinh năng tạo ra vi ghi Igi ede thidt định tuỷ biển dành cho người sử dụng

~_ Các dạng nén và cấu hình tệp

~_ Các tính năng nén và ghỉ vào đĩa tự động

~_ Kiểm soát các đường cong gama, diém tring và điểm den

~ _ Biểu đồ để xem và biên soạn các thang mau

~_ Hệ thống quản lý màu

~ _ Các tính năng đặt tên tệp và kết cấu tư liệu

Hiện nay khi mua sản phẩm máy quét tại Việt Nam, các nhả cung cấp đã cải

“đặt sẵn các phần mềm nhận dạng, vi dy:

tẳn mềm nhận dạng chữ tiếng Việt: VnDOCR

VnDOC bắt đầu từ verson 1.0 được nắng cấp 2.0, chương trình nhận dạng

tưực tiếp tả liệu, bing cách quết thông qua máy seanner thảnh các tệp ảnh, và chuyển đổi thảnh các tếp có định dang *.doc,

đụng không phải gõ lại tải liệu vào máy Hiện nay máy Scan có tại thư viện

được cải đặt phần mễm VaDOCR 2.0 đo Phòng Nhận dạng & Công nghệ trí

thức - Viện Công nghệ Thông tin cung cấp, Các tài liệu được quét đều có thể chỉnh sửa bằng một chương trình soạn thảo văn bản thông thường như Word người sử đụng lựa chọn các vùng khác nhau Đối với các trang tải liệu trình bảy đơn giản chương trinh sẽ tự động phân ving Côn đối với các tang tải liệu trình liệu cổ cách trình bay giống nhau, có thể phân ving một trang và áp dụng cách phân vũng nảy cho toàn bộ tả liệu quét vao

xls, “xt, “tf gidp người sử

Phần mềm nhận dạng tiẾng nước ngoài:

Hiện Thư viện chưa có được phần mén nhặn dang tiếng nước ngoi Chúng tối sử dụng phẫn mễm Fine Reader, bin cho phép ding thir 30 ngay để thực hiện

Ngày đăng: 30/10/2024, 11:15

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w