HCM ir it a những điểm mẫu chốt sầ lưu ý để thục hiệnviệ số hoá nguồn di liệu của thư viên ~ _ Thu thập các giáo tình dưới dạng thô ~ _ Phân tích, đảnh giả, chọn lựa để số hóa tả liệu ~
Trang 1
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRUONG DAI HQC SU PHAM THANH PHO HO CHÍ MIN!
BAO CAO TONG KET
Đề tài:
*QUÁ TRÌNH SÓ HOÁ GIÁO TRÌNH PHỤC VỤ CHO VIỆC
DẠY VÀ HỌC TẠI TRƯỜNG ĐẠI HỌC SƯ PHẠM
Trang 2“QUA TRINH SO HOA GIAO TRINH PHUC VỤ CHO VIỆC
DẠY VÀ HQC TAI TRUONG DAI HQC SU PHAM
‘TP HO CHi MINH”
Danh sách những người tham gia thực hiện đề tài
Chủ nhiệm đề tài - Phạm Thị Hiền Hoa
Các thành viên : - Lẻ Quỳnh Chỉ Trần Thanh Hùng, Nguyễn Vĩnh Khương Trần Quang Quý
MỤC LỤC
Trang 3DE TAI KHOA HQC VA CONG NGHE CAP TRƯỜNG
Tên đề tài: “Quả tình số bôa gid trnh phục vụ cho việc giảng đạy và học tại Trường Đại học Sư phạm Thành phố Hỗ Chí Minh"
quế trình xây đựng giáo mình điệ tử tại Thư viện DHSP Tp, HCM năng
lượng phục vụ của giáo trình điện tử đối với người sử dụng
.Hỗ trợ cho các loại hình đào tạo của Trường: ại chỗ, tr tuyển, tử xa
~ _ Thực hiện việc trao đối và chỉa sẻ nguồn ti nguyên thông tin của Thư viện Trường với các thư viện và trung tâm thông tin khác,
Nội đơng chỉnh
Nghiên cứu quy trình số hôa một sổ giáo nh ại Thư viện DHSP Tp HCM ir it
a những điểm mẫu chốt sầ lưu ý để thục hiệnviệ số hoá nguồn di liệu của thư viên
~ _ Thu thập các giáo tình dưới dạng thô
~ _ Phân tích, đảnh giả, chọn lựa để số hóa tả liệu
~ _ Xử lý liệu thô sang tả liệu điện từ
- _ Cập nhật tải lệ lên mạng
Giới thiệu và hưởng dẫn bạn đọc sử dụng
Kết quả chính đạt được (khoa học, ứng dụng, đào tạo, kính -xã hội): Chuyên khảo - Ứng đụng
Trang 4SUMMARY OF THE RESEARCH RESULTS FOR THE SCIENTIFIC
ND TECHNOLOGICAL SUBJECT OF THE UNIVERSITY SUBJECT: “The proce of dighalcng labuce wich serves the testing fod he dying the Hechiminh Cy Universty of Es CS.20052:
Supporting all wuining Winds of id waive at se, eatin, R6 4 distance ceeding the exchange and sharing the information resource of the welvenie mu th ter varies and information ecw
= Introducing and guiding for users
3 Main achieved results (science, application, training, social economics) Monograph ~ Application
Trang 5MỤC LỤC
Trang
A Mục địch và tính ấp thiết của đỀ ải 4
Phin 1: Cơ sở để xây dựng nguồn ti liệu dạng số 2
Phần 2: Thực hiện quá trình số hóa
Chương 1: Thu thập, phân tích, đánh giá, lựa chọn giáo trình dé số hóa
Chương 2: Quá trình xử ý giáo trình từ bản thô sang tà liệu điện tử 15
'Chương 3: Cập nhật giáo trình được số hỏa lên mạng
“Chương 4: Tìm kiếm và khai thác tư liệu số qua phân hg OPAC
Trang 6VIỆC DAY VA HQC TAI TRUONG ĐẠI HỌC SƯ PHAM THANH PHO HO CHi MINH
Mục đích và tính cấp thiết của đề tài
Mục Địch:
~ _ Nhằm hoàn thiện quá trình xây dựng bộ sưu tập Giáo trình điện tử nối chúng và bộ sưu tập CSDLL của Thư viện ĐHSP
~ _ Nâng cao chất lượng phục vụ đối với người dùng tin
~ _ Hỗ trợ các loại hình đào tạo của nhả trường: tại chỗ, trực tuyển từ xa
~ _ Đổi mới phương pháp dạy và học đối với giảng viên, sinh viễn trong nhà trường,
= Thực biện việc tay đổi, đa sẽ nguy đỉ nguyện sŠ hỏi cần Thự viện trường với các thư viện và trung tâm thông tin khác
= Đưa thư viện trường trở thành thư viện số
= Nang cao khả năng và đảo tạo cần bộ nghiệp vụ thư viện số
Tính cắp thiết
~ _ Số hoá giáo trình là việc cấp thiết để xây dung cơ sở dữ liệu điện tử cho thư viện trường Giúp thư viện đa dạng hóa nguồn tải liệu vả tăng cường khả năng phục vụ
~ _ Sử dụng nguồn tải liệu điện tử đang là xu hưởng tắt yêu trong thời đại hiện nay
~ Các trường đại học Việt Nam đang nỗ lực đẩy mạnh việc xây dựng nguồn giáo trình điện tử để phục vụ cho nhu cẩu dạy và học trong nhà trường
Trang 7PHAN 1: COSO DE XAY DUNG NGUON TAI LIEU DANG SO
1 Sự phát triển của công nghệ thông tin:
Ngày nay, cuộc cách mạng khoa học - công nghệ vã những thành tựu của
nó đang góp phần làm biến đổi nhanh cháng và sâu sắc mới mật của đời sống xã
đụng trong công tác quan ly, nghiên cửu, hỗ trợ công tác chuyên môn vả trao đỗi
thông tỉn Đặc biệt, nó cảng trở nên quan trọng đổi với các ngành liên quan tới trì thức, thông tin, tư liệu
“Trong lĩnh vực thông tin - thư viện các nhà thư viện thể giới đã thực sự đặt
chân vào thể giới của thư viện điện tử tử những năm đầu thập kỷ 90 của thé ky
30 với các ngân hàng dữ liệu không lỗ củu Dielog, Pascal Kỷ nguyên thông tin
thư viện, mở ra một hướng đi mới cho hoạt động Thỏ Thư viện Ở Việt
Nam, sau năm 1991, với việc đưa Internet vào img dụng rộng rãi đã tạo đã khởi thông tin vào các hoạt động nghiệp vụ Đối với các hệ thống thông tin, sy phát phần: nội dung thong tin đầy đủ được tổ chức trong các Cơ sở dữ liệu (CSDL)
và phản hạ tằng công nghệ thông tin (bao gồm máy tính va hệ thẳng mạng) đảm bảo về mật công cụ kỹ thuật dé truyền tải thông tin tới người sử dụng
‘Voi kha ning lưu trữ thông tin to lớn, kết hợp với phương tiện tra cửu trực tuyến, đã hình thảnh nên các thư viện điện tử Thư viện điện tử sẽ cho phép
người dùng thoả mãn tới mức cao nhu cầu théng tin của mình Hay nói một cách
khác thư viện điện tử sẽ là phương tiện kết nổi và thúc đẩy sự phát triển trí tuệ toàn cầu, lá đẫu hiệu và nda tang cho sy phát triển không ngừng của con người
Trang 8Hiện nay, việc phát triển từ thư viện truyễn thống thành thư viện điện từ
đang là xu hướng tất yếu ở tắt cả các thư viện Việt Nam Để có một thư viện
điện tử theo đúng nghĩa cằn có một số quan điểm thing nhất, có cách tiếp cận
như cấu trúc của thư viện điện tử, ha ting cơ sở kỹ thuật, kho tư
liệu số hoá, các vin đề về bảo quản, khai thác và bản quyỂn Thư viện điện từ
tiêu chi uu việt như: sự chuẩn hoá về nghiệp vụ, sự hiệu quả và tối tru trong hoạt
hiện đại như: bổ sung, biển mục, tra cứu trực tuyển, quản lý lưu thông tả liệu
(ấn phẩm và các nguồn tin điện tử), quản lý xuất bản phẩm nhiều kỳ (tap chí, tập
viện, quản trị hệ thống Đặc biệt, tắt cả các module được tích hợp vào trong một
hệ thống thống nhất và có thể liên thông và chuyển đổi tương tác với nhau một
cách để dàng
“Thư viện điện tử trong tương lai sẽ cõ quy mô lớn hơn bắt kỷ một mô hình thông tin thư viện nào trước đó Thong tin ở đây sẽ được lưu trữ đưới nhiều hình bin viết, âm thanh, hình ảnh hoạt họa, dữ liệu thô, ca nhạc, hội họa hay cũng có
ú
nhiễu vị
các website thương mại, cơ sở dữ liệu ở các phòng thí nghiệm quốc gia, thông tin trên máy chủ hay thậm chí là các loại hình truyễn thông giáo dục
Ngoài lĩnh vực quản lý thư viện truyển thống, các tính năng của thư viện
điện tử, thư viện số sẽ đưa Thư viện thành trung tâm thông tỉn hiện đại Tạo cho
người sử đụng một cổng vảo mọi dạng thông tin, dù là xuất bản phẩm, tải liệu
điện từ hay âm thanh, hình ảnh v.v Hệ thống luôn được cập nhật thưởng xuyên
các công nghệ hiện đại nhằm đáp ứng đầy đủ các nhu cảu phát triển ngày cảng
cao của thư viện cũng như người đũng tin Tương thích với các chuẩn quốc tế: Intranet, Intemet, 239.50, Cé khả năng trao đổi, liên kết với các cơ quan
Trang 9người ding tin,
Tinh năng ưu việt nhất của thư viện số là cung cắp được cho người dùng bộ
ur tip tai liệu điện từ vả các sản phẩm số hóa Sự phát triển mạnh mẽ của công nghệ thông tìn và truyền thông đồng nghĩa với sự phát triển và ứng dụng mạnh thư viện - đó là sự hình thành và phát triển các sản phẩm thông tỉn số hóa Kết quả là làm cho nhu cầu của bạn đọc đối với các vật mang tìn điện tử ngảy cảng nguồn tin truyễn thống, chủng ta có thêm một loại hỉnh nguồn tín mới đồ là
nguồn tin số hóa Các bộ sưu tập sách đưới dạng điện tử đang được phổ biến
ngày cảng nhiều vì điều kiện tra tìm thuận lợi quản trị các kho tải liệu nhẹ
nhàng khả năng tích hợp các kho nảy với các hệ thống tự động hoá vả với các
mục lục, sự toàn ven của tài liệu cũng được đảm bảo vì sách điện tử không bi hur
hỏng hoặc bị mắt Theo xu hướng hiện nay, các thư viện không chỉ mua, mã còn
ra các bộ sưu tập đó là thông qua quá trình số hóa
3 Số hóa tài liệu:
Đó là tiến trình chuyển đổi tài liệu thư viện truyền thống (cụ thể các chương sách, báo tạp chỉ văn bản, băng t ) thành các đổi tượng số mà vẫn tính Đồng thời áp dụng các phương pháp biên mục, đánh chỉ mục để hỗ trợ việc cđạng chữ viết, âm thanh, hình ảnh được số hoá dễ dàng, ắt thuận tiện cho việc
xử lý bằng máy tỉnh vả trao đối qua Internet Mục tiêu của các đự án số hoá tải
liệu trong thư viện có thể nhằm gii quyết vấn đề báo quản tải liệu gốc, đăm bảo,
la bạn đọc và tạo thuận lợi cho việc sử dụng (hông qua việc
li dat những lŠf liễu nổỹ tung các mạng tức bộ Và bên inter, tp đu kiện cho việc tìm todn van (Full text), Sé hoá là sản phẩm của ngành công nghệ
sự truy cập tối đa
Trang 10‘Sip ứng nha tần người đông của thự việt và ong sổ những nguôu tơ đã chịn, thì những nguồn tin nào nền nhập vào CSDLL, chủng edn được bảo quản như thể hành ra sao Đó lá vấn đề quan trong mà các thư viện điện tử cắn thực hiện Hẳu
sản phẩm số hóa với quy mô khác nhau Việc tổ chức các nguồn tin điện tử
trồng th viện đã đâm) bšu chờ bập đục được tấp Sân các nghiền th: này hiện dang là những vẫn để rất cắp thiết
.4 Thực trạng Thư viện trường
Thư viện Trường ĐHSP TP Hỗ Chí Minh qua nhiều dự án đầu tư, nay
đã cũ những đội mỗi nhất đu Trang bối cảng hiện nay, Thử viện Barge đánh giá là một trong những Thư viện đại học hiện đại Hiện nay Thư viện DHSP có
bộ sưu tập như sau: 9 CSDLL trực tuyển; CSDL biên mục với hơn 120.000 bản
700 bang video‘cassette: va CSDL điện tử đang được xây dựng Thư viện cũng
đã được trang bị khoảng 120 máy vi tỉnh, tắt cả đều đã nối mạng và kết nối
Internet C6 2 phòng tra cứu Internet, một phỏng dành cho sinh viên, một phòng dành cho giảng viên và cán bộ trong nhà trường Đẳng thời được trang bị các
thiết bị cổng từ và hệ thống barcode hỗ trợ cho công tác quản lý tài liệu cũng
như người dùng tin Dưới đây là biểu đồ thống kê số liệu bạn đọc sử dụng thư
viện được lấy trong Phân hệ quản lý MƯỢN TRẢ (phản tải liệu dưới dạng sách) qua § năm để đánh giá khả năng phục vụ ngày cảng cao của thư viện trường qua việc chuyển đổi và nâng cấp dẫn thành thư viện điện tử:
Trang 11
Thu viện ĐHSP sử dụng phần mềm Libol của công ty Tỉnh Vân Phần mềm nảy
dđã phát huy được các tính năng ưu việt trong việc quản lý và sự chuẳn hóa về 'nghiệp vụ thứ việu C thể ới đáp ứng được câc quy trình nghiệp vụ của imắC
thư viện hiện đại như bổ sung biên mục, tra cứu trực tuyển quản lý lưu thông
tái liệu (ấn phẩm va các nguồn tin điện tử), quân lý xuất bản phẩm nhiều ky’ (tap chí, tập san báo ) quản lý kho tải liệu quản lý thông tin về bạn đọc, mượn
liên thư viện, quản trị hệ thống - tắt cả đều có thể kết hợp dùng mã vạch Đặc
bigt tất cả 0R module được tích hợp vào trong một hệ thống thẳng nhất và có
thể liên thông chuyển đổi tương tác với nhau một cách đễ đăng Hiện nay sự ra
đời các thư viện điện tử với một phản vốn tải liệu được số hóa đang là xu thể tắt yếu và là nhiệm vụ cấp thiết của các thư viện đại học Chính vi vậy thư viện trường cẩn có sự quan tâm và đầu tư thích đáng hơn nữa để xây dựng bộ sưu tập
số hóa vả quản lý nguồn tải liệu nảy bằng phẩn mễm số hỏa Để quản lý và phục
‘vu duge nguồn tài liệu số hóa thì phẫn mềm hiện hữu chưa đáp ứng được yêu cầu, cằn phải được bổ sung thêm module quản trị thư viện sé
Hiện nay thư viện Đại học Sư phạm đang cổ gắng để đi đến mục tiểu la
trở thành thư viện số, mong mudn dem dén cho người đùng sản phẩm tải liệu
dưới dang 6 hóa Việc cung cắp tải liệu dạng toàn văn (full tex\) sẽ đem lại hiệu cquả rất cao cho công tắc nghiên cửu giảng day, học tập trong nhả trường mã đặc
Trang 12viện số sẽ khẳng bị hạn chế trong khuởn khổ hạn hẹp của khuôn viên thư viện
vậy để có thé thực hiện quá trình số hóa, cần phải có sự quan tâm và đầu tư dng
vige số hỗa là công nghệ mới đối với các thư viện ở Việt Nam ĐỂ Thư viện điểm thì nhiệm vụ xuất bản và phục vụ tài liệu số hỏa của thư viện phải được tối quyết định nghiên câu, thực hiện thử nghiện số höã Hiột số tí lu cố hoạ
hiện việc số hỏa Mục đích số hoá các giáo trình này để giúp cán bộ, giảng viên
sinh viên trong trường có thể truy cập đồng thời cũng sử dụng rộng rãi một tải
t kiệm được thời gian, công sức và kinh phí cho việc
&u tổ thiết để tiến hành dạy
liệu tương đổi thuận lợi như vậy sẽ thúc đẩy năng
nghiên cứu được tải liệu,
phân phối giáo trình
học từ xa Việc sử dụng san đầu và c
Trang 13thụ một chiễu, rèn luyện nếp tư duy sáng tạo của người học, từng bước áp dụng các phương pháp tiên tiễn và phương tiện hiện đại vào quả trình dạy và học.
Trang 14
CHƯƠNG L THU THAP, PHAN TICH, DANH GIA, LU'A CHON GIÁO TRÌNH ĐỀ SỐ HÓA
1/Chính sách số hóa:
Phan quan trọng nhất trong thư viện điện tử chính là kho tư liệu số hoá của
bắn thân thư viện Trước khi bắt tay vào xây đựng bộ sưu tập tải liệu số hoá, thư viện cẳn phải lên kế hoạch và quan tâm đến những vấn dé sau:
“Xác lập chỉnh sách lựa chọn ưu tiên số hóa của đơn vị
3 Nhỏm đối tượng thư viện quan tâm
Số lượng tải liệu muỗn số hoá
'Quyền hạn và bản quyền của các tải liệu (các vấn đề liên quan đến cơ sở pháp lý khi ạo lập)
Kinh phí đảnh cho việc xây dựng bộ tài liệu số hoá Nhân lực đành cho việc thực hiện quả trình số hoá (biên tập tải lều, quết tải liệu, ập trình cập nhật đưa lên mạng hướng dẫn sử dụng )
Cần bao nhiêu máy tỉnh cấu hình của mây để tiền hãnh số hoa Nghiên cứu, lựa chọn và xác lập những chuẩn, những quy định chung
trong việc số hoá tải liệu
.Các vấn để liên quan đến sử dụng phần mềm, và việc chọn lựa, áp dụng .các chuẩn lưu trữ
10.Các vẫn để liên quan đến khái niệm, kỹ thuật và công nghệ của việc tạo lập, tổ chức, quản trị và chia sẻ nguồn dữ liệu số hóa trong các cơ quan thông tín thư viện
1U Đánh giá bộ sưu tập tài liệu của thư viện trường: trường trước
thư viện h
Để có được sự chọn lựa ưu tiên số hỏa nguồn tải liệu nào có trong thư viện
ên chúng ta cẳn xem xét số lượng vả đặc điểm bộ sưu tập tải liệu
cô như sâu:
1 Sách bảo xuất bản trước năm 1975 tại miễn Nam:
Trang 15“Có khoảng 28.655 đầu sách với 43.763 bản sách, chiếm I3 tổng số kho sách được xuất bản bằng nhiều thử tiếng, nhưng chủ yêu lã tiểng Anh, Pháp,
'Việt, Ngoài ra còn có 75 nhan để bio tap chỉ được đóng thảnh 625 tập Day là
kho tải liệu được đảnh giá cao vẻ gid trị lịch sử giả trị nghiền cứu, đã hỗ trợ rất
sÄ và để tải nghiên cửu khoa học cấp Bộ và cấp
nhiều cho các để tải ti
Trường Kho sách có nhiều tải liệu quý lá trì nội dung giả trị nghiên cửu ( như các bộ bách khoa thư Anh, Mỹ, bộ Who's and who thời điểm xuất Được xuất bản trước năm 1975 ở miễn Nam nên nội dung tài liệu cần được thẳm định lại nhất là mảng khoa học xã hội Đổi tượng sử dụng loại ti được chọn lọc và hạn chế, chỉ phục vụ cần bộ giảng day, cán bộ nghiên cứu,
sinh viên làm luận văn tốt nghiệp Kho sách chưa có chế độ bảo quản tốt và
đúng chuẩn về môi trường, nhiệt độ, ảnh sáng cũng như biện pháp phòng chẳng mọi, Hằu hết giấy của mảng sách tiếng Việt và báo tạp chỉ đông tập đã chuyển
"mâu vàng ỗ, độ đôn cao, cần có chính sách bảo quản tốt hơn hiện nay
2 Sách mới sau năm 1975:
Có gần 80.000 bản sách, được phục vụ ở hai kho: Lưu hành l (cơ sở 1), Lưu
hn If (co 56 1),
Sách tham khảo chủ yếu bằng 3 thứ tiếng:Việ, Ảnh Pháp, được phục vụ
rong rãi hỗ trợ cho tải liệu giảo trình Rất nhiều tải liệu quỷ hiểm như các bộ
bách khoa thư, từ điển ngôn ngữ và chuyên ngành, các sách ngoại chỉ có một đầ hiệt Bách §ghạl.4ufe bỖ ng (heo dự 4ø: sião, dục đụ bọ mức A Giá trị của kho sách được đánh giá cao, thu hút lượng cán bộ giảng day tim đến kho sách nhiều hơn
bản và đất
vong quay cia sách rất
Sách giáo trình được sinh viên sử đụng nl
cao Do số lượng bản của mỗi nhan để chỉ cỏ từ 5 đến 10 cuốn cầu của sinh
viên thường tập trung sau khi giáo viên lên lớp nên luôn không đủ đáp ứng Da
10
Trang 16những tải liệu chữ đã mờ, giấy ố văng nhưng sinh viên vẫn tranh nhau mượn
Thu viện thường xuyên tu bổ và tự nhân bản đối với một số giáo trình quả cũ và quả thiểu
'Có khoảng 1400 Luận án, luận vân và các để tải nghiên cứu khoa học của
Trường được Thư viện lưu giữ và đưa vào phục vụ Dây là mảng tải liệu rất được quan tâm và sử dụng nhiễu ở sinh viên đại học và sau đại học Mỗi ải liệu chỉ có một bản nên độc giả chỉ được đọc tại chỗ
3 Báo, tạp chí:
(C6 181 nhan dé, trong 6 có 36 nhan đề tạp chí ngoại vẫn, được sử dụng
tự do, không qua khâu mượn trả nên vòng quay khá cao, Tuy nhiên, do hạn chế ngoài rất có giá trị nhưng it được độc giả khai thác
4 Bang tir, CD-ROM:
Véi 250 CDROM, 200 bản đỗ và hơn 700 bằng video/cassete các dang túi liệu này có tuổi thọ ngẫn, chỉ có thể lưu giữ và bảo quản tối đa từ 10 đến 15 năm
.HU/Phân tích, chọn lựa tài liệu để số h
"Với bộ sưu tập khả phong phi va da dạng nêu rên số hoá tắt cả các tài
cổ trong thư viện là một điều ảo tưởng Đây là việc lâm rất tổn thi gian, tiễn trữ thông in đễ cỗ nguy cơ lạc hậu Đồng thời vẫn đề bản quyền ải liệu rắt quan tin là *Thông tin phổ biển không được vi phạm bản quyền” Một khi tả liệu đã cia te git ti liệu đó phải được tôn trọng và đảm bảo bằng pháp luật Chính từ
_vắn để nhạy cảm này, chủng ta cần xác định ưu tiên số hoá nguồn tải liệu nào có
lêu
trong thư viện
“rước đây phục vụ giáo trình cho sinh viên là khâu quan trọng nhất trong,
số nguồn tải liệu mà thư viện có nhưng việc phụ vụ lạ rất khó khăn Thứ viện
"
Trang 17phải thụ hồi lại sau mỖi năm cho các khóa học sau Việc bảo quản các giáo trình này rất khó khăn kh mã các sinh viên đã lưu giữ sau một năm học tập đồng thời
những bản in cũ bị huỷ bỏ Sau này do tỉnh chất quan lý phức tạp đồng thời
khả năng lưu rữ (điện tích kho han hẹp) thư viện đã bỏ hình thức phục vụ nà
"em giáo trình cũng như một ải liệu tham khả
cho mỗi nhan đề giảo trình nhập vào kho để phục vụ còn sinh viên sẽ phải tự ứng được nhu cầu học tập cắn thiết nhất cho sinh viên và theo đánh giá của khâu
phục vụ thì các giáo trình được xem là nguồn tải liệu được sử dụng nhiều vả
vòng quay nhanh nhất Năm bất được như cầu và lẪm quan trọng này, đẳng thôi
và
số lượng đầu sách không lớn Nguồn tài liệu này không bị vướng mắc nhiều về
vin để bản quyền so với các tải liệu khác ở thư viện Do vậy, giáo trình được
hoạch tiến hành số hỏa toan bộ giáo trình hiện có Giáo trình điện tử sẽ được
học Sư phạm Chinh vì vậy Thư viện đã giao cho nhóm chúng tôi thực hiện để
tài "Quá trình số hóa Giáo trình phục vụ cho việc dạy và học tại trường ĐHSP
Hiện nay hằu hết các giáo trình đều do Ban Án Bản của nhà trường xuất
bản Các giáo trình luôn được Thư viện bổ sung một cách cân đổi và phù hợp
viện có kế hoạch số hoá toàn bộ giáo trinh trong thời gian tới Trong phạm vi
giới hạn của để ải chúng tôi sẽ lựa chọn 50 giáo trình sao cho mỗi khoa có tử
một đến hai nhan để nhằm giới thiệu dạng giáo trình số đến các khoa trong
trường
Trang 18xuất bản những năm gắn đây (sau năm 2000) được in dưới dang typo, offset va
các giáo trình đủ xuất bản từ những năm 1990 trở về trước phẩn lớn dưới dạng
im roneo: Những giáo trình in roneo đã quá cũ nhưng vẫn đáp ứng như cầu của
šm của số giáo trình nảy lả giấy quá cũ vắng chữ in bị lem rắt khó
u nảy rất khó khăn
vụ Đặc
doe nén việc số hỏa tải
Khi xem xét để tiến hành số hóa, chúng tôi phân loại các dạng giáo trình hiện có và dự kiến phương pháp sổ hóa như sau:
~ _ Giáo trình được Ban An bin giao dưới dạng văn bản (Word) được lưu giữ trên đĩa CD
~ _ Giáo trình in bằng giấy sẽ cho tiến hành Sean từng cuốn
~ _ Giáo trình bản in quả cũ không thể scan sẽ cho đánh máy lại 'Với 3 loại giáo trình này, tắt cả sẽ được chuyển sang dang anh, dang PDF,
Trong quá trình chọn lọc ban đầu này sinh một số hạn chế khi tiến hành
số hóa giáo trình cho các khoa Do đặc thủ trong ngành sư phạm có nhiều khoa
nên các giáo trình mặc di không chuyên ngảnh sâu nhưng lại hầu hết là các
'khoa học cơ bản nên giáo trình rất đa đạng từ các bộ môn: Toán, Lý, Hóa, Sinh
Sử Địa Ngọại nga, Mim non, Tiểu học, Giáo dục chính tỉ, Giáo dục thể chất do đố trong quả trình số héa cin xem xét bao quát cấn thận Mỗi giáo
trình đều có những đặc thù khác nhau về hình ảnh, công thức, chữ viết, biểu
đđồ cần phải được lưu ý kỹ cảng trong quá trình nhận dạng Ngoài vi còn có Pháp thí trình độ đọc, hiểu để sửa chính tả các bản giáo trình sau khi nhận
dạng với chúng tôi còn nhiễu hạn chế Và nhất là với giáo trình tiếng Hoa,
ciảng tối chưa thể thực hiện số hốa được vĩ nhấn viên không đã khả năng hiểu biết về ngôn ngữ nay Đây cũng là điểm yếu mà tới đầy Thư viện sẽ phải lưu ý
để nâng cao khả năng về nhiễu ngoại ngữ cho nhản viên thư viện Qua xem xét
hiện được số hoá các giáo trình tiểng Việt Anh Pháp, Ngã
B
Trang 19và đa dạng, có thể được trình bày đẩy đủ với cả âm thanh, hình ảnh động song
bước đầu chúng tôi chỉ thực hiện số hóa các giáo trình đưới dạng văn bản
chuyển các giáo trình ín sang dang số nhưng trong quá trình xây dựng để tải, điểm việc số hóa các giáo trình có thể ở nhiễu dạng, hình thức (văn bản, bản viết tay, đồ họa, bản đỏ, ảnh chụp, phim, âm thanh )
Trang 20BẢN THÔ SANG TÀI LIỆU ĐIỆN TỪ
Với nguồn giáo trình chủ yêu dưới dang in nên sẽ chủ trọng vào việc số hỏa
thực hiện dưới hình thức quết ảnh Để hiểu thực hiện được công việc nảy cho
kết quả tốt và hiểu quả, chúng ta cần nắm bắt một số van để như sau;
U KỆ thuật số hóa
Chương này được trình bày dựa trên việc tham khảo từ tài liệu nghiên cứu
thực tế số hóa của đại học Conell tại Mỹ,
Có hai giai đoạn rong tiến trình số hóa đó là:
«- Giải đoạn cho ra sản phẩm số hỏa dang hình (ảnh số) bảng tiến trình
201 la quét hinh ~ scanning,
«©_ Giai đoạn hai cho ra sản phẩm đạng số hóa văn bản bằng một tiến trình
ọi là nhận dạng kỹ tự quang học ~ OCR (Optical character Recognition)
Để thực hiện được tiến trình số hóa trên, ching ta cin nim một số khải niện
và thuật ngữ cơ bản sau:
1ƯẢnh số:
1.1 Khái niệm:
Ảnh số là các "ảnh điện tử" được quết từ các ti liệu gốc Một ánh số có thể
thể hiện chính xác nội dung bổ cục và cách trình bảy của văn bản gốc bao gồm
kiểu chữ, chủ thích và ảnh minh hoạ
Một ảnh số được lắy mẫu và vẽ đưới dạng một hệ thống các điểm hay các nguyên tổ ảnh được gọi các pixel MỸ Ìxel thể hiện một don vi mau (den, trắng hoặc các gam mâu khác) và về mật sở được biểu diễn dudi dạng các mã pixel được ghi theo một trình tự nhất định trong máy tính, hoặc được rit gon đọc để tạo ra một hình ảnh analog hiện trên mắn hình hoặc bản in
Is
Trang 21“ảnh mảnh” ("raster image") hoặc "ảnh nhị phân” (*bitrapped image") song ảnh
n dưới dang các đường thẳng va đường cong toán học xác định mả được th
ém Anh vecta nhìn chung là cỏ thể được tạo ra với kích cỡ
dạng hệ thông các
và độ chính xác bắt kỹ, côn chất lượng của ảnh sổ lại phụ thuộc vào độ phần giải được Ấn định tử trước khi quất
Mặc dù kỹ thuật ảnh số đã được biết đến từ khá lâu nhưng nó mới bất đầu
được sử đụng rộng rãi từ thập nién 1990, khi những tiến bộ kỹ thuật cho ra đời
những hình ảnh rõ nét hơn, chỉ phí thấp hơn và khả năng truy cập cao hơn Các
nhân tổ đã tạo ra những điều kiện thuận lợi đó là:
~ _ Sự phát triển kỳ điệu của máy tính cá nhân
~ _ Các hệ thống mạng rộng lớn cỏ tốc độ cao trở nên phổ biển
‘+ Trung thy so với nguyên bản
~_ Tương đương với kỹ thuật ánh sáng thấu kính +
—_ Thay đổi được kích cỡ ảnh
Trang 22vả văn thư hiện nay, bao gồm:
~ _ Cơ sở kỹ thuật thay đổi nhanh chóng,
~ Chịu nhiều sức ép về mặt pháp luật trong đó có luật bản quyển
~ _ Chất lượng vả khả năng của các phần cứng phần mém rất không đông nhất
~ Cô những yêu cầu cao về sao chép, lưu trữ
‘Nhu edu và khả năng của các cơ sở lưu trữ chưa cao
Thiểu tinh dn định vả sự hỗ trợ của các hãng dịch vụ
Khi quết ánh số phải tỉnh toán đến các quy trình kỹ thuật liên quan đến việc
chuyển từ ánh analog sang ảnh số cũng như các thuộc tính của chính các văn
bản gốc như: kích thước, mức độ chỉ iết, thang màu Các văn bản có thể được
định tính bằng các quy trình kỹ thuật được sử dụng để tạo ra nó, bao gồm các
ất là điện tử,
phương pháp bằng tay, bằng mây, chụp ảnh hay mới
“Toàn bộ các văn bản bằng giấy hoặc bằng phim có thể được chia thành 4 loại
sau:
= Bản văn/Đông (Textine art}: GỒm những hình ảnh đồng mâu có ranh giới
rò rằng thường đơn sắc, có thể được tạo ra bằng tay, máy chữ hoặc máy in, bao
gồm: bản văn, bản viết tay, đồ thị, bản khắc gỗ, văn bản được đánh mây hay in
laser, bản thiết kể, bản đỗ vả bản chép nhạc
~_ Tông màu chuyển tiếp (Continuous tone): Những văn bản gồm các gam chuyển tiếp nhau, có thể đơn sắc hoặc đa sắc, bao gồm ảnh chụp, một số loại
Trang 23các thuộc tỉnh gam chuyển tiếp như bản khắc đồng, in đá, in chụp
~_ Nữa tông hoặc kiểu nữa tông (Halfione or halflone-like): Những hình ảnh
tạo thành từ các điểm hoặc đường nằm cách đều, có thể đơn hoặc đa sắc, bao
ôm những ảnh đồ hoạ được tao thánh từ các nét hoặc đường kẻ song song sit
nhau nằm cách đều, vi dụ bản chạm khắc hoặc khiic axit
~_ Hỗn hợp (Mixed): Tổng hợp cả 3 loại văn bản trên, đơn hoặc đa sắc, bao
‘26m báo, tạp chỉ, sách có tranh minh hoạ
1.2 Kỹ thuật quét ai
© "Ben tring" ("bitonal”): mét pixel gồm một số nhị phân thể hiện màu
trắng hoặc đen thích hợp với các loại bản văn và một số loại nửa tông
© "Dai xém* ("grayscale"): một pixel gồm nhiều số nhị phân thể hiện các
gam màu xám khác nhau, thích hợp với các văn bản gam chuyển tiếp den trắng,
nữa tông, hỗn hợp và một số bản viết tay
© "Miu" ("color"): mét pixel gồm nhiễu số nhị phân thể hiện các máu sắc
khác nhau thích hợp với tất cả các loại văn bản trong đó mẫu sắc giữ vai trỏ quan trọng,
Chất lượng ảnh số được quét chịu ảnh hưởng của những vấn dé sau:
~_ Độ phân giải và ngưỡng
—_ Kỹ thuật chỉnh sửa ảnh
~ Quá trình nén
~ _ Thiết bị sử dụng và hiệu suất của thiết bị đó
~ _ Vận hành hợp lý, cắn thận
Đô phân giải (Resolution) được xác định bằng số lượng pixel tạo ra ảnh theo
don vj dpi (số điểm trên 1 inch) Số lượng pixel cảng lớn thì độ phân giải cảng
‘cao và khả năng thể hiện các chỉ tiết của ảnh cảng cao, Tuy nhiên, đến một mức
449 nào đó, độ phân giải cao hơn cũng không cải thiện đáng kể chất lượng ảnh
mã chỉ lắm tăng kích dhước của tập: Vấn dễ mẫu chốt khi quết ảnh là phải xác
Trang 24pixel của máy quết
'Ngưỡng (threshold) là thuật ngữ được dùng trong kỹ thuật quét đen trắng
để chỉ một điểm trên thước đo mã tại đó các giá trị thể hiện màu xám được dịch thành các pixel trắng hoặc den
Trong kỹ thuật quét den trắng độ phân giải và ngường lả mắu chốt của
chất lượng ảnh Kỹ thuật này phù hợp nhất với các văn bản có độ tương phản phản thấp như ảnh chụp cần đến kỹ thuật quét dải xám hoặc nhiễu màu Trong 2
loại kỹ thuật quét này độ phân giải và số bịt là 2 yếu tố cấu thảnh nên chất
lượng ảnh
Độ sâu màu (bit depth) được xác định bằng số lượng chữ sổ nhị phân được sử đụng để thể hiện mỗi pixel Số bit cảng lớn thì cảng nhiều sắc màu đổi các gam mau - được đo bằng mật độ kế - tử vùng sáng nhất đến vùng tối
nhất của văn bản Các vật liệu trong suốt cô đãi biển động rộng hơn, do đó thể
cả các sắc màu của máy quét, bao gồm những chỉ tit trong ving sing và vùng phụ thuộc vào đãi bị
đến độ phân giải cần thiết, kích thước tệp và phương pháp nén
6 dng cia may va sé it Số bì tăng lên sẽ ảnh hưởng
Chỉnh sửa ảnh (Image enhancement) là quả trình cải thiện chất lượng ảnh Tuy
sửa còn làm tăng chỉ phi quét ảnh Các đặc điểm chỉnh sửa điển hình có thể (filter), ede đường cong tải tạo tông mau (tonal reproduction curves) va quản lý mau (color management)
Nén (Compression) lim giảm kích thước tập rong quá trình xử lý
Trang 25dụng để giảm bớt kích thước tệp ảnh số, tạo điều kiện cho lưu trữ, xử lý và ảnh
Thiết bị sử dụng và hiệu suất của nó qua thời gian sẽ ảnh hưởng đến chất lượng
hình ảnh Những công nghệ quét khác nhau có ảnh hưởng rõ rệt đến sản phẩm
và độ chính xác của kỹ thuật xác định chuẩn chất lượng Vì vậy những đỏi hi
thận Phải đảm bảo rằng những yêu cầu về chất lượng ánh đã
được đáp ứng bằng cách kiểm tra các sản phẩm qua màn hình vả giấy sử dụng
kết hợp các vị trí kiểm tra kỹ thuật và các mẫu nguyễn bản
cảnh hưởng rất lớn đến chất lượng hình ảnh thu được Những quyết định hợp lý
“của người điều hành là võ cũng quan trọng khi quét đen trắng vì ở đó chất lượng ảnh hoàn toàn phụ thuộc vào ngưỡng và độ phân giải Quá trình quét xám phụ Xuyên một chương trình bảo đảm chất lượng ảnh để kiểm tra sản phẩm của mọi
kỹ thuật quét
Chất lượng ảnh cần đảm báo việc lưu tô, khai thắc và vẫn để chỉ phí:
‘Cin áp dụng một nguyên tắc quết ảnh đảm bảo chất lượng và tính thực dụng cao nhất với chỉ phí thấp nhất Các yêu cầu về lưu rủ, khai thác và tính
có trong nguyên bản Chuyển đổi bảng kỹ thuật số hay analog chỉ là các cách khác nhau để ghi lại nội dung thông tin chứa trong nguyên bản dưới dạng cắt
lữ hay trưng bày Còn về mặt giá trị thực hay giá trị nhân văn thì bản copy chỉ
có thể đại điện chứ không thể thay thể được nguyên bản
La tr, nêu ảnh số được sử dụng với mục địch lưu trữ thì chất lượng ảnh
là yếu tổ quan trọng bởi vì nó sẽ được sử dụng để thay thé cho nguyên bản còn
nguyễn bản sẽ được cắt giữ ở một nơi khác, trong môi trường phù hợp Số lượng
20
Trang 26nguyên bản
Khai ;hác, ảnh số là cơng cụ để thuận tiện hố việc khai thúc, nhưng
trong mọi trưởng hợp, một anh số khơng thể thộ mãn được tắt cả các nhu cầu
“của người sử dụng Mội tệp số chủ cần được tạo ra và sử dụng đễ nhân bản hãng loại hình ảnh vì các nguyễn nhân sau:
~ Với những khả năng khác nhau của máy tính, tit cả các nhu cầu sử đụng
cĩ thể được đáp ứng thơng qua các bản phái sinh
~ _ Các yêu cầu và khả năng ví hiển thị và xử lý ảnh vơ cùng đa dạng
~_ Khơ cĩ thể cùng một lúc đáp ứng được tất cả các nhủ cẩu về sự hồn
chỉnh, chỉ tiết của ảnh và tốc độ xử lý
~ _ Quế trình quét cảng tốt thì chất lượng bản phái sinh* cảng tốt
~ _ Những địi hồi của người sử dụng ngây cảng cao, phải cĩ đủ các chủ để cung cắp cho những ứng dụng rong tương lai
Chi phí, tạo ảnh số là một cơng việc tốn kém; chỉ phí vào nhân lực và
với chính chi phí quét ảnh Chất lượng ảnh cao khơng đồng nghĩa với độ phân
giải và số bit cao nhất, mà chính là sự phi hop giữa quá trình quét ảnh với nội
dung của nguyễn bản vả quét ở mức độ đảm bảo bắt được đúng những thơng tin
đĩ, khơng nhiều hơn cũng khơng ít hơn Bằng cách đĩ, cĩ thé trắnh được khả năng phải quết lại ảnh sau này: chỉ phí cho lưu trữ và di nhập thơng tin khơng
phải là nhỏ nhưng ở mức độ hợp lý và cỏ thể được bù lại bằng giá trị lâu dài của
ảnh số chứ khơng bị hạn chế bởi những phán quyết về mặt kỹ thuật tại thời điểm quế
Những yếu tổ để đàm bảo chất lượng ảnh: Xem phần Phụ lục 1
‘Dam bảo số bit, kích thước tệp, độ nén vả chất lượng ảnh:
Xem phần Phụ lục 2
Trang 27Hiện nay chưa có tiêu chuẩn chất lượng ảnh chính thức đối với ảnh sé
Có nhiều loại tư liệu cân được những quy trình quét khác nhau Những mức độ
“đặt ra và khẳng định qua các sản phim quét Một số kinh nghiệm quát ảnh về nhiễu loại tư liệu khác nhau như sau
~ Tự liệu bản văn đã được xuất bản: 600 dpi quét đen tring đổi với các ảnh
~ Tự liệu bản văn có tranh minh hoạ: 600 dpi quét den tring cỏ chỉnh sửa - (đủ để quết thay thể phần lớn các tranh minh boạ nếu vì phím và bin photocopy photocopy khing được chấp nhận, hãy bắt đẫu bằng quết xám 8-bit ở độ phân cẩn quét miu 24-bit, Các bản đỗ mẫu cỡ lớn, quét màu 24-bit 200 dpi la dim bảo độ rõ thoả đăng
~ Tự liệu nửa tông: 600 dpi quét đen trắng hoặc quết xám ở độ phân giải = 1.5 lần độ mảnh Tư liệu màu nửa tông cần quét màu 24- bit, bắt đầu ở độ phân giải = 1.5 lần độ mảnh
— Tư liệu văn thư lưu trữ: các bản đánh máy/ in lasez/ viết bằng bất bi: chỉ
cẵn quét 2-bit ở độ phản giải tối thiểu là 300 đợi Bản viết bằng chì/ bút lông
‘mau 6 300 dpi 2-bit, Ban viết tay: quét mau 600 dpi, 24 bit
~ Ảnh chụp: quét xám 8-bit, độ phân giải cần thiết phụ thuộc vào chất lượng,
chỉ tiết của nguyên bản và mức độ sử dụng Ảnh chụp mau cin quét 24 bit, yêu
cầu về độ phản giải phụ thuộc vào chất lượng chỉ tiết của nguyên bản vả mức
độ sử dụng
Cân bằng giữa chất lượng và năng suất đầu vào: Độ phân giải số bịt và các
cấu hình thể hiện phức hợp của thời gian quét ảnh chỉ phi kích thước tệp và các
”
Trang 28cập va in trong chuỗi sỗ hoá, và năng cao những đổi hôi về mật hệ thẳng
Sản phẩm này được xuất ra thông qua tiến trình nhận dạng kỷ tự quang học
(OCR) từ các ảnh số nêu trên Nhận dạng ki tự làm công việc chuyển thể các
đổi các ảnh số thảnh đạng gần tương đương với nguyên bản Đầu vào là một
hình ảnh kỹ thuật số ở định đạng TIFF hoặc Bipmap đầu ra là văn bản hoặc
trang Web định dang RTF, Word, HTML, PDF
OCR là một trong những công nghệ chính giúp cho duyệt toàn văn trở nên phỏ biến Tuy nhiền, chúng ta phái lưu ý rằng OCR không phải là một thiết bị
hoàn hảo Tỉ lệ nhận dạng của OCR đối với những văn bản chất lượng tốt có thể
vượt quá 99% - nghĩa là ở những trang gồm khoảng 2000 ký tự, sẽ còn lại 20 ký
tự có thể chứa lỗi ở văn bản sau xử lý OCR Thực tế, chính xác của OCR chỉ ở
mức 94% cũng không ảnh hưởng đáng kể đến hiệu suất của thiết bị duyệt Tuy
nhiên, đối với những tư liệu được bảo quản không tốt và không phải dạng đảnh
quá của OCR không được như vậy
máy, tính
lại đòi hỏi nhiều thời gian và nhân lực, vì vậy chỉ cằn áp dụng khi phân vùng tự
động không nhận dạng được những vùng chữ quá nhỏ (ví đụ: phụ chủ và chủ thích) hoặc thường xuyên đọc sa trình tự
“Trong bước xử lý nhận dang kỷ tự này các thuật toán nhận đạng tương ứng
sẽ dịch từng vùng bằng cách đọc từng kỷ tự Danh mục nhận dạng OCR gồm
3
Trang 29el miu đen trên nên các pixel mu trắng, Độ chính xác thưởng bị ảnh hưởng
~_ Những ky tự quả sảng hoặc quả tối
— _ Những ký tự không liễn nét
~ Những ký tự viết chồng chéo lên nhau
~ _ Độ tương phản giữa mực vả giấy quá thấp
~ _ Các phương tiện không phải là mực
~ _ Nhiễu (vết ô, bắn, nhoè)
Một chương trình số có thé chi la tạo một đĩa CD-ROM được sử đụng ở một
iy tinh đơn lẻ, song cũng cỏ thể lả cả một thư viện số hoá được sử dụng rộng,
Dù có kích thước và phạm vi nào thì một chương trình ảnh vẫn phải cẳn
Phin cứng và phần mễm
(Các nguyên tắc và chuẩn ngôn ngữ chỉ phối mỗi quan hệ gi0a các phần
chức năng khác nhau (như chuyển đổi, truy cập)
(Ci gino thức trong giao tiếp và phân phối
Những cá nhân có khả năng và trình độ phù hợp với công việc
(Cac cau hình của hệ thông
Trang 30Một hệ thẳng ảnh dẫy đủ gồm 05 loại phẩn cứng và các phẫn mễm đi kèm Các phẫn sẽ lẫn lượt được tình bảy cũng với những lưu ý riễng khi sở dụng trong thư viện và lưu tr, gỗm:
~_ Máy quét
~ May tinh
= Hé théng tuu tro
~ Mang
~ Hé thong hién thi
"hình được liệt kế ở trên là những phẫn cimg va phan mềm riêng biệt
Song các phẳn chức năng của một chương trinh ảnh lại có quan hệ chặt chẽ với nhau, Các cấu hình phải được chọn lọc một cách thống nhất với mục tiêu sử dụng hữu hiệu tắt cả các nguồn, kể cả nhân lực, Chúng ta sẽ phản tích, xem xét các cấu hình nêu trên để đánh giả khả năng thư viện trường cô thể thực hiện
được quy trình số hỏa như thể nào Từ đỏ đưa ra những giải pháp yêu cẩu thực
hiện,
1 Phần cứng:
1.1 Máy quết: Thiết bị bắt ảnh
Ding dé chụp hình các tải liệu ở dạng giấy và chuyển vảo máy tính dưới dạng ảnh Tùy vào các máy quét khác nhau để có chất lượng ảnh bắt được, hiệu
suất và tính thực dụng khác nhau
“Các máy quét làm việc như thể nào 2 (Xem phẩn Phụ lục 4)
Chất lượng ảnh phụ thuộc vào các đặc tính quang học, những tiền bộ tong
kỹ thuật quế (gdm cả khả năng của phần mễm) và tính chính xác của các bộ phận cơ khi / điện tử
Các kỹ thuật quết
- Điểm
= Dang
Trang 31Trong quết điễm, thông tin của ảnh được bắt liên tục tữ pixel này đến pixel
khác Các dụng cụ quét
hiệu - nhiễu thắp nhưng năng suất đầu vào thấp
Trong quét đông, thông tin ảnh được thu bằng một đây detector có chức
năng đỏ soát bể mặt tư liệu theo từng dòng một Một số hệ thông có mảng quét 3
đông (ti-linear array) để bắt các đải mẫu đỏ, xanh lá cây và xanh lơ của thông
tin Đây là đạng máy quét phố biến nhất trên thị trường vì nó cân bằng giữa độ
ích kèm theo Ta có thể tạm chia theo tính năng thảnh 02 loại:
~ Máy quết văn phỏng
~ Máy quét công nghiệp
Với việc số hoá có quy mô như ở thư viện hiện nay, ching ta cn quan tim
kỹ đến loại thiết bị quét này để cô sự chọn lựa chính xác
Mây quét văn phòng chỉ xử lý được từng trang, tốc độ scan thấp, phải có
người nạp lạ tải liệu mỗi khi sean xong
Mây quét công nghiệp tốc độ sean cao có thể tự ding scan liên tục và di
kèm với các thiết bị phụ cũng như các tính năng phù hợp Vi dụ như:
~ _ Độ phân giải quang học: các hình ảnh dùng để đưa lên trang web hoặc để in
ra cờ 3ˆ x 5" hoặc 4" x 6° thì chọn độ phần giái 100dpi là tốt nhất; còn khi nhận
‘dang văn bản thì 300dpi là chuẩn nhất Nhưng néu ta muốn có được các tắm ảnh
có độ phân giải quang học là 1200dpi hoặc 2400dpi Chúng ta sẽ có được khả
năng linh hoạt trong việc sửa chữa các hình ảnh khi bắt đâu với độ phân giải cao
26
Trang 32lính phải mạnh, Chẳng hạn, với việc quết | ảnh cỡ 4" x 6* ở độ phân giải 1200đpi sẽ nhận được tắm ảnh có dung lượng cỡ 25MB vả thời gian quết sẽ lâu hơn,
= BO phan nạp giấy tự động: cũng giống như máy photocopy, bộ phân nạp nhiều dung lượng đĩa cứng, mát
tuần tự từng trang ti liệu khi cẳn quét lượng lớn tải liệu
~ Giao tiếp với máy tính: đếp ứng được với công nghệ mới nht hiện nay nên 2.0 vẫn giao tiếp được với các tmainboard có cổng USB 1.1) Higa nay 0b 1 số máy quết sử dụng công nghệ kết nỗi FireWire có tốc độ nhanh hơn các loại máy
quết sử dụng chuẩn giao tiếp USB
= BO sau mâu: là số lượng mâu sắc (kế cả thang độ xảm) mã Ì máy quét có thể nhận dạng và lưu trữ được, tính bằng đơn vị 1 Cae may quét thông thường có thể “bit” (capture) nhiều dữ liệu hơn trình điều khiển (driver) của nó
“có thể lưu trổ, thường thấy một số thuật ngữ vỀ mức giới hạn của độ sâu mẫu, như là 48-bit màu nội tại (intemal) hoặc phần cứng (hardteare) ~ biểu thị cho số
(external) hoặc mâu thực (true color) mô tả số lượng mâu tối đa mà trình điều
khiển của máy quết có thể lưu trữ được Đối với tắt cả các kiểu máy quét thông cdụng thì độ sâu 24-bit màu là có thể dùng tốt
~_ Phẩn mềm: Tắt cả các máy quét đều có các gói phẩn mềm đi kẻm theo để
cho phép máy tính nhận dạng các hình ảnh từ máy quết Hằu hết các máy quét hiện các thao tác như: thay đổi kích thước, cắt xén, chỉnh độ sáng, va in ra Các
loại máy quét cao cắp có thể còn bao gồm cả phần mềm Adobe Photoshop cho
phép các thao tác phúc tạp hơn Và đa số các loại máy quát đều có phần mắm
quết các trang văn bản và chuyển chủng tir dang anh quét sang dạng văn bản để
có thể chỉnh sửa
Trang 33loại và đánh giá để tìm ra máy quết phủ hợp với nhu câu vả công việc Khi lưu ÿ
về độ phân giải đản chủ ý rằng phần nhỏ nhất của 2 con sổ chỉ ra số lượng điểm
mà mắy quết có thể bất được trên mỗi inch tuyển tỉnh của đầu qui (còn gọi là
độ phần gidi quang học) Phân lớn nhất lá số các đòng dẫu quét bắt được khi đầu cquết qua mỗi inch của hình ảnh hoặc văn bản
Thông thường bỏ qua độ phân giải nội suy, đây là phương pháp sử dụng phẩn mễm để bổ sung thêm thông tỉn vào hình ánh Cách này có thể lăm cho
ấp có thể sẽ thấy 1 tính năng gọi là đải động (Dynamic Range hoặc
max) diy là độ nhạy của thiết bị trong sự chuyển đổi chính xác các mẫu sáng mâu tối vã bỏng của hinh ảnh Dmax được xem là tốt cỡ 3.2 hoặc cao hơn Nên chủ ý Dmax là hệ thống lõ-gx-ft nên Ì my quốt cổ lì số Dmax 3⁄4 hoặc 36 thì tốt hơn máy quết có tỉ số 3⁄2
iii |Rất quan trọng: Độ phản giải cing coo thi ảnh quết được cảng nét Yêu
ố này cảng quan trọng hơn khi định phỏng lớn ảnh 2x17 fi "XI?" đến 8.5°x14" Ninh
Trang 34uct sir dung công nghệ
in| cing &8
| Cổng giao Luuết chưa 2 Đa số các may quét hign nay déu sir dung cing USB 1.1, nd tiếp {chi div nhanh cho các công việc nhỏ Một vải máy quét còn có cả 2 cổng
Mê kết nói: USB và parallel (cổng máy in), cho phép chúng làm việc với Kác máy tính đối cũ Nếu muỗn dùng mãy quết có cổng kết nối USB 2 Âbi máy tính của cũng phải cổ công UISB 20
Độ phân giải quang 7 48 2400 x 2400
Mae dai mẫu xám
ones Uncen te meen 200 Me, XP Professional a Hone Eons: PC with
ime! Penium i 253 Mile poesor Celeron ơi patible: MB
255 MB free hard disk space,
Mt Microsoft Windows Internet ti 5.01 SP2 oF
Trang 35Qua cic yêu cẫu và các chỉ tết kỹ thuật nêu trên, sơ sinh với mây sean Thư
viện có, chúng tôi thấy đã có thé scan được các giáo trình hiện có nhưng đây
cũng chỉ là loại máy ding cho vin phông, chưa phái là mây scan công nghiệp để
có thể sean tự động toàn bộ một cuỗn giáo trình hay scan dai trà phù hợp với
ất cần những loại máy có chế độ "Cung cắp
tính năng của thư viện Thư viện
giấy tự động” Với loại máy hiện có, việc scan chỉ có thé đưa giấy theo từng tờ
rời sẽ mắt rất nhiều thời gian, không linh hoạt ~ mang tính thủ công Với khổ
giấy sử dụng cho 2 máy scan trên là chưa thích hợp Với các giáo trình khổ lớn
hay các bản vẽ, bản đồ thi việc sean trở nên rất khó khăn, không phủ hợp Đối
với độ phân giải, theo yêu cầu của chương trình thì những văn bản có font chữ
cỡ 10 trở lên thì chọn độ phân giải 300 dpi là thích hợp, còn font chữ cỡ 9pt trở quả đạt được mới khả quan Còn các chỉ tiết kỹ thuật khác xem như phủ hợp
"Với các loại giáo trình in roneo gidy vàng trước đây, chúng tôi chọn phương
án nhập lại dỡ liệu bằng tay (manual entry) - đây thường là giải pháp duy nhất một sưu tập không thể duyệt được bằng OCR hoặc duyệt với độ chính xác thấp đưới 95% v
1.2 Máy tính:
Đông 4 để nhận ảnh từ máy sean và xử ý ảnh sau khi sea xong Quá rnh xử
nguyên của máy tính, Mục đích của việc xác định các yêu cầu về máy tính lã tìm cách tránh các vướng mắc ở mọi công đoạn: quét, lưu ảnh vào đĩa, tạo ra các ảnh pI anh cho khai thắc, vận chuyển
ảnh qua mạng hoặc gửi ảnh đến mản hình hoặc máy in Các yêu cẩu đổi với hệ phân giải cao hoặc một lượng ảnh lớn Hiệu suất của máy thường được đánh giá
(bus architecture) và các giao điện trong máy tính giữ những vai trò quan trọng
như nhau trong việc tối đa hoá năng suất đầu vảo Do vậy, máy tính cần phải có
cấu hình và cổng kết nỗi phù hợp Năng suất thoả đáng đạt được với máy tính có những chỉ tiết kỹ thuậ tôi thiểu như sau:
30
Trang 36thiết bị này ảnh hưởng rất lớn năng lực tổng thể của máy tỉnh CPU dùng để xử
ý các chí thị lệnh do chương trinh được nap vio bộ nhớ CPU sẽ thực hiện tuẫn
cache lớn thì việc xử lý của ứng dụng sẽ tăng lên Đối với qui trình số hỏa, sản
phẩm trung gian thường là các tập tin ảnh dung lượng lớn và các chương trình cắn trang bị CPU có tốc độ cao và có cache lớn
Bộ nhớ (RAM): đùng để lưu trữ dữ liệu do các ứng dụng nạp vào để CPU
xử lý, Có nhiều loại thiết bị để nạp ứng dụng nhưng RAM là thiết bị xử lý nhanh
chỉ thị lệnh do ứng dụng nạp vào Dung lượng RAM cảng lớn thì tốc độ xử lý
của máy tính cảng nhanh Đối với qui trình số hóa, sản phẩm trung gian thường
là các tập tin ảnh dung lượng lớn, để việc xử lý được “nhẹ nhàng”, các tập tin sẽ
ớn để việc xử lý diễn ra nhanh chóng
Mân hình máy tinh (Monitor): ding để biển thị hình ảnh Thiết bị có kích cỡ
cảng lớn thi có độ phân giải cao và hiện thị hình ảnh sắc nét hơn
1.3 Thiết bị lưu trữ: có 02 loại
+ Ô đĩa cứng (Hard disk): © dia cimg ding để lưu trữ dữ liệu và đôi lúc hỗ trợ một phần cho RAM (ở đây đĩa cứng ghỉ trực tuyến các chương trình, chủ
cảng nhiều thông tin Ngoai ra tốc độ truy xuất của ỏ đĩa cứng còn phụ thuộc
nhất (thời gian phân ứng tinh bằng miligiáy); chỉ phí giảm Nhược điểm: phức
31
Trang 37phương tiện quang học
+ Ô đĩa quang (CD-ROM, DVD- ROM Read Write)
CD - ROM, ing dyng: lưu trữ tệp số chủ lâu dài Đây là phương tiện trao đổi
ảnh tốc độ trung binh và phân phối rộng rãi Ưu điểm: chuẳn ISO 9660 cho phép,
đọc và viết phố thông; có phương tiện ổn định; giá thành thấp (đổi với các với nhiều phương tiện Nhược tốc độ ghi và đọc chậm; sức chứa nhỏ,
650MB,
DVD - ROM được xem là thế hệ phương tiện lưu trữ mới nhất, có thể trở
thành một chuẩn chung để ghỉ âm thanh hỉnh ảnh và dữ liệu máy tính của toàn
thể giới Đĩa có dung lượng bộ nhớ từ 4.7-17GB
Theo nghiền cứu của chúng tôi cầu hình máy tính để thực hiện số hóa như
sau
HDD SATA: 120 GB ‘VGA: 128 MB DDR chip Geforce
Diu doc DVD-ROM Monitor: 19 inch
‘Tuy nhiên với điều kiện của Thư viện hiện na
máy tính IBM của thư viện có cấu hình như sau: chủng tôi tạm thời sử dụng
không é người sử dụng có thể cùng khai thác thông tin chính
tốc độ thỏa đáng Muốn đạt được hiệu quả cao trong việc khái thác tài
nguyên thông tin, cần hiểu rõ mỗi quan hệ giữa kích thước tệp và bãng thông đường truyền cũng như độ ổn định của hệ thống mạng
xác vệ
32
Trang 38~ Bộ phân nối mạng cáp (lines), may chi (server), may tram (client)
- Card nỗi mạng ở mỗi máy trạm
Tốc độ phân phối ảnh sổ được xắc định bằng:
~ Sức chứa của mạng (bãng thông)
~ Kích thước têp
~ Phương tiện để hiển thị ảnh và các tính năng của máy tính Sức chứa của mạng: Dược đø bằng tổn sốt (không phải byte) có thể được truyền đi mỗi giây (bps) gọi la dai thông (bandwidth) Tay thude mạng mã thông tin có thể được truyền đi từng bit một hoặc từng
Có thể ước lượng tốc độ truyền của mạng thông qua dải thông của một mạng
con Tắc độ phân phổi ảnh có thể quy về mắt xích chậm nhắt trong mạng Ngoài
cứu nhằm đánh giá nhu cẳu của người sử dụng bao gồm thời điểm, tằn số và
thời gian khai thác mạng Tốc độ truyền tối đa nền được tính ở mức thấp hơn điểm Tại giờ cao điểm, có khi tốc độ truyễn chỉ còn 20%,
card) cũng như các quy trình được sử dụng để tạo ra các ảnh phái sinh từ tệp số
đổi dạng tệp (xi dụ tử TIFF sang GIF) và các chương trình tạo tệp phải sinh
nhằm làm giám kích thước tệp chứa ảnh, nâng cao tốc độ xử lý vả hiển thị Chúng ta sẽ xét đến các đặc tính của hệ thống hiển thị cỏ ảnh hưởng đến chất
lượng và tỉnh hoàn chỉnh của ảnh, gồm các phẩn mm và các thao tác tạo tệp phái sinh, và các công thức quy ước chất lượng ảnh hiển thị
Trang 39tập số và yêu cầu của người sử dụng Nhìn chung, các nhà nghiên cứu thường
thể); sự hiển thị toàn bộ ảnh trên mân hình; sự thể hiện chính xác kích thước của
ồn ảnh trên man hinh giống với bản in vả yêu cẩu hoàn hảo về: chất lượng ảnh, tính hoàn
nguyên bản: và tốc độ truyền ảnh cao Ngưởi sử dụng hưởng mì
1 đúng kích cỡ, tốc độ truyền ảnh Tuy nhiên, khả năng của các mạng và
monitor hiện nay chưa cho phép thoả mãn đồng thời cả 4 yêu cẩu trên Chị
lượng ảnh trên màn hình phụ thuộc nhiều vảo độ phân giải của màn hình kích
cỡ màn hinh vã kích thước pixel
2 Phần mềm cơ bản:
2.1 Phần mềm nl dang:
'Quết ảnh là khẩu rất quan trọng và ảnh hưởng rất nhiễu đến độ chính xác đổi
với quá trình nhận dạng Một văn bản rõ nét ma quét với độ sáng tối không thích cảnh sẽ ảnh hưởng nhiễu đến độ chính xác của quá trinh nhận dang Ngược lại
đối với các trang vân bản không rõ nét nhưng được thiết lập độ sáng tối độ phân
giải, đồ tương phân thích hợp cũng với sự hỗ tợ xử lý ảnh như: xóa nhiễu, dông nằm ngang) thì kết quả nhận dạng tốt hơn,
'Để đánh giá các phần mềm nhận dạng, cần kiểm tra những đặc tính sau da
~_ Các thông số ngằm định để phù hợp được với nhiễu dạng tư liệu với
"những tỉnh trạng khác nhau (ví dụ: các tư liễu có độ tương phản thấp, trung bình cao: ảnh nửa tông có độ mảnh khác nhau; ảnh chụp)
~_ Phân trang và phân vũng (tự động hoặc bing tay) đối với những tư liệu hỗn hợp
“Các tính năng xử lý ảnh (vỉ dụ: đặt ngường đái biển động, tăng độ nét, lâm lại cắt xén chỉnh)
Trang 40(preview)
— Tinh năng tạo ra vi ghi Igi ede thidt định tuỷ biển dành cho người sử dụng
~_ Các dạng nén và cấu hình tệp
~_ Các tính năng nén và ghỉ vào đĩa tự động
~_ Kiểm soát các đường cong gama, diém tring và điểm den
~ _ Biểu đồ để xem và biên soạn các thang mau
~_ Hệ thống quản lý màu
~ _ Các tính năng đặt tên tệp và kết cấu tư liệu
Hiện nay khi mua sản phẩm máy quét tại Việt Nam, các nhả cung cấp đã cải
“đặt sẵn các phần mềm nhận dạng, vi dy:
tẳn mềm nhận dạng chữ tiếng Việt: VnDOCR
VnDOC bắt đầu từ verson 1.0 được nắng cấp 2.0, chương trình nhận dạng
tưực tiếp tả liệu, bing cách quết thông qua máy seanner thảnh các tệp ảnh, và chuyển đổi thảnh các tếp có định dang *.doc,
đụng không phải gõ lại tải liệu vào máy Hiện nay máy Scan có tại thư viện
được cải đặt phần mễm VaDOCR 2.0 đo Phòng Nhận dạng & Công nghệ trí
thức - Viện Công nghệ Thông tin cung cấp, Các tài liệu được quét đều có thể chỉnh sửa bằng một chương trình soạn thảo văn bản thông thường như Word người sử đụng lựa chọn các vùng khác nhau Đối với các trang tải liệu trình bảy đơn giản chương trinh sẽ tự động phân ving Côn đối với các tang tải liệu trình liệu cổ cách trình bay giống nhau, có thể phân ving một trang và áp dụng cách phân vũng nảy cho toàn bộ tả liệu quét vao
xls, “xt, “tf gidp người sử
Phần mềm nhận dạng tiẾng nước ngoài:
Hiện Thư viện chưa có được phần mén nhặn dang tiếng nước ngoi Chúng tối sử dụng phẫn mễm Fine Reader, bin cho phép ding thir 30 ngay để thực hiện