CHƯƠNG 7 ITLIBWEB
7.4. Cài đặt
8.3.4.7. Màn hình quản lý thông tin một bộ sưu tập tổng quát
Hình 8.22 - Màn hình quản lý thơng tin BST nói chung
8.4. Cài đặt
8.4.1. Công cụ và môi trường phát triển hệ thống
Hệ thống ITLib được xây dựng trên các công cụ và mơi trường sau: - Cơng cụ phân tích và thiết kế: Rational Rose 2001
- Môi trường cài đặt ứng dụng: Microsoft Windows XP Professional
- Mơi trường lập trình: Microsoft Visual Studio .NET Enterprise Developer Edition
- Hệ quản trị cơ sở dữ liệu: Microsoft SQL Server 2000, Access 2003 - Greenstone
- Hệ thống còn được phát triển trên các cơng cụ hỗ trợ lập trình giao diện như Janus Systems Controls Syncfusion
8.4.2. Mơ hình cài đặt 8.4.2.1. Mơ hình 8.4.2.1. Mơ hình ITLib Presentation Layer ITLib Database Layer ITLib Business Layer .NET Framework UI Library Greenstone Hình 8.23 - Mơ hình cài đặt 8.4.2.2. Diễn giải
8.4.2.2.1. ITLib Presentation Layer
Bao gồm các màn hình Windows Form thực hiện chức năng trình bày
dữ liệu và tương tác với người dùng.
8.4.2.2.2. ITLib Business Layer
Bao gồm các lớp đối tượng thực hiện chức năng truy xuất, xử lý, đóng
vai trị giao tiếp giữa lớp Presentation và Database.
8.4.2.2.3. ITLib Database Layer
Các lớp chức năng giao tiếp với CSDL SQL Server, với hệ thống tập
8.4.2.2.4. Greenstone
Thành phần chủ chốt của hệ thống, thực hiện việc tạo, biên tập các bộ
sưu tập sau khi đã được các thành phần bên trên xử lý.
8.4.2.2.5. .NET Framework
Nền chạy ứng dụng.
8.4.2.2.6. UI Library
Bộ thư viện hỗ trợ lập trình giao diện, bao gồm hai thư viện chính là Janus System Controls và Synfusion.
PHẦN 3. TỔNG KẾT
Phần cuối cùng của Luận văn này sẽ tổng kết những nghiên cứu về thư viện số Greenstone và đánh giá về hệ thống phần mềm ứng dụng Greenstone – Thư viện số Khoa CNTT ITDL. Trong phần này cũng xác định hướng mở rộng, phát triển Greenstone và ITDL.
CHƯƠNG 9. ĐÁNH GIÁ VÀ HƯỚNG PHÁT TRIỂN 9.1. Đánh giá
Greenstone là hệ thống thư viện số đơn giản, nhưng không kém phần hiệu
quả trong việc quản lý tài nguyên điện tử. Các thư viện số xây dựng bởi Greenstone tuân thủ theo các tiêu chuẩn quốc tế chung, giúp cho tiến trình liên kết các thư viện, vốn đang là xu hướng hiện nay, trở nên dễ dàng hơn. Mặt khác, khả năng tuỳ biến
linh hoạt của Greenstone cho phép mỗi thư viện tạo cho mình những đặc trưng
riêng. Greenstone đã dung hồ được cả hai mặt đối ngược nhau đó. Đặc biệt,
Greenstone hồn tồn miễn phí và được người dùng trên tồn thế giới sử dụng và
đóng góp cho sự phát triển. Những yếu tố này rất có ý nghĩa với những thư viện hạn
chế về năng lực tài chính như ở Việt Nam. Phiên bản Greenstone 2.6 với mô-đun kèm theo GLI 2.6 hiện nay còn một số hạn chế trong việc xây dựng bộ sưu tập nhưng trong tương lai không xa, sẽ dần được khắc phục.
Nhóm nghiên cứu đã thực hiện được những mục tiêu đặt ra ban đầu: tìm hiểu cấu trúc và cơ chế hoạt động của Greenstone, từ đó, xây dựng ứng dụng Thư viện số ITDL cho Khoa. Hệ thống ITDL, ngoài việc thực hiện được các chức năng cơ bản như Greenstone, cịn bổ sung thêm các tính năng riêng, xây dựng các bộ sưu tập đặc thù, giao diện đẹp, dễ sử dụng.
Tuy nhiên, hệ thống ITDL còn hạn chế trong việc chưa cung cấp đầy đủ các chức năng quản lý thông tin trong cơ sở dữ liệu (nhập thông tin cho các bảng dữ liệu), thể loại các bộ sưu tập cịn ít.
9.2. Hướng phát triển
Greenstone là phần mềm mã nguồn mở, khả năng phát triển trong tương lai là rất lớn.
Trong hệ thống ITDL, mô-đun ITLibWeb cần bổ sung các chức năng khác : các dịch vụ trực tuyến, diễn đàn, đăng ký thành viên... Mơ-đun ITLib có thể mở
rộng xử lý các dạng tài liệu sử dụng trong Khoa như phần mềm, mã nguồn, hay tài liệu âm thanh, hình ảnh, quản lý thơng tin trong cơ sở dữ liệu.
PHỤ LỤC A. GIỚI THIỆU VỀ SEARCH ENGINE Tổng quan về Search Engine (bộ máy tìm kiếm) Tổng quan về Search Engine (bộ máy tìm kiếm)
Chúng ta thường nghe nói đến các trang web tìm kiếm như Google, Yahoo!, MSN… và đồng nhất chúng cùng là những Search Engine (SE). Thực ra, có hai
dạng bộ máy tìm kiếm: Web
Directory và Search Engine. Dạng thứ nhất,
Web Directory, tiêu biểu là Yahoo! (www.yahoo.com) sử dụng các trình soạn thảo
để xếp đặt các website vào
những mục (category) xác
định. Do vậy nó cịn được
gọi là "human-based" search
engine. Dạng thứ hai,
Search Engine, sử dụng các phần mềm robot, gọi là “con bọ” (spider hoặc là crawler) thu thập thông tin từ các trang web trên mạng. Dạng này còn gọi "spider- based" hoặc "crawler-based" search engine.
Search Engine (SE):
Một SE có ba thành phần cơ bản:
o Các spider, dùng tìm kiếm thu nạp các trang web, sau đó xây dựng danh
sách các từ, ngữ tìm thấy trong các trang đó thành CSDL.
o Bộ phận tạo chỉ mục (index) cho CSDL trên những từ ngữ đó, gọi là các
indexer.
o Bộ phận cho phép người dùng cuối tìm kiếm bằng từ khố (keyword)
trong CSDL. SE so khớp từ khố người dùng cung cấp để tìm trang web thoả mãn những thông tin người dùng yêu cầu. Bộ phận này gọi là query
Khi người dùng u cầu tìm kiếm, SE tìm từ khố người dùng cung cấp theo chỉ mục trong CSDL. Thường hệ thống chỉ mục này được cập nhật 4-6 tuần một lần.
Để tìm ra những trang web gần đúng nhất với câu truy vấn, các SE cũng gắn
trọng số cho từng từ, ngữ trong trang web. Có nhiều cách để gán trọng số. Ví dụ như từ đó càng xuất hiện nhiều lần trong trang web, trọng số của nó càng cao. Cũng có thể gán trọng số lớn cho những từ xuất hiện ở đầu trang, hoặc xuất hiện ở những vị trí đặc biệt như tiêu đề, trong phần thẻ meta 4,… Mỗi SE thường có một cơng thức tính tốn trọng số riêng. Những cơng thức sử dụng cho mỗi SE hầu như thay
đổi từng ngày để bảo đảm tính an tồn, bảo mật. Web Directory
Khác với SE, Web Directory sử dụng các trình soạn thảo để tạo danh sách
kết quả tìm kiếm. Khi bạn muốn đưa trang web của mình vào một Directory (thư
mục), nhà quản lý Directory sẽ dùng các trình soạn thảo và xem xét để trang web của bạn chỗ nào trong thư mục.
Mỗi trang web hiển thị trong một Directory theo nhiều cách, nhưng nói chung vẫn là chia theo từng mục. Cách tổ chức ta thường thấy là theo dạng cây. Từ
đó, các cơng cụ tìm kiếm như Yahoo! sẽ tìm trong Directory những trang web liên
quan bằng cách duyệt cây hoặc tìm theo từ khố.
Hầu hết Web Directory thường nhỏ, do vậy kết quả tìm kiếm thường được bổ sung thêm bằng những kết quả tìm kiếm sử dụng SE. Khi khơng tìm thấy thơng tin mong muốn trong Directory, kết quả có thể được hiển thị nhờ sử dụng kết quả tìm kiếm gần đúng của SE, và ghi trong phần tiêu đề trang kết quả là “Những trang web tương tự” hoặc gần như vậy.
4 Trong HTML có khái niệm thẻ Meta, đánh dấu những từ, cụm từ có ý nghĩa quan trọng, là keyword khi tìm kiếm
Biết được cách thức hoạt động của SE, ta sẽ hiểu được cơ chế xử lý bên trong của Greenstone, qua thành phần nịng cốt của nó – Managing Gigabyte (MG), sẽ được giới thiệu chi tiết trong phần Phụ lục C.
PHỤ LỤC B. CÁC THƯ VIỆN SỐ Ở VIỆT NAM
Chỉ tính riêng ở Việt Nam năm 1995, cũng đã có hơn 20.000 thư viện các
loại, bao gồm thư viện địa phương (do chính quyền địa phương quản lý), thư viện giáo dục (của các trường, trung tâm giáo dục), thư viện khoa học công nghệ (của các trung tâm khoa học công nghệ) v.v…
Hiện nay trên thế giới nói chung và ở Việt Nam nói riêng, nhiều thư viện
điện tử đang được xây dựng và mở rộng. Tính đến thời điểm này, trên thị trường
trong nước có 3 nhà cung cấp các sản phẩm hệ thống thư viện chính: cơng ty CMC, cơng ty Lạc Việt và công ty Tinh Vân.
Công ty trách nhiệm hữu hạn CMC (CMC Co., Ltd)
CMC là công ty chiếm lĩnh thị phần với hệ thống iLib. Thành lập năm 1995, CMC phát triển phần mềm ở nhiều lĩnh vực khác nhau và phát triển hệ thống thư viện từ năm 1998. Phiên bản release đầu tiên của iLib vào năm 1999 và hiện đang
được sử dụng trong Thư viện Quốc gia, Thư viện Đại học Bách Khoa Hà Nội, Đại
học Cần Thơ, Đại học Vinh và một số thư viện thuộc các tỉnh khác. Hệ thống iLib tích họp tất cả các chuẩn mơ-đun ILMS (catalogue, OPAC (Online Public Access Catalog – tra cứu trực tuyến), circulation (lưu thông), acquisitions (thu thập) …). Hiện nay CMC cũng đang phát triển mô-đun ILL. iLib tuân theo các chuẩn quốc tế về thư viện như UNIMARC, MARC21, AACR2, ISBD, Z39.50 và ISO 10161. Tuy nhiên CMC cũng chỉ phát triển trong việc quản lý thư viện truyền thống. Trước sự phát triển mạnh mẽ của các loại tài nguyên điện tử, và thư viện điện tử, CMC đang có những bước đi thăm dị vào lĩnh vực này với việc đưa vào hệ thống website đơn giản, cung cấp dạng forum, tin tức và những liên kết đơn giản.
Công ty Tin học Lạc Việt (LAC VIET Computing Corp)
Lạc Việt là một công ty công ty phần mềm lớn. Năm 2000, Lạc Việt tham gia vào dự án phát triển Trung tâm Tài nguyên Thông tin Đà Nẵng (Da Nang Information Resource Centre) và xây dựng lại phần mềm thư viện VeBrary. Trước
đó, VeBrary chỉ là một phần mềm nhỏ, khơng mang tính chun nghiệp cao của
có thể so sánh ngang tầm với sản phẩm iLib CMC, mặc dù đây không phải là sản
phẩm đặc trưng của Lạc Việt. VeBrary gồm những mô-đun như cataloguing, Web
OPAC, Circulation (bao gồm cả kiểm kê), Acquisitions, ILL, VeBook (hỗ trợ sách
điện tử) và Hệ thống Quản lý System Administration. Cũng như iLib, VeBrary hỗ
trợ tương thích Unicode và các chuẩn như UNIMARC, MARC 21, AACR2, ISBD, Z39.50 và ISO 10161. Giao diện sử dụng bằng Tiếng Việt, Tiếng Anh và một số ngôn ngữ nước ngồi khác.
Cơng ty Tin học Tinh Vân (TINH VAN Informatic Technology Co.)
Trong 3 công ty đề cập ở phần này, Tinh Vân là nhà cung cấp nhỏ nhất, và chủ yếu tập trung vào sản phẩm thư viện duy nhất – Libol. Phần mềm này có nhiều hạn chế hơn so với iLib của CMC và VeBrary của Lạc Việt. Hạn chế lớn nhất là
không hỗ trợ dịch vụ mạng / LAN. Tính đến thời điểm tìm hiểu, nó đã có trên 13
trang ở Việt Nam, bao gồm Đại học Quốc Gia Hà Nội, Đại học Luật Hà Nội, và Đại học Kinh tế Quốc Dân Hà Nội. Phiên bản Release hiện tại là Libol 5.0, gồm những mô-đun như Cataloguing, OPAC, Circulation, Reserve, ILL, Acquisitions, Administration, và hỗ trợ một phần cho tài liệu điện tử. Cũng như hai sản phẩm kể trên, Libol hỗ trợ Unicode, và các chuẩn thông thường như UNIMARC, MARC 21, AACR2, ISBD, Z39.50 và ISO 10161.
Tóm lại, các sản phẩm iLib (CMC), VeBarary (Lạc Việt) và Libol (Tinh
Vân) có nhiều nét tương đồng. Riêng CMC và Lạc Việt, cung cấp hỗ trợ
PHỤ LỤC C - CÁC THÀNH PHẦN HỖ TRỢ GREENSTONE 1. Managing Gigabyte (MG)
9.2.1. Giới thiệu
Managing Gigabytes (MG) là hệ thống tổ chức dữ liệu dạng tập tin văn bản (text), hình ảnh (image) và hình ảnh có nguồn gốc từ văn bản (textual image) thành một cơ sở dữ liệu, cho phép tìm kiếm, truy vấn thơng tin chi tiết đến từng từ một
bên trong các tập tin đó. Nó là thành phần cốt lõi, tham gia vào phần lớn các hoạt
động xử lý tài liệu của Greenstone.
MG là phần mềm mã nguồn mở bằng ngơn ngữ lập trình C++, thực thi độc lập mơi trường, chạy được trên nhiều hệ điều hành, (Windows, Unix, …). Ưu điểm
này giúp cho những phần mềm này dễ được áp dụng rộng rãi, phù hợp nhiều đối
tượng sử dụng và những nước nghèo, kém phát triển có thể tiếp cận, ứng dụng.
Phần mềm và tài liệu hướng dẫn sử dụng có sẵn ở trang chủ của Greenstone :
www.greenstone.org.
Sau đây, chúng ta sẽ tìm hiểu về cấu trúc và hoạt động của MG.
9.2.2. Cấu trúc
MG bao gồm nhiều tiến trình kết hợp lại với nhau. Có thể chia hệ thống MG
thành 2 phần: • Phần xử lý hình ảnh: mgbilevel mgfelics mgtic mgticbuild mgticdump mgticprune mgticstat • Phần xử lý văn bản a. Nén/giải nén mg_passes -T1 mg_passes -T2
mg_compression_dict mg_fast_comp_dict b. Tạo chỉ mục index mg_passes -N1 mg_passes -N2 mg_perf_hash_build mg_invf_dict mg_invf_rebuild c. Tính trọng số mg_weights_build d. Truy vấn mgquery e. Công cụ hỗ trợ khác mg_invf_dump mg_text_estimate mgdictlist mgstat 9.2.3. Chức năng Nén văn bản
MG sử dụng phương pháp nén tĩnh Huffman, giúp hệ thống có thể truy xuất ngẫu nhiên đến các vị trí bất kỳ trong tập tin nén và tiến hành giải nén.
Sơ đồ hoạt động của tiến trình nén văn bản:
Hình – Sơ đồ quá trình nén văn bản
Ghi chú :
(phần in nghiêng nếu bắt đầu với MG_ là các tiến trình xử lý, nếu có dấu chấm ngăn cách là những tập tin kết xuất) Văn bản nguồn Thống kê (mg passes –T1) Tạo từ điển nén (mg compression dict) Tập tin thống kê Từ điển nén (.text.dict) Kết hợp .text.dict và .text.dict.aux (mg_fast_comp_dict) Nén văn bản (mg passes –T2) Từ điển từ mới (.text.dict.aux) Văn bản đã nén (.text) Từ điển kết hợp(.text.dict.fast) : các tiến trình xử lý
Văn bản nguồn trước tiên được thống kê số lượng xuất hiện của mỗi từ. Sau
đó, MG dùng thuật tốn nén Huffman để nén những thơng tin này, tạo nên các từ điển nén, chuẩn bị cho quá trình nén văn bản. Trong quá trình này, từ điển phụ có
thể được tạo ra, chứa những từ mới, những từ có tần suất xuất hiện thấp. Dựa trên 2 từ điển này MG, tạo ra từ điển truy xuất nhanh. Các từ điển này được sử dụng để
phục vụ cho công việc tạo chỉ mục sau đây.
Chỉ mục
MG là một hệ thống tìm kiếm truy vấn tồn văn bản (full text), vị trí từng từ trong văn bản gốc được ghi nhận. Khi có yêu cầu tìm một từ, MG sẽ liệt kê ra những tài liệu có chứa từ đó và vị trí chính xác của nó.
Trong MG có khái niệm chỉ mục đảo, là từ điển từ vựng (lexicon dictionary), liệt kê tất cả những từ khố tìm kiếm. Từ khố tìm kiếm là những từ, vốn lấy trong tài liệu gốc đã được xử lý, thành dạng chữ thường và đưa về dạng từ gốc về mặt ngữ pháp. Ví dụ các từ compute, computer, computing, computed đều được có dạng gốc là compute. Mỗi từ trong tài liệu gốc được hiểu và ngầm thay bằng từ khoá tương
ứng. Khi liệt kê, vị trí các từ này (trong tài liệu nào, đoạn văn nào, hay câu nào) đều được ghi nhận và dùng từ khoá làm đại diện cho tất cả. Việc này làm cho số lượng
từ phải lưu trữ giảm đi nhiều và khi truy vấn, kết quả tìm kiếm cũng được nâng lên, khả năng đáp ứng được nhu cầu của người dùng cũng cao hơn. Để tiết kiệm, những từ quá phổ biến và thường xun có mặt, gọi là stop-word (ví dụ từ the trong Tiếng Anh), bị bỏ qua trong việc tạo chỉ mục. Khi tìm cũng khơng hiển thị những từ đó.
Khi truy vấn với một từ, nó sẽ được chuyển sang dạng từ gốc, chữ thường và
MG sẽ rà trong bảng chỉ mục đảo này để tìm xem có khớp khơng. Nếu khớp MG sẽ
trả về số thứ tự tài liệu chứa từ này. Khi kết hợp các từ lại để truy vấn với các từ
Sơ đồ hoạt động của quá trình tạo chỉ mục đảo
Hình – Sơ đồ quá trình tạo chỉ mục văn bản Ghi chú :
Văn bản nguồn
Tạo từ điển đảo
(mg passes –N1)
Tạo từ điển băm hoàn hảo
(mg_compression_dict)
Từ điển mã hóa trước
Từ điển băm hồn hảo
Tạo từ điển mã hóa trước theo khối
(mg_invf_dict)
Tạo tập tin đảo
(mg_passes –N2) Từ đã có chỉ mục Tập tin đảo (.invf) Từ điển khối : các tiến trình xửlý
(phần in nghiêng nếu bắt đầu với MG_ là các tiến trình xử lý, cịn nếu có dấu chấm ngăn cách là những tập tin kết xuất)