Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 19 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
19
Dung lượng
365,12 KB
Nội dung
530 Đỗ Quang Vinh THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ Đỗ Quang Vinh*1 KHÁI NIỆM Ở đây, trình bày định nghĩa không hình thức thư viện số Định nghĩa (Arms W.Y.): Thư viện số (DL – Digital Library) kho thông tin có tổ chức với dịch vụ liên kết, thông tin lưu trữ dạng số truy cập qua mạng Ý định nghĩa thông tin có tổ chức DL chứa loại kho thông tin khác dùng nhiều người sử dụng khác DL có quy mô từ nhỏ đến lớn DL sử dụng loại thiết bị tính toán phần mềm phù hợp Chủ đề thống thông tin tổ chức máy tính có sẵn mạng với thủ tục lựa chọn tài liệu kho để tổ chức, làm cho sẵn có với người sử dụng (NSD) lưu trữ Định nghĩa (Chen H., Houston A.L.): Thư viện số thực thể liên quan tới tạo nguồn tin hoạt động thông tin qua mạng toàn cầu DL kho thông tin số có tổ chức Một DL TS., Trưởng Khoa Công nghệ Thông tin, Trường Đại học Văn hóa Hà Nội, Email: vinhdq@huc.edu.vn *1 THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ 531 biểu thị tập hợp máy chủ tự phân tán làm việc đồng thời nhằm trao cho NSD diện mạo CSDL tài liệu liên kết Thực tế, máy chủ lưu trữ lượng lớn thông tin đa dạng nhiều loại vật tải lưu trữ Đặc điểm DL trợ giúp cộng tác, bảo quản tài liệu số, quản trị CSDL phân tán, siêu văn bản, trích lọc thông tin, tìm kiếm thông tin, đơn thể hướng dẫn, quyền sở hữu trí tuệ, dịch vụ thông tin multimedia dịch vụ tra cứu, khám phá tài nguyên phổ biến thông tin có chọn lọc Chúng cho phép thông tin truy cập toàn cầu, chép không lỗi, lưu trữ nén tìm kiếm nhanh Định nghĩa (Reddy R., Wladawsky-Berger I.): Thư viện số kho liệu mạng tài liệu văn số, ảnh, âm thanh, liệu khoa học phần mềm lõi Internet kho liệu số truy cập phổ biến tất tri thức loài người tương lai Định nghĩa (Sun Microsystems): Thư viện số mở rộng điện tử chức điển hình NSD thực tài nguyên NSD truy cập thư viện truyền thống Các tài nguyên thông tin chuyển thành dạng số, lưu trữ kho multimedia làm cho sẵn có thông qua dịch vụ Web Định nghĩa (Witten I.H., Bainbridge D.): Thư viện số kho đối tượng số, bao gồm văn bản, video audio với phương pháp truy cập tìm kiếm, lựa chọn, tổ chức bảo trì Định nghĩa (Liên đoàn Thư viện số - The Digital Library Federation): Thư viện số tổ chức cung cấp nguồn lực gồm cán chuyên môn để lựa chọn, xây dựng, truy cập tri thức, giải thích, phân phát, bảo tồn tính toàn vẹn đảm bảo tính bền vững vượt thời gian kho tài liệu số, chúng sẵn sàng đáp ứng nhu cầu sử dụng cộng đồng cụ thể nhóm cộng đồng 532 Đỗ Quang Vinh Tóm lại, Thư viện số kho thông tin số khổng lồ có tổ chức với dịch vụ liên kết qua mạng 1.1 Các thành phần 1.1.1 Hệ quản lý nội dung Hệ quản lý nội dung trung tâm thư viện số Không có nội dung số, thư viện số Hệ quản lý nội dung bao hàm tập hợp tất chức thực nhằm tạo loại nội dung cụ thể, chẳng hạn tạp chí điện tử cho người dùng cuối Một hệ quản lý nội dung có hai thành phần chính: hệ truy cập thông tin hệ quản lý thông tin 1.1.2 Hệ truy cập thông tin Hệ truy cập thông tin có giao diện người dùng thích hợp Sự truy cập thông tin quy loại chức có cho sử dụng hệ thống Nó bao gồm chức thường cung cấp cho loại liệu riêng biệt, chẳng hạn, trường hợp liệu địa lý chức vẽ đồ Truy cập thông tin bao hàm tìm kiếm, xem nội dung xử lý thông tin Một số loại thông tin cần phải xử lý sau tìm Chẳng hạn, tệp ảnh TIFF lớn chuyển đổi thành tệp GIF xem dễ dàng với trình duyệt Web 1.1.3 Hệ quản lý thông tin Quản lý thông tin cần phải làm cho truy cập thông tin khả thi Các chức truy cập thông tin cụ thể có kiểu thích hợp lưu trữ chế quản lý, liệu có phải hệ sở liệu, động tìm kiếm search engine, v.v Mỗi kiểu liệu đòi hỏi hệ quản lý nội dung riêng Quản lý nội dung có thu thập nội dung Thu thập thực cách mua từ nhà cung cấp, thông qua phát triển thư viện nội quét tài liệu 533 THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ - Các cách tiếp cận quản lý thông tin Có bốn cách tiếp cận quản lý thông tin chính: Các tệp độc lập với nội dung thư viện số bảo trì máy chủ WWW FTP Một chương trình xây dựng để tự động hoá phần tương tác với nội dung Quản lý nội dung với động tìm kiếm search engine Sử dụng hệ quản trị sở liệu SQL Server, Oracle, DB2, … Các cách tiếp cận không loại trừ lẫn nhau; có nhiều cách kết hợp khác để khai thác ưu riêng kỹ thuật Hệ quản lý nội dung Hệ quản lý nội dung Dịch vụ hạ tầng Thông tin bạn đọc Hệ quản lý nội dung Truy cập thông tin An toàn/ Quản lý quyền Tính cước/Trả tiền Quản lý thông tin Đặt tên Dịch vụ bổ trợ Phổ biến thông tin có chọn lọc Truyền thông Hệ phân phối Tích hợp Hình 1: Mô tả thành phần dịch vụ thư viện số 534 Đỗ Quang Vinh 1.1.4 Dịch vụ hạ tầng Bốn dịch vụ tạo thành hạ tầng quan trọng thư viện số: đặt tên, thông tin bạn đọc, an toàn tính cước 1.1.5 Dịch vụ bổ trợ Ba dịch vụ bổ trợ thư viện số bao gồm: dịch vụ truyền thông, dịch vụ phân phối, dịch vụ phổ biến thông tin có chọn lọc 1.1.6 Tích hợp Các thành phần thư viện số phải tích hợp Một có nhiều hệ phần mềm sử dụng cần phải quan tâm đến vấn đề liên kết chúng Đây thành phần kiến trúc phức tạp thư viện số Tích hợp bao hàm toán cách làm cho hai hệ thống thông tin hoạt động đồng thời Bài toán giải thư viện cách cho bạn đọc sử dụng hai hệ thống, mục lục phân loại sở liệu trích dẫn Tích hợp toán thư viện số Nó xuất thư viện định cung cấp truy cập tới hai hệ thống thông tin khác Các phương pháp tích hợp: Các trang WWW kết nối nhiều Website Siêu liệu Metadata Chuẩn tìm kiếm thông tin phân tán Z39.50 CORBA (Comon Object Request Broker Architecture) Không có giải pháp tốt tất giải pháp lại Mỗi giải pháp có vị trí riêng Tạo trang Web đơn 535 THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ giản Sử dụng Z39.50 hạn chế người dùng tìm kiếm phân tán CORBA đường tương lai Nó linh động cung cấp khả cho môi trường tích hợp nhiều Z39.50 1.2 Tài nguyên 1.2.1 Phần cứng Phần cứng thành phần chính, bao gồm: máy chủ, terminal mạng Có ba loại terminal: (1) máy tính gia đình, người sử dụng làm việc nhà dùng modem để truy cập dịch vụ; (2) terminal thư viện; (3) máy tính mạng Tất terminal kết nối tới máy chủ đặt thư viện trường học qua mạng 1.2.2 Đội ngũ Đội ngũ thư viện số không kỹ thuật viên, nhà quản lý thư viện hệ thống nhân viên thư viện dịch vụ điện tử, mà tất cán thư viện truyền thống Hình Máy chủ thư viện PC nhà MODEM Mạng thư viện Máy chủ từ xa PC thư viện 536 Đỗ Quang Vinh XÂY DỰNG THƯ VIỆN SỐ Quá trình xây dựng thư viện số điển hình bao hàm pha sau: - Tạo lập nội dung thư viện số; - Chỉ mục lọc thông tin; - Trợ giúp truy cập phổ quát; - Bảo quản 2.1 Tạo lập nội dung thư viện số Thứ nhất, tạo lập thư viện số, phải xác định loại thông tin cung cấp loại thông tin loại bỏ Không may, hầu hết thông tin thư viện số muốn cung cấp không số hoá, nên yêu cầu bổ sung xác định quyền ưu tiên số hoá trình chuyển đổi Thứ hai chất động thông tin số hoá Nội dung thay đổi theo thời gian, đòi hỏi lưu trữ nhiều ấn bản, phải có chế cho phép phân biệt ấn Những thách thức liên quan khác bao gồm định danh phương pháp bắt mục vật tải liên tục thời gian thực kỹ thuật xử lý, lưu trữ quản trị lượng thông tin lớn phức tạp Thứ ba, liên kết siêu văn cho phép thư viện số cung cấp liên kết tới thông tin, thư viện số phải định kiểu truy cập cung cấp Các vấn đề liên quan quyền sở hữu lưu trữ thông tin ngày trở nên quan trọng 2.2 Chỉ mục lọc thông tin Sau vấn đề thu thập lưu trữ giải quyết, thách thức tìm cách làm cho thông tin thích hợp có cá nhân có quyền thời điểm thích hợp Các khách hàng phải có khả THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ 537 định danh, định vị lọc thông tin cho thông tin thích hợp đáp ứng tổ chức thành đơn vị quản lý thông qua xếp hạng phân loại Tác nhân trí tuệ nhân tạo sử dụng nhiều để định vị lọc thông tin tương lai Có hai loại trình định vị thông tin khác nhau: - Loại thứ hữu ích tìm kiếm rộng, thông tin không cần xác định cụ thể Thông tin thích hợp bị tản mát nhiều số nguồn tin không đồng phân tán Thách thức biểu diễn tích hợp thông tin không liền mạch tới khách hàng Sự lựa chọn cung cấp kỹ thuật tổ chức phân loại có hiệu bó chùm thông tin thành đơn vị quản lý - Loại thứ hai bao hàm tìm kiếm trọng tâm, hoàn toàn xác định hẹp Loại đòi hỏi thông tin chi tiết Vì tính xác quan trọng nhất, kỹ thuật lọc hiệu dùng nhằm đáp ứng lượng thông tin thích hợp Mặt khác, giao diện người dùng quan trọng Thậm chí thông tin thích hợp giá trị, khách hàng không hiểu trình bày Những thư viện số tốt đồng dạng tuỳ biến, giao diện người dùng động tích hợp trơn tru kiểu liệu thông thường từ nguồn có cấu trúc cấu trúc với kiểu liệu đặc biệt (bản đồ, liệu ba chiều liệu đồ họa liên tục) Những hệ thống kết hợp giải thuật kỹ thuật cho phép tương hỗ ngữ nghĩa, cho người sử dụng tìm kiếm lĩnh vực tri thức xa lạ từ vựng thể quen thuộc Vấn đề quan trọng khác định vị thông tin tìm quan hệ khoá, đặc biệt nguồn tin không đồng phân tán Khai mỏ liệu, trích lọc mẫu, liên kết dị thường từ nguồn liệu lớn lĩnh vực nghiên cứu đầy hứa hẹn, tạo phần đáng kể ứng dụng thư viện số multimedia cỡ lớn phức tạp 538 Đỗ Quang Vinh 2.3 Trợ giúp truy cập phổ quát Mục đích cuối thư viện số truy cập phổ quát, phù hợp với mục đích thư viện truyền thống cung cấp truy cập thông tin công cộng Nhằm thực truy cập phổ quát, thư viện số cần phải giải toán tích hợp thông tin nguồn tin không đồng phân tán cách thiết kế cài đặt giao diện người dùng hiệu giải toán từ vựng Một thách thức với cung cấp truy cập phổ quát tạo kỹ thuật trợ giúp tính đa dạng thiết bị hiển thị thông tin điều khiển thông tin Không có tính đa dạng hệ điều hành lĩnh vực máy tính, mà có tính đa dạng thiết bị hiển thị tivi, máy fax, hình video thiết bị thông tin khác Thách thức chủ yếu khác cho băng thông hạn chế dùng cho truyền thông tin thích nghi với số lượng người sử dụng tăng lên kho liệu lớn hơn, phức tạp Để đạt truy cập phổ quát hợp lý, sử dụng thông minh băng thông, bao hàm khả bảo đảm băng thông cho khoảng thời gian cho trước định rõ sách trợ giúp sử dụng ban hành 2.4 Bảo quản Vật tải điện tử không dễ phân huỷ loại khác Tuy nhiên, thay đổi liên tiếp nâng cấp khác dạng tài liệu điện tử (như chuẩn MARC, SGML, HTML, XML, v.v ) vấn đề không tương thích cần phải quan tâm chu bảo vệ liệu NHỮNG THÁCH THỨC VÀ XU HƯỚNG PHÁT TRIỂN CỦA THƯ VIỆN SỐ Những năm qua, có số lợi ích khiến chuyển tiếp tới mở rộng thư viện số kiên trì ủng hộ Bốn áp lực xu hướng là: kinh tế, truy cập, công nghệ chuẩn THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ 539 3.1 Kinh tế Sản xuất, lưu trữ, phân phối tái sản xuất thông tin điện tử rẻ so với thông tin truyền thống Hơn nữa, thư viện số hợp tác với cách cung cấp cổng (liên kết) tới thông tin quản lý cung cấp thư viện khác, cho phép chuyên môn hoá trì ngân sách thu thập sản xuất cung cấp truy cập tới lượng lớn thông tin Những áp lực kinh tế khác hướng thư viện đến số hoá bao gồm: - Lạm phát: tăng nhanh giá điều hành thư viện, đặc biệt thu thập mở rộng kho tài liệu tạp chí học thuật Trong 20 năm qua, giá tạp chí tăng vọt lên 400% giá sách sách chuyên khảo tăng 40% - Khối lượng: bùng nổ lượng, tính đa dạng tính phức tạp thông tin - Bảo trì: khủng hoảng bảo quản kho tài liệu tồn tại, đặc biệt giấy a xít - Multimedia: lượng thông tin multimedia tăng lên đòi hỏi tiện ích xem nghe đặc biệt yêu cầu phân thành mục lục lưu trữ khác - Sự cộng tác: ưu điểm từ tài nguyên chia sẻ thư viện nhà cung cấp thông tin khác, mặt kinh tế lẫn cải thiện mức dịch vụ - Truyền thông khoa học: toán giá gay gắt vốn gắn với truyền thông khoa học truyền thống (như giá cung cấp truy cập mức tới số tạp chí học thuật thích hợp, tới bảo trì mức dịch vụ đầy đủ) 540 Đỗ Quang Vinh 3.2 Cải thiện mức dịch vụ Thư viện số có khả cung cấp mức dịch vụ đạt trước đây, nghĩa tìm kiếm câu từ riêng lẻ phân phát thông tin tới người dùng, thông tin không bị phân huỷ theo thời gian, dù văn bản, âm ảnh Thông tin trước sẵn khó thu thập, thường sẵn có Truy cập thông tin cải thiện số cách: thời gian truy cập/ tốc độ tìm kiếm, tính sẵn có, nội dung/tính thích đáng, tính trực quan cải thiện/giao diện người dùng Về mặt lịch sử, nghiên cứu nâng cao chất lượng dịch vụ thư viện tập trung vào cải thiện nói chung tới truy cập thông tin Xu hướng tùy biến riêng lẻ đáp ứng phương pháp truy cập thông tin giao diện người dùng Do đặc điểm sản xuất phân phối thông tin số, tiết kiệm đáng kể thời gian từ sản xuất tới sử dụng Thông tin số cần tạo lập lưu trữ lần sẵn có mạng đồng thời tới nhiều người dùng, trái với nhiều chép tạo theo thời gian cung cấp qua kênh phân phối truyền thống Chẳng hạn, nhiều Website Internet đưa thông tin thời gian thực, thời gian trễ in ấn phân phối 3.3 Sử dụng công nghệ Để đáp ứng có hiệu nhu cầu thông tin khách hàng, thư viện số cần sử dụng tổ hợp thành tựu công nghệ có khả thiết kế, xây dựng, quản trị sử dụng mạng toàn cầu Nó phải có khả thích nghi nhanh với thay đổi động công nghệ đương đầu với kích cỡ, quy mô tính phức tạp mạng lẫn thông tin có sẵn truyền qua chúng Nhiều thành tựu công nghệ sản xuất, quản trị phân phối thông tin nguyên nhân tạo khả cho thư viện số, bao gồm: THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ 541 - Vật tải lưu trữ; - Số hoá kỹ thuật bắt thông tin (như công nghệ nhận dạng ký tự quang OCR); - Chỉ số hoá tự động tổ chức lượng thông tin lớn; - Tốc độ tính toán; - Công nghệ mạng (bao hàm nén liệu); - Tìm kiếm phục hồi dựa nội dung; - Tìm kiếm phục hồi dựa đặc tính dựa kết cấu; - Chỉ số hoá toàn văn; - Khai phá tri thức tài nguyên; - Multimedia siêu văn hypertext; - Các chuẩn: SGML, HTML Z39.50; - Các kỹ thuật hướng đối tượng; - Cải tiến thiết kế giao diện người dùng trực quan liệu 3.4 Các chuẩn Để thư viện số thực cổng toàn cầu, quan trọng có chuẩn kỹ thuật giới chấp nhận biểu diễn, tạo dạng, truyền thông tin giao thức Đây cách đảm bảo tính tương thích Vì thế, tính tương thích thiết bị, liệu, thực hành thủ tục cần thiết nhằm đạt truy cập phổ quát trao đổi thông tin điện tử toàn cầu Không may, có nhiều rào cản xã hội, văn hoá trị trước phát triển chuẩn quốc tế, lợi ích rõ ràng với tất người Một số tổ chức quốc tế để hết tâm trí vào phát triển chuẩn, bao gồm: Tổ chức chuẩn hoá quốc tế ISO (International Organization for 542 Đỗ Quang Vinh Standardization) - có trách nhiệm ngôn ngữ đánh dấu chung chuẩn hoá SGML; IETF (Internet Engineering Task Force) quan tâm đặc biệt đến kiến trúc Internet, tương tác vận hành Internet Một chuẩn quan trọng từ viễn cảnh thư viện số chuẩn tìm kiếm thông tin phân tán Z39.50 Trong chuẩn tài liệu thông tin SGML, HTML, TEI, VRML (Virtual Reality Modeling Language) MARC tồn tại, thực tế, hầu hết trao đổi thông tin điện tử xảy qua E-mail, FTP nặc danh, Gopher tảng trình duyệt Web với TeX, LaTeX, PostScript, PDF, văn ASCII tài liệu định dạng Word Hầu hết dạng chế phân biệt phần đóng góp nhiều tác giả nhiều ấn bản, khả bao hàm liên kết động tới thông tin khác Nhiều dạng sử dụng thực tế thương mại, giữ độc quyền chúng khả truy cập phổ quát TÍNH LIÊN TÁC NGỮ NGHĨA TRONG THƯ VIỆN SỐ 4.1 Tính liên tác ngữ nghĩa thách thức lớn Cách nhìn chia sẻ mạng toàn thể kho phân tán, loại đối tượng tìm qua tập hợp số khác Tương lai gần, công nghệ phải phát triển để tìm kiếm suốt qua kho phân tán, điều khiển biến đổi giao thức dạng, nghĩa quan tâm tính tương hỗ cấu trúc Tương lai xa, công nghệ phải phát triển để điều khiển suốt biến đổi nội dung tri thức Đây bước theo cách đối sánh khái niệm yêu cầu người sử dụng với đối tượng số hoá kho tài liệu Tính liên tác ngữ nghĩa sâu xa khả người sử dụng truy cập quán rõ ràng tới lớp đối tượng số dịch vụ tương tự, phân tán qua kho không đồng nhất, với tổ chức dàn xếp bù phần mềm cho biến đổi theo điểm Để đạt tính liên tác ngữ nghĩa đòi hỏi mô tả tìm kiếm, trao đổi đối tượng THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ 543 giao thức tìm kiếm đối tượng Vấn đề bao hàm định nghĩa, sử dụng, bắt tính toán siêu liệu từ đối tượng, văn lẫn multimedia, sử dụng mô tả đối tượng tính toán, tổ chức tích hợp kho không đồng với ngữ nghĩa khác hẳn nhau, bó chùm tổ chức phân cấp tự động thông tin, giải thuật đánh giá tự động, xếp hạng thẩm định chất lượng, thể loại đặc tính thông tin khác Định nghĩa sử dụng siêu liệu, bó chùm tổ chức phân cấp tự động thông tin thành phần để xây dựng hệ thống phân loại tự động thư viện số 4.2 Nghiên cứu tính liên tác Các hệ thống phân loại thư viện từ điển đồng nghĩa chủ đề riêng biệt phân loại thư viện quốc hội Mỹ, phân loại Dewey hệ thống ngôn ngữ y học thống UMLS nỗ lực đáng kể người để có người quản lý thư viện huấn luyện giỏi hệ thống phân loại, gán nhãn tri thức quán Các hệ thống phân loại thư viện từ điển đồng nghĩa thường bắt danh từ/cụm danh từ biểu diễn quan hệ hạn chế Biểu diễn thường thô xác Các biểu diễn trí tuệ nhân tạo mạng ngữ nghĩa, hệ chuyên gia thể học phản ảnh cách tiếp cận bắt tri thức khác Các biểu diễn thường giàu mịn Chỉ nguyên mẫu thực nghiệm lĩnh vực hẹp tạo Tính hữu ích chúng ứng dụng thư viện số cỡ lớn đáng nghi ngờ Cách tiếp cận truyền thống để tạo hệ thống phân loại nguồn tri thức khoa học thư viện trí tuệ nhân tạo kinh điển thường xem xét từ xuống top-down biểu diễn tri thức dạng định nghĩa trước chuyên gia nhà quản lý thư viện có kinh nghiệm Quá trình sáng tạo tri thức có cấu trúc hoàn toàn xác định Cách tiếp cận từ lên bottom-up bổ sung để sáng tạo tri thức đề xuất nhà nghiên cứu học máy, phân tích thống kê mạng nơ-ron 544 Đỗ Quang Vinh Dựa vào sở liệu thực, nhà nghiên cứu phát triển chương trình phân đoạn mục tài liệu cách hệ thống, nhận dạng mẫu sở liệu multimedia khác Phân tích sở liệu chứa liệu có cấu trúc số thường coi khai thác liệu/khám phá tri thức Tạo tri thức cách giải thuật từ sở liệu multimedia, đặc biệt văn coi lõi quản trị tri thức Trong số kỹ thuật phân tích mục ngữ nghĩa coi mở rộng được, lớp giải thuật phương pháp sau khảo sát thử nghiệm thư viện số 4.2.1 Nhận dạng đối tượng, phân đoạn mục Các kỹ thuật quan trọng tìm kiếm thông tin bao hàm nhận dạng đặc tính khoá đối tượng Chỉ mục tự động xử lý ngôn ngữ tự nhiên thường dùng để trích lọc tự động từ khoá/cụm danh từ có nghĩa từ văn Các kỹ thuật mục phân đoạn dựa vào văn bản, màu sắc hình dạng thường dùng để nhận dạng ảnh Đối với ứng dụng audio video, nhận dạng tiếng nói phân đoạn cảnh dùng để nhận dạng ký hiệu có nghĩa luồng audio video Thư viện số phát triển kỹ thuật phân đoạn danh từ mục tài liệu văn Đối với mục thuật ngữ, mục cụm danh từ để xác định khái niệm từ kho tài liệu Nó bắt đầu với trình mã hoá văn để tách biệt ký tự phân cách ký hiệu Nó tuân theo mục tiếng nói phần POST luật phân đoạn danh từ ngữ pháp Đối với thư viện số, kỹ thuật phân đoạn danh từ sản xuất số xác mục từ đảo trợ giúp tìm kiếm dựa vào nội dung Bằng cách dùng kỹ thuật xử lý ngôn ngữ tự nhiên mở rộng được, thư viện số có khả mục hiệu quả, tự động xác kho tài liệu riêng THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ 545 4.2.2 Phân tích ngữ nghĩa Một số lớp kỹ thuật sử dụng phân tích ngữ nghĩa văn đối tượng bao gồm: - Học máy ký hiệu không gian ấn - Thu gộp phân loại dựa vào đồ thị thu gộp phân cấp Ward - Phân tích thống kê đa mục tiêu mục ngữ nghĩa, xác định tỷ xích đa chiều, hồi quy - Tính toán dựa vào mạng nơ-ron nhân tạo mạng lan truyền ngược, ánh xạ tự tổ chức Kohonen lập trình tiến hoá/lập trình di truyền Các kỹ thuật phổ biến lựa chọn tốt cho xử lý, phân tích tóm tắt lượng thông tin multimedia lớn, thay đổi nhanh khác Kỹ thuật không gian khái niệm ví dụ phân tích thống kê, ngữ nghĩa kho tài liệu thư viện số cỡ lớn Không gian khái niệm tính toán cho kho tài liệu có cỡ 100000 trang Web, triệu tóm tắt công nghệ 10 triệu tóm tắt y học 4.2.3 Biểu diễn tri thức Các kết từ trình phân tích ngữ nghĩa trình bày biểu diễn tri thức sau đây: - Các hệ thống phân loại; - Các mạng ngữ nghĩa; - Các luật định logic vị từ Nhiều nhà nghiên cứu cố gắng tích hợp kết với cấu trúc tri thức sáng tạo người tồn thể học, 546 Đỗ Quang Vinh chủ đề từ điển đồng nghĩa Sự kích hoạt dàn trải dựa vào phương pháp suy diễn thường sử dụng để nghiên cứu kỹ lưỡng cấu trúc tri thức cỡ lớn khác 4.2.4 Tương tác người - máy HCI Một xu hướng hầu hết ứng dụng thư viện số đặt trọng tâm vào HCI đồ họa thân thiện người dùng Các trình duyệt dựa vào Web văn bản, ảnh video làm người sử dụng tăng thêm kỳ vọng biểu diễn thao tác thông tin Những thành tựu ngôn ngữ tảng phát triển Java, OpenGL, VRML sẵn có workstation đồ hoạ cao cấp làm cho trực quan thông tin trở thành lĩnh vực nghiên cứu nhiều triển vọng Những thử nghiệm khẳng định sức quyến rũ đồ hoạ trực quan 3D, đặc biệt hệ Web gần Nói riêng, hầu hết người sử dụng thư viện số biểu lộ phong cách nhận thức khác có xu hướng thích 3D Nghiên cứu HCI nhiều ngữ cảnh thư viện số cần thiết phong phú nội dung dạng vật tải thư viện số tính đa dạng phong cách nhu cầu người sử dụng ỨNG DỤNG PHẦN MỀM MÃ NGUỒN MỞ XÂY DỰNG THƯ VIỆN SỐ Ở đây, giới thiệu tóm tắt số phần mềm mã nguồn mở sử dụng để xây dựng thư viện số: + Hệ phần mềm mã nguồn mở, miễn phí Greenstone dự án New Zealand Digital Library sử dụng Đại học Quốc gia TP Hồ Chí Minh, Trường Đại học Bách khoa TP Hồ Chí Minh, Thư viện Tổng hợp TP Hồ Chí Minh, Đại học Thái Nguyên, Trường Đại học Nông nghiệp, … THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ 547 + Hệ phần mềm mã nguồn mở, miễn phí DSpace MIT Libraries Hewlett-Packard Labs phát triển vào năm 2002, sử dụng Trường Đại học Đà Lạt, Trường Đại học Hà Nội, Trường Đại học Nội vụ Hà Nội, … + Hệ phần mềm mã nguồn mở EPrints University of Southampton (Anh); + Hệ phần mềm mã nguồn mở, miễn phí Omeka George Mason University (Mỹ); + Hệ phần mềm mã nguồn mở Fedora Cornell University the University of Virginia Library (Mỹ); + Hệ phần mềm mã nguồn mở, miễn phí Invenio Trung tâm Nghiên cứu châu Âu CERN Thụy Sỹ KẾT LUẬN Thư viện số chịu tác động xã hội quan trọng thành tựu công nghệ Thư viện số trở nên quan trọng mặt quốc gia quốc tế, phần tăng theo hàm mũ thông tin Web Công nghệ thư viện số thống trị Internet kỷ 21 Có tỷ kho phân tán khắp giới, cộng đồng nhỏ bảo trì kho tài liệu tri thức riêng Chỉ mục ngữ nghĩa có giá trị kho, dùng ngữ nghĩa mở rộng nhằm tạo trợ giúp tìm kiếm điều hướng cho hệ thống thuật ngữ chuyên ngành cộng đồng Sự chuyển qua khái niệm mục ngữ nghĩa tạo khả cho thành viên cộng đồng dễ dàng tìm kiếm hệ thống thuật ngữ cộng đồng khác 548 Đỗ Quang Vinh TÀI LIỆU THAM KHẢO Arms W.Y (2003), Digital Libraries, MIT Press, Cambridge Fox E.A (2000), Advanced Digital Libraries, Virginia Polytechnic Institue and State University Lesk M (2005), Understanding Digital Libraries, 2nd Edition, Morgan Kaufmann, San Francisco Lourdes T.D (2006), Thư viện số truy cập mở tài liệu lưu trữ, Nguyễn Xuân Bình nnk biên dịch, UNESCO, Hà Nội Sun Microsystems (2002), Digital Library Technology Trends UNESCO Institute for Information Technologies in Education (2005), Digital Libraries in Education, Moscow Witten I.H., Bainbridge D (2003), How to Build a Digital Library, Morgan Kaufmann, San Francisco Đỗ Quang Vinh (2009), Thư viện số - Chỉ mục Tìm kiếm, Nxb Đại học Quốc gia Hà Nội ... người sử dụng ỨNG DỤNG PHẦN MỀM MÃ NGUỒN MỞ XÂY DỰNG THƯ VIỆN SỐ Ở đây, giới thiệu tóm tắt số phần mềm mã nguồn mở sử dụng để xây dựng thư viện số: + Hệ phần mềm mã nguồn mở, miễn phí Greenstone... khoa TP Hồ Chí Minh, Thư viện Tổng hợp TP Hồ Chí Minh, Đại học Thái Nguyên, Trường Đại học Nông nghiệp, … THƯ VIỆN SỐ VÀ PHẦN MỀM MÃ NGUỒN MỞ 547 + Hệ phần mềm mã nguồn mở, miễn phí DSpace MIT... chủ thư viện PC nhà MODEM Mạng thư viện Máy chủ từ xa PC thư viện 536 Đỗ Quang Vinh XÂY DỰNG THƯ VIỆN SỐ Quá trình xây dựng thư viện số điển hình bao hàm pha sau: - Tạo lập nội dung thư viện số;