Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf

128 625 0
Tài liệu Đề tài: Xây dựng một số công cụ hổ trợ tra cứu và tổng hợp thông tin trong thư viện số pdf

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Đề tài: Xây dựng số công cụ hổ trợ tra cứu tổng hợp thông tin thư viện số CHƯƠNG TỔNG QUAN 1.1 Thư viện số Thư viện số thư viện phục vụ thông tin điện tử ( số hóa) - đọc với trợ giúp máy vi tính Thơng tin điện tử chứa Tư liệu điện tử nằm thư viện Tư liệu điện tử bao gồm: • CD-ROM băng từ - CD-ROM thường chứa CSDL chuyên ngành, phục vụ riêng lẻ hay mạng máy tính • Tạp chí điện tử - ấn hành mạng Internet Thư viện đặt mua tạp chí in cấp quyền login vào để truy cập • Cơ sở liệu trực tuyến - có nhiều mạng Internet trường đại học, sở thông tin, công ty tư nhân LEXIXNEXIX, DIALOG, vv - Cũng tạp chí điện tử, thư viện đặt mua quyền sử dụng • Tài liệu khác Internet - tài liệu web site sở quyền, trường đại học, cơng ty, hội đồn, vv Việc truy cập thường miễn phí Thơng tin điện tử đơi cịn bao gồm tư liệu số hóa, tập hợp hình thức Thư viện số Tư liệu số hóa trước tiên tranh ảnh, tài liệu quý hiếm, vv Ngày nhiều thư viện có khuynh hướng số hóa đại phận tư liệu thư viện để phục vụ dạng điện tử 1.2 Nghiên cứu thư viện số Mỹ Vấn đề nghiên cứu thư viện số hướng nghiên cứu chủ yếu CNTT Mỹ Những tiến nhanh chóng kỹ thuật tính tốn mạng máy tính làm cho tư liệu nháy mắt “nhân bản” chuyển tới hành trăm triệu người khắp giới Năm 1994, người ta đưa vấn đề gọi SÁNG KIẾN THƯ VIỆN SỐ (SKTVS) mà ngày gọi DLI pha SKTVS pha tập trung làm sáng tỏ 1-1 bước vấn đề mô hình quan niệm, cấu trúc, thách thức tính toán nhằm tạo các kho tri thức nhân loại dạng điện tử Trong năm, SKTVS pha có thành cơng bước đầu mà chứng kiến, chẳng hạn cơng cụ tìm kiếm tiếng Internet SKTVS pha – DLI pha 1999 thu hút nhiều nhà khoa học kỹ sư CNTT, nhà nghiên cứu nhiều ngành KHXH, nghệ thuật, sinh học…Mục tiêu phát triển nguồn tư liệu số, thử nghiệm liên kết nguồn tư liệu phân tán, thiết lập nguyên tắc, phần mềm cấu trúc mạng có khả liên hợp tư liệu đa phương tiện thành ghi thể, giải vấn đề ngữ nghĩa cản trở việc tích hợp tư liệu số từ tư liệu từ sưu tập phân tán khác cấu trúc Pha SKTVS tập trung vào hướng nghiên cứu lớn sau: • Human-centered research-nghiên cứu hỗ trợ việc tạo thông tin sử dụng thông tin • Content and collections-tạo lập thư viện số chứa đựng dạng tri thức • System-centered research-các vấn đề kỹ thuật, phần mềm, phân loại tổ chức liên kết liệu số dạng thức khác thơng qua Internet Để hình dung rõ hướng nghiên cứu trên, lược qua dự án chính, vấn đề quan trọng hướng nghiên cứu triển khai 1.2.1.Human-centered research (nghiên cứu hướng nguời dùng) Trong hướng này, có dự án chương trình lớn: Personalized Retrieval and Summarization of Image, Video, and Language Resources (PERSIVAL) Trong dự án PERSIVAL, nhà nghiên cứu Đại học Columbia thử nghiệm thiết kế hệ thống giúp cho bệnh nhân truy cập dễ dàng nhanh chóng đến nguồn thơng tin y học trực tuyến thích hợp cho người bệnh http://www.cs.columbia.edu/diglib/PERSIVAL/ Digital resource designed for children Các nhà nghiên cứu Đại học Maryland phát triển cơng cụ thích hợp cho phép nghe, xem, tìm kiếm, hỏi đáp 1-2 tổ chức thông tin nghe, nhìn, văn bản…cho trẻ em http://www.cs.umd.edu/hcil/kiddiglib/ Technologies and tools for students Nhiều đại học quan nghiên cứu Đại Học Quốc Gia Georgia, Hiệp Hội Máy Tính (Association for Computing Machinery-ACM), Ủỵ Ban Giáo Dục SIGGRAPH (SIGGRAPH Education Committee) phát triển kỹ thuật công cụ cho sinh viên để việc truy cập thông tin trực tuyến phục vụ học tập đại học hiệu http://econ.badm.sc.edu/beam/ Video information college Dự án triển khai Đại Học Carnegie Mellon nhằm thiết lập môi trường làm việc với tư liệu video, văn bản, ảnh âm http://www.informedia.cs.cmu.edu/ Alexandria Digital Earth prototype (ADEPT) Đây phận chương trình hợp tác thư viện số Đại học Berkeley, Đại học Santa Barbara (UCSB), Đại học Stanford, Trung tâm Siêu Máy Tính San Diego Thư Viện Số California, liên quan chủ yếu đến việc sử dụng loại thông tin khơng gian, thư mục hóa chúng, vấn đề tìm kiếm Web… http:/www.alexandria.ucsb.edu/adept/ 1.2.2 Content and collections (Nội dung sưu tập) Hướng tập trung nghiên cứu việc tổ chức kho thông tin lĩnh vực tri thức Một số dự án lớn kể đến như: Digital Library for the humanity Đại Học Tuffs hợp tác với viện Max Planck Berlin, Hội Ngôn Ngữ Hiện Đại (the Modern Language Association), Bảo Tàng Nghệ Thuật Boston (the Boston Museum of Fine Arts) Tổ Hợp Xuất Bản Điện Tử Stoa (the Stoa electronic pubishing consortium) phát triển thư viện điện tử chứa tư liệu từ thời Ai Cập cổ đại đến kỷ 19 http://www.perseus.tuffs.edu National Gallery of Spoken Word (NGSW) Đại Học Quốc Gia Michigan thực thư viện nói lịch sử suốt kỷ 20 với công cụ xử lý hiệu http://www.ngsw.org/app.html 1-3 National digital library for science, mathematics, engineering, ang technology education (SMETE) Đại Học Berkeley California phát triển thư viện số tập hợp ngành khoa học, toán học công nghệ hỗ trợ việc học tập bậc phổ thông trung học http://www.needs.org Digital Atheneum Đại Học Kentucky Quỹ Khoa Học Quốc Gia tài trợ phối hợp với Thư Viện Anh Chương Trình Shared University Research IBM làm việc với kho tư liệu Thư Viện Anh chứa đựng tư liệu cổ Hi Lạp, Do Thái từ kỷ 17 http://www.digitalatheneum.org Digital workflow management Hơn 29.000 ngàn nhạc Mỹ từ 1790 đến 1960 Đại Học Hopkins chuyển thành thư viện số http://levysheetmusic.mse.jhu.edu Data provenance Các nghiên cứu Đại Học Pennsylvania hướng tới vấn đề nan giải bậc tập hợp liệu trực tuyến Đó độ trung thực tin số vấn đề liên quan, xếp vào nhóm vấn đề hệ thống trình bày dưói http://db.cis.upenn.edu/Research/ptovenance.html 1.2.3.System-centered research (nghiên cứu hướng hệ thống ) Phát triển thư viện số đòi hỏi phải giải nhiều vấn đề hệ thống Có thể nêu vài số vấn đề quan trọng mà nhà khoa học Mỹ tập trung giải quyết: New model for scholarly publishing Bản chất vấn đề việc xuất khác xa cách in ấn truyền thống Xuất tức thời, phân tán, liên tục… Mọi quy trình phải thay đổi thích hợp để thực việc “xuất bản” hệ thống tính toán phân tán Vấn đề Đại Học Berkeley California nghiên cứu http://elib.cs.berkeley.edu Classification systems Một vấn đề kỹ thuật phức tạp thư viện phân loại tư liệu Mọi cơng cụ lưu trữ, tìm kiếm phụ thuộc vào kỹ thuật phân loại Với thư viện số chứa đựng, tích hợp dạng thức thơng tin, tri thức vấn đề phức tạp Rất nhiều đại học viện nghiện cứu 1-4 tập trung cho vấn đề Có thể xem Web site: http://ai.bpa.arizona.edu/go/dl/ Security, quality, access, and reliability Với thư viện số an tồn, bảo mật, chống chép bất hợp pháp, kỹ thuật tìm kiếm… chứa đựng nhiều vấn đề mở Chẳng hạn Đại Học Cornell, nhà nghiên cứu tập trung cho tính tồn vẹn thư viện số http://www.prism.cornell.edu 1.3 Nghiên cứu thư viện số Việt nam Ở Việt nam, nghiên cứu thư viện số buớc khởi đầu Trong năm qua nhiêề phần mền quản lý thư viện hỗ trợ đọc sách Internet đầu tư phát triển Bảng 1.1 đặc tính số phần mềm quản lý thư viện nhà sản xuất phần mềm nước phát triển Bảng 1.1 Danh sách số phần mền quản lý thư viện nhà sản xuất phần mềm Việt nam phát triển Tên thuộc tính Mơ tả LIBOL (Tinh Vân) ILIB (CMC Soft) VEBRARY (Lạc Việt) Phát triển nhu cầu nước (1997) sau thay đổi theo chuẩn quốc tế Có giao diện dạng Web thiết kế theo mơ hình mở lớp Đây hệ thống quản lý thư viện điện tử, dùng Trung Tâm Thông Tin Tư Liệu Đại Học Đà Nẵng Hệ điều hành WinNT, Unix, Linux Cơ sở liệu NA Hỗ trợ tiếng Việt Hỗ trợ tiếng Việt mà số ngôn ngữ khác Anh, Nga, Nhật, Hoa, hỗ trợ Unicode Hỗ trợ tìm kiếm Oracle 8i phiên lớn SQL-Server phiên nhỏ SmiLib Hỗ trợ đa ngôn ngữ, tiêng Việt theo bảng mã Unicode TVCN Tìm kiếm tra cứu mạnh, hỗ trợ tất khung phân loại NA Mọi thao tác thư viện qua trình duyệt Web Lưu trữ lập mục với số lượng lớn dạng tài liệu SGML, XML, MARC, RTF, dạng tài liệu đa phương tiện theo chuẩn open-ebook W3C Hỗ trợ tiêu chuẩn sách điện tử thư viện Z39.50, Unicode… Biên mục theo chuẩn MARC, ÚMARC (ngầm định MARC21) Có nhiều tính khác bổ sung tài liệu, lưu thông tài liệu, quản lý xuất phẩm nhiều kỳ, mượn liên thư viện, báo cáo thống kê Tính bảo mật đáng lưu ý Tuân thủ tiêu chuẩn mở hệ thống thư viện xây dựng công nghệ đại, quản lý thư viện hiệu quả, có khả liên thơng với thư viện khác giới Các chức chuyên môn Môi trường hiển thị: Web Chuẩn giao tiếp liệu ISO2709 Hỗ trợ tra cứu liên thư viện qua chuẩn Z39.50 Có khả tùy biến giao diện Có phân hệ nhgiệp vụ chuyên môn: tra cứu (Z39.50), , biên mục, ấn phẩm điện tử, ấn phẩm định kỳ, phân hệ bổ sung, phân hệ quản lý, phân hệ bạn đọc phân hệ mượn trả Hỗ trợ đa khả liên thư việ theo chuẩn (MARC, USMARC, UNIMARC Cho phép tra cứu liên thư viện theo chuẩn Z39.50 Có chức hỗ trợ mã vạch Cho phép thay đổi module khác qua thông số Nhận xét Có khả đáp ứng hầu hết nhu cầu chuẩn hóa nghiệp vụ Thân thiện với người dùng, chức tìm kiếm nhanh chóng, xác nhiều ngơn ngữ nhiều tiêu chí Có tính mở linh hoạt Đã ứng dụng số nơi Học Viện Quan hệ Quốc tế… 1-5 Hỗ trợ tìm kiếm tra cứu theo nhiều tiêu chí khác CHƯƠNG XÂY DỰNG THƯ VIỆN CÁC BÀI BÁO NGHIÊN CỨU LIÊN QUAN ĐẾN CNTT 7.1Thiết kế sở liệu 7.1.1 Mơ hình vật lý 7.1.2 Mơ hình liệu PAPER (PAPERID, PAPERNAME, TITLE, ABSTRACT, KEYWORDS, PAPERFILENAME, PAPERFILEPATH) PAUTHOR (AUTHORID, AUTHORNAME, FACULTY, EMAIL) PAPERAUTHOR (PAPERID, AUTHORID) LIENTHONG (SOHIEU, TUKHOA) COOCCURRENCE (QWORD, SWORD, COVISION) SUBJECTHEADINGS (SHID, SUBJECTHEADINGS) SUBJECTHEADINGPAPER (SHID, PAPERID) 7-1 SEARCHRESULT (SHID, PAPERID, ITEMSCOUNT) KEYWORDS (KWID, KEYWORD) KEYWORDPAPER (KWID, PAPERID) SEARCHKWRESULT (KWID, PAPERID, ITEMSCOUNT) SEARCHCORESULT (KWID, PAPERID) USER_ACCOUNT (USERID, HO_TEN, PASSWORD, QUOC_TICH, DIA_CHI, NAM_SINH, PHAI, NGHE_NGHIEP, NGAY_DK, NGAY_HHAN, PIN) 7.2 Mô tả thực thể 1.PAPER: Bài báo Thuộc Tính PAPERID Diễn giải Mã số báo Mỗi báo có mã số để phân biệt với báo khác PAPERNAME Tựa đề báo TITLE Chủ đề báo ABTRACT Trích yếu báo, tóm lược báo KEYWORDS Các từ khóa báo Các từ khóa có sẵn trích rút đặc trưng từ trích yếu báo PAPERFILENAME Tên tập tin toàn văn báo PAPERFILEPATH Đường dẫn nơi chứa tập tin toàn văn báo 7-2 2.PAUTHOR: Tác giả Thuộc Tính AUTHORID Diễn giải Mã số tác giả Mỗi tác giả có mã số để phân biệt với tác giả khác AUTHORNAME Họ Tên tác giả báo FACULTY Trường hay nơi làm việc tác giả báo EMAIL Địa email tác giả báo 3.PAPERAUTHOR: Tác giả - báo Thuộc Tính Diễn giải PAPERID Mã số báo AUTHORID Mã số tác giả tham gia viết báo theo mã số báo MỗI tác giả có cặp khóa theo mã báo mã số tác giả để phân biệt 4.LIENTHONG: liên thơng Thuộc Tính Diễn giải SOHIEU Số hiệu liên thơng TUKHOA Từ khóa liên thơng Các từ khóa gọi liên thơng có số hiệu liên thơng Các từ khóa trích rút từ cụm từ đặc trưng từ tập văn 7-3 5.COOCCURRENCE: Đồng Thuộc Tính QWORD Diễn giải Từ khóa keywords báo Dựa từ khóa người dùng truy vấn để lấy thêm từ đồng thông qua từ khóa tìm kiếm thêm văn có từ khóa hay từ từ đồng với từ khóa SWORD Từ khóa đồng trích rút từ cụm từ đặc trưng từ tập văn COVISION Chỉ số đồng qword sword tập văn 6.USER_ACCOUNT: Account Người dùng Thuộc Tính USERID Diễn giải Mã số ngườI dùng Mỗi ngườI sử dụng có mã số để phân biệt với người sử dụng khác HO_TEN Họ tên người sử dụng PASSWORD Password người sử dụng QUOC_TICH Quốc tịch người sử dụng DIA_CHI Địa liên hệ ngườI sử dụng NAM_SINH Năm sinh ngườI dùng PHAI Giới tính người sử dụng 7-4 NGHE_NGHIEP Nghề nghiệp người sử dụng NGAY_DK Ngày đăng ký sử dụng hệ thống thư viện báo Ứng với ngày đăng ký biết ngày hết hạn account sử dụng NGAY_HHAN Ngày hết hạn dùng account Nếu ngày lớn ngày hết hạn từ account bị lock người dùng phải đăng ký sử dụng lại hệ thống PIN Số PIN Thơng qua số để thu phí hay hệ thống cấp cho người dùng số PIN đăng ký sử dụng hệ thống SUBJECTHEADINGS: Tiêu đề đề mục Thuộc Tính Diễn giải SHID Mã số tiêu đề đề mục SUBJECTHEADINGS Tên tiêu đề đề mục từ đồng tiêu đề đề mục SUBJECTHEADINGPAPER Thuộc Tính Diễn giải SHID Mã số tiêu đề đề mục PAPERID Tương ứng với mã số tiêu đề đề mục có hay nhiều mã số báo tìm thấy thư viện báo 7-5 SEARCHRESULT Thuộc Tính Diễn giải SHID Mã số tiêu đề đề mục SUBJECTHEADINGS Tên tiêu đề đề mục từ đồng tiêu đề đề mục ItemsCount Số báo tìm thấy theo tiêu đề đề mục có thư viện báo 10 KEYWORDS Thuộc Tính Diễn giải KWID Mã số từ khóa Keyword Từ khóa trích rút từ đặc trưng từ kho liệu sở liệu 11 KEYWORDPAPER Thuộc Tính Diễn giải KWID Mã số từ khóa PAPERID Tương ứng với mã số từ khóa có hay nhiều mã số báo tìm thấy thư viện báo 7-6 12 SEARCHKWRESULT Thuộc Tính Diễn giải KWID Mã số từ khóa Keyword Từ khóa trích rút từ đặc trưng từ kho liệu sở liệu ItemsCount Số báo tìm thấy theo từ khóa có thư viện báo 13 KEYWORDCOPAPER Thuộc Tính Diễn giải KWID Mã số từ khóa PAPERID Tương ứng với mã số từ khóa có hay nhiều mã số báo tìm thấy thư viện báo với số mã số báo có chứa từ đồng với từ khóa cần tìm 14 SEARCHCORESULT Thuộc Tính Diễn giải KWID Mã số từ khóa Keyword Từ khóa trích rút từ đặc trưng từ kho liệu sở liệu ItemsCount Số báo tìm thấy theo từ khóa có thư viện báo 7-7 7.3.Giao diện truy cập thư viện báo 7.3.1.Trang đăng nhập Trang cho phép đăng nhập vào hệ thống thư viện báo Sau người dùng login vào hệ thống với username/password đăng ký, người dùng truy cập thư viện báo, đọc tóm lược báo hay tồn văn báo dựa việc truy vấn theo tên tác giả hay theo từ khóa hay từ danh sách báo, hay danh sách tác giả theo thứ tự Nếu người dùng lần truy cập vào website thư viện báo chọn vào nút đăng ký để vào trang đăng ký 7-8 7.3.2 Trang đăng ký Để truy cập thư viện báo trước hết người ta phải đăng ký cho username/password để login truy cập hệ thống thư viện báo Mỗi lần đăng ký account người dùng truy cập khoảng thời gian định, vượt thời hạn sử dụng người dùng phải đăng ký sử dụng lại hệ thống 7-9 7.3.3 Trang Từ trang người dùng tham khảo thơng tin báo thơng qua việc truy vấn theo từ khóa, tên tác giả Người dùng chuyển đổi trang theo mục lục tác giả, báo hay tiêu đề đề mục để có chọn lựa theo danh sách chữ đầu tên tác giả, tên báo, tên tiêu đề đề mục danh sách tác giả, báo, tiêu đề đề mục 7-10 7.3.4 Trang hiển thị từ việc truy vấn thơng tin theo từ khóa Dựa từ khóa truy vấn, hệ thống thư viện tìm kiếm thêm từ khóa đồng với từ khoa truy vấn để tìm kiếm thêm tập văn chứa từ khóa nhằm giúp cho người dùng mở rộng thêm tập thông tin cần tìm kiếm 7-11 7.3.5 Trang hiển thị danh sách tác giả theo tên thứ tự tên tác giả Với trang người dùng chọn theo tác giả có báo cần tham khảo 7-12 7.3.6 Trang hiển thị danh sách tất báo Với trang người dùng chọn tên báo cần tham khảo 7-13 7.3.7 Trang hiển thị tìm kiếm thông tin theo tiêu đề đề mục Dựa danh sách tiêu đề đề mục theo thứ tự, hệ thống thư viện tìm kiếm tất báo với tiêu đề đề mục mà chọn để tra cứu 7-14 7.4 Kết luận Trong CSDL với phương pháp truy vấn thông thường, ta tìm số văn dựa vào từ khóa truy vấn có xác văn cần tìm Vậy xem xét làm để tìm văn cho có xuất từ khóa tương đương hay thường đồng với từ khóa truy vấn Chính điều thư viện báo ứng dụng kết có từ nghiên cứu gom cụm trích rút đặc trưng từ tập văn Với việc có thêm từ khóa trích rút từ cụm từ đặc trưng từ tập văn làm cho CSDL thêm phong phú, giúp cho việc truy vấn khơng tìm văn có xác từ khóa truy vấn mà cịn thêm văn dựa từ khóa tương đương hay đồng xuất tập văn Thêm vào đó, việc thiết lập tiêu đề đề mục dựa việc trích rút đặc trưng với nguyên tắc thống có từ số nhiều từ đồng nghĩa chọn làm tiêu đề đề mục Chính việc có thêm phần danh mục theo tiêu đề đề mục giúp cho việc tra cứu thông tin người sử dùng thêm tiện lợi, hiệu 7-15 ... CHƯƠNG TỔNG QUAN 1.1 Thư viện số Thư viện số thư viện phục vụ thông tin điện tử ( số hóa) - đọc với trợ giúp máy vi tính Thơng tin điện tử chứa Tư liệu điện tử nằm thư viện Tư liệu điện tử... tra cứu tổng hợp thông tin thư viên số “ tập trung vào nội dung sau: • Nghiên cứu nhu cầu khai thác thông tin độc giả số thư viện số hóa tiêu biểu thư viện cao học trường ĐHKHTN; thư viện sách... đồng CNTT • Xây dựng cơng cụ Search Download • Xây dựng cơng cụ tìm dãy từ phổ biến để đặc trưng văn • Xây dựng cơng cụ tổng hợp văn qua gom cụm mạng Kohonen • Xây dựng thư viện số Web với hàng

Ngày đăng: 24/01/2014, 04:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan