Nghiên cứu các phương pháp chỉ số hoá và tìm kiếm thông tin văn bản ứng dụng trong thư viện số Nghiên cứu các phương pháp chỉ số hoá và tìm kiếm thông tin văn bản ứng dụng trong thư viện số Nghiên cứu các phương pháp chỉ số hoá và tìm kiếm thông tin văn bản ứng dụng trong thư viện số luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐỖ QUANG VINH NGHIÊN CỨU CÁC PHƯƠNG PHÁP CHỈ SỐ HỐ VÀ TÌM KIẾM THÔNG TIN VĂN BẢN ỨNG DỤNG TRONG THƯ VIỆN SỐ Chun ngành: Đảm bảo tốn học cho máy tính hệ thống tính tốn Mã số: 1.01.10 LUẬN ÁN TIẾN SỸ TOÁN HỌC NGƯỜI HƯỚNG DẪN KHOA HỌC TS QUÁCH TUẤN NGỌC PGS PHƯƠNG XUÂN NHÀN HÀ NỘI - 2006 iii MỤC LỤC Trang Trang phụ bìa i Lời cam đoan ii MỤC LỤC iii Danh mục chữ viết tắt vii Danh mục bảng viii Danh mục hình vẽ ix MỞ ĐẦU 1 Nhiệm vụ, đối tượng phạm vi nghiên cứu Cấu trúc luận án Chương – TỔNG QUAN VỀ THƯ VIỆN SỐ 1.1 Mở đầu 1.2 Các khái niệm 1.2.1 Cơ sở liệu tài liệu 1.2.2 Máy tính mạng 1.3 Nghiên cứu tin học thư viện số 10 11 1.3.1 Mơ hình đối tượng 11 1.3.2 Giao diện người sử dụng 12 1.3.3 Tìm kiếm thơng tin 13 1.3.4 Quản trị bảo trì sở liệu 14 1.3.5 Tính liên tác 15 1.4 Mơ hình hình thức cho thư viện số 18 1.4.1 Cơ sở toán học 18 1.4.2 Dịng 19 1.4.3 Cấu trúc 20 1.4.4 Khơng gian 21 iv 1.4.5 Kịch 24 1.4.6 Cộng đồng 28 1.4.7 Định nghĩa hình thức thư viện số 29 Kết luận chương Chương – CHỈ MỤC TÀI LIỆU VĂN BẢN 36 37 2.1 Mở đầu 37 2.2 Chỉ mục tệp đảo IFID 39 2.3 Chỉ mục tệp ký số SFID 44 2.4 So sánh phương pháp mục 47 2.5 Các mơ hình nén mục tệp đảo IFID 49 2.5.1 Đặt vấn đề 49 2.5.2 Các mơ hình nén tồn cục 50 2.5.2.1 Mơ hình khơng tham số 50 2.5.2.2 Mơ hình Bernoulli tồn cục 53 2.5.3 Các mơ hình nén cục 55 2.5.3.1 Mơ hình hyperbol cục 55 2.5.3.2 Mơ hình Bernoulli cục 56 2.5.3.3 Mơ hình Bernoulli lệch 57 2.5.3.4 Mơ hình nén nội suy 58 2.5.4 Hiệu mơ hình nén mục 2.6 Các hiệu ứng 61 63 2.6.1 Gộp dạng chữ 63 2.6.2 Truy gốc từ 64 2.6.3 Từ bỏ qua 65 Kết luận chương 66 Chương – TÌM KIẾM THƠNG TIN 68 3.1 Mở đầu 68 3.2 Truy vấn Boole BQ 70 3.2.1 Truy vấn BQ hội 71 v 3.2.2 Truy vấn BQ không hội 72 3.3 Truy vấn xếp hạng RQ 73 3.3.1 So khớp toạ độ 74 3.3.2 Tích độ tương tự 74 3.3.3 Mơ hình khơng gian vectơ 79 3.4 Đánh giá hiệu suất tìm kiếm 81 3.4.1 Độ phục hồi độ xác 81 3.4.2 Đường cong độ phục hồi-độ xác 84 3.5 Độ đo cosin 85 3.5.1 Tần suất bên tài liệu 86 3.5.2 Tính độ đo cosin 89 3.5.3 Bộ nhớ dành cho trọng số tài liệu 91 3.5.4 Sắp xếp 95 Kết luận chương 100 Chương – GIẢI THUẬT XÂY DỰNG IFID 101 4.1 Mở đầu 101 4.2 Giải thuật đảo danh sách móc nối 104 4.3 Giải thuật đảo dựa vào xếp 107 4.4 Giải thuật nén mục trực tiếp 111 4.4.1 Giải thuật trộn nhiều đường 112 4.4.2 Giải thuật trộn nhiều đường chỗ 113 4.5 Giải thuật đảo nén bên nhớ 120 4.5.1 Giải thuật đảo nhớ lớn 120 4.5.2 Giải thuật phân chia dựa vào từ vựng 125 4.5.3 Giải thuật phân chia dựa vào văn 128 4.6 So sánh giải thuật đảo 130 4.7 Cơ sở liệu động 131 4.7.1 Mở rộng văn 132 4.7.2 Mở rộng mục 133 vi Kết luận chương 137 KẾT LUẬN 139 Kết luận từ luận án 139 Các định hướng nghiên cứu 140 DANH MỤC TÀI LIỆU THAM KHẢO 141 viii DANH MỤC BẢNG Trang Bảng 2.1 Cơ sở liệu TREC 39 Bảng 2.2 Văn mẫu; dòng tài liệu 40 Bảng 2.3 IF văn bảng 2.2 40 Bảng 2.4 IF mức từ văn bảng 2.2 42 Bảng 2.5 Mã hoá chồng lên tài liệu SF 44 Bảng 2.6 Các mã mẫu số nguyên 51 Bảng 2.7 Nén IF số bit cho trỏ TREC 62 Bảng 3.1 Các vectơ tính tốn tích trong: 75 Bảng 3.2 Độ phục hồi độ xác 83 Bảng 3.3 Cộng thêm thơng tin tần suất, bit cho giây TREC 88 Bảng 3.4 Mã hình học xấp xỉ L = 10.0, U = 18.0 b = 93 Bảng 4.1 Ma trận tần suất văn bảng 2.2 101 Bảng 4.2 Chuyển vị tương đương ma trận tần suất bảng 4.1 102 Bảng 4.3 Kích thước hiệu 103 Bảng 4.4 Yêu cầu tài nguyên để đảo CSDL mẫu 2070.29 MB 104 vii DANH MỤC CHỮ VIẾT TẮT Chữ viết tắt ASCII Nghĩa tiếng Việt Tiếng Anh Bộ mã chuyển đổi thông tin chuẩn American Standard Code for Hoa Kỳ Information Interchange BQ Truy vấn Boole Boolean Query CSDL Cơ sở liệu Database DL Thư viện số Digital Library GIF Định dạng ảnh từ CompuServe Graphics Information Format HTML Ngôn ngữ đánh dấu siêu văn HyperText Markup Language HTTP Giao thức truyền siêu văn HyperText Transfer Protocol IF Tệp đảo Inverted File IFID Chỉ mục tệp đảo Inverted File Index IL Danh sách đảo Inverted List IR Tìm kiếm thông tin Information Retrieval JPEG Định dạng ảnh từ JPEG Joint Photographic Experts Group MIME Kiểu thư Internet nhiều mục đích Multipurpose Internet Mail Extension NSD Người sử dụng User RQ Truy vấn xếp hạng Rank Query SF Tệp ký số Signature File SFID Chỉ mục tệp ký số Signature File Index SGML Ngôn ngữ đánh dấu chung chuẩn Standard Generalized Markup Language UML Ngơn ngữ mơ hình hóa thống Unified Modeling Language URL Bộ định vị tài nguyên thống Uniform Resource Locator URN Tên tài nguyên thống Uniform Resource Name ix DANH MỤC HÌNH VẼ Trang Hình 1.1 Máy tính thư viện số 10 Hình 1.2 Một kịch truyền dịng 27 Hình 1.3 Một SS luận án 31 Hình 1.4 Một đối tượng số 32 Hình 3.1 Đường cong P-R hạng bảng 3.2 84 Hình 3.2 Lựa chọn dùng min-heap r mục 98 Hình 4.1 Cấu trúc liệu biểu diễn IF văn bảng 2.2 106 Hình 4.2 Trộn chỗ 116 Hình 4.3 Thêm phần hốn vị bloc 119 Hình 4.4 Đảo bên nhớ 125 Hình 4.5 Dùng bAt bW t để cực tiểu độ dài trung bình xấu 125 Hình 4.6 Đảo trộn chùm 130 Hình 4.7 Cấu trúc bloc 136 i LỜI CAM ĐOAN Tôi xin cam đoan kết nghiên cứu trình bày luận án khơng có chép hay lấy từ nghiên cứu người khác cách bất hợp pháp Tơi xin chịu hồn tồn trách nhiệm kết nghiên cứu đưa luận án Đỗ Quang Vinh MỞ ĐẦU NHIỆM VỤ, ĐỐI TƯỢNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU ♦ Tính cấp thiết, ý nghĩa lý thuyết thực tiễn đề tài Ngày nay, World Wide Web xâm nhập vào sống hàng ngày, đồng thời, qua số năm giao diện cho Web tiến triển từ duyệt đến tìm kiếm Hàng triệu người giới thực tìm kiếm Web hàng ngày, cơng nghệ tìm kiếm sở liệu tài liệu lớn thay đổi từ năm 1980 Sự nhận thức chung Net tạo cách mạng cơng nghệ tìm kiếm thơng tin thư viện số (DL), diễn theo cách mạng phần cứng máy tính cá nhân Có nhiều CSDL phân tán khắp giới, cộng đồng nhỏ bảo trì CSDL tài liệu riêng Chỉ mục có giá trị CSDL, dùng ngữ nghĩa mở rộng nhằm trợ giúp tìm kiếm điều hướng cho hệ thống thuật ngữ chuyên ngành cộng đồng Sự chuyển qua khái niệm mục ngữ nghĩa tạo khả cho thành viên cộng đồng dễ dàng tìm kiếm hệ thống thuật ngữ cộng đồng khác Hiện nay, DL hướng nghiên cứu cơng nghệ thơng tin giới DL trở nên quan trọng mặt quốc gia quốc tế bùng nổ thông tin theo hàm mũ Web ♦ Giới thiệu kết nghiên cứu có DL, tồn mà tác giả phát cần tiếp tục nghiên cứu Trong năm gần đây, cách tìm kiếm thu thập thông tin thay đổi Không cần khỏi nhà để tìm kiếm truy cập lượng thơng tin lớn sẵn có trực tuyến thơng qua cổng số, cung cấp nhiều nhà cung cấp thông tin, DL, nhà xuất điện tử, doanh nghiệp, tổ chức, cá nhân Sự truy cập thơng tin khơng cịn bị hạn chế tới sách hay tạp chí sẵn có thư viện gần nhất, mà truy cập từ lượng lớn CSDL tài liệu phân tán tồn cầu Thơng tin khơng văn liệu số mà cịn hình ảnh, âm thanh/tiếng nói, liệu địa lý, video, audio, multimedia Điều làm tăng tính đa 139 KẾT LUẬN Luận án trình bày nghiên cứu phương pháp mục tìm kiếm thơng tin văn ứng dụng thư viện số Các kết luận rút từ luận án bao gồm: Luận án đề xuất mơ hình hình thức cho thư viện số dựa vào đại số đại: Một thư viện số bốn (R, MC, DV, XH) , đó: R kho; MC mục lục siêu liệu; DV tập dịch vụ chứa tối thiểu dịch vụ mục, tìm kiếm duyệt; XH cộng đồng NSD thư viện số Luận án phân tích chi tiết phương pháp mục tài liệu văn thư viện số: phương pháp mục tệp đảo IFID phương pháp mục ký số SFID, so sánh hai phương pháp mục, rút quy luật mục tài liệu thư viện số là: Ở hầu hết ứng dụng, IF thực tốt SF phạm vi hai kích thước mục tốc độ truy vấn IF nén chắn phương pháp mục hữu ích CSDL lớn tài liệu văn có độ dài thay đổi Luận án phân tích mơ hình nén tồn cục mơ hình nén cục hyperbol, từ đó, đề xuất mơ hình nén cục Bernoulli nén nội suy IFID dựa vào phương pháp xác suất thống kê toán học, phương pháp mã hóa, phương pháp nén liệu Luận án phân tích chi tiết mơ hình tìm kiếm thơng tin kinh điển dựa vào truy vấn Boole BQ sử dụng hầu hết hệ thư viện, nhược điểm truy vấn BQ Từ đó, luận án đề xuất mơ hình tìm kiếm văn dựa vào truy vấn xếp hạng RQ có đánh giá hiệu suất dựa vào độ xác P độ phục hồi R Luận án phân tích chi tiết giải thuật kinh điển: giải thuật đảo danh sách móc nối giải thuật đảo dựa vào xếp, hạn chế chúng 140 thích hợp với CSDL tài liệu văn cỡ nhỏ vừa Từ đó, luận án đề xuất hai giải thuật trộn nhiều đường chỗ dựa vào xếp giải thuật phân chia dựa vào văn phù hợp với CSDL tài liệu văn cỡ lớn thư viện số Các định hướng nghiên cứu Tác giả dự định nghiên cứu tương lai: Nghiên cứu phương pháp mục tìm kiếm ảnh; Nghiên cứu phương pháp mục tìm kiếm video; Nghiên cứu tốn tóm tắt trích rút tài liệu văn thư viện số 141 TÀI LIỆU THAM KHẢO TÀI LIỆU TIẾNG VIỆT Aho A.V., Ullman J.D (2001), Cơ sở Khoa học Máy tính - ấn C, tập, Trần Đức Quang biên dịch, Nxb Thống kê, TP Hồ Chí Minh Nguyễn Kim Anh (2004), Nguyên lý hệ sở liệu, Nxb Đại học quốc gia Hà Nội Birkhoff G., MacLane S (1979), Tổng quan Đại số đại, tập, Ngô Thúc Lanh biên dịch, Nhà xuất Đại học THCN, Hà Nội Cormen T.H., Leiserson C.E., Rivest R.L (2002), Thuật toán, Nguyễn Tiến nnk biên dịch, Nxb Thống kê, Hà Nội Trần Tuấn Điệp, Lý Hoàng Tú (1999), Lý thuyết xác suất thống kê toán học, xuất lần 3, Nxb Giáo dục, Hà Nội Folk M.J., Zoellick B., Riccardi G (2003), Cấu trúc File, xuất lần 3, Nguyễn Thành Phú biên dịch, Nxb Thống kê, TP Hồ Chí Minh Đỗ Đức Giáo (2000), Toán rời rạc, xuất lần 2, Nxb Đại học quốc gia Hà Nội Monier J.M (2000), Đại số, Mai Văn Được, Ngô Ánh Tuyết biên dịch, Nxb Giáo dục, Hà Nội Rosen K.H (1998), Toán học rời rạc - ứng dụng tin học, Phạm Văn Thiều, Đặng Hữu Thịnh biên dịch, Nxb Khoa học kỹ thuật, Hà Nội 10 Sedgewick R (1994), Cẩm nang thuật toán, tập, xuất lần 2, Trần Đan Thư nnk biên dịch, Nxb Khoa học kỹ thuật, TP Hồ Chí Minh 11 Vũ Văn Sơn (2005), “Nhập môn thư viện điện tử”, http://www.thuvien.net 12 Vũ Đức Thi (1997), Cơ sở liệu - Kiến thức thực hành, Nxb Thống kê, Hà Nội 13 Vũ Đức Thi (1999), Thuật toán tin học, Nxb Khoa học kỹ thuật, Hà Nội 14 Hồ Thuần, Hồ Cẩm Hà (2004), Các hệ sở liệu – Lí thuyết & thực hành, tập, Nxb Giáo dục, Hà Nội 142 15 Nguyễn Duy Tiến, Vũ Việt Yên (2000), Lý thuyết xác suất, Nxb Giáo dục, Hà Nội 16 Nguyễn Duy Tiến, Đặng Hùng Thắng (2000), Các mơ hình xác suất ứng dụng, tập, Nxb Đại học quốc gia Hà Nội 17 Đỗ Trung Tuấn (2004), Cơ sở liệu, Nxb Đại học quốc gia Hà Nội 18 Ullman J.D (1999), Nguyên lý hệ sở liệu sở trí thức, tập, Trần Đức Quang biên dịch, Nxb Thống kê, TP Hồ Chí Minh 19 Nguyễn Thuý Vân (2001), Lý thuyết mã, xuất lần 2, Nxb Khoa học kỹ thuật, Hà Nội 20 Đỗ Quang Vinh, Quách Tuấn Ngọc (2001), “Một mơ hình liệu hướng đối tượng thời gian tài liệu cấu trúc”, Tạp chí Bưu viễn thơng & Cơng nghệ thơng tin, 160(6), tr 29-32 21 Đỗ Quang Vinh (2005), “Mơ hình nén mục tệp đảo thư viện số”, Kỷ yếu Hội thảo Quốc gia số vấn đề chọn lọc công nghệ thông tin truyền thông lần thứ VIII, Hải Phòng, tr 666-674 22 Đỗ Quang Vinh (2005), “Phương pháp mục tài liệu thư viện số”, Tạp chí Bưu viễn thơng & Cơng nghệ thơng tin, 265, tr 40-47 23 Đỗ Quang Vinh (2005), “Tóm tắt trích rút tài liệu văn thư viện số”, Tạp chí Khoa học Cơng nghệ - Viện Khoa học Công nghệ Việt Nam, tập 43, số 4, tr.6-14 24 Đỗ Quang Vinh (2006), “Một phương pháp tìm kiếm thơng tin dựa vào mã BCH thư viện số”, Tạp chí Khoa học Cơng nghệ - Viện Khoa học Công nghệ Việt Nam, tập 44, số 1, tr.11-18 25 Đỗ Quang Vinh (2006), “Truy vấn xếp hạng tài liệu văn thư viện số”, Kỷ yếu Hội thảo Quốc gia số vấn đề chọn lọc công nghệ thông tin truyền thông lần thứ IX, Đà Lạt TÀI LIỆU TIẾNG ANH 26 Abiteboul S., Quass D., McHugh J., Widom J., Wiener J.L (1997), “The Lorel Query Language for Semistructured Data”, Digital Libraries, 1(1), pp 5-19 143 27 Adam N.R., Bhargava B.K., Halem M., Yesha Y (1996), Digital Libraries, Springer, Berlin 28 Agichtein E., Ipeirotis P., Gravano L (2003), “Modeling Query-Based Access to Text Databases”, International Workshop on the Web and Databases, San Diego, California 29 Aho A.V., Hopcroft J.E., Ullman J.D (1983), Data Structures and Algorithms, Addision-Wesley, Massachusetts 30 Arasu A., Cho V., Garcia-Molina H., Paepcke A., Raghavan S (2001), “Searching the Web”, ACM Transactions on Internet Technology, 1(1), 2–43 31 Arms W.Y (2003), Digital Libraries, MIT Press, Cambridge 32 Barber D (1996), “Building a Digital Library”, Library Technology Reports, 32(5), pp 573-738 33 Barber D (1998), “Tools for Managing the Digital Library”, Library Technology Reports, 34(4), pp 439-552 34 Barnes S.J (2004), Becoming a Digital Library, Marcel Dekker, New York 35 Barnum C., Henderson E., Hood A., Jordan R (2004), “Index Versus Full-text Search A Usability Study of User Preference and Performance”, Technical Communication, 51(2), pp 185-206 36 Barth A., Breu M., Endres A., de Kemp A (1998), Digital Libraries in Computer Science, Springer, Berlin 37 Blok H.E., Windhouwer M., van Zwol R., Petkovic M., P.M.G Apers, M.L Kersten, W Jonker (2001), “Flexible and Scalable Digital Library Search”, Proceedings of the 27th VLDB Conference, Roma, pp 705-706 38 Brin S., Page L (1998), “The Anatomy of a Large-Scale Hypertextual Web Search Engine”, Proceedings of the 7th International WWW Conference 39 Brown E.W., Callan J.P., Croft W.B (1994), “Fast Incremental Indexing for Full-Text Information Retrieval”, Proceedings of the 20th VLDB Conference, Chile, pp 192-202 144 40 Brown E.W (1996), Execution Performance Issues in Full-Text Information Retrieval, Dissertation Doctor, University of Massachusetts at Amherst 41 Carterette B., Can F (2003), “Comparing Inverted Files and Signature Files for Searching a Large Lexicon”, Technical Report, Miami University 42 Chang K.C., Garcia-Molina H., Paepcke A., (1996), “Boolean Query Mapping Across Heterogeneous Information Sources”, IEEE Transactions on Knowledge & Data Engineering, 8(4) 43 Chen H., Houston A.L (1999), “Digital Libraries: social issues and technological advances”, Advanced in Computers, 48, pp 257-314 44 Chowdhary G.G (1999), “Digital Library Research: major issues and trends”, Journal of Documenttation, 55(4), pp 409-448 45 Chowdhury G.G (1999), Introduction to Modern Information Retrieval, Library Assocciation Publishing, London 46 Clarke C.L.A., Cormack G.V., Burkovski F.J (1994), “Fast Inverted Indexes with On-line Update”, Technical Report CS-94-40, University of Waterloo 47 Colaric S.M (2001), Search Engines on the WEB, Dissertation Doctor, The Pennsylvania State University 48 Convey J (1992), Online Information Retrieval, 4th Edition, Library Association Publishing, London 49 Cooper M.D (1996), Design of Library Automation Systems, John Wiley, New York 50 Crestani F., Lalmas M., Van Rijsbergen C.J (1998), Information Retrieval, Kluwer Academic Publishers, Boston 51 Date C.J (1995), An Introduction to Database Systems, 6th Edition, AddisonWesley, Massachusetts 52 De Vries A.P (2001), “Challenging Ubiquitous Inverted Files”, Technical Report, University of Twente 53 Digital Libraries '94, The 1st Annual Conference on the Theory and Practice of Digital Libraries, Texas 145 54 Digital Libraries '95, The 2nd Annual Conference on the Theory and Practice of Digital Libraries, Texas 55 Dushay N., French J., Lagoze C., “Using Query Mediators for Distributed Searching in Federated Digital Libraries”, Technical Report, Cornell University 56 Ellis D (1996), Progress Problems in Information Retrieval, 2nd Edition, Library Assocciation Publishing, London 57 Fox E.A., Lee W.C (1991), “FAST-INV: a Fast Algorithm for Building Inverted Files”, Technical Report TR 91-10, Virginia Polytechnic Institue and State University 58 Fox E.A (1993), Source Book on Digital Libraries, Virginia Polytechnic Institue and State University 59 Fox E.A (2000), Advanced Digital Libraries, Virginia Polytechnic Institue and State University 60 France R.K., Fox E.A (1993), “Indexing Large Collections of small text records for ranked retrieval”, Technical Report, Virginia Polytechnic Institue and State University 61 French J.C., Viles C.L (1996), “Ensuring Retrieval Effectiveness in Distributed Digital Libraries”, Journal of Visual Communication and Image Representation, 7(1), pp 61–73 62 Fuhr N., Govert N (2002), “Index Compression vs Retrieval Time of Inverted Files for XML Documents”, CIKM’02, Virginia 63 Gelbukh A., Sidorov G., Guzmon-Arenas A (2001), “Document Indexing With a Concept Hierarchy”, 1stInternational Workshop on New Developments in Digital Libraries 64 Glover E.J., Flake G.W., Lawrence S., Birmingham W.P., Kruger A.,Lee Giles C., Pennock D.M (2001), “Improving Category Specific Web Search by Learning Query Modifications”, Symposium on Applications and the Internet, San Diego, California, pp 23-31 146 65 Goncalves P.F., Salgado A.C., Meira S.L (1997), “Digital Neighbourhoods: Parttioning the Web for Information Indexing and Searching”, Advances Information Systems Engineering 9th International Conference, Barcelona, pp 289-302 66 Gonnet G.H., Baeza-Yates R.A., Snider T (1991), Lexicographical Indices of Text- Inverted Indexing vs PAT Trees, Information Retrieval: Data Structures and Algorithms, Prentice-Hall, New Jersey 67 Gravano L., Garcia-Molina H., Tomasic A (1994), “Effectiveness of GlOSS for the Text-Source Discovery Problem”, Technical Report, Stanford University 68 Gravano L., Garcia-Molina H (1995), “Generalizing GlOSS to Vector-Space Database”, Proceedings of the 21st VLDB Conference, Zuyrich, pp 78-89 69 Gravano L., Chang K., Garcia-Molina H., Paepcke A (1996), “STARTS: Stanford Protocol Proposal for Internet Retrieval and Search”, Technical Report, Stanford University 70 Gravano L (1997), Querying Multiple Document Collections Across the Internet, Dissertation Doctor, Stanford University 71 Gravano L., Tomasic A., Garcia-Molina H (1999), “GlOSS Text-Source Discovery over the Internet”, ACM Transactions on Database Systems, 24(2), pp 229–264 72 Green N., Ipeirotis P.G., Gravano L (2001), “SDLIP + STARTS = SDARTS: A Protocol and Toolkit for Metasearching”, JCDL’01, Virginia 73 Grobjohann K., Haber C., Weber R (1997), “Medoc Searching Heterogenous Bibliographic and Text Databases”, Proceedings of the 21st Annual Conference of University of Potsdam, pp 365-373 74 Harter S.P (1986), Online Information Retrieval, Academic Press, San Diego 75 Harman D.K., Candela G (1990), “Retrieving Records from a Gigabyte of Text using Statistical Ranking”, Information Sciences, 41(8), pp 109-131 76 Heinz S., Zobel J., “Efficient Single-Pass Index Construction for Text Database”, Technical Report, RMIT University, Melbourne, Australia 147 77 Journal of Network and Computer Applications (1997), Special Issue of JNCA on Digital Libraries, 20(1-2) 78 Kahveci T., Singh A.K (2001), “Efficient Index Structures for String Databases”, Proceedings of the 27th VLDB Conference, Roma, pp 351-360 79 Kaufmann H., Schek H.J (1995), “Text Search using Database Systems Revisited”, Advances in Databases 13th British National Conference on Databases BNCOD13 Proceedings, Manchester, pp 204-225 80 Kaushik R., Krishnamurthy R., Naughton J.F., Ramakrishnan R (2004), “On the Integration of Structure Indexes and Inverted Lists”, Proceedings of the 20th International Conference on Data Engineering 81 Knuth D.E (1997), The Art of Computer Programming, volumes, 3rd Edition, Addision-Wesley, Massachusetts 82 Korfhage R.A (1997), Information Storage and Retrieval, John Wiley, New York 83 Kowalski G (1997), Information Retrieval Systems, Kluwer Academic Publishers, Boston 84 Lai C.H., Chen T.F (2001), “Compressing Inverted Files in Scalable Information Systems by Binary Decision Diagram Encoding”, Technical Report, National Chung Cheng University, Taiwan 85 Lancaster F.W (1998), Indexing and Abstracting in Theory and Practice, 2nd Edition, Library Assocciation Publishing, London 86 Large A., Tedd L.A., Hartley R.J (2001), Information Seeking in the Online Age, K.G Saur Verlag, Munchen 87 Lawrence S., Lee Giles C (1998), “Context and Page Analysis for Improved Web Search”, IEEE Internet Computing, 7/8, http://computer.org/internet/ 88 Lawrence S., Lee Giles C (1998), “Searching the World Wide Web”, Science, 280(3), pp 98-100 89 Lawrence S., Lee Giles C (1999), “Searching the Web: General and Scientific Information Access”, IEEE Communications, 37(1), pp 116-122 148 90 Lawrence S., Lee Giles C (1999), “Text and Image Metasearch on the Web”, International Conference on Parallel and Distributed Processing Techniques and Applications, pp 829-835 91 Lawrence S., Bollacker K., Lee Giles C (1999), “Indexing and Retrieval of Scientific Literature”, 8th International Conference on Information and Knowledge Management, Kansas, pp 139-146 92 Lawrence S., Bollacker K., Lee Giles C (1999), “Digital Libraries and Autonomous Citation Indexing”, IEEE Computer, 32(6), pp 67-71 93 Lawrence S (2000), “Context in Web Search”, IEEE Data Engineering Bulletin, 23(3), pp 25-32 94 Lesk M (1997), Practical Digital Libraries, Morgan Kaufmann, San Francisco 95 Lester N., Zobel J., Williams H.E (2004), “In-Place versus Re-Build versus ReMerge: Index Maintenance Strategies for Text Retrieval Systems”, the 27th Australasian Computer Science Conference, Dunedin, New Zealand 96 Liu R., Li Y., Zhang X (1998), “Searching Information on WWW for the Intranet”, Information Systems in the WWW Enviroment, pp 209-231 97 Lu G (1999), Multimedia Database Management Systems, Artech House, Boston 98 Lu Z (1999), Scalable Distributed Architectures for Information Retrieval, Dissertation Doctor, University of Massachusetts 99 Luk R.W.P (2002), “Different Retrieval Models and Hybrid Term Indexing”, Proceedings of the 3rd NTCIR Workshop, Hong Kong Polytechnic University 100 Marcum D.B (2001), Development of Digital Libraries, Greenwood Press, Connecticut 101 Mayr T., Bonnet P., Gehrke J., Seshadri P., “Query Processing with Heterogeneous Resources”, Technical Report, Cornell University 102 Meadow C.T (1992), Text Information Retrieval Systems, Academic Press, San Diego 149 103 Mendelhall W., Sincich T (1989), Statistics for the Engineering and Computer Science, 2nd Edition, Collier Macmillan, London 104 Mendelzon A.O., Mihaila G.A., Milo T (1996), “Querying the Web”, the 1996 Symposium on Parallel and Distributed Information Systems 105 Melnik S., Raghavan S., Yang B., Garcia-Molina H (2001), “Building a Distributed Full-Text Index for the Web”, ACM Transactions on Information Systems, 19(3), pp 217–241 106 Moffat A., Zobel J (1992), “Compression and Fast Indexing for MutiGigabyte Text Databases”, the 1st Australian Workshop on Information Retrieval 107 Moffat A., Zobel J., Sacks-Davis R (1994), “Memory Efficient Ranking”, Information Processing & Management, 30(6), pp 733-744 108 Moffat A., Bell T.A.H (1995), “In situ Generation of Compressed Inverted Files”, Information Sciences, 46(7), pp 537-550 109 Moffat A., Zobel J (1996), “Self-Indexing Inverted Files for Fast Text Retrieval”, ACM Transactions on Information Systems, 14(4), pp 349–379 110 Moffat A., Zobel J., “Information Retrieval Systems for Large Document Collections”, Technical Report, The University of Melbourne 111 Moffat A., Zobel J., Sharman N (1997), “Text Compression for Dynamic Document Databases”, IEEE Transactions on Knowledge and Data Engineering, 9(2), pp 302-313 112 Oard D., Peters C., Ruiz M., Frederking R., Klavans J., Sheridan P (1999), “Multilingual Information Discovery and Access (MIDAS)”, A Joint ACM DL’99/ ACM SIGIR’99 Workshop 113 Oddy R.N., Robertson S.E., Van Rijsbergen C.J., Williams P.W (1981), Information Retrieval Research, Butterworths, London 114 Oishi H., Nishikata A., Shimizu Y (1999), “Devolopment of Automatic Keyword Searching from Database on a Network”, Systems and Computers in Japan, 30(10), pp 90-98 150 115 Paepcke A (1996), “Digital Libraries: Searching is Not Enough”, D-Lib Magazine, 5, http://www.dlib.org/dlib/may96/stanford/05paepcke.html 116 Page L., Brin S., Motwani R., Winograd T (1998), “The PageRank Citation Ranking - Bringing Order to the Web”, Technical Report, Stanford University 117 Persin M., Zobel J., Sacks-Davis R (1996), “Filtered Document Retrieval with Frequency-Sorted Indexes”, the ACM SIGIR Conference and the International Conference on Applications of Databases 118 Powell A.L., French J.C., Callan J., Connel M., Viles C.L (2000), “The Impact of Database Selection on Distributed Searching”, the 23rd ACM-SIGIR International Conference on Research and Development in Information Retrieval, Athens 119 Powell J., Fox E.A (1998), “Multilingual Federated Searching Across Heterogeneous Collections”, D-Lib Magazine, 9, http://www.dlib.org/dlib/september98/powell/09powell.html 120 Qiu J., Shao F., Zatsman M., Shanmugasundaram J (2003), “Index Structures for Querying the Deep Web”, International Workshop on the Web and Databases, San Diego, California 121 Reddy R., Wladawsky-Berger I (2001), Digital Libraries: Universal Access to Human Knowledge, Report PITAC http://www.trd.gov/pubs/pitac 122 Robertson S.E., Beaulieu M (1997), “Research and Evaluation in Information Retrieval”, Journal of Documentation, 53(1), pp 51-57 123 Ross S.M (2002), Probability Models for Computer Science, Harcourt Academic Press, San Diego 124 Salomon D (2000), Data Compression, 2nd Edition, Springer, Berlin 125 Salton G., Schneider H.J (1982), Research and Development in Information Retrieval, Spinger, Berlin 126 Salton G., Fox E.A., Wu H (1983), “Extended Boolean information Retrieval”, Communication of the ACM, 26(12), pp 1022-1036 151 127 Salton G., Buckley C., Allan J (1992), “Automatic structuring of text files”, Electronic Publishing, 5(1), pp 1–17 128 Salton G., Buckley C., Allan J (1993), “Approaches to Passage Retrieval in Full Text Information Systems”, ACM-SIGIR’93, Pittsburgh 129 Schatz B.R., Chen H (1996), “Buiding Large-Scale Digital Libraries”, IEEE Computer, 29(5), pp 22-27 130 Schatz B.R (1997), “Information Retrieval in Digital Libraries”, Science, 275, pp 327-334 131 Shneiderman B., Byrd D., Croft B.C (1997), “Clarifying Search: A UserInterface Framework for Text Searches”, D-Lib Magazine, 7, http://www.dlib.org/dlib/january97/retrieval/01shneiderman.html 132 Smith A.G (2000), “Search Features of Digital Libraries”, Information Research, 5(3) 133 Spink A., Wilson T., Ellis D., Ford N (1998), “Modeling Users’ Successive Searches in Digital Enviroments”, D-Lib Magazine, 4, http://www.dlib.org/dlib/april98/04spink.html 134 Subramanian V.S (1998), Principles of Multimedia Database Systems, Morgan Kaufmann, San Francisco 135 Sun Microsystems (2002), Digital Library Technology Trends 136 Sun Microsystems (2003), The Digital Library Toolkit, 3rd Edition 137 Suleman H (2002), Open Digital Libraries, Dissertation Doctor, Virginia Polytechnic Institute 138 Tomasic A.S Garcia-Molina H (1992), “Performance of Inverted Indices in Distributed Text Document Retrieval Systems”, Technical Report STAN-CS92-1434, Stanford University 139 Tomasic A.S., Garcia-Molina H (1993), “Query Processing and Inverted Indices in Shared-Nothing Text Document Information Retrieval Systems”, VLDB Joumal, 2(3), pp 243-275 152 140 Tomasic A.S., Garcia-Molina H., Shoens K (1994), “Icremental Update of Inverted List for Text Document Retrieval”, Proceedings of the 1994 ACM SIGMOD Internatiomal Conference on Management of Data, pp 289-300 141 Tomasic A.S (1994), Distributed Queries and Incremental Updates in Information Retrieval Systems, Dissertation Doctor, Princeton University 142 University of Library and Information Science (1995), Proceedings of International Symposium on Digital Libraries, Ibaraki 143 University of Library and Information Science (1997), Proceedings of the International Symposium on Research, Development and Practice in Digital Libraries, Ibaraki 144 Van der Lubbe J.C.A (1997), Information Theory, Cambridge University Press 145 Van Rijsbergen C.J (1979), Information Retrieval, 2nd Edition, Butterworths, London 146 Viles C.L (1996), Maintaining Retrieval Effectiveness in Distributed, Dynamic Information Retrieval Systems, Dissertation Doctor, University of Virginia 147 Von zur Gathen J., Gerhard J (1999), Modern Computer Algebra, Cambridge University Press 148 Warnick W.L., Lederman A., Scott R.L., Spence K.J., Johnson L.A., Aleen V.S (2001), “Searching the Deep Web”, D-Lib Magazine, 7(1), http://www.dlib.org/dlib/january01/warnick/01warnick.html 149 Weigel F., Meuss H., Schulz K.U., Bry F (2004), “Content and Structure in Indexing and Ranking XML”, 7th International Workshop on the Web and Databases, Paris 150 Wester M.J (2000), Computer Algebra Sytems, John Wiley, New York 151 Wiederhold G (1995), “Digital Libraries, Value and Productivity”, Communication of the ACM, 38(5), pp 85-96 153 152 Wiederhold G (2001), Database Design, 2nd Edition, McGraw-Hill, New York 153 Wilkinson R (1998), Document Computing, Kluwer Academic Publishers, Boston 154 Witten I.H., Bainbridge D (2003), How to Build a Digital Library, Morgan Kaufmann, San Francisco 155 Wong W.Y.P, Lee D.L (1992), “Implementations of Partial Document Ranking using Inverted Files”, Technical Report, Ohio State University 156 Wu Y.H (2001), The Analysis, Indexing, and Retrieval of Web Data, Dissertation Doctor, National Tsing Hua University 157 Xi W., Sornil O., Luo M., Fox E.A (2001), “Hybrid Partition Inverted Files for Large-Scale Digital Libraries”, Proceedings of International Conference on Asian Digital Libraries, Bangalore 158 Xu J., Callan J (1998), “Effective Retrieval with Distributed Collections”, SIGIR’98, Melbourne 159 Yu C.T., Meng W (1998), Principles of Database Query Processing for Advanced Applications, Morgan Kaufmann, San Francisco 160 Ziviani N., Muora E.S., Navarro G., Baeza-Yates R (2000), “Compression: a Key for Next-Generation Text Retrieval Systems”, IEEE Computer, 33(11), pp.37-44 161 Ziviani N., Muora E.S (2003), “Adding Compression to Next-Generation Text Retrieval Sysetms”, Advances in Computers, 57, pp.171-204 162 Zobel J., Moffat A., Sacks-Davis R (1993), “Searching Large Lexicons for Partially Specified Terms using Compressed Inverted Files”, Proceedings of the 19th VLDB Conference, Dublin, pp 290-301 163 Zobel J., Moffat A., Ramamohanarao K (1998), “Inverted Files versus Signature Files for Text Indexing”, ACM Transactions on Database Systems, 23(4), pp 453-490 ... IFID; - Tìm kiếm thơng tin văn ♦ Đối tượng nghiên cứu: Thư viện số (DL) ♦ Các phương pháp nghiên cứu - Hệ sở liệu Multimedia; - Các phương pháp mục; - Các phương pháp mã hoá; - Các phương pháp nén... học v.v sử dụng hệ phần mềm CDS/ISIS UNESCO cung cấp ♦ Nhiệm vụ luận án: Nghiên cứu phương pháp số hoá tìm kiếm thơng tin văn ứng dụng thư viện số, bao gồm: - Chỉ số/ mục tài liệu văn bản; - Nén... DỰNG THƯ VIỆN SỐ Lý xây dựng thư viện số tin tưởng DL phân phát thông tin tốt thư viện truyền thống Thư viện truyền thống phần xã hội, khơng hồn thiện LỢI ÍCH CỦA THƯ VIỆN SỐ DL mang thư viện