1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm kiếm thông tin văn bản trong thư viện số

68 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Cấu trúc

  • MỤC LỤC

  • LỜI CẢM ƠN

  • DANH MỤC CHỮ VIẾT TẮT

  • DANH MỤC BẢNG

  • DANH MỤC HÌNH VẼ

  • MỞ ĐẦU

  • Chương 1KHÁI QUÁT VỀ THƯ VIỆN SỐ VÀ THÔNG TIN VĂN BẢNTRONG THƯ VIỆN SỐ

  • Chương 2PHƯƠNG PHÁP TÌM KIẾM THÔNG TIN VĂN BẢNTRONG THƯ VIỆN SỐ

  • Chương 3THỬ NGHIỆM TÌM KIẾM VÀ ĐÁNH GIÁ HIỆU SUẤTTÌM KIẾM THÔNG TIN VĂN BẢN TRONG THƯ VIỆN SỐ

  • KẾT LUẬN

  • TÀI LIỆU THAM KHẢO

  • PHỤ LỤC KHÓA LUẬN

Nội dung

1 Trờng Đại học Văn hoá H Nội Khoa th viƯn - th«ng tin - TìM KIếM THÔNG TIN VĂN BảN TRONG THƯ VIệN Số Khoá luận tốt nghiệp Giảng viên hớng dẫn : TS Đỗ QUANG VINH Sinh viên thực : NGUYễN THị THANH HảI Lớp : th− viÖn 41B Hμ Néi - 2013 MỤC LỤC MỞ ĐẦU 1  Chương 1: KHÁI QUÁT VỀ THƯ VIỆN SỐ VÀ THÔNG TIN VĂN BẢN TRONG THƯ VIỆN SỐ 10  1.1 Khái niệm, đặc trưng kiến trúc thư viện số 10  1.1.1 Khái niệm thư viện số 10  1.1.2 Đặc trưng thư viện số 13  1.1.3 Kiến trúc thư viện số 16  1.2 Thông tin văn thư viện số 22  Chương 2: PHƯƠNG PHÁP TÌM KIẾM THƠNG TIN VĂN BẢN 24  TRONG THƯ VIỆN SỐ 24  2.1 Mô hình tìm kiếm thơng tin - IR 24  2.2 Truy vấn Boolean – BQ .28  2.2.1 Truy vấn BQ hội 29  2.2.2 Truy vấn BQ không hội 31  2.3 Truy vấn xếp hạng - RQ .34  2.3.1 So khớp tọa độ 36  2.3.2 Tích độ tượng tự 36  2.3.3 Mơ hình khơng gian vector .38  Chương 3: THỬ NGHIỆM TÌM KIẾM VÀ ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM THƠNG TIN VĂN BẢN TRONG THƯ VIỆN SỐ 45  3.1 Thử nghiệm tìm kiếm thông tin văn số thư viện số giới Việt Nam 45  3.2 Đánh giá hiệu suất tìm kiếm thơng tin 52  3.3 Đánh giá phương pháp tìm kiếm thơng tin văn thư viện số 55  3.3.1 Ưu điểm 56  3.1.2 Nhược điểm .58  KẾT LUẬN 61  TÀI LIỆU THAM KHẢO 62  PHỤ LỤC  LỜI CẢM ƠN Tơi xin bày tỏ lịng kính trọng biết ơn sâu sắc tới thầy Đỗ Quang Vinh, người tận tình hướng dẫn, giúp đỡ, động viên tơi suốt thời gian thực khóa luận Tơi xin gửi lời cảm ơn chân thành tới thầy cô Khoa Thư viện – thông tin Trường Đại học Văn hóa Hà Nội truyền đạt cho tơi kiến thức tảng ngành thư viện tạo điều kiện thuận lợi để tơi hồn thành khóa luận tốt nghiệp Mặc dù có nhiều cố gắng với hướng dẫn tận tâm thầy giáo hướng dẫn, song hạn chế thời gian trình độ thân, khóa luận khó tránh khỏi sai sót Rất mong nhận ý kiến đóng góp chân thành thầy bạn để khóa luận tốt nghiệp tơi hoàn thiện Xin chân thành cảm ơn! Hà Nội, ngày 03 tháng 06 năm 2013 Sinh viên Nguyễn Thị Thanh Hải DANH MỤC CHỮ VIẾT TẮT Chữ viết tắt BQ Nghĩa tiếng việt Nghĩa tiếng anh Truy vấn Boolean Boolean Query Cơ sở liệu Database DL Thư viện số Digital Library IR Tìm kiếm thơng tin Information Retrieval RQ Truy vấn xếp hạng Rank Query HTML Ngôn ngữ đánh dấu siêu văn Hyper Text Markup Language HTTP Giao thức truyền siêu văn Hyper Text Transfer Protocol CSDL DANH MỤC BẢNG Bảng 2.1: Các vector tính tốn tích Bảng 2.1: Các vector tính tốn tích DANH MỤC HÌNH VẼ Hình 1.1: Kiến trúc thư viện số Hình 1.2: Các dịch vụ nội dung thư viện số Hình 2.1: Quy trình tìm kiếm thơng tin Hình 2.2: Giản đồ Venn tác động tốn tử AND Hình 2.3: Giản đồ Venn tác động tốn tử OR Hình 2.4: Giản đồ Venn tác động tốn tử NOT Hình 3.1: Kết tìm kiếm Boolean Thư viện số IEEE Hình 3.2: Kết tìm kiếm Boolean Thư viện Tạ Quang Bửu Hình 3.3: Kết tìm kiếm Boolean thư viện Đại Học Quốc gia Hà Nội Hình 3.4: Kết tìm kiếm Boolean thư viện Quốc gia Việt Nam Hình 3.5: Kết tìm kiếm Boolean thư viện Khoa học cơng nghệ Hình 3.6: Kết tìmkiếm Boolean thư viện Đại học Quốc gia Tp Hồ Chí Minh Hình 3.7: Kết tìm kiếm xếp hạng thư viện IEEE Hình 3.8: Đường cong P-R hạng bảng 3.1 MỞ ĐẦU Lý chọn đề tài Trong kỷ nguyên xã hội thông tin, kinh tế tri thức phát triển cách mạnh mẽ Mạng Internet phát triển rộng khắp tồn cầu khiến cho thơng tin gia tăng theo hàm mũ, với phong phú, đa dạng phức tạp loại hình thơng tin như: Văn bản, hình ảnh, âm thanh, video… Khi đó, thư viện số đời nhằm quản trị thông tin tri thức nhân loại Thư viện số lưu trữ lượng thông tin lớn với hệ thống sở liệu đa phương tiện tạo khả truy cập thông tin lúc nơi phạm vi toàn giới Thông tin văn dạng liệu đa phương tiện, chiếm đa số quan, tổ chức đặc biệt thư viện nói chung thư viện số nói riêng Ngày nay, với khối lượng thơng tin văn khổng lồ, việc tìm kiếm cách nhanh chóng, xác phù hợp với nhu cầu người sử dụng lại trở nên khó khăn Vì vậy, tìm kiếm thơng tin văn có vai trị quan trọng lĩnh vực hoạt động người Nó trở thành nhu cầu thiết yếu thiếu Với thông tin hữu ích lưu trữ, cập nhật thư viện số thúc đẩy hoạt động nghiên cứu - giáo dục kinh tế - trị - văn hóa… ngày phát triển Hơn nữa, thư viện số mơ hình thư viện khai thác thơng tin cách có hiệu vấn đề cần quan tâm nhà nghiên cứu hoạt động thư viện, công nghệ thông tin ngành khác Hầu hết người sử dụng thư viện khơng có kiến thức cụ thể lược đồ, cấu trúc truy vấn ngôn ngữ để tiếp cận thông tin lưu trữ sở liệu thư viện số Với mục đích giúp người sử dụng dễ dàng truy cập, tìm kiếm khai thác thơng tin cách có hiệu từ nguồn tài nguyên cập nhật lưu trữ thư viện số, chọn đề tài “Tìm kiếm thơng tin văn thư viện số” Tình hình nghiên cứu Liên quan đến thư viện số, có nhiều đề tài nghiên cứu góc độ khác như: “Xây dựng số công cụ hỗ trợ tra cứu tổng hợp thông tin thư viện số” – đề tài nghiên cứu khoa học Đỗ Phúc Nguyễn Minh Hiệp làm chủ nhiệm; “Digital Library” – luận văn tốt nghiệp nhóm sinh viên Trường Đại học nơng lâm thành phố Hồ Chí Minh… Về vấn đề tìm kiếm thơng tin văn có đề tài đề cập đến như: “Kỹ thuật tìm kiếm văn sở nội sở liệu đa phương tiện”…Tuy nhiên, đề tài chưa cụ thể vào việc tìm kiếm thơng tin văn thư viện số Có thể nói, “Tìm kiếm thơng tin văn thư viện số” đề tài nghiên cứu sinh viên khoa Thư viện – thông tin Trường Đại học Văn hóa Hà Nội hai phương pháp tìm kiếm thơng tin thư viện số có thực hành cụ thể giúp người sử dụng thư viện tìm kiếm thơng tin hiệu Đối tượng nghiên cứu - Phương pháp tìm kiếm thơng tin văn thư viện số Mục đích nghiên cứu - Đánh giá phương pháp tìm kiếm thơng tin văn thư viện số Phạm vi nghiên cứu - Tìm kiếm thông tin văn thư viện số Phương pháp nghiên cứu - Phương pháp tìm kiếm Boolean BQ - Phương pháp tìm kiếm xếp hạng RQ Cấu trúc khóa luận tốt nghiệp Ngồi phần Mở đầu, Kết luận, Tài liệu tham khảo, Phụ lục, nội dung khóa luận gồm chương: Chương 1: Khái quát thư viện số thông tin văn thư viện số Chương 2: Phương pháp tìm kiếm thông tin văn thư viện số Chương 3: Thử nghiệm tìm kiếm đánh giá hiệu suất tìm kiếm thơng tin văn số thư viện số giới Việt Nam 10 Chương KHÁI QUÁT VỀ THƯ VIỆN SỐ VÀ THÔNG TIN VĂN BẢN TRONG THƯ VIỆN SỐ 1.1 Khái niệm, đặc trưng kiến trúc thư viện số 1.1.1 Khái niệm thư viện số Cùng với phát triển ứng dụng rộng rãi mạng lưới truyền thông công nghệ thơng tin, nhiều thư viện số có phát triển mạnh mẽ giới Sự xuất thư viện số không tạo hội cho phát triển thư viện, mà đặt yêu cầu cao việc cải tổ thư viện truyền thống, nhằm đáp ứng tốt nhu cầu ngày cao người sử dụng Hiện nay, có nhiều định nghĩa khác thư viện số, nhiều định nghĩa công bố giới học giả toàn cầu thư viện, nhằm định nghĩa rõ ràng DL Dưới số định nghĩa tiêu biểu thư viện số Định nghĩa 1.1 (Arms W.Y.) [16]: Thư viện số kho thơng tin có tổ chức với dịch vụ liên kết, thơng tin lưu trữ dạng số truy cập qua mạng Ý định nghĩa thơng tin có tổ chức DL chứa loại kho thông tin khác dùng nhiều người sử dụng khác DL có quy mơ từ nhỏ đến lớn DL sử dụng loại thiết bị tính tốn loại phần mềm phù hợp Chủ đề thống thơng tin tổ chức máy tính có sẵn mạng với thủ tục lựa chọn tài liệu kho để tổ chức, làm cho sẵn có với người sử dụng lưu trữ Định nghĩa 1.2 (Chen H., Houston A.L.) [20]: Thư viện số thực thể liên quan tới tạo nguồn tin hoạt động thông tin qua mạng tồn cầu DL kho thơng tin có tổ chức Một DL biểu thị tập hợp máy chủ tự phân tán làm việc đồng thời nhằm trao cho người 54 Bảng 3.1 Độ phục hồi độ xác (a) Hạng (b) Hiệu suất tính tốn R P R P (%) (%) (%) (%) 10 10 10 100 50 53 10 20 100 50 20 50 30 60 30 30 60 50 40 50 57 42 40 57 60 46 40 40 50 44 70 80 50 50 10 11 40 40 40 36 90 100 47 45 12 50 42 TB 3- 53 13 60 46 TB 11- 61 14 15 70 70 50 47 16 80 50 17 80 47 18 19 80 90 44 47 20 90 45 21 22 23 90 100 100 43 45 43 24 25 100 100 42 40 R 55  Đường cong độ phục hồi độ xác Đường cong R-P hạng 150 100 R (%) 50 P (%) P R 200 P Do thi hieu suat tinh toan 150 100 50 P R R Hình 3.8: Đường cong P-R hạng bảng 3.1 3.3 Đánh giá phương pháp tìm kiếm thơng tin văn thư viện số Hiện có nhiều hệ thống tìm kiếm thơng tin (Information Retrieval system) tồn ứng dụng việc tìm kiếm thơng tin trợ giúp người Song, khả tìm kiếm thơng tin hệ thống lại không giống Do đó, việc đánh giá hệ thống tìm kiếm thơng tin nhu cầu thiếu nhằm xác định khả tìm kiếm hệ thống truy vấn thông tin, biết điểm mạnh, điểm yếu hệ thống IR mà từ ta chọn hệ thống IR tối ưu phục vụ cho nhu cầu tìm kiếm thơng tin hiệu 56  Các tiêu chuẩn đánh giá hệ thống tìm kiếm thông tin – IR Hiện nay, giới có ba tiêu chuẩn dùng để đánh giá hệ thống tìm kiếm thơng tin: Thứ nhất, tiêu chuẩn tính hiệu tức xác, tính đầy đủ kết trả so với mục đích tìm kiếm người sử dụng, giá trị đốn tình khác có nghĩa đưa vào câu truy vấn khác, tập tài liệu khác hệ thống tìm kết xác Thứ hai, tiêu chuẩn hiệu năng, gồm có tốc độ tìm kiếm thuật toán, khả lưu trữ, thời gian trả cho người sử dụng, thời gian lập mục, kích thước mục… Thứ ba, tiêu chuẩn khả sử dụng hệ thống tức nghiên cứu, học hỏi hệ thống tìm kiếm, người khơng biết tin học hay chuyên gia tin học sử dụng hệ thống 3.3.1 Ưu điểm  Truy vấn Boolean BQ Mơ hình tìm kiếm Boolean sử dụng phổ biến hệ thống tìm kiếm thơng tin tự độn, mơ hình có số ưu điểm sau: - Việc tìm kiếm phương pháp Boolean trở nên nhanh chóng đơn giản, dễ cài đặt sử dụng Giả sử cần tìm kiếm từ “Library” Hệ thống duyệt bảng mục index để trỏ đến số index tương ứng từ “Library” tồn hệ thống Việc tìm kiếm nhanh đơn giản trước ta xếp bảng mục theo vần chữ Bởi vì, theo mơ hình từ có nghĩa văn đánh số nội dung văn quản lý theo số index Mỗi văn đánh số theo quy tắc liệt kê từ có nghĩa văn với vị trị xuất văn Từ có nghĩa từ mang thơng tin văn lưu trữ, nhìn vào người ta biết chủ đề văn cần biểu diễn 57 - Với yêu cầu tin đơn giản, câu truy vấn ngắn gọn, người sử dụng dễ dàng chuyển u cầu tìm thành câu truy vấn để tiến hành tìm kiếm thơng tin - Câu hỏi tìm kiếm linh hoạt Người dùng sử dụng ký tự đặc biệt câu truy vấn mà không làm ảnh hưởng đến độ phức tạp phép tìm kiếm Ví dụ, người dùng muốn tìm kiếm từ “hoa” kết trả tài liệu có chứa từ “hoa”, “hoạt”, “hót”… từ “ho” Ngoài ra, tốn tử logic, từ cần tìm tổ chức thành câu hỏi cách linh hoạt Ví dụ: Cần tìm từ [Việt Nam, Đại Việt, Đại Nam], dấu “[]” thay cho nghĩa từ “hoặc” Đây thực chất cách thể linh hoạt tốn tử OR mơ hình tím kiếm Boolean thay phải viết là: Tìm tài liệu chứa từ “Việt Nam” từ “Đại Việt” “Đại Nam” - Mơ hình lý thuyết chặt chẽ, rõ ràng: Một truy vấn BQ bao gồm toán tử AND, OR, NOT, kết hợp với thuật ngữ có liên quan với tài liệu cần tìm để tạo thành câu truy vấn - Trả kết chứa xác từ khóa tìm kiếm Với mơ hình BQ, kết tìm kiếm chứa thuật ngữ xuất câu truy vấn  Truy vấn xếp hạng – RQ Trong hệ thống tìm kiếm thơng tin văn theo mơ hình khác Mơ hình khơng gian vector đánh giá mơ hình truy vấn thơng tin có nhiều ưu điểm - Các tài liệu trả xếp hạng theo mức độ liên quan đến nội dung yêu cầu Các tài liệu sau xác định liên quan đến câu hỏi người sử dụng xếp hạng, tài liệu có tài liệu liên quan đến câu hỏi nhiều Hệ thống dựa vào số phương pháp để xác định tài liệu có liên quan nhiều nhất, xếp hạng trả cho người dùng theo thứ tự ưu tiên 58 - Việc đưa câu truy vấn dễ dàng không yêu cầu người tìm kiếm có trình độ chun mơn cao vấn đề - Tiến hành tìm kiếm lưu trữ đơn giản mơ hình tìm kiếm Boolean Chiến lược so khớp phần cho phép trả tài liệu phù hợp nhất, thỏa mãn với thông tin truy vấn người dùng; công thức xếp hạng cosin cho phép đồng thời xác định độ phù hợp phục vụ xếp danh sách xếp hạng - Hệ thống đánh trọng số từ khóa biểu diễn làm tăng hiệu suất tìm kiếm - Khắc phục hạn chế mơ hình Boolean tính mức độ tương tự truy vấn tài liệu, đại lượng sử dụng để xếp hạng tài liệu trả - Thích hợp với văn ngắn Cho phép tìm kiếm gần Việc đánh giá lực thể thuật ngữ giúp cải thiện thực trạng tìm kiếm thơng tin 3.1.2 Nhược điểm  Truy vấn Boolean – BQ - Đòi hỏi người tìm kiếm phải có kinh nghiệm chun mơn lĩnh vực tìm kiếm câu hỏi đưa vào dạng logic nên kết trả có giá trị logic (Boolean) Một số tài liệu trả thỏa mãn điều kiện đưa vào Như muốn tìm tài liệu theo nội dung phải biết đích xác tài liệu - Việc mục tài liệu phức tạp tốn nhiều thời gian, đồng thời tốn không gian để lưu trữ bảng mục - Vì dựa phép tốn logic nhị phân nên văn tìm kiếm xác định hai trạng thái: liên quan không liên quan với câu truy vấn nên kết trả có q nhiều q tài liệu tìm thấy, tìm thấy số lượng lớn tài liệu liên quan khơng có tài liệu 59 Do đó, hiệu tìm kiếm không cao Hơn nữa, trường hợp câu truy vấn bao gồm nhiều thuật ngữ liên kết với tốn tử OR, tài liệu có chứa tất hay nhiều thuật ngữ truy vấn không xem tốt so với tài liệu chứa thuật ngữ Tương tự, trường hợp với toán tử AND, tài liệu chứa gần hết thuật ngữ xem không phù hợp giống tài liệu không chứa thuật ngữ - Câu truy vấn đòi hỏi phải định dạng biểu thức tìm kiếm Boole gây khó khăn cho người dùng Việc chuyển câu truy vấn người dùng sang dạng biểu thức Boole không đơn giản, người dùng gặp khó khăn việc xây dựng biểu thức truy vấn Đặc biệt yêu cầu tìm phức tạp - Mối quan hệ thuật ngữ hay thứ tự chúng không xét đến - Kết trả không xếp hạng, không xác định mức độ liên quan tài liệu câu truy vấn Tức là, tài liệu trả không xếp theo độ xác chúng Các bảng mục khơng linh hoạt từ vựng thay đổi, thêm vào hay xóa bớt…dẫn tới số Index phải thay đổi theo - Mơ hình tìm kiếm Boolean khơng thể kiểm sốt số lượng tài liệu đạt  Truy vấn xếp hạng - Việc tìm kiếm tiến hành chậm hệ thống từ vựng lớn phải tính tốn tồn vector tài liệu - Khi biểu diễn vector với hệ số số tự nhiên làm tăng mức độ xác việc tìm kiếm làm tốc độ tính tốn giảm nhiều phép nhân vector phải tiến hành số tự nhiên số thực, việc lưu trữ vector tốn phức tạp 60 - Hệ thống không linh hoạt lưu trữ từ khóa Chỉ cần thay đổi nhỏ bảng từ vựng kéo theo vector hoá lại toàn tài liệu lưu trữ, bỏ qua từ có nghĩa bổ sung tài liệu mã hóa trước - Mơ hình khơng gian vector coi thuật ngữ khơng có quan hệ với làm việc hiệu với tài liệu câu truy vấn ngắn - Một nhược điểm nữa, chiều Vector theo cách biểu diễn lớn, chiều xác định số lượng từ khác tập hợp văn Ví dụ số lượng từ có từ 103 đến 105 tập hợp văn nhỏ, tập hợp văn lớn số lượng nhiều Số chiều biểu diễn cho tập văn lớn nên tốn nhiều không gian lưu trữ 61 KẾT LUẬN Tìm kiếm thơng tin thư viện số vấn đề thời Công nghệ thông tin thư viện mà đặc biệt vấn đề tìm kiếm thơng tin văn Với khối lượng thông tin khổng lồ việc lựa chọn kỹ thuật tìm kiếm thơng tin cho vừa nhanh chóng, vừa xác điều quan trọng cần thiết Khóa luận tốt nghiệp trình bày hai phương pháp tìm kiếm thơng tin Đó phương pháp tìm kiếm Boolean phương pháp tìm kiếm xếp hạng Và đánh giá hai phương pháp tìm kiếm Việc đánh giá để biết điểm mạnh, điểm yếu phương pháp mà từ ta chọn phương pháp tối ưu phục vụ cho nhu cầu tìm kiếm thơng tin cách có hiệu Tìm kiếm thơng tin văn vấn đề quan trọng thư viện số Song, Thư viện số không chứa thông tin văn mà cịn chứa dạng thơng tin đa phương tiện khác như: âm thanh, hình ảnh, audio, video…những thơng tin có vai trị khơng phần quan trọng so với thơng tin văn Do đó, tác giả dự định nghiên cứu tương lai phương pháp tìm kiếm ảnh; Tìm kiếm video, Tìm kiếm audio Với phương pháp tìm kiếm khác tìm kiếm mờ fuzzy, tìm kiếm xác suất Nhằm giúp người sử dụng khai thác tất nguồn lực thông tin thư viện số cách hiệu Tôi hy vọng đề tài góp phần nhỏ, có ý nghĩa cho việc nghiên cứu lĩnh vực truy vấn thông tin thư viện số Giúp cho người đọc hiểu rõ phương pháp tìm kiếm thơng tin ứng dụng tìm kiếm thơng tin cách hiệu 62 TÀI LIỆU THAM KHẢO TÀI LIỆU TIẾNG VIỆT Nguyễn Minh Hiệp (2004), “Thế giới thư viện số”, Bản tin Thư viện – Công nghệ thơng tin, Đại học Quốc gia Tp Hồ Chí Minh, Tp Hồ Chí Minh Đinh Trung Hiếu, Vũ Bội Hằng, Nguyễn Cẩm Tú (2004), Giải pháp tìm kiếm theo lĩnh vực máy tìm kiếm, Báo cáo nghiên cứu khoa học Khoa Công nghệ, Đại học Quốc gia Hà Nội, Hà Nội Trần Bích Hồng, Cao Minh Kiểm (2009), Tra cứu thông tin hoạt động thư viện – thông tin, Nxb Đại học Quốc gia Hà Nội, Hà Nội Kỷ yếu hội thảo quốc tế chủ đề: Thư viện số, Đại học Quốc gia TP Hồ Chí Minh Lourdes T.D (2006), Thư viện số truy cập mở tài liệu lưu trữ, Nguyễn Xuân Bình nnk biên dịch, UNESCO, Hà Nội Đoàn Sơn (2002), Phương pháp biểu diễn văn sử dụng tập mờ ứng dụng khai phá liệu văn Luận văn thạc sỹ Khoa Công Nghệ, Đại học Quốc gia Hà Nội, Hà Nội Vũ Văn Sơn (2005), “Nhập môn thư viện điện tử”, http://www.thuvien.net Tạp chí thư viện Việt Nam, số 2/2010 Vũ Đức Thi (1997), Cơ sở liệu - Kiến trúc thực hành, Nxb Khoa học kỹ thuật, Hà Nội 10 Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá liệu Web Nxb Giáo dục Việt Nam, Hà Nội 11 Nguyễn Thị Thu Trang (2010), Kỹ thuật tìm kiếm văn sở nội dung sở liệu đa phương tiện Luận văn thạc sỹ, Đại học Công nghệ - Đại học Quốc gia Hà Nội, Hà Nội 12 Đỗ Trung Tuấn (2004), Cơ sở liệu, Nxb Đại học Quốc gia Hà Nội 63 13 Đỗ Quang Vinh, Quách Tuấn Ngọc (2001), “Một mơ hình liệu hướng đối tượng thời gian tài liệu cấu trúc”, Tạp chí Bưu viễn thơng & Cơng nghệ thơng tin, 160(6), tr.29-32 14 Đỗ Quang Vinh (2006), “Truy vấn xếp hạng tài liệu văn thư viện số”, Kỷ yếu Hội thảo Quốc gia số vấn đề chọn lọc công nghệ thông tin truyền thông lần thứ IX, Đà Lạt 15 Đỗ Quang Vinh (2009), Thư viện số mục tìm kiếm, Nxb Đại học Quốc gia Hà Nội, Hà Nội TÀI LIỆU TIẾNG ANH 16 Arm W.Y (2003), Digital Library, MIT Press, Cambridge 17 Barber D (1996), “Buiding a Digital Library”, Library Technology Report, 32(5), pp 573-738 18 Barber D (1998), “Tools for Managing the Digital Library”, Library Technology Report, 34(4), pp 439-552 19 Barnes S.J (2004), Becoming a Digital Library, Marcel Dekker, New York 20 Chen H., Houston A.L (1999), “Digital Libraries: social issues and technological advances”, Advanced in Computers, 48, pp 257-314 21 Chowdhary G.G (1999), “Digital Library Research: major issues and trend”, Journal of Documenttation, 55(4), pp 409-448 22 Kowalski G (1997), Information Retrieval System, Kluwer Academic Publisher, Boston 23 Reddy R., Wladawsky-Berger I (2001), Digital Libraries: Universal Access to Human Knowledge Report PITAC http://www.trd.gov/pubs/pitac 24 Robertson S.E., Beaulieu M (1997), “Research and Evaluation in Information Retrieval”, Journal of Documentation, 53(1), pp.51-57 64 25 Salton G., Buckley C., Allan J (1993), “Approaches to Passage Retrieval in Full Text Information Systems”, ACM-SIGIR’93, Pittsburgh 26 Schatz B.R (1997), “Information Retrieval in Digital Libraries”, Science, 275, pp 327-334 27 Sun Microsystems (2002), Digital Library Technology Trends 28 The 10th International Conference on Digital Libraries (2007), “Asian Digital Libraries: Looking back 10 years and forging new frontiers”, Ha Noi 29 Witten I.H., Bainbridge D (2003), How to Build a Digital Library, Morgan Kaufmann, San Francisco 65 Trờng Đại học Văn hoá H Nội Khoa th viƯn th«ng tin - NGUYỄN THỊ THANH HẢI TìM KIếM THÔNG TIN VĂN BảN TRONG THƯ VIệN Số PHỤ LỤC KHÓA LUẬN Hμ Néi 2013 66 PHỤ LỤC 1: Đánh giá BQ hội Đối với thuật ngữ truy vấn t, (a) Truy vấn gốc t (b) Tìm kiếm từ vựng (c) Bản ghi ft đại It, vào mục IF t Nhận dạng thuật ngữ truy vấn t với ft nhỏ Đọc mục vào IF tương ứng It Đặt C ← It danh sách dự tuyển Đối với thuật ngữ lại t, (a) Đọc mục vào IL It (b) Đối với d ∈ C, Nếu d It đặt C ← C – {d} (c) |C| = 0, trả lại, khơng có câu trả lời Đối với mơt d ∈ C, (a) Dị tìm địa tài liệu d (b) Tìm kiếm tài liệu d trình bày với người sử dụng Giải thuật D = {d1, d2, …, dM}, M ≥ - Đánh giá BQ hội Khi tất IL xử lý, dự tuyển lại câu trả lời mong muốn, có 67 PHỤ LỤC 2: Tìm kiếm r tài liệu dùng độ đo cosin Đặt A ← {} A tập tích lũy Đối với thuật ngữ truy vấn t ∈ Q, (a) Truy gốc từ t (b) (c) (d) (e) (f) Tìm kiếm từ vựng Ghi ft địa It, mục vào IF t Đặt Wt ← + loge(N / ft) Đọc mục vào IF It Đối với cặp (d, fd,t) thuộc It, i Nếu Ad ∈ A Đặt Ad ← 0, Đặt A ← A + {Ad} Đặt Ad ← Ad + loge(1+fd,t)*wt ii Đối với tài liệu Ad ∈ A, Đặt Ad ← Ad / Wd Bây Ad tỉ lệ với giá trị cos(Q, Dd) Đối với ≤ i ≤ r, (a) (b) (c) (d) Lựa chọn D cho Ad = max {A} Dị tìm địa tài liệu d Tìm kiếm tài liệu D trình bày với người sử dụng Đặt A ← A - {Ad} Giải thuật R: D ← p(D): Tìm kiếm r tài liệu dùng độ đo cosin Giải thuật nêu lên ba điểm sau: Wq bị bỏ qua số truy vấn chuyên biệt vậy, không ảnh hưởng đến xếp hạng Lượng lớn nhớ sử dụng Các trọng số tài liệu Wd điển hình chiếm 4B cho tài liệu tích lũy cài đặt mảng chúng có giá 4B Ở CSDL TREC, riêng hai trọng số tiêu tốn vài MB nhớ số kỹ thuật nhằm giảm không gian yêu cầu thảo luận sau Chỉ r < < N tài liệu có mặt Nghĩa bước không cần xếp trọn vẹn tập A 68 ... Khái quát thư viện số thông tin văn thư viện số Chương 2: Phương pháp tìm kiếm thơng tin văn thư viện số Chương 3: Thử nghiệm tìm kiếm đánh giá hiệu suất tìm kiếm thơng tin văn số thư viện số giới... trúc thư viện số 16  1.2 Thông tin văn thư viện số 22  Chương 2: PHƯƠNG PHÁP TÌM KIẾM THƠNG TIN VĂN BẢN 24  TRONG THƯ VIỆN SỐ 24  2.1 Mơ hình tìm kiếm thơng tin -... TÌM KIẾM VÀ ĐÁNH GIÁ HIỆU SUẤT TÌM KIẾM THƠNG TIN VĂN BẢN TRONG THƯ VIỆN SỐ 45  3.1 Thử nghiệm tìm kiếm thơng tin văn số thư viện số giới Việt Nam 45  3.2 Đánh giá hiệu suất tìm

Ngày đăng: 25/06/2021, 17:52

HÌNH ẢNH LIÊN QUAN

Hình 1.1: Kiến trúc cơ bản thư viện số - Tìm kiếm thông tin văn bản trong thư viện số
Hình 1.1 Kiến trúc cơ bản thư viện số (Trang 17)
Nhưng điển hình vẫn là phát triển các bộ sưu tập truyền thống và truy cập các dịch vụ có trong các thư viện như lựa chọn và quản lý nguồ n tài nguyên - Tìm kiếm thông tin văn bản trong thư viện số
h ưng điển hình vẫn là phát triển các bộ sưu tập truyền thống và truy cập các dịch vụ có trong các thư viện như lựa chọn và quản lý nguồ n tài nguyên (Trang 18)
Hình 2.1 Quy trình tìmkiếm thông tin [11] - Tìm kiếm thông tin văn bản trong thư viện số
Hình 2.1 Quy trình tìmkiếm thông tin [11] (Trang 27)
Hình 2.2: Giản đồ Venn về tác động của toán tử AND - Tìm kiếm thông tin văn bản trong thư viện số
Hình 2.2 Giản đồ Venn về tác động của toán tử AND (Trang 30)
Hình 2.3: Giản đồ Venn về tác động của toán tử OR - Tìm kiếm thông tin văn bản trong thư viện số
Hình 2.3 Giản đồ Venn về tác động của toán tử OR (Trang 32)
Hình 2.4: Giản đồ Venn về tác động của toán tử NOT - Tìm kiếm thông tin văn bản trong thư viện số
Hình 2.4 Giản đồ Venn về tác động của toán tử NOT (Trang 33)
Bảng 2.1: Các vector đối với tính toán tích trong - Tìm kiếm thông tin văn bản trong thư viện số
Bảng 2.1 Các vector đối với tính toán tích trong (Trang 37)
Hình 3.1: Kết quả tìmkiếm Boolean tại Thư viện số IEEE - Tìm kiếm thông tin văn bản trong thư viện số
Hình 3.1 Kết quả tìmkiếm Boolean tại Thư viện số IEEE (Trang 45)
Hình 3.2: Kết quả tìmkiếm Boolean tại Thư viện Tạ Quang Bửu - Tìm kiếm thông tin văn bản trong thư viện số
Hình 3.2 Kết quả tìmkiếm Boolean tại Thư viện Tạ Quang Bửu (Trang 46)
Hình 3.3: Kết quả tìmkiếm Boolean tại thư viện Đại Học Quốc gia HàN ội - Tìm kiếm thông tin văn bản trong thư viện số
Hình 3.3 Kết quả tìmkiếm Boolean tại thư viện Đại Học Quốc gia HàN ội (Trang 47)
Hình 3.4: Kết quả tìmkiếm Boolean tại thư viện Quốc gia Việt Nam - Tìm kiếm thông tin văn bản trong thư viện số
Hình 3.4 Kết quả tìmkiếm Boolean tại thư viện Quốc gia Việt Nam (Trang 48)
Hình 3.5: Kết quả tìmkiếm Boolean tại thư viện Khoa học và công nghệ - Tìm kiếm thông tin văn bản trong thư viện số
Hình 3.5 Kết quả tìmkiếm Boolean tại thư viện Khoa học và công nghệ (Trang 49)
Hình 3.6: Kết quả tìmkiếm Boole tại thư viện Đại học Quốc gia Tp. Hồ Chí Minh - Tìm kiếm thông tin văn bản trong thư viện số
Hình 3.6 Kết quả tìmkiếm Boole tại thư viện Đại học Quốc gia Tp. Hồ Chí Minh (Trang 50)
Hình 3.7: Kết quả tìmkiếm xếp hạng tại thư viện IEEE - Tìm kiếm thông tin văn bản trong thư viện số
Hình 3.7 Kết quả tìmkiếm xếp hạng tại thư viện IEEE (Trang 51)
Bảng 3.1 Độ phục hồi và độ chính xác - Tìm kiếm thông tin văn bản trong thư viện số
Bảng 3.1 Độ phục hồi và độ chính xác (Trang 54)
Hình 3.8: Đường cong P-R đối với hạng của bảng 3.1 - Tìm kiếm thông tin văn bản trong thư viện số
Hình 3.8 Đường cong P-R đối với hạng của bảng 3.1 (Trang 55)
w