Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 60 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
60
Dung lượng
2,12 MB
Nội dung
2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ THU TRANG KỸ THUẬT TÌM KIẾM VĂN BẢN TRÊN CƠ SỞ NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN LUẬN VĂN THẠC SỸ Hà Nội - 2010 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƯƠNG 1- TỔNG QUAN 1.1 Khái quát sở liệu (CSDL) đa phương tiện [1] [10] [12] 1.1.1 Giới thiệu 1.1.2 Mục tiêu 11 11 11 13 1.1.3 Mơ hình liệu đa phương tiện 1.2 Trích chọn đặc trưng, mục đo tính tương tự [1] 13 14 1.2.1 Trích chọn đặc trưng 1.2.2 Chỉ số hóa cấu trúc 1.2.3 Đo tính tương tự 1.3 Hệ thống truy tìm thơng tin (IR-Information retrieval) [1] [3] [4] [9] [13] 15 16 17 17 1.3.1 Khái quát 1.3.2 Vấn đề truy tìm tài liệu văn (Text retrieval) 1.3.3 Phân biệt hệ thống IR DBMS (DataBase Manager System) 1.4 xếp hạng tài liệu (Ranking) [1] [8] 17 18 20 21 CHƯƠNG 2- MỘT SỐ KỸ THUẬT TÌM KIẾM 2.1 Các truy vấn Boolean mục tài liệu [1] [5] [11] 2.1.1 Truy vấn Boolean 2.1.2 Cấu trúc tệp 2.1.3 Các từ dừng từ gốc 2.1.4 Chỉ số hoá bổ sung 2.1.5 Kỹ thuật nén số (index compression) 2.1.6 Chỉ mục tự động 2.2 Thước đo hiệu [1] [5] [8] 2.3 Mơ hình truy tìm khơng gian vectơ [1] [11] 2.4 Mơ hình truy tìm theo xác suất [1] [6] 2.5 Mơ hình truy tìm sở cụm [1] [6] 2.6 Kỹ thuật phản hồi phù hợp [1] [11] 2.7 Mơ hình LSI (Latent semantic indexing) [1] [5] [6] [7] [8] [9] 2.7.1 Ý tưởng LSI 2.7.2 Một số khái niệm 25 25 25 26 27 28 29 31 33 36 37 38 39 40 40 42 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2.7.3 Kỹ thuật SVD (singular value decomposition) 43 CHƯƠNG 3- CÀI ĐẶT THỰC NGHIỆM MƠ HÌNH LSI 3.1 Bài tốn 54 54 3.2 Chức chương trình 3.3 Hoạt động chương trình KẾT LUẬN TÀI LIỆU THAM KHẢO 55 56 60 61 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu viết tắt Tiếng Anh Tiếng Việt CSDL DataBase Cơ sở liệu DBMS DataBase Manager System Hệ quản trị Cơ sở liệu IDF Inverse Document Frequency Tần số xuất tài liệu IR Information retrieval Truy tìm thơng tin LSI Latent Semantic Indexing Chỉ số hóa ngữ nghĩa ẩn MIRS Multimedia Information Retrieval Hệ thống truy tìm thơng tin đa System phương tiện SVD Singular Value Decomposition Tách giá trị riêng TF Term Frequency Tần số xuất thuật ngữ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC BẢNG Bảng 1.1 Ma trận tài liệu - thuật ngữ 23 Bảng 1.2 Ma trận kết tài liệu - thuật ngữ TF-IDF 24 Bảng 1.3 Kết khoảng cách từ truy vấn Q với tài liệu 24 Bảng 2.1 Kết recall precision 35 Bảng 2.2 Số lần xuất thuật ngữ tài liệu 44 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hinh 1.1 Mơ hình liệu đa phương tiện .14 Hình 1.2 Hệ thống IR tiêu biểu .19 Hình 1.3 Tiến trình truy vấn tài liệu 21 Hình 2.1 Sơ đồ trì số tập hợp động .29 Hình 2.2 Mơ tả recall 33 Hình 2.3 Mơ tả Precision 34 Hình 2.4 Đồ thị so sánh hiệu 35 Hình 2.5 Sử dụng khái niệm cho truy vấn 41 Hình 2.6 Biểu đồ 2-D 12 thuật ngữ tài liệu từ tập mẫu 45 Hình 2.7 Sơ đồ SVD ma trận hình chữ nhật thuật ngữ- tài liệu 46 Hình 2.8 Sơ đồ SVD giảm lược ma trận thuật ngữ-tài liệu 47 Hình 2.9 Đồ thị Recall – Precision thuật toán LSI 53 Hình 3.1 Sơ đồ chức .55 Hình 3.2 Chức thêm tài liệu 56 Hình 3.3 Chức xóa tài liệu .56 Hình 3.4 Chức phân tích tìm kiếm bước 57 Hình 3.5 Chức phân tích tìm kiếm bước 57 Hình 3.6 Chức phân tích tìm kiếm bước 58 Hình 3.7 Chức phân tích tìm kiếm bước cuối .59 Hình 3.8 Đồ thị biểu diễn vecto tài liệu vecto truy vấn .59 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Hàng nghìn năm trước người nhận thức tầm quan trọng việc lưu trữ tìm kiếm thơng tin Với phát triển máy tính, việc máy tính có khả lưu trữ thơng tin với số lượng lớn tìm kiếm thơng tin có ích từ tập hợp trở nên cần thiết Lĩnh vực truy tìm thơng tin (Information Retrieval - IR) đời vào năm 1950 nhu cầu thiết yếu Hơn 40 năm sau, lĩnh vực trưởng thành đáng kể, nhiều hệ thống IR sử dụng phổ biến với đa dạng trạng thái người sử dụng Sự phát triển lĩnh vực năm 1970 đến năm 1980 dựa tảng năm trước đó, nhiều mơ hình thực truy tìm tài liệu khác phát triển tiến theo khía cạnh q trình truy tìm Những mơ hình kỹ thuật chứng minh qua thực nghiệm, có hiệu tập hợp văn nhỏ, dùng cho nhà nghiên cứu thời gian Tuy nhiên, khơng có hiệu tập hợp văn lớn, câu hỏi có hay khơng mơ hình kỹ thuật đáp ứng với thể lớn chưa trả lời Sự thay đổi lớn vào năm 1992, với khởi đầu thảo luận truy tìm văn bản, sau loạt thảo luận kiểm định đứng đầu nhiều hãng khác Mỹ bảo hộ Viện Tiêu chuẩn Công nghệ quốc gia (NIST), nhằm vào việc khuyến khích nghiên cứu hệ thống IR với tập hợp văn lớn Những thuật toán IR phát triển năm từ năm 1996 đến năm 1998, kỹ thuật dùng cho việc tìm kiếm mạng tồn cầu Ngày nay, phát triển nhanh chóng lĩnh vực thông tin Internet tạo khối lượng thông tin vô lớn với phong phú, đa dạng phức tạp loại hình thơng tin như: văn bản, hình ảnh, video, siêu văn bản, đa phương tiện… Tương ứng với khối lượng liệu khổng lồ đó, người ta quan tâm nhiều đến sở liệu đa phương tiện (Mutimedia Database) khoa học công nghệ thực tiễn Với hệ thống sở liệu đa phương tiện, bao gồm liệu dạng hình ảnh, video, audio văn (text) có xu thâm nhập vào nhiều lĩnh vực dần trở thành hệ sở liệu quan tâm từ người sử dụng chuyên gia vấn đề lưu trữ, xử lý ứng dụng Cho đến nay, vấn đề tìm kiếm thơng tin đa phương tiện chuyên gia nghiên cứu, việc truy tìm thơng tin phù hợp với u cầu truy vấn đưa từ người sử dụng Người sử dụng có xu hướng tìm kiếm chủ yếu hệ sở liệu đa phương tiện, ví dụ tìm kiếm loạt hình ảnh cổ vật liên quan đến văn hoá cổ Việt Nam, tìm kiếm liệu âm có text kèm theo, tìm kiếm video giảng cho học sinh ơn thi đại học Để thực việc tìm kiếm sở liệu đa phương tiện người làm khoa học nghiên cứu công cụ, LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com phương pháp, kỹ thuật tìm kiếm cho thuận tiện, xác nhanh chóng đem lại thông tin phù hợp với yêu cầu người sử dụng Văn số dạng liệu đa phương tiện, quan tâm từ hàng nghìn năm trước việc tổ chức xếp lưu trữ, điển bảng nội dung sách Ngày nay, lớn mạnh thông tin với phần lớn dạng văn bản, xuất phát từ nhu cầu thực tế sử dụng người Tài liệu văn chiếm đa số quan tổ chức, đặc biệt thư viện cịn sử dụng để mơ tả dạng khác liệu đa phương tiện video, audio, hình ảnh Số lượng tài liệu văn ngày lớn có vai trị vơ quan trọng, việc việc lưu trữ, xử lý truy tìm thủ cơng trước khơng thể khó thực Cùng với đời phát triển máy tính, cơng cụ xử lý ngày hoàn thiện dựa kỹ thuật đại phục vụ cho nhu cầu Các mơ hình truy tìm hay sử dụng phạm vi này, là: Đối sánh xác, khơng gian vectơ, xác suất sở cụm Song, nhược điểm mơ hình truy tìm thơng tin từ mà người tìm kiếm sử dụng, thường không giống với từ đánh mục thơng tin tìm kiếm Vấn đề liên quan nhiều đến hai khía cạnh thực tế, tính đồng nghĩa (synonymy)cùng thơng tin miêu tả từ khác nhau, phụ thuộc vào ngữ cảnh hay mức độ cần thiết, ví dụ như: nhìn, xem, trơng, thấy có ý nghĩa; tính đa nghĩa (polysemy) – từ có nhiều ý nghĩa khác ngữ cành khác nhau, ví dụ như: (có thể chuyển động hay mát) Kết truy tìm gồm tài liệu khơng liên quan, đơn giản thuật ngữ xuất ngẫu nhiên giống với thuật ngữ truy vấn mặt khác, tài liệu liên quan bị bỏ qua không chứa thuật ngữ xuất truy vấn (do tính đồng nghĩa) Một ý tưởng thú vị xem liệu việc truy tìm dựa vào khái niệm có hiệu so với truy tìm trực tiếp thuật ngữ Mơ hình LSI (Latent Semantic Indexing) đời, giải pháp hữu hiệu cho vấn đề truy tìm thơng tin dựa sở nội dung tài liệu văn bản, tìm kiếm sở khái niệm (không phải thuật ngữ đơn) Trước truy tìm, tài liệu coi danh sách từ chúng phải đánh mục Có thực tế khơng phải tất từ có ý nghĩa, việc loại danh sách từ khơng có nghĩa vơ quan trọng từ khơng có ý nghĩa khơng đánh mục Từ thơng tin tóm lược người sử dụng biểu thị qua truy vấn, thuật tốn truy tìm phải đảm bảo rằng, chiến lược xếp hạng tập tài liệu câu trả lời ln ưu tiên cho thơng tin có ích phù hợp với truy vấn người sử dụng đưa Hơn nữa, kỹ thuật đánh giá tốt phải dựa việc xếp hạng tài liệu này, tức tài liệu phù hợp coi “gần” với LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 10 câu truy vấn xếp lên tài liệu phù hợp danh sách tài liệu trả lời Đánh giá chất lượng IR phụ thuộc vào thước đo hiệu thực kỹ thuật dựa vào tham số chủ yếu độ xác (precison) số tài liệu gọi lại (recall) Trên sở đó, cấu trúc luận văn gồm phần mở đầu, kết luận, tài liệu tham khảo phần nội dung gồm ba chương trình bày theo thứ tự sau: Chương Giới thiệu tổng quan sở liệu đa phương tiện, xếp hạng tài liệu yếu tố phục vụ cho việc tìm kiếm thơng tin Khái qt hệ thống truy tìm thơng tin (IR) tiêu biểu cụ thể truy tìm tài liệu văn Chương Đề cập đến vấn đề mục tài liệu thước đo hiệu Nghiên cứu số mơ hình tìm kiếm như: Boolean, khơng gian vectơ, phân cụm, dựa xác suất, phản hồi phù hợp LSI Chương Cài đặt thực nghiệm mơ hình LSI Nội dung luận văn từ tổng quan sở liệu đa phương tiện, hệ thống tìm kiếm đa phương tiện đến kỹ thuật mục, xử lý tài liệu, trích lọc thơng tin đến chi tiết vấn đề tìm kiếm tài liệu văn Đặc biệt, nghiên cứu mơ hình tìm kiếm sâu nghiên cứu mơ hình LSI- tìm kiếm văn sở nội dung LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 11 CHƯƠNG - TỔNG QUAN 1.1 Khái quát sở liệu (CSDL) đa phương tiện [1] [10] [12] 1.1.1 Giới thiệu Trên giới tồn lượng lớn liệu số, liệu từ tivi, internet, qua phương tiện truyền thơng hay có từ nhiều phương tiện khác máy quay (video) kỹ thuật số Các dòng liệu số ngày tăng, loại liệu đa phương tiện kết hợp liệu hình ảnh, âm thanh, văn bản… Hiện nay, biết internet phát triển nào, rõ ràng trình tương tác trao đổi thơng tin, người sử dụng có xu hướng chủ yếu xử lý kiểu liệu đa phương tiện thấy phát triển kiểu liệu sống đại Tầm quan trọng việc sử dụng thông tin thay đổi từ thông tin dạng số rõ tới thông tin dạng đa phương tiện: liệu hình ảnh, âm tài liệu văn Vì thế, đa phương tiện thông điệp cho xã hội thông tin ngày Sự tương tác người sử dụng tự nhiên với thông tin thiết bị truyền thông, phạm vi rộng tạo xã hội có giá trị mặt Vì thế, dự đoán đa phương tiện thâm nhập vào tất hệ thống thông tin, từ công việc hàng ngày tới thương mại, cơng việc văn phịng chuyên nghiệp, giao tiếp với khách hàng, giáo dục, khoa học, nghệ thuật truyền rộng rãi qua internet Đa phương tiện trở thành dạng giao tiếp tự nhiên, khơng hồn tồn tự Ngữ nghĩa thông điệp thông tin số xác thực dịng bit hình ảnh âm Trong đó, tín hiệu hình ảnh biểu thị gì, ý nghĩa văn nói âm khơng dễ dàng lập luận với máy tính Những điều thuộc ngữ nghĩa cần xử lý từ liệu thơ việc tổ chức, chuyển đổi, phân tích phân lớp Khai thác đa phương tiện (multimedia) đầy đủ yêu cầu sử dụng video, tranh ảnh, âm ngôn ngữ Nó bao gồm tương tác máy với dạng đa phương thức Thêm vào đó, kiến thức hiểu biết dạng đa phương tiện có hiểu biết chất dịng thông tin đa phương tiện Các hệ thống thông tin đa phương tiện lưu cung cấp truy cập đến dịng liệu, hệ thống ứng dụng thơng tin tất dạng Trong phạm vi vấn đề này, đa phương tiện mơ tả ứng dụng liệu thông tin máy tính qua dạng hình ảnh, ngơn ngữ tự nhiên âm Một số mơ hình ứng dụng đa phương tiện thiết bị điện tử, hệ thống lưu trữ kho chứa đa phương tiện lớn, sử dụng tài liệu điện tử đa phương tiện, y LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 47 x1 Và x1 = L = x 1 L 0.707 1 = 0.707 + Với c2 = 10, ta có x2 = x1 - Tương tự, tính T0 dựa vào ma trận XXT với giá trị riêng 40 10 Vì thế, ta có ma trận với giá trị riêng tăng dần tính từ XTX XXT - Ma trận chéo giá trị riêng S0 tính: 12 S0 = 40 6.32 3.16 10 Vậy, từ ma trận A phân tích SVD thành ma trận sau: 0.447 0.894 6.32 0.894 0.447 3.16 0.707 0.707 0.707 0.707 Nói chung, với X = T0S0D0T, ma trận T0, D0, S0 tất phải xếp hạng Sử dụng SVD nhận “xấp xỉ” X giá trị số lớn ma trận S0 Tích ma trận kết ma trận Xˆ xấp xỉ X có hạng k Việc lựa chọn k xác định “các khái niệm quan trọng”, với giả định khái niệm với giá trị số nhỏ S0 xem “nhiễu” bỏ qua Các giá trị số S0 xếp, k lớn giữ lại tập nhỏ lại nhận giá trị Khi đó, số đưa vào S0, việc biểu diễn làm đơn giản hóa việc xóa hàng cột S0 để thu ma trận đường chéo S, sau xóa cột tương ứng T0 D0 để nhận T D tương ứng Kết mơ hình giảm lược: X ≈ Xˆ = TSDT Mơ hình giảm lược, trình bày hình 2.8, sử dụng để xấp xỉ với liệu Documents term Xˆ = T S k×k t×d DT k×d t×k Hình 2.8 Sơ đồ SVD giảm lược ma trận thuật ngữ-tài liệu Ma trận thuật ngữ tài liệu gốc gần sử dụng k giá trị số lớn vectơ số tương ứng LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 48 Giảm lược SVD ma trận thuật ngữ- tài liệu X, đó: T, D ma trận trực giao S ma trận đường chéo giá trị số t số hàng X d số cột X m hạng X ( min(t,d)) k số chiều chọn mơ hình giảm lược (k m) Giảm lược số chiều, lựa chọn k tới hạn với thực Đúng ý tưởng, muốn giá trị k đủ lớn để phù hợp với đặc tính cấu trúc thực liệu, đủ nhỏ để lọc chi tiết không phù hợp hay chi tiết khơng quan trọng Ví dụ, ví dụ trước thực tính tốn với tài liệu (c1 c5, m1 m4) 12 thuật ngữ, ma trận X (12×9) cho số lần xuất thuật ngữ tài liệu: 1 1 1 0 0 X 0 0 0 0 0 0 1 1 1 0 0 1 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0 0 1 0 1 1 Với ma trận 12×9 thuật ngữ tài liệu, X phân tích thành ba ma trận khác T0S0DT0, T0 D0 có cột trực giao T0 gồm vectơ giá trị số chiều với 12 thuật ngữ S0 ma trận đường chéo giá trị số D0 gồm vectơ giá trị số chiều với tài liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 49 0.22 0.20 0.24 0.40 0.64 0.27 T0 0.27 0.30 0.21 0.01 0.04 0.03 0.11 0.07 0.04 0.06 0.17 0.11 0.11 0.14 0.27 0.49 0.62 0.45 0.29 0.14 0.16 0.34 0.36 0.34 0.43 0.33 0.18 0.23 0.22 0.14 0.41 0.55 0.59 0.10 0.33 0.07 0.07 0.19 0.03 0.03 0.00 0.01 0.11 0.28 0.11 0.33 0.16 0.08 0.08 0.11 0.54 0.59 0.07 0.30 0.34 0.50 0.25 0.38 0.21 0.17 0.17 0.27 0.08 0.39 0.11 0.28 0.52 0.07 0.30 0.00 0.17 0.28 0.28 0.03 0.47 0.29 0.16 0.34 0.06 0.01 0.06 0.00 0.03 0.02 0.02 0.02 0.04 0.25 0.68 0.68 0.41 0.11 0.49 0.01 0.27 0.05 0.05 0.17 0.58 0.23 0.23 0.18 3.34 2.54 2.35 1.64 S0 1.50 1.31 0.85 0.56 0.36 0.20 0.06 0.11 0.95 0.05 0.61 0.17 0.50 0.03 0.21 0.46 0.03 0.21 0.04 0.38 0.27 0.21 0.54 0.23 0.57 D0 0.28 0.11 0.51 0.15 0.33 0.10 0.02 0.39 0.00 0.19 0.01 0.44 0.19 0.02 0.35 0.25 0.01 0.15 0.02 0.62 0.08 0.53 0.08 0.03 0.60 0.08 0.26 0.72 0.37 0.03 0.30 0.21 0.00 0.36 0.18 0.43 0.24 0.26 0.67 0.34 0.15 0.25 0.01 0.05 0.01 0.02 0.06 0.45 0.76 0.45 0.06 0.24 0.02 0.08 0.26 0.62 0.02 0.52 0,04 0.07 0.45 Bây giờ, tìm xấp xỉ X việc giữ lại hai giá trị số S0 cột tương ứng ma trận T0 ma trận D0 (Chú ý rằng, sử dụng kết hợp T0 D0 để xác định vị trí 12 thuật ngữ tài liệu, theo thứ tự định sẵn biểu diễn 2-chiều) Mô hình giảm lược sau: X Xˆ = TSDT LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 50 0.22 0.11 0.20 0.07 0.24 0.04 0.40 0.06 0.64 0.17 0.27 0.11 0.27 0.11 0.30 0.14 0.21 0.27 0.01 0.49 0.04 0.62 0.03 0.45 0.20 0.61 0.06 0.17 0.16 0.14 0.15 0.26 0.45 0.16 Xˆ 0.16 0.22 0.10 0.06 0.06 0.04 3.34 2.54 0.46 0.54 0.28 0.00 0.02 0.02 0,08 0.13 0.23 0.11 0.19 0.44 0.62 0.53 0.40 0.37 0.51 0.84 1.23 0.58 0.58 0.55 0.53 0.23 0.34 0.25 0.38 0.47 0.18 0.05 0.12 0.16 0.09 0.33 0.40 0.16 0.03 0.07 0.10 0.04 0.36 0.41 0.24 0.02 0.06 0.09 0.12 0.61 0.70 0.39 0.03 0.08 0.12 0.19 1.05 1.27 0.56 0.07 0.15 0.21 0.05 0.38 0.42 0.28 0.06 0.13 0.19 0.22 0.38 0.42 0.28 0.06 0.13 0.19 0.22 0.51 0.63 0.24 0.07 0.14 0.20 0.11 0.23 0.21 0.27 0.14 0.31 0.44 0.42 0.14 0.27 0.14 0.24 0.55 0.77 0.66 0.15 0.30 0.20 0.31 0.69 0.98 0.85 0.10 0.21 0.15 0.22 0.50 0.71 0.62 Thơng thường, kích thước đơn miền lớn vừa phải 200 Xét ý nghĩa mang lại: Kích thước bảng tần số gốc giả sử (t×d), t tổng số thuật ngữ d tổng số tài liệu Dễ có đến t = triệu d = 10,000 CSDL tài liệu nhỏ Sau giảm thiểu, kích thước ba ma trận đơn giả sử cịn 200: - Kích thước ma trận thứ t×k Với số ta có triệ200 = 200 triệu đầu vào - Kích thước ma trận đơn 200×200 = 40,000 đầu vào (sự thật 40,000 đầu vào 200 cần phải lưu trữ, lại nhận giá trị 0) - Kích thước ma trận cuối k×d Với số ta có 200×10,000 =2 triệu đầu vào Cuối ta có khoảng 202 triệu đầu vào bảng sau áp dụng SVD LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 51 Ngược lại, (t×d) gần tới 10 tỷ, nói cách khác SVD làm giảm đáng kể không gian sử dụng khoảng 1/50 so với bảng gốc Chú ý: Trong nhiều trường hợp, ma trận gốc t×d ma trận rải rác, lưu trữ số phần tử nhỏ t×d nhiều Trong trường hợp phân tích SVD lại làm tăng tổng số lưu trữ Các phép so sánh kỹ thuật SVD Về bản, có ba phép so sánh cần quan tâm: So sánh hai thuật ngữ (trả lời câu hỏi “tương tự thuật ngữ i j nào?”); so sánh hai tài liệu (“tương tự tài liệu i j sao?”); so sánh thuật ngữ với tài liệu (“thuật ngữ i tài liệu j có mối quan hệ nào?”) Trong cách tiếp cận vấn đề truy tìm thơng tin, số lượng tương ứng để so sánh hai hàng với nhau, hai cột với hay xem xét ô riêng lẻ ma trận gốc, ma trận liệu term-document X Trong trường hợp này, tạo so sánh tương tự sử dụng ma trận Xˆ , coi biểu diễn mẫu quan trọng xác thực liệu X Với Xˆ =TSDT, tương đồng tính tốn sử dụng ma trận nhỏ T, D S So sánh hai thuật ngữ: Tích vơ hướng hai vectơ hàng Xˆ xác định phạm vi hai thuật ngữ có tương đồng qua tập tài liệu Ma trận ( Xˆ Xˆ T) ma trận vuông đối xứng chứa tích số thuật ngữ với thuật ngữ Với S ma trận chéo D ma trận trực giao, dễ dàng xác định được: Xˆ Xˆ T = TS2TT Chú ý, điều có nghĩa (i,j) ( Xˆ Xˆ T) thu việc lấy tích hàng i j ma trận TS Đó là, xét hàng TS tương đương với thuật ngữ tích điểm so sánh thuật ngữ So sánh hai tài liệu: Phân tích việc so sánh hai tài liệu tương đồng, trường hợp tích hai vectơ cột ma trận Xˆ , cho biết khả đánh giá hai tài liệu tương đồng mơ tả qua thuật ngữ Vì vậy, ma trận ( Xˆ Xˆ T) chứa tích điểm tài liệu đến tài liệu Việc định nghĩa ma trận T, S D đảm bảo rằng: Xˆ T Xˆ = DS2DT Ở đây, ô (i,j) ( Xˆ T Xˆ ) thu việc tính tích hàng i j ma trận DS Vì thế, coi hàng ma trận DS tương ứng với tài liệu So sánh thuật ngữ với tài liệu: Sự so sánh khác với hai so sánh trước Thay việc cố gắng để đánh giá tích điểm hàng hay cột Xˆ , so sánh chủ yếu thuật ngữ tài liệu dựa vào giá trị ô riêng lẻ Xˆ Xˆ định nghĩa thuật ngữ ma trận T, S D Xˆ = TSDT LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 52 TS1/2 Bởi vậy, (i,j) Xˆ thu việc tính tích hàng i ma trận với hàng thứ j ma trận DS1/2 Chú ý rằng, So sánh (như thuật ngữ- thuật ngữ hay tài liêu-tài liệu) gồm việc sử dụng hàng TS DS cho toạ độ Tìm kiếm p tài liệu phù hợp cho truy vấn q Với q truy vấn, ta coi q tài liệu tạo lập vectơ Xq Tuy nhiên, có đặc điểm là: k khái niệm quan trọng xét xét tất t thuật ngữ Khi yêu cầu tìm p tài liệu phù hợp với q, ta phải tìm p tài liệu d1, , dp sau: Với i j p, tính tương tự Xq di lớn hay tính tương tự Xq dj, khơng có tài liệu dz mà tính tương tự dz Xq vượt q tính tương tự dp Hoặc, tính toán độ tương đồng truy vấn tài liệu dựa tính tốn cosin - Chuyển véctơ truy vấn q không gian thuật ngữ sang véctơ qc không gian khái niệm: qc = D T q - Mức độ tương tự truy vấn với tài liệu tính tích vơ hướng hay hệ số cosin qc hàng T Có thể biến đổi (ánh xạ từ X vào D): X = T0 * S0 * D0T S0-1 * T0T * X = D0T (lúc T0* T0T = 1) D0 = XT * T0 * S0-1 + Áp dụng biến đổi với q: qc = qT * T * S-1 + Sau so sánh vectơ thay đổi việc sử dụng biện pháp cosin chuẩn cos(qc , d i ) qc * ( D T ) i | qc || ( DT )i | ( D T )i biểu diễn cột thứ i ma trận D T - Làm việc với véctơ k chiều thay cho véctơ t chiều (k nhỏ t nhiều lần) Đánh giá hiệu mô hình LSI Kiểm nghiệm thực tế với tập liệu MED, tập liệu chuẩn nghiên cứu lý thuyết tập hợp thuộc y học, gồm 1033 tài liệu 30 truy vấn Việc mục tự động tất thuật ngữ xuất nhiều tài liệu kết 5823 thuật ngữ đánh mục SVD hệ số 100 ma trận 5823 thuật ngữ với 1033 tài liệu sử dụng truy tìm hiệu quả, đánh giá dựa vào 30 câu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 53 truy vấn có với tập liệu Đánh giá mơ hình LSI tập liệu MED dựa vào số recall precision biểu diễn sơ đồ sau: Precision Recall Hình 2.9 Đồ thị Recall – Precision thuật toán LSI Phương pháp LSI thực tốt mức thấp recall thể hai nhân tố: thứ nhất, độ xác (precision) tương đối tốt hệ thống mức recall thấp, mang lại khả cải tiến Thứ hai, LSI thiết kế chủ yếu để giải vấn đề tính đồng nghĩa (vì tăng recall); thành cơng vấn đề tính đa nghĩa (precision) LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 54 CHƯƠNG CÀI ĐẶT THỰC NGHIỆM MƠ HÌNH LSI 3.1 Bài tốn Cơ sở liệu đa phương tiện bao gồm văn bản, hình ảnh, âm video Mỗi loại liệu có tính chất đặc trưng riêng, phạm vi nghiên cứu biểu diễn, tổ chức, lưu trữ truy vấn liệu đa phương tiện lớn Trong đó, tài liệu văn loại liệu quan trọng, loại liệu thiếu quan, tổ chức, thư viện… người ta dùng để mơ tả loại liệu khác Trong máy tìm kiếm, loại liệu phải trài qua quy trình xử lý để tìm đặc trưng riêng đối tượng, sau đối sánh với yêu cầu để tìm liệu phù hợp Hệ thống truy tìm tài liệu văn khơng nằm ngồi quy trình đó, tài liệu xử lý tìm đại diện tài liệu, đồng thời câu truy vấn người sử dụng đưa vào xử lý để đưa đại diện truy vấn Quá trình tiền xử lý yêu cầu cách thức tìm đặc trưng tài liệu, cách thức tổ chức lưu trữ tài liệu, trình xử lý văn để loại yếu tố không cần thiết nhiều bước xử lý khác Bài toán tập trung vào bước đối sánh đại diện câu truy vấn với đại diện tài liệu, nghiên cứu kỹ thuật đem lại hiệu so sánh để đưa tài liệu phù hợp nhất, nhanh Trong thực tế, có nhiều kỹ thuật tìm kiếm, có kỹ thuật hiệu khơng cao song cách thức đơn giản, dễ hiểu, có kỹ thuật đem lại hiểu tốt, giảm bớt phức tạp song chưa linh hoạt có kỹ thuật xem tốt Một số kỹ thuật nghiên cứu phạm vi luận văn mơ hình Boolean; mơ hình khơng gian vectơ; mơ hình tìm kiếm sở cụm; mơ hình tìm kiếm theo xác xuất; mơ hình phản hồi phù hợp mơ hình tìm kiếm LSI Bài tốn tập trung vào mơ tả kỹ thuật LSI, cài đặt kỹ thuật ngơn ngữ lập trình C# sử dụng hệ quản trị sở liệu Microsoft Access Chương trình mơ thuật tốn tìm kiếm LSI, phương pháp chủ yếu tính tốn ma trận Các ma trận xây dựng từ tài liệu thuật ngữ xuất tài liệu đó, từ việc phân tích SVD để tính tốn, tìm tài liệu quan tâm dựa vào câu truy vấn Trong hệ thống tìm kiếm, số lượng tài liệu lớn, tài liệu lại có nhiều thuật ngữ khác nhau, ma trận thuật ngữ - tài liệu (term – document) lớn để trả tài liệu phù hợp phải đem so sánh yêu cầu với đối tượng Điều phức tạp gây tốn thời gian, dung lượng nhớ Kỹ thuật LSI nhằm giảm bớt phức tạp giai đoạn đem lại hiểu tìm kiếm LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 55 Bài tốn khơng sâu vào q trình tiền xử lý văn bản, mơ kỹ thuật đối sánh LSI cho thấy giảm lược chiều không gian thuật ngữ - tài liệu, tức giảm thiểu phức tạp đối sánh câu truy vấn tập liệu 3.2 Chức chương trình Chương trình tìm kiếm Tài liệu Thêm tài liệu Phân tích tìm kiếm Xóa tài liệu Bước 1: Tìm ma trận (txd) q Bước 2: Phân tích SVD Bước 3: Khơng gian giảm lược Bước cuối: Tìm tài liệu phù hợp xếp hạng Hình 3.1 Sơ đồ chức Tài liệu văn đọc vào bảng chứa tài liệu CSDL đưa mục danh sách tài liệu Nội dung tài liệu chọn danh sách hiển thị tài liệu đưa ra, sau gọi đến hàm có chức lấy danh sách từ phân tích tài liệu từ sở liệu hiển thị bảng hai chiều gồm từ số từ Qua q trình phân tích, kí tự dấu câu, kí tự nối (như dấu , : ; / ) bị loại bỏ đem lại từ, số lượng từ lấy từ nội dung tài liệu lưu vào CSDL theo bảng từ xuất từ thêm vào bảng số lượng từ có thay đổi Sau tài liệu phân tích xử lý, ma trận A (ma trận thuật ngữ - tài liệu) vecto câu truy vấn q (do người dùng đưa vào) tạo lập Dựa vào kỹ thuật phân tích SVD để phân tích ma trận A thành ma trận U, S, V thiết lập số k (k≤ số tài liệu) để xây dựng ma trận Uk, Sk Vk theo kỹ thuật tìm kiếm LSI Từ ma trận xây dựng được, tính q khoảng cách tài liệu với q để đưa kết tài liệu xem “gần” với câu truy vấn q Chức xử lý việc kết nối với sở liệu Access thông qua giao thức kết nối OLEDB, chứa hàm xử lý việc truy xuất, cập nhật, xóa liệu LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 56 3.3 Hoạt động chương trình Giao diện chương trình gồm chức chính: chức nhập thêm file; chức phân tích tìm kiếm Trong cửa sổ giao diện gồm: khung bên trái chứa file dạng text đưa vào, bên phải chứa thuật ngữ đánh mục tần số xuất thuật ngữ tài liệu chọn, nội dung file chọn Hình 3.2 Chức thêm tài liệu Lớp Tài liệu cho phép thêm file vào danh sách file chức Thêm Chức Xóa tài liêu cho phép bỏ file khơng mong muốn Hình 3.3 Chức xóa tài liệu Lớp Phân tích tìm kiếm mơ tả bước tìm kiếm phương pháp LSI Trong lớp này, người dùng đưa câu truy vấn đề tìm kiếm tài liệu phù hợp Bước biểu diễn ma trận thuật ngữ - tài liệu ma trận câu truy vấn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 57 Hình 3.4 Chức phân tích tìm kiếm bước Sử dụng kỹ thuật phân tích SVD Bước để ma trận Hình 3.5 Chức phân tích tìm kiếm bước LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 58 Hình 3.6 Chức phân tích tìm kiếm bước Trong Bước 3, chọn hệ số k – không gian giảm lược k chiều (giả sử ví dụ trên, chọn k =2) để giảm kích thước ma trận tính Bước Các bước cuối cùng, tài liệu xếp giảm dần theo tính phù hợp tài liệu với câu truy vấn Dựa vào Bước 4, 5, kết xác định vectơ tài liệu vectơ câu truy vấn không gian giảm lược k chiều Bước giúp việc tính toán khoảng cách vecto tài liệu vecto câu truy vấn, nhằm xác định tài liệu phù hợp dựa vào giá trị tính lớn Ví dụ cho thấy, vecto tài liệu document_1 “gần” với câu truy vấn đến document_3, document_2 Độ phù hợp tài liệu với câu truy vấn thể góc tạo vecto tài liệu với vecto câu truy vấn (góc nhỏ xem gần với yêu cầu truy vấn hơn) – hình 3.8 LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 59 Hình 3.7 Chức phân tích tìm kiếm bước cuối Document_1 (-0.4945,0.6492) 0.8 0.6 q (-0.1666,0.1923) 0.4 Document_3 (-0.5817,0.2469) 0.2 -0.2 -0.2 Document_2 (-0.6458,-0.7194) -0.4 -0.6 -0.8 Hình 3.8 Đồ thị biểu diễn vecto tài liệu vecto truy vấn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 60 KẾT LUẬN Qua tìm hiểu nghiên cứu, cho thấy tính ứng dụng, tính thiết thực hệ thống truy tìm thơng tin (IR) đa phương tiện nói chung truy tìm thơng tin văn nói riêng Luận văn sâu nghiên cứu vấn đề truy tìm văn sở nội dung qua số mơ hình cụ thể Qua trình nghiên cứu, luận văn đạt kết sau: - - Tìm hiểu tổng quan sở liệu đa phương tiện, tầm quan trọng sở liệu xã hội thông tin ngày Hiểu nguyên lý thiết kế CSDL đa phương tiện thông qua nhiệm vụ thiết kế Nghiên cứu cách thức hoạt động hệ thống truy tìm thơng tin nói chung nghiên cứu số vấn đề mục, tìm kiếm tài liệu văn sở nội dung nói riêng - - Tìm hiểu số mơ hình tìm kiếm như: Mơ hình Boolean sở, mở rộng; mơ hình khơng gian vectơ; mơ hình tìm kiếm sở cụm; mơ hình tìm kiếm theo xác xuất; mơ hình phản hồi phù hợp mơ hình tìm kiếm LSI Cài đặt thử nghiệm chương trình mơ thuật tốn tìm kiếm mơ hình LSI Bên cạnh đó, luận văn cịn số nhược điểm như: Chương trình mơ tả thuật tốn tìm kiếm, chưa mơ tả hồn thiện chương trình tìm kiếm Chưa so sánh chi tiết phương pháp tìm kiếm nêu ra; chưa đánh giá hiệu tìm kiếm phương pháp tập liệu cụ thể Hướng nghiên cứu: Hồn thiện chương trình tìm kiếm mơ hình LSI để đưa vào ứng dụng Tiếp tục tìm hiểu kỹ thuật tìm kiếm nâng cao dựa sở nội dung tài liệu văn nói riêng tìm kiếm sở liệu đa phương tiện nói chung Đánh giá khả tìm kiếm mơ hình liệu cụ thể LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 61 TÀI LIỆU THAM KHẢO Tiếng Việt PGS.TS Đặng Văn Đức (2004-2008), Bài giảng Cơ sở liệu đa phương tiện Tiếng Anh Karl Aberer (2003), d’informations répartis Data Mining, Laboratoire de systèmeses Ricardo Baeza, Berthier Ribeiro (1999), Modern Information Retrieval, ACM Press New York Jamie Callan (2008), Information Retrieval, Carnegie Mellon University Soumen Chakrabarti (2003), Mining the Web, Morgan Kaufmann Publishers Scott Deerwester et al (1990), Indexing by Latent Semantic Analysis, 10 11 12 13 Journal of The American Society for Information Science Edel Garcia (2006), Latent Semantic Indexing (LSI) A Fast Track Tutorial, Grossman and Frieder’s Information Retrieval, Algorithms and Heuristics David Hand, Heikki Mannila & Padhraic Smyth (2001), Principles of Data Mining, The MIT Press, pp 267-287 Chris Manning et al (2007), Information Retrieval and Lantent Semantic Indexing, Lecture Notes, Marcus Uneson E.G.M Petrakis, Multimedia Information Retrieval, University of Maryland Gerard Salton, Chris Buckley (1988), Parallel text search methods, Communications of the ACM Marcel Worring, Multimedia Information Systems, Lecture Notes, University of Amsterdam Justin Zobel, Alistair Moffat (2006), Inverted File for Text Search Engines, ACM Computing Surveys, Volume 38 Các trang web tham khảo: http://www.miislita.com/information-retrieval-tutorial/svd-lsi-tutorial-3full-svd.html http://www.bluebit.gr/matrix-calculator/ LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... quan sở liệu đa phương tiện, hệ thống tìm kiếm đa phương tiện đến kỹ thuật mục, xử lý tài liệu, trích lọc thơng tin đến chi tiết vấn đề tìm kiếm tài liệu văn Đặc biệt, nghiên cứu mơ hình tìm kiếm. .. truy tìm miền cụ thể kỹ thuật tìm kiếm kết hợp hiệu với truy vấn DBMS truyền thống 1.3.2 Vấn đề truy tìm tài liệu văn (Text retrieval) Kỹ thuật truy vấn tài liệu văn gọi chung kỹ thuật truy tìm. .. lớn liệu số, liệu từ tivi, internet, qua phương tiện truyền thơng hay có từ nhiều phương tiện khác máy quay (video) kỹ thuật số Các dòng liệu số ngày tăng, loại liệu đa phương tiện kết hợp liệu