Kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện

55 35 0
Kỹ thuật tìm kiếm văn bản trên cơ sở nội dung trong cơ sở dữ liệu đa phương tiện

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ THU TRANG KỸ THUẬT TÌM KIẾM VĂN BẢN TRÊN CƠ SỞ NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐẶNG VĂN ĐỨC Hà Nội - 2010 MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƢƠNG 1- TỔNG QUAN 1.1 Khái quát sở liệu (CSDL) đa phương tiện [1] [10] [12] 11 11 1.1.1 Giới thiệu 1.1.2 Mục tiêu 11 13 1.1.3 Mơ hình liệu đa phương tiện 13 1.2 Trích chọn đặc trưng, mục đo tính tương tự [1] 1.2.1 Trích chọn đặc trưng 1.2.2 Chỉ số hóa cấu trúc 1.2.3 Đo tính tương tự 14 15 16 17 1.3 Hệ thống truy tìm thơng tin (IR-Information retrieval) [1] [3] [4] [9] [13] 17 1.3.1 Khái quát 1.3.2 Vấn đề truy tìm tài liệu văn (Text retrieval) 1.3.3 Phân biệt hệ thống IR DBMS (DataBase Manager System) 1.4 xếp hạng tài liệu (Ranking) [1] [8] 17 18 20 21 CHƢƠNG 2- MỘT SỐ KỸ THUẬT TÌM KIẾM 2.1 Các truy vấn Boolean mục tài liệu [1] [5] [11] 2.1.1 Truy vấn Boolean 2.1.2 Cấu trúc tệp 2.1.3 Các từ dừng từ gốc 25 25 25 26 27 2.1.4 Chỉ số hoá bổ sung 2.1.5 Kỹ thuật nén số (index compression) 2.1.6 Chỉ mục tự động 2.2 Thước đo hiệu [1] [5] [8] 28 29 31 33 2.3 Mơ hình truy tìm khơng gian vectơ [1] [11] 2.4 Mơ hình truy tìm theo xác suất [1] [6] 2.5 Mơ hình truy tìm sở cụm [1] [6] 2.6 Kỹ thuật phản hồi phù hợp [1] [11] 36 37 38 39 2.7 Mơ hình LSI (Latent semantic indexing) [1] [5] [6] [7] [8] [9] 40 2.7.1 Ý tưởng LSI 40 2.7.2 Một số khái niệm 42 2.7.3 Kỹ thuật SVD (singular value decomposition) 43 CHƢƠNG 3- CÀI ĐẶT THỰC NGHIỆM MƠ HÌNH LSI 3.1 Bài tốn 54 54 3.2 Chức chương trình 3.3 Hoạt động chương trình KẾT LUẬN TÀI LIỆU THAM KHẢO 55 56 60 61 DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu viết tắt Tiếng Anh Tiếng Việt CSDL DataBase Cơ sở liệu DBMS DataBase Manager System Hệ quản trị Cơ sở liệu IDF Inverse Document Frequency Tần số xuất tài liệu IR Information retrieval Truy tìm thơng tin LSI Latent Semantic Indexing Chỉ số hóa ngữ nghĩa ẩn MIRS Multimedia Information Retrieval Hệ thống truy tìm thơng tin đa System phương tiện SVD Singular Value Decomposition Tách giá trị riêng TF Term Frequency Tần số xuất thuật ngữ DANH MỤC CÁC BẢNG Bảng 1.1 Ma trận tài liệu - thuật ngữ 23 Bảng 1.2 Ma trận kết tài liệu - thuật ngữ TF-IDF 24 Bảng 1.3 Kết khoảng cách từ truy vấn Q với tài liệu 24 Bảng 2.1 Kết recall precision 35 Bảng 2.2 Số lần xuất thuật ngữ tài liệu 44 DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hinh 1.1 Mơ hình liệu đa phương tiện 14 Hình 1.2 Hệ thống IR tiêu biểu 19 Hình 1.3 Tiến trình truy vấn tài liệu 21 Hình 2.1 Sơ đồ trì số tập hợp động 29 Hình 2.2 Mơ tả recall 33 Hình 2.3 Mơ tả Precision 34 Hình 2.4 Đồ thị so sánh hiệu 35 Hình 2.5 Sử dụng khái niệm cho truy vấn 41 Hình 2.6 Biểu đồ 2-D 12 thuật ngữ tài liệu từ tập mẫu 45 Hình 2.7 Sơ đồ SVD ma trận hình chữ nhật thuật ngữ- tài liệu 46 Hình 2.8 Sơ đồ SVD giảm lược ma trận thuật ngữ-tài liệu 47 Hình 2.9 Đồ thị Recall – Precision thuật toán LSI 53 Hình 3.1 Sơ đồ chức 55 Hình 3.2 Chức thêm tài liệu 56 Hình 3.3 Chức xóa tài liệu 56 Hình 3.4 Chức phân tích tìm kiếm bước 57 Hình 3.5 Chức phân tích tìm kiếm bước 57 Hình 3.6 Chức phân tích tìm kiếm bước 58 Hình 3.7 Chức phân tích tìm kiếm bước cuối 59 Hình 3.8 Đồ thị biểu diễn vecto tài liệu vecto truy vấn 59 MỞ ĐẦU Hàng nghìn năm trước người nhận thức tầm quan trọng việc lưu trữ tìm kiếm thơng tin Với phát triển máy tính, việc máy tính có khả lưu trữ thơng tin với số lượng lớn tìm kiếm thơng tin có ích từ tập hợp trở nên cần thiết Lĩnh vực truy tìm thơng tin (Information Retrieval - IR) đời vào năm 1950 nhu cầu thiết yếu Hơn 40 năm sau, lĩnh vực trưởng thành đáng kể, nhiều hệ thống IR sử dụng phổ biến với đa dạng trạng thái người sử dụng Sự phát triển lĩnh vực năm 1970 đến năm 1980 dựa tảng năm trước đó, nhiều mơ hình thực truy tìm tài liệu khác phát triển tiến theo khía cạnh q trình truy tìm Những mơ hình kỹ thuật chứng minh qua thực nghiệm, có hiệu tập hợp văn nhỏ, dùng cho nhà nghiên cứu thời gian Tuy nhiên, khơng có hiệu tập hợp văn lớn, câu hỏi có hay khơng mơ hình kỹ thuật đáp ứng với thể lớn chưa trả lời Sự thay đổi lớn vào năm 1992, với khởi đầu thảo luận truy tìm văn bản, sau loạt thảo luận kiểm định đứng đầu nhiều hãng khác Mỹ bảo hộ Viện Tiêu chuẩn Công nghệ quốc gia (NIST), nhằm vào việc khuyến khích nghiên cứu hệ thống IR với tập hợp văn lớn Những thuật toán IR phát triển năm từ năm 1996 đến năm 1998, kỹ thuật dùng cho việc tìm kiếm mạng tồn cầu Ngày nay, phát triển nhanh chóng lĩnh vực thơng tin Internet tạo khối lượng thông tin vô lớn với phong phú, đa dạng phức tạp loại hình thơng tin như: văn bản, hình ảnh, video, siêu văn bản, đa phương tiện… Tương ứng với khối lượng liệu khổng lồ đó, người ta quan tâm nhiều đến sở liệu đa phương tiện (Mutimedia Database) khoa học công nghệ thực tiễn Với hệ thống sở liệu đa phương tiện, bao gồm liệu dạng hình ảnh, video, audio văn (text) có xu thâm nhập vào nhiều lĩnh vực dần trở thành hệ sở liệu quan tâm từ người sử dụng chuyên gia vấn đề lưu trữ, xử lý ứng dụng Cho đến nay, vấn đề tìm kiếm thơng tin đa phương tiện chuyên gia nghiên cứu, việc truy tìm thông tin phù hợp với yêu cầu truy vấn đưa từ người sử dụng Người sử dụng có xu hướng tìm kiếm chủ yếu hệ sở liệu đa phương tiện, ví dụ tìm kiếm loạt hình ảnh cổ vật liên quan đến văn hố cổ Việt Nam, tìm kiếm liệu âm có text kèm theo, tìm kiếm video giảng cho học sinh ôn thi đại học Để thực việc tìm kiếm sở liệu đa phương tiện người làm khoa học nghiên cứu công cụ, phương pháp, kỹ thuật tìm kiếm cho thuận tiện, xác nhanh chóng đem lại thơng tin phù hợp với yêu cầu người sử dụng Văn số dạng liệu đa phương tiện, quan tâm từ hàng nghìn năm trước việc tổ chức xếp lưu trữ, điển bảng nội dung sách Ngày nay, lớn mạnh thông tin với phần lớn dạng văn bản, xuất phát từ nhu cầu thực tế sử dụng người Tài liệu văn chiếm đa số quan tổ chức, đặc biệt thư viện cịn sử dụng để mơ tả dạng khác liệu đa phương tiện video, audio, hình ảnh Số lượng tài liệu văn ngày lớn có vai trị vơ quan trọng, việc việc lưu trữ, xử lý truy tìm thủ cơng trước khơng thể khó thực Cùng với đời phát triển máy tính, cơng cụ xử lý ngày hoàn thiện dựa kỹ thuật đại phục vụ cho nhu cầu Các mơ hình truy tìm hay sử dụng phạm vi này, là: Đối sánh xác, khơng gian vectơ, xác suất sở cụm Song, nhược điểm mơ hình truy tìm thơng tin từ mà người tìm kiếm sử dụng, thường không giống với từ đánh mục thơng tin tìm kiếm Vấn đề liên quan nhiều đến hai khía cạnh thực tế, tính đồng nghĩa (synonymy)cùng thơng tin miêu tả từ khác nhau, phụ thuộc vào ngữ cảnh hay mức độ cần thiết, ví dụ như: nhìn, xem, trơng, thấy có ý nghĩa; tính đa nghĩa (polysemy) – từ có nhiều ý nghĩa khác ngữ cành khác nhau, ví dụ như: (có thể chuyển động hay mát) Kết truy tìm gồm tài liệu khơng liên quan, đơn giản thuật ngữ xuất ngẫu nhiên giống với thuật ngữ truy vấn mặt khác, tài liệu liên quan bị bỏ qua khơng chứa thuật ngữ xuất truy vấn (do tính đồng nghĩa) Một ý tưởng thú vị xem liệu việc truy tìm dựa vào khái niệm có hiệu so với truy tìm trực tiếp thuật ngữ Mơ hình LSI (Latent Semantic Indexing) đời, giải pháp hữu hiệu cho vấn đề truy tìm thơng tin dựa sở nội dung tài liệu văn bản, tìm kiếm sở khái niệm (không phải thuật ngữ đơn) Trước truy tìm, tài liệu coi danh sách từ chúng phải đánh mục Có thực tế khơng phải tất từ có ý nghĩa, việc loại danh sách từ khơng có nghĩa vơ quan trọng từ khơng có ý nghĩa khơng đánh mục Từ thơng tin tóm lược người sử dụng biểu thị qua truy vấn, thuật toán truy tìm phải đảm bảo rằng, chiến lược xếp hạng tập tài liệu câu trả lời ưu tiên cho thơng tin có ích phù hợp với truy vấn người sử dụng đưa Hơn nữa, kỹ thuật đánh giá tốt phải dựa việc xếp hạng tài liệu này, tức tài liệu phù hợp coi “gần” với 10 câu truy vấn xếp lên tài liệu phù hợp danh sách tài liệu trả lời Đánh giá chất lượng IR phụ thuộc vào thước đo hiệu thực kỹ thuật dựa vào tham số chủ yếu độ xác (precison) số tài liệu gọi lại (recall) Trên sở đó, cấu trúc luận văn gồm phần mở đầu, kết luận, tài liệu tham khảo phần nội dung gồm ba chương trình bày theo thứ tự sau: Chương Giới thiệu tổng quan sở liệu đa phương tiện, xếp hạng tài liệu yếu tố phục vụ cho việc tìm kiếm thơng tin Khái qt hệ thống truy tìm thơng tin (IR) tiêu biểu cụ thể truy tìm tài liệu văn Chương Đề cập đến vấn đề mục tài liệu thước đo hiệu Nghiên cứu số mơ hình tìm kiếm như: Boolean, khơng gian vectơ, phân cụm, dựa xác suất, phản hồi phù hợp LSI Chương Cài đặt thực nghiệm mơ hình LSI Nội dung luận văn từ tổng quan sở liệu đa phương tiện, hệ thống tìm kiếm đa phương tiện đến kỹ thuật mục, xử lý tài liệu, trích lọc thơng tin đến chi tiết vấn đề tìm kiếm tài liệu văn Đặc biệt, nghiên cứu mơ hình tìm kiếm sâu nghiên cứu mơ hình LSI- tìm kiếm văn sở nội dung 11 CHƢƠNG - TỔNG QUAN 1.1 Khái quát sở liệu (CSDL) đa phƣơng tiện [1] [10] [12] 1.1.1 Giới thiệu Trên giới tồn lượng lớn liệu số, liệu từ tivi, internet, qua phương tiện truyền thơng hay có từ nhiều phương tiện khác máy quay (video) kỹ thuật số Các dòng liệu số ngày tăng, loại liệu đa phương tiện kết hợp liệu hình ảnh, âm thanh, văn bản… Hiện nay, biết internet phát triển nào, rõ ràng trình tương tác trao đổi thơng tin, người sử dụng có xu hướng chủ yếu xử lý kiểu liệu đa phương tiện thấy phát triển kiểu liệu sống đại Tầm quan trọng việc sử dụng thông tin thay đổi từ thông tin dạng số rõ tới thông tin dạng đa phương tiện: liệu hình ảnh, âm tài liệu văn Vì thế, đa phương tiện thơng điệp cho xã hội thông tin ngày Sự tương tác người sử dụng tự nhiên với thông tin thiết bị truyền thông, phạm vi rộng tạo xã hội có giá trị mặt Vì thế, dự đốn đa phương tiện thâm nhập vào tất hệ thống thông tin, từ công việc hàng ngày tới thương mại, công việc văn phòng chuyên nghiệp, giao tiếp với khách hàng, giáo dục, khoa học, nghệ thuật truyền rộng rãi qua internet Đa phương tiện trở thành dạng giao tiếp tự nhiên, khơng hồn tồn tự Ngữ nghĩa thơng điệp thơng tin số xác thực dịng bit hình ảnh âm Trong đó, tín hiệu hình ảnh biểu thị gì, ý nghĩa văn nói âm khơng dễ dàng lập luận với máy tính Những điều thuộc ngữ nghĩa cần xử lý từ liệu thô việc tổ chức, chuyển đổi, phân tích phân lớp Khai thác đa phương tiện (multimedia) đầy đủ yêu cầu sử dụng video, tranh ảnh, âm ngơn ngữ Nó bao gồm tương tác máy với dạng đa phương thức Thêm vào đó, kiến thức hiểu biết dạng đa phương tiện có hiểu biết chất dịng thơng tin đa phương tiện Các hệ thống thông tin đa phương tiện lưu cung cấp truy cập đến dòng liệu, hệ thống ứng dụng thông tin tất dạng Trong phạm vi vấn đề này, đa phương tiện mô tả ứng dụng liệu thơng tin máy tính qua dạng hình ảnh, ngơn ngữ tự nhiên âm Một số mơ hình ứng dụng đa phương tiện thiết bị điện tử, hệ thống lưu trữ kho chứa đa phương tiện lớn, sử dụng tài liệu điện tử đa phương tiện, y 42 Khi khai thác tài liệu tương tự với truy vấn (cũng xem tài liệu), ta đơn giản tìm cấu trúc số tạo (ở bước 4) tìm tài liệu tập hợp cho vectơ tài liệu gần với vectơ truy vấn, sử dụng thước đo chọn vectơ 2.7.2 Một số khái niệm Trước tiên, ta quan tâm tới số khái niệm sau: Xét ma trận term – document: - Gọi X ma trận term – document (td) với t hàng (các thuật ngữ) d cột (các tài liệu) Ví dụ, cho ma trận sau:  1 A  3 5  6 B  1  Ta nói, ma trận A có bậc (22), ma trận B có bậclà (24) Tích hai ma trận định nghĩa tổng quát sau: Cho hai ma trận M1 M2  a11  a M1     a n1  a12 a22 a2n1 a1m1   am2   amn11   b11  b M2     bn2  b21 b22 b2n bm1   bm2   bmn 22  Tích (M1M2) ma trận:  c11  c ( M xM )     c n2  c12 c 22 c 2n c1m1   c m2   c mn 21  đó, n1 c   (ari xb rj ) i j r 1 Ví dụ: 2 1 2 6  14 13  3 5  1 1 = 11 15 35 23       Với phần tử ma trận gán trọng số w ij, tính lược đồ tf-idf Một số khái niệm ma trận: - - Ma trận chuyển vị (transpose) AT: chuyển hàng ma trận A (mn) thành cột AT(mn) Ví dụ: 43 2 0  6  = 1  5    6 T 1 3 4  1 - Hai vectơ x, y bậc trực giao xTy = 10  0    x y   1  1  0 20 0 T - Ma trận A trực giao (ATA) ma trận đơn vị (identity) 1 0 1 0 1 0 AT A =     0 1 0 1 0 1 - Ma trận chéo A: + Ma trận chéo (diagonal) A:  A có bậc (m x m)  i ≠ j → A(i,j) = 0, với ≤ i, j ≤ m ví dụ: 1 0 X   0  1 0 Y  0 0 0 5 1 0 Z  0  0 0 0 0 0 0 0  2 Ma trận chéo phải ma trận vuông phần tử nằm đường chéo không thiết phải khác + Ma trận A bậc (m x m) không tăng (nonincreasing)  i ≤ j → A(i,i) ≥ A(j,j) , với ≤ i, j ≤ m Ý tưởng thực hiện, tách đặc trưng chủ yếu ma trận term-doc xấp xỉ ma trận nhỏ hơn, sử dụng kỹ thuật SVD (singular value decomposition) 2.7.3 Kỹ thuật SVD (singular value decomposition) Phân tích cấu trúc latent semantic bắt đầu với ma trận thuật ngữ - tài liệu Ma trận sau phân tích việc phân tích giá trị số (Singular value decomposition – SVD) để nhận mô hình cấu trúc latent semantic đặc biệt SVD có mối quan hệ mật thiết với số kỹ thuật toán học thống kê, bao gồm việc phân tích vectơ phân tích hệ số Ví dụ, bảng 2.2 đưa tập liệu Trong ví dụ này, tập tài liệu gồm có nhan đề ghi Các từ xuất nhiều nhan đề lựa chọn để đánh mục (được in nghiêng) Chú ý rằng, có hai lớp nhan đề: nhan đề tương tác người – máy tính (được gán c1- c5) nhan đề lý thuyết đồ thị 44 (được gán m1- m4) Mỗi phần tử ma trận thuật ngữ-tài liệu thường tần số xuất thuật ngữ thực tế xuất tài liệu Ở đây, giống ma trận sử dụng trực tiếp truy tìm dựa từ khóa hay đầu vào ban đầu việc phân tích SVD Trong ví dụ này, lựa chọn cẩn thận tài liệu thuật ngữ cho SVD đem lại giải pháp tốt sử dụng hai chiều Tiêu đề: c1: Giao diện máy cho ứng dụng máy tính Lab ABC với người c2: Nghiên cứu đánh giá người sử dụng thời gian hệ thống máy tính trả lời c3: Hệ thống quản lý giao diện người sử dụng EPS c4: Kiểm thử kỹ thuật xây dựng hệ thống người EPS c5: Mối quan hệ người sử dụng - thời gian trả lời thấy độ sai lệch đo lường m1: Sinh ngẫu nhiên, nhị phân, khơng có thứ bậc m2: Đồ thị tác động qua lại đường dẫn m3: Thứ bậc đồ thị: Chiều rộng thứ tự tốt m4: Thứ bậc đồ thị: Sự nghiên cứu Tài liệu Thuật ngữ c1 c2 c3 c4 c5 m1 người 0 0 giao diện 1 0 máy tính 1 0 người sử dụng 1 hệ thống trả lời thời gian M m3 m4 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 EPS 0 1 0 0 nghiên cứu 0 0 0 0 0 1 đồ thị 0 0 0 1 thứ bậc 0 0 0 1 Bảng 2.2 Số lần xuất thuật ngữ tài liệu Kiểm thử với việc tìm kiếm tài liệu phù hợp với truy vấn: “sự tương tác người với máy tính” Các kỹ thuật đối chiếu thuật ngữ đơn giản đưa kết tài liệu c1, c2 c4 chúng có hay nhiều thuật ngữ truy 45 vấn Tuy nhiên, hai tài liệu khác thích hợp c3 c5 bị bỏ sót chúng khơng có thuật ngữ chung với truy vấn Hình sau biểu diễn hình học hai chiều cho thuật ngữ tài liệu việc phân tích SVD Hình 2.6 Biểu đồ 2-D 12 thuật ngữ tài liệu từ tập mẫu Các thuật ngữ biểu diễn hình trịn đậm Các tài liệu biểu diễn hình vuông rỗng, thuật ngữ thành phần nằm dấu ngoặc đơn Truy vấn “sự tương tác người với máy tính” biểu diễn “giả tài liệu” q Các trục vẽ theo tỷ lệ cho so sánh tài liệu với tài liệu hay thuật ngữ với thuật ngữ Tất tài liệu người- máy tính (từ c1 đến c5) “gần” với truy vấn (giới hạn hình nón), khơng có tài liệu thuyết đồ thị (m1- m4) gần với truy vấn Trong không giản giảm lược này, chí tài liệu c3 c5 khơng đóng góp thuật ngữ với truy vấn Chi tiết kỹ thuật SVD Phần trình bày chi tiết sở tốn học đặc trưng mơ hình latent SVD Ví dụ với ma trận hình chữ nhật t×d thuật ngữ tài liệu X, phân tích với tích số ba ma trận khác nhau: X = T0S0D0T Trong - T0 D0 ma trận có cột trực giao - S0 ma trận chéo (m×m) giá trị số xếp giảm dần, m = min(t, d), hạng X - Phân rã tồn Cấu trúc SVD: - T0 ma trận vectơ riêng (giá trị số ít) nhận từ ma trận X×XT - D0 ma tận vectơ riêng (giá trị số ít) nhận từ ma trận XT×X 46 - Các thuật tốn xây dụng SVD ma trận t×d có độ phức tạp O(d3) dt documents term X S0 T0 = D0 T m×m t×d m×d t×m Hình 2.7 Sơ đồ SVD ma trận hình chữ nhật thuật ngữ- tài liệu Ma trận gốc thuật ngữ - tài liệu phân tích ba ma trận thành phần phụ thuộc tuyến tính Ví dụ, phân tích SVD ma trận sau: 4 0 X=   3  5 16 12   25 Trong đó: XXT =   ; 12 34 XTX =   15  15 25  - Tính D0 dựa vào ma trận XTX: + Trước tiên, tính giá trị riêng (giá trị số ít) dựa vào cơng thức Det(X-cI) = với c giá trị riêng I ma trận đơn vị: 25  c  15   =0   15 25  c  tức là: (25-c)(25-c)-(-15)(-15) = Det  Nên ta có: c2 – 50c +400 = Vậy, tính c1 = 40 c2 = 10 Dựa vào giá trị riêng để tính vecto riêng theo cơng thức: (X-cI)x = với x vecto riêng cần tìm + Với c1 = 40:  15  25  40   15 25  40   x1  x  =  2 0  0    -15x1 – 15x2 = -15x1 – 15x2 = 0, x2 = -x1 x   x  Nên ta có:   =    x   x1  Ta tính được: L = x12  x22 = x1 47  x1    Và x1 =  L  = x  1  L       0.707   1 =      0.707   + Với c2 = 10, ta có x2 = x1 - Tương tự, tính T0 dựa vào ma trận XXT với giá trị riêng 40 10 Vì thế, ta có ma trận với giá trị riêng tăng dần tính từ XTX XXT - Ma trận chéo giá trị riêng S0 tính:  12     6.32 S0 = 40     3.16 10   Vậy, từ ma trận A phân tích SVD thành ma trận sau:   0.447  0.894 6.32  0.894 0.447   3.16    0.707 0.707   0.707  0.707   Nói chung, với X = T0S0D0T, ma trận T0, D0, S0 tất phải xếp hạng Sử dụng SVD nhận “xấp xỉ” X giá trị số lớn ma trận S0 Tích ma trận kết ma trận Xˆ xấp xỉ X có hạng k Việc lựa chọn k xác định “các khái niệm quan trọng”, với giả định khái niệm với giá trị số nhỏ S0 xem “nhiễu” bỏ qua Các giá trị số S0 xếp, k lớn giữ lại tập nhỏ lại nhận giá trị Khi đó, số đưa vào S0, việc biểu diễn làm đơn giản hóa việc xóa hàng cột S0 để thu ma trận đường chéo S, sau xóa cột tương ứng T0 D0 để nhận T D tương ứng Kết mơ hình giảm lược: X ≈ Xˆ = TSDT Mơ hình giảm lược, trình bày hình 2.8, sử dụng để xấp xỉ với liệu Documents Xˆ term = T S k×k t×d DT k×d t×k Hình 2.8 Sơ đồ SVD giảm lược ma trận thuật ngữ-tài liệu Ma trận thuật ngữ tài liệu gốc gần sử dụng k giá trị số lớn vectơ số tương ứng 48 Giảm lược SVD ma trận thuật ngữ- tài liệu X, đó: T, D ma trận trực giao S ma trận đường chéo giá trị số t số hàng X d số cột X m hạng X (  min(t,d)) k số chiều chọn mơ hình giảm lược (k  m) Giảm lược số chiều, lựa chọn k tới hạn với thực Đúng ý tưởng, muốn giá trị k đủ lớn để phù hợp với đặc tính cấu trúc thực liệu, đủ nhỏ để lọc chi tiết không phù hợp hay chi tiết khơng quan trọng Ví dụ, ví dụ trước thực tính tốn với tài liệu (c1 c5, m1 m4) 12 thuật ngữ, ma trận X (12×9) cho số lần xuất thuật ngữ tài liệu: 1 1  1  0 0  X    0 0  0  0 0 0 1 1 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0  0 0  0 0  0 1  0  1 1 Với ma trận 12×9 thuật ngữ tài liệu, X phân tích thành ba ma trận khác T0S0DT0, T0 D0 có cột trực giao T0 gồm vectơ giá trị số chiều với 12 thuật ngữ S0 ma trận đường chéo giá trị số D0 gồm vectơ giá trị số chiều với tài liệu 49 0.22 0.20  0.24  0.40 0.64  0.27 T0   0.27  0.30  0.21   0.01  0.04 0.03  0.11 0.29  0.41  0.11  0.34 0.52  0.06  0.41  0.07 0.14 0.55 0.28 0.50  0.07  0.01  0.11 0.04  0.16  0.59  0.11  0.25  0.30 0.06 0.49   0.06  0.34 0.10 0.33 0.38 0.00 0.00 0.01   0.17 0.36 0.33  0.16  0.21  0.17 0.03 0.27   0.11  0.34 0.07 0.08  0.17 0.28  0.02  0.05 0.11  0.43 0.07 0.08  0.17 0.28  0.02  0.05   0.14 0.33 0.19 0.11 0.27 0.03  0.02  0.17 0.27  0.18  0.03  0.54 0.08  0.47  0.04  0.58  0.49 0.23 0.03 0.59  0.39  0.29 0.25  0.23  0.62 0.22 0.00  0.07 0.11 0.16  0.68 0.23  0.45 0.14  0.01  0.30 0.28 0.34 0.68 0.18  3.34    2.54     2.35   1.64     S0  1.50   1.31     0.85   0.56    0.36  0.20  0.06 0.11  0.95 0.05  0.61 0.17  0.50  0.03  0.21  0.46  0.03 0.21 0.04 0.38  0.27  0.21 0.54  0.23 0.57 D0  0.28 0.11  0.51 0.15 0.33  0.10 0.02 0.39 0.00 0.19  0.01 0.44 0.19 0.02 0.35  0.25 0.01 0.15 0.02 0.62 0.08 0.53 0.08  0.03  0.60   0.08  0.26 0.72  0.37 0.03  0.30  0.21 0.00 0.36 0.18  0.43  0.24 0.26 0.67  0.34  0.15 0.25  0,04  0.01 0.05 0.01  0.02  0.06 0.45  0.76 0.45  0.07  0.06 0.24  0.02    0.08  0.26   0.62 0.02   0.52   0.45 Bây giờ, tìm xấp xỉ X việc giữ lại hai giá trị số S0 cột tương ứng ma trận T0 ma trận D0 (Chú ý rằng, sử dụng kết hợp T0 D0 để xác định vị trí 12 thuật ngữ tài liệu, theo thứ tự định sẵn biểu diễn 2-chiều) Mơ hình giảm lược sau: X  Xˆ = TSDT 50 0.22  0.11 0.20  0.07    0.24 0.04    0.40 0.06  0.64  0.17    0.27 0.11  0.27 0.11    0.30  0.14  0.21 0.27     0.01 0.49    0.04 0.62   0.03 0.45   0.20 0.61  0.06 0.17   0.16  0.14   0.15   0.26  0.45  0.16 Xˆ   0.16   0.22  0.10   0.06   0.06  0.04 3.34   2.54  0.46 0.54 0.28 0.00 0.02 0.02 0,08  0.13  0.23 0.11 0.19 0.44 0.62 0.53 0.40 0.37 0.51 0.84 1.23 0.58 0.58 0.55 0.53 0.23 0.34 0.25 0.18  0.05  0.12  0.16  0.09 0.16  0.03  0.07  0.10  0.04 0.24 0.02 0.06 0.09 0.12   0.39 0.03 0.08 0.12 0.19  1.05 1.27 0.56  0.07  0.15  0.21  0.05  0.38 0.42 0.28 0.06 0.13 0.19 0.22  0.38 0.42 0.28 0.06 0.13 0.19 0.22   0.51 0.63 0.24  0.07  0.14  0.20  0.11 0.23 0.21 0.27 0.14 0.31 0.44 0.42    0.14  0.27 0.14 0.24 0.55 0.77 0.66    0.15  0.30 0.20 0.31 0.69 0.98 0.85   0.10  0.21 0.15 0.22 0.50 0.71 0.62  0.38 0.33 0.36 0.61 0.47 0.40 0.41 0.70 Thông thường, kích thước đơn miền lớn vừa phải 200 Xét ý nghĩa mang lại: Kích thước bảng tần số gốc giả sử (t×d), t tổng số thuật ngữ d tổng số tài liệu Dễ có đến t = triệu d = 10,000 CSDL tài liệu nhỏ Sau giảm thiểu, kích thước ba ma trận đơn giả sử cịn 200: - Kích thước ma trận thứ t×k Với số ta có triệ200 = - 200 triệu đầu vào Kích thước ma trận đơn 200×200 = 40,000 đầu vào (sự thật 40,000 đầu vào 200 cần phải lưu trữ, cịn lại nhận giá trị 0) Kích thước ma trận cuối k×d Với số ta có 200×10,000 =2 triệu đầu vào Cuối ta có khoảng 202 triệu đầu vào bảng sau áp dụng SVD 51 Ngược lại, (t×d) gần tới 10 tỷ, nói cách khác SVD làm giảm đáng kể không gian sử dụng khoảng 1/50 so với bảng gốc Chú ý: Trong nhiều trường hợp, ma trận gốc t×d ma trận rải rác, lưu trữ số phần tử nhỏ t×d nhiều Trong trường hợp phân tích SVD lại làm tăng tổng số lưu trữ Các phép so sánh kỹ thuật SVD Về bản, có ba phép so sánh cần quan tâm: So sánh hai thuật ngữ (trả lời câu hỏi “tương tự thuật ngữ i j nào?”); so sánh hai tài liệu (“tương tự tài liệu i j sao?”); so sánh thuật ngữ với tài liệu (“thuật ngữ i tài liệu j có mối quan hệ nào?”) Trong cách tiếp cận vấn đề truy tìm thông tin, số lượng tương ứng để so sánh hai hàng với nhau, hai cột với hay xem xét ô riêng lẻ ma trận gốc, ma trận liệu term-document X Trong trường hợp này, tạo so sánh tương tự sử dụng ma trận Xˆ , coi biểu diễn mẫu quan trọng xác thực liệu X Với Xˆ =TSDT, tương đồng tính tốn sử dụng ma trận nhỏ T, D S So sánh hai thuật ngữ: Tích vơ hướng hai vectơ hàng Xˆ xác định phạm vi hai thuật ngữ có tương đồng qua tập tài liệu Ma trận ( Xˆ Xˆ T) ma trận vuông đối xứng chứa tích số thuật ngữ với thuật ngữ Với S ma trận chéo D ma trận trực giao, dễ dàng xác định được: Xˆ Xˆ T = TS2TT Chú ý, điều có nghĩa ô (i,j) ( Xˆ Xˆ T) thu việc lấy tích hàng i j ma trận TS Đó là, xét hàng TS tương đương với thuật ngữ tích điểm so sánh thuật ngữ So sánh hai tài liệu: Phân tích việc so sánh hai tài liệu tương đồng, trường hợp tích hai vectơ cột ma trận Xˆ , cho biết khả đánh giá hai tài liệu tương đồng mô tả qua thuật ngữ Vì vậy, ma trận ( Xˆ Xˆ T) chứa tích điểm tài liệu đến tài liệu Việc định nghĩa ma trận T, S D đảm bảo rằng: Xˆ T Xˆ = DS2DT Ở đây, ô (i,j) ( Xˆ T Xˆ ) thu việc tính tích hàng i j ma trận DS Vì thế, coi hàng ma trận DS tương ứng với tài liệu So sánh thuật ngữ với tài liệu: Sự so sánh khác với hai so sánh trước Thay việc cố gắng để đánh giá tích điểm hàng hay cột Xˆ , so sánh chủ yếu thuật ngữ tài liệu dựa vào giá trị ô riêng lẻ Xˆ Xˆ định nghĩa thuật ngữ ma trận T, S D Xˆ = TSDT 52 TS1/2 Bởi vậy, ô (i,j) Xˆ thu việc tính tích hàng i ma trận với hàng thứ j ma trận DS1/2 Chú ý rằng, So sánh (như thuật ngữ- thuật ngữ hay tài liêu-tài liệu) gồm việc sử dụng hàng TS DS cho toạ độ Tìm kiếm p tài liệu phù hợp cho truy vấn q Với q truy vấn, ta coi q tài liệu tạo lập vectơ Xq Tuy nhiên, có đặc điểm là: k khái niệm quan trọng xét xét tất t thuật ngữ Khi yêu cầu tìm p tài liệu phù hợp với q, ta phải tìm p tài liệu d1, , dp sau: Với  i  j  p, tính tương tự Xq di lớn hay tính tương tự Xq dj, khơng có tài liệu dz mà tính tương tự dz Xq vượt tính tương tự dp Hoặc, tính tốn độ tương đồng truy vấn tài liệu dựa tính tốn cosin - Chuyển véctơ truy vấn q không gian thuật ngữ sang véctơ qc không gian khái niệm: qc = DT  q - Mức độ tương tự truy vấn với tài liệu tính tích vơ hướng hay hệ số cosin qc hàng T Có thể biến đổi (ánh xạ từ X vào D): X = T0 * S0 * D0T  S0-1 * T0T * X = D0T (lúc T0* T0T = 1)  D0 = XT * T0 * S0-1 + Áp dụng biến đổi với q: qc = qT * T * S-1 + Sau so sánh vectơ thay đổi việc sử dụng biện pháp cosin chuẩn cos(qc , d i )  qc * ( D T ) i | qc || ( DT ) i | ( D T )i biểu diễn cột thứ i ma trận D T - Làm việc với véctơ k chiều thay cho véctơ t chiều (k nhỏ t nhiều lần) Đánh giá hiệu mơ hình LSI Kiểm nghiệm thực tế với tập liệu MED, tập liệu chuẩn nghiên cứu lý thuyết tập hợp thuộc y học, gồm 1033 tài liệu 30 truy vấn Việc mục tự động tất thuật ngữ xuất nhiều tài liệu kết 5823 thuật ngữ đánh mục SVD hệ số 100 ma trận 5823 thuật ngữ với 1033 tài liệu sử dụng truy tìm hiệu quả, đánh giá dựa vào 30 câu 53 truy vấn có với tập liệu Đánh giá mơ hình LSI tập liệu MED dựa vào số recall precision biểu diễn sơ đồ sau: Precision Recall Hình 2.9 Đồ thị Recall – Precision thuật toán LSI Phương pháp LSI thực tốt mức thấp recall thể hai nhân tố: thứ nhất, độ xác (precision) tương đối tốt hệ thống mức recall thấp, mang lại khả cải tiến Thứ hai, LSI thiết kế chủ yếu để giải vấn đề tính đồng nghĩa (vì tăng recall); thành cơng vấn đề tính đa nghĩa (precision) 54 CHƢƠNG CÀI ĐẶT THỰC NGHIỆM MƠ HÌNH LSI 3.1 Bài tốn Cơ sở liệu đa phương tiện bao gồm văn bản, hình ảnh, âm video Mỗi loại liệu có tính chất đặc trưng riêng, phạm vi nghiên cứu biểu diễn, tổ chức, lưu trữ truy vấn liệu đa phương tiện lớn Trong đó, tài liệu văn loại liệu quan trọng, loại liệu thiếu quan, tổ chức, thư viện… người ta dùng để mơ tả loại liệu khác Trong máy tìm kiếm, loại liệu phải trài qua quy trình xử lý để tìm đặc trưng riêng đối tượng, sau đối sánh với yêu cầu để tìm liệu phù hợp Hệ thống truy tìm tài liệu văn khơng nằm ngồi quy trình đó, tài liệu xử lý tìm đại diện tài liệu, đồng thời câu truy vấn người sử dụng đưa vào xử lý để đưa đại diện truy vấn Quá trình tiền xử lý yêu cầu cách thức tìm đặc trưng tài liệu, cách thức tổ chức lưu trữ tài liệu, trình xử lý văn để loại yếu tố không cần thiết nhiều bước xử lý khác Bài toán tập trung vào bước đối sánh đại diện câu truy vấn với đại diện tài liệu, nghiên cứu kỹ thuật đem lại hiệu so sánh để đưa tài liệu phù hợp nhất, nhanh Trong thực tế, có nhiều kỹ thuật tìm kiếm, có kỹ thuật hiệu không cao song cách thức đơn giản, dễ hiểu, có kỹ thuật đem lại hiểu tốt, giảm bớt phức tạp song chưa linh hoạt có kỹ thuật xem tốt Một số kỹ thuật nghiên cứu phạm vi luận văn mơ hình Boolean; mơ hình khơng gian vectơ; mơ hình tìm kiếm sở cụm; mơ hình tìm kiếm theo xác xuất; mơ hình phản hồi phù hợp mơ hình tìm kiếm LSI Bài tốn tập trung vào mô tả kỹ thuật LSI, cài đặt kỹ thuật ngơn ngữ lập trình C# sử dụng hệ quản trị sở liệu Microsoft Access Chương trình mơ thuật tốn tìm kiếm LSI, phương pháp chủ yếu tính tốn ma trận Các ma trận xây dựng từ tài liệu thuật ngữ xuất tài liệu đó, từ việc phân tích SVD để tính tốn, tìm tài liệu quan tâm dựa vào câu truy vấn Trong hệ thống tìm kiếm, số lượng tài liệu lớn, tài liệu lại có nhiều thuật ngữ khác nhau, ma trận thuật ngữ - tài liệu (term – document) lớn để trả tài liệu phù hợp phải đem so sánh yêu cầu với đối tượng Điều phức tạp gây tốn thời gian, dung lượng nhớ Kỹ thuật LSI nhằm giảm bớt phức tạp giai đoạn đem lại hiểu tìm kiếm 55 Bài tốn khơng sâu vào trình tiền xử lý văn bản, mô kỹ thuật đối sánh LSI cho thấy giảm lược chiều không gian thuật ngữ - tài liệu, tức giảm thiểu phức tạp đối sánh câu truy vấn tập liệu 3.2 Chức chƣơng trình Chƣơng trình tìm kiếm Tài liệu Thêm tài liệu Phân tích tìm kiếm Xóa tài liệu Bƣớc 1: Tìm ma trận (txd) q Bƣớc 2: Phân tích SVD Bƣớc 3: Khơng gian giảm lƣợc Bƣớc cuối: Tìm tài liệu phù hợp xếp hạng Hình 3.1 Sơ đồ chức Tài liệu văn đọc vào bảng chứa tài liệu CSDL đưa mục danh sách tài liệu Nội dung tài liệu chọn danh sách hiển thị tài liệu đưa ra, sau gọi đến hàm có chức lấy danh sách từ phân tích tài liệu từ sở liệu hiển thị bảng hai chiều gồm từ số từ Qua trình phân tích, kí tự dấu câu, kí tự nối (như dấu , : ; / ) bị loại bỏ đem lại từ, số lượng từ lấy từ nội dung tài liệu lưu vào CSDL theo bảng từ xuất từ thêm vào bảng số lượng từ có thay đổi Sau tài liệu phân tích xử lý, ma trận A (ma trận thuật ngữ - tài liệu) vecto câu truy vấn q (do người dùng đưa vào) tạo lập Dựa vào kỹ thuật phân tích SVD để phân tích ma trận A thành ma trận U, S, V thiết lập số k (k≤ số tài liệu) để xây dựng ma trận Uk, Sk Vk theo kỹ thuật tìm kiếm LSI Từ ma trận xây dựng được, tính q khoảng cách tài liệu với q để đưa kết tài liệu xem “gần” với câu truy vấn q Chức xử lý việc kết nối với sở liệu Access thông qua giao thức kết nối OLEDB, chứa hàm xử lý việc truy xuất, cập nhật, xóa liệu 56 3.3 Hoạt động chƣơng trình Giao diện chương trình gồm chức chính: chức nhập thêm file; chức phân tích tìm kiếm Trong cửa sổ giao diện gồm: khung bên trái chứa file dạng text đưa vào, bên phải chứa thuật ngữ đánh mục tần số xuất thuật ngữ tài liệu chọn, nội dung file chọn Hình 3.2 Chức thêm tài liệu Lớp Tài liệu cho phép thêm file vào danh sách file chức Thêm Chức Xóa tài liêu cho phép bỏ file khơng mong muốn Hình 3.3 Chức xóa tài liệu Lớp Phân tích tìm kiếm mơ tả bước tìm kiếm phương pháp LSI Trong lớp này, người dùng đưa câu truy vấn đề tìm kiếm tài liệu phù hợp Bước biểu diễn ma trận thuật ngữ - tài liệu ma trận câu truy vấn

Ngày đăng: 23/09/2020, 21:22

Từ khóa liên quan

Mục lục

  • MỤC LỤC

  • DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT

  • DANH MỤC CÁC BẢNG

  • DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ

  • MỞ ĐẦU

  • CHƯƠNG 1 - TỔNG QUAN

  • 1.1 Khái quát về cơ sở dữ liệu (CSDL) đa phƣơng tiện [1] [10] [12]

  • 1.1.1 Giới thiệu

  • 1.1.2 Mục tiêu chính

  • 1.1.3 Mô hình dữ liệu đa phương tiện

  • 1.2 Trích chọn đặc trưng, chỉ mục và đo tính tương tự [1]

  • 1.2.1 Trích chọn đặc trưng

  • 1.2.2 Chỉ số hóa cấu trúc

  • 1.2.3 Đo tính tương tự

  • 1.3 Hệ thống truy tìm thông tin (IR-Information retrieval) [1] [3] [4] [9] [13]

  • 1.3.1 Khái quát

  • 1.3.2 Vấn đề truy tìm tài liệu văn bản (Text retrieval)

  • 1.3.3 Phân biệt các hệ thống IR và DBMS (DataBase Manager System)

  • 1.4 xếp hạng tài liệu (Ranking) [1] [8]

  • CHƯƠNG 2. MỘT SỐ KỸ THUẬT TÌM KIẾM

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan