Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 63 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
63
Dung lượng
379,7 KB
Nội dung
2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CƠNG NGHỆ NGUYỄN THỊ THU TRANG KỸ THUẬT TÌM KIẾM VĂN BẢN TRÊN CƠ SỞ NỘI DUNG TRONG CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN Ngành: Công nghệ Thông tin Chuyên ngành: Hệ thống Thông tin Mã số: 60 48 05 LUẬN VĂN THẠC SỸ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS ĐẶNG VĂN ĐỨC Hà Nội - 2010 MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU CHƢƠNG 1- TỔNG QUAN 1.1 Khái quát sở liệu (CSDL) đa phương tiện [1] [ 1.1.1 Giới thiệu 1.1.2 Mục tiêu 1.1.3 Mơ hình liệu đa phư 1.2 Trích chọn đặc trưng, mục đo tính tương tự [1] 1.2.1 Trích chọn đặc trưng 1.2.2 Chỉ số hóa cấu trúc 1.2.3 Đo tính tương tự 1.3 Hệ thống truy tìm thơng tin (IR-Information retrieval) [ 1.3.1 Khái quát 1.3.2 Vấn đề truy tìm tài liệu 1.3.3 Phân biệt hệ thống 1.4 xếp hạng tài liệu (Ranking) [1] [8] CHƢƠNG 2- MỘT SỐ KỸ THUẬT TÌM KIẾM 2.1 Các truy vấn Boolean mục tài liệu [1] [5] [11] 2.1.1 Truy vấn Boolean 2.1.2 Cấu trúc tệp 2.1.3 Các từ dừng từ gốc 2.1.4 Chỉ số hoá bổ sung 2.1.5 Kỹ thuật nén số (in 2.1.6 Chỉ mục tự động 2.2 Thước đo hiệu [1] [5] [8] 2.3 Mơ hình truy tìm khơng gian vectơ [1] [11] 2.4 Mơ hình truy tìm theo xác suất [1] [6] 2.5 Mơ hình truy tìm sở cụm [1] [6] 2.6 Kỹ thuật phản hồi phù hợp [1] [11] 2.7 Mơ hình LSI (Latent semantic indexing) [1] [5] [6] [7] 2.7.1 Ý tưởng LS 2.7.2 Một số khái niệm bả 2.7.3 Kỹ thuật SVD (singular CHƢƠNG 3- CÀI ĐẶT THỰC NGHIỆM MƠ HÌNH LSI 3.1 Bài tốn 3.2 Chức chương trình 3.3 Hoạt động chương trình KẾT LUẬN TÀI LIỆU THAM KHẢO DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIẾT TẮT Ký hiệu viết tắt CSDL DBMS IDF IR LSI MIRS SVD TF DANH MỤC CÁC BẢNG Bảng 1.1 Ma trận tài liệu - thuật ngữ Bảng 1.2 Ma trận kết tài liệu - thuật n Bảng 1.3 Kết khoảng cách từ truy vấn Bảng 2.1 Kết recall precision Bảng 2.2 Số lần xuất thuật ngữ tr DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hinh 1.1 Mơ hình liệu đa phương tiện Hình 1.2 Hệ thống IR tiêu biểu Hình 1.3 Tiến trình truy vấn tài liệu Hình 2.1 Sơ đồ trì số tập hợp động Hình 2.2 Mơ tả recall Hình 2.3 Mô tả Precision Hình 2.4 Đồ thị so sánh hiệu Hình 2.5 Sử dụng khái niệm cho truy vấn Hình 2.6 Biểu đồ 2-D 12 thuật ngữ tài liệu từ tập mẫu Hình 2.7 Sơ đồ SVD ma trận hình chữ nhật thuật ngữ- tài liệu Hình 2.8 Sơ đồ SVD giảm lược ma trận thuật ngữ-tài liệu Hình 2.9 Đồ thị Recall – Precision thuật tốn LSI Hình 3.1 Sơ đồ chức Hình 3.2 Chức thêm tài liệu Hình 3.3 Chức xóa tài liệu Hình 3.4 Chức phân tích tìm kiếm bước Hình 3.5 Chức phân tích tìm kiếm bước Hình 3.6 Chức phân tích tìm kiếm bước Hình 3.7 Chức phân tích tìm kiếm bước cuối Hình 3.8 Đồ thị biểu diễn vecto tài liệu vecto truy vấn MỞ ĐẦU Hàng nghìn năm trước người nhận thức tầm quan trọng việc lưu trữ tìm kiếm thơng tin Với phát triển máy tính, việc máy tính có khả lưu trữ thơng tin với số lượng lớn tìm kiếm thơng tin có ích từ tập hợp trở nên cần thiết Lĩnh vực truy tìm thơng tin (Information Retrieval - IR) đời vào năm 1950 nhu cầu thiết yếu Hơn 40 năm sau, lĩnh vực trưởng thành đáng kể, nhiều hệ thống IR sử dụng phổ biến với đa dạng trạng thái người sử dụng Sự phát triển lĩnh vực năm 1970 đến năm 1980 dựa tảng năm trước đó, nhiều mơ hình thực truy tìm tài liệu khác phát triển tiến theo khía cạnh q trình truy tìm Những mơ hình kỹ thuật chứng minh qua thực nghiệm, có hiệu tập hợp văn nhỏ, dùng cho nhà nghiên cứu thời gian Tuy nhiên, khơng có hiệu tập hợp văn lớn, câu hỏi có hay khơng mơ hình kỹ thuật đáp ứng với thể lớn chưa trả lời Sự thay đổi lớn vào năm 1992, với khởi đầu thảo luận truy tìm văn bản, sau loạt thảo luận kiểm định đứng đầu nhiều hãng khác Mỹ bảo hộ Viện Tiêu chuẩn Công nghệ quốc gia (NIST), nhằm vào việc khuyến khích nghiên cứu hệ thống IR với tập hợp văn lớn Những thuật toán IR phát triển năm từ năm 1996 đến năm 1998, kỹ thuật dùng cho việc tìm kiếm mạng tồn cầu Ngày nay, phát triển nhanh chóng lĩnh vực thơng tin Internet tạo khối lượng thông tin vô lớn với phong phú, đa dạng phức tạp loại hình thơng tin như: văn bản, hình ảnh, video, siêu văn bản, đa phương tiện… Tương ứng với khối lượng liệu khổng lồ đó, người ta quan tâm nhiều đến sở liệu đa phương tiện (Mutimedia Database) khoa học công nghệ thực tiễn Với hệ thống sở liệu đa phương tiện, bao gồm liệu dạng hình ảnh, video, audio văn (text) có xu thâm nhập vào nhiều lĩnh vực dần trở thành hệ sở liệu quan tâm từ người sử dụng chuyên gia vấn đề lưu trữ, xử lý ứng dụng Cho đến nay, vấn đề tìm kiếm thơng tin đa phương tiện chun gia nghiên cứu, việc truy tìm thơng tin phù hợp với yêu cầu truy vấn đưa từ người sử dụng Người sử dụng có xu hướng tìm kiếm chủ yếu hệ sở liệu đa phương tiện, ví dụ tìm kiếm loạt hình ảnh cổ vật liên quan đến văn hố cổ Việt Nam, tìm kiếm liệu âm có text kèm theo, tìm kiếm video giảng cho học sinh ôn thi đại học Để thực việc tìm kiếm sở liệu đa phương tiện người làm khoa học nghiên cứu công cụ, phương pháp, kỹ thuật tìm kiếm cho thuận tiện, xác nhanh chóng đem lại thơng tin phù hợp với yêu cầu người sử dụng Văn số dạng liệu đa phương tiện, quan tâm từ hàng nghìn năm trước việc tổ chức xếp lưu trữ, điển bảng nội dung sách Ngày nay, lớn mạnh thông tin với phần lớn dạng văn bản, xuất phát từ nhu cầu thực tế sử dụng người Tài liệu văn chiếm đa số quan tổ chức, đặc biệt thư viện cịn sử dụng để mơ tả dạng khác liệu đa phương tiện video, audio, hình ảnh Số lượng tài liệu văn ngày lớn có vai trị vơ quan trọng, việc việc lưu trữ, xử lý truy tìm thủ cơng trước khơng thể khó thực Cùng với đời phát triển máy tính, cơng cụ xử lý ngày hoàn thiện dựa kỹ thuật đại phục vụ cho nhu cầu Các mơ hình truy tìm hay sử dụng phạm vi này, là: Đối sánh xác, khơng gian vectơ, xác suất sở cụm Song, nhược điểm mơ hình truy tìm thơng tin từ mà người tìm kiếm sử dụng, thường không giống với từ đánh mục thơng tin tìm kiếm Vấn đề liên quan nhiều đến hai khía cạnh thực tế, tính đồng nghĩa (synonymy)cùng thông tin miêu tả từ khác nhau, phụ thuộc vào ngữ cảnh hay mức độ cần thiết, ví dụ như: nhìn, xem, trơng, thấy có ý nghĩa; tính đa nghĩa (polysemy) – từ có nhiều ý nghĩa khác ngữ cành khác nhau, ví dụ như: (có thể chuyển động hay mát) Kết truy tìm gồm tài liệu khơng liên quan, đơn giản thuật ngữ xuất ngẫu nhiên giống với thuật ngữ truy vấn mặt khác, tài liệu liên quan bị bỏ qua khơng chứa thuật ngữ xuất truy vấn (do tính đồng nghĩa) Một ý tưởng thú vị xem liệu việc truy tìm dựa vào khái niệm có hiệu so với truy tìm trực tiếp thuật ngữ Mơ hình LSI (Latent Semantic Indexing) đời, giải pháp hữu hiệu cho vấn đề truy tìm thơng tin dựa sở nội dung tài liệu văn bản, tìm kiếm sở khái niệm (không phải thuật ngữ đơn) Trước truy tìm, tài liệu coi danh sách từ chúng phải đánh mục Có thực tế tất từ có ý nghĩa, việc loại danh sách từ khơng có nghĩa vơ quan trọng từ khơng có ý nghĩa khơng đánh mục Từ thơng tin tóm lược người sử dụng biểu thị qua truy vấn, thuật toán truy tìm phải đảm bảo rằng, chiến lược xếp hạng tập tài liệu câu trả lời ưu tiên cho thơng tin có ích phù hợp với truy vấn người sử dụng đưa Hơn nữa, kỹ thuật đánh giá tốt phải dựa việc xếp hạng tài liệu này, tức tài liệu phù hợp coi “gần” với 10 câu truy vấn xếp lên tài liệu phù hợp danh sách tài liệu trả lời Đánh giá chất lượng IR phụ thuộc vào thước đo hiệu thực kỹ thuật dựa vào tham số chủ yếu độ xác (precison) số tài liệu gọi lại (recall) Trên sở đó, cấu trúc luận văn gồm phần mở đầu, kết luận, tài liệu tham khảo phần nội dung gồm ba chương trình bày theo thứ tự sau: Chương Giới thiệu tổng quan sở liệu đa phương tiện, xếp hạng tài liệu yếu tố phục vụ cho việc tìm kiếm thơng tin Khái qt hệ thống truy tìm thơng tin (IR) tiêu biểu cụ thể truy tìm tài liệu văn Chương Đề cập đến vấn đề mục tài liệu thước đo hiệu Nghiên cứu số mơ hình tìm kiếm như: Boolean, khơng gian vectơ, phân cụm, dựa xác suất, phản hồi phù hợp LSI Chương Cài đặt thực nghiệm mô hình LSI Nội dung luận văn từ tổng quan sở liệu đa phương tiện, hệ thống tìm kiếm đa phương tiện đến kỹ thuật mục, xử lý tài liệu, trích lọc thơng tin đến chi tiết vấn đề tìm kiếm tài liệu văn Đặc biệt, nghiên cứu mơ hình tìm kiếm sâu nghiên cứu mơ hình LSI- tìm kiếm văn sở nội dung 11 CHƢƠNG - TỔNG QUAN 1.1 Khái quát sở liệu (CSDL) đa phƣơng tiện [1] [10] [12] 1.1.1 Giới thiệu Trên giới tồn lượng lớn liệu số, liệu từ tivi, internet, qua phương tiện truyền thơng hay có từ nhiều phương tiện khác máy quay (video) kỹ thuật số Các dòng liệu số ngày tăng, loại liệu đa phương tiện kết hợp liệu hình ảnh, âm thanh, văn bản… Hiện nay, biết internet phát triển nào, rõ ràng trình tương tác trao đổi thơng tin, người sử dụng có xu hướng chủ yếu xử lý kiểu liệu đa phương tiện thấy phát triển kiểu liệu sống đại Tầm quan trọng việc sử dụng thông tin thay đổi từ thông tin dạng số rõ tới thông tin dạng đa phương tiện: liệu hình ảnh, âm tài liệu văn Vì thế, đa phương tiện thông điệp cho xã hội thông tin ngày Sự tương tác người sử dụng tự nhiên với thông tin thiết bị truyền thông, phạm vi rộng tạo xã hội có giá trị mặt Vì thế, dự đốn đa phương tiện thâm nhập vào tất hệ thống thông tin, từ công việc hàng ngày tới thương mại, công việc văn phòng chuyên nghiệp, giao tiếp với khách hàng, giáo dục, khoa học, nghệ thuật truyền rộng rãi qua internet Đa phương tiện trở thành dạng giao tiếp tự nhiên, khơng hồn tồn tự Ngữ nghĩa thơng điệp thơng tin số xác thực dịng bit hình ảnh âm Trong đó, tín hiệu hình ảnh biểu thị gì, ý nghĩa văn nói âm khơng dễ dàng lập luận với máy tính Những điều thuộc ngữ nghĩa cần xử lý từ liệu thơ việc tổ chức, chuyển đổi, phân tích phân lớp Khai thác đa phương tiện (multimedia) đầy đủ yêu cầu sử dụng video, tranh ảnh, âm ngơn ngữ Nó bao gồm tương tác máy với dạng đa phương thức Thêm vào đó, kiến thức hiểu biết dạng đa phương tiện có hiểu biết chất dịng thơng tin đa phương tiện Các hệ thống thông tin đa phương tiện lưu cung cấp truy cập đến dòng liệu, hệ thống ứng dụng thông tin tất dạng Trong phạm vi vấn đề này, đa phương tiện mô tả ứng dụng liệu thông tin máy tính qua dạng hình ảnh, ngôn ngữ tự nhiên âm Một số mơ hình ứng dụng đa phương tiện thiết bị điện tử, hệ thống lưu trữ kho chứa đa phương tiện lớn, sử dụng tài liệu điện tử đa phương tiện, y 46 - Các thuật tốn xây dụng SVD ma trận t×d có độ phức tạp O(d 3) dt documents X term t×d Hình 2.7 Sơ đồ SVD ma trận hình chữ nhật thuật ngữ- tài liệu Ma trận gốc thuật ngữ - tài liệu phân tích ba ma trận thành phần phụ thuộc tuyến tính Ví dụ, phân tích SVD ma trận sau: 4 X= 16 Trong đó: XXT = 12 - Tính D0 dựa vào ma trận XTX: + Trước tiên, tính giá trị riêng (giá trị số ít) dựa vào công thức Det(X-cI) = với c giá trị riêng I ma trận đơn vị: Det 25 c 15 Nên ta có: c2 – 50c +400 = Vậy, tính c1 = 40 c2 = 10 Dựa vào giá trị riêng để tính vecto riêng theo cơng thức: (X-cI)x = với x vecto riêng cần tìm + Với c1 = 40: 25 40 15 -15x1 – 15x2 = -15x1 – 15x2 = 0, x2 = -x1 x1 Nên ta có: x Ta tính được: L = 47 Và x1 = + Với c2 = 10, ta có x2 = x1 T - Tương tự, tính T0 dựa vào ma trận XX với giá trị riêng 40 10 T T Vì thế, ta có ma trận với giá trị riêng tăng dần tính từ X X XX - Ma trận chéo giá trị riêng S0 tính: Vậy, từ ma trận A phân tích SVD thành ma trận sau: 0.447 0.894 Nói chung, với X = T0S0D0T, ma trận T0, D0, S0 tất phải xếp hạng Sử dụng SVD nhận “xấp xỉ” X giá trị số lớn ˆ ma trận S0 Tích ma trận kết ma trận X xấp xỉ X có hạng k Việc lựa chọn k xác định “các khái niệm quan trọng”, với giả định khái niệm với giá trị số nhỏ S xem “nhiễu” bỏ qua Các giá trị số S0 xếp, k lớn giữ lại tập nhỏ lại nhận giá trị Khi đó, số đưa vào S 0, việc biểu diễn làm đơn giản hóa việc xóa hàng cột S0 để thu ma trận đường chéo S, sau xóa cột tương ứng T0 D0 để nhận T D tương ứng Kết mơ hình giảm lược: ˆ X≈ X =TSDT Mơ hình giảm lược, trình bày hình 2.8, sử dụng để xấp xỉ với liệu Documents term Hình 2.8 Sơ đồ SVD giảm lược ma trận thuật ngữ-tài liệu Ma trận thuật ngữ tài liệu gốc gần sử dụng k giá trị số lớn vectơ số tương ứng 48 Giảm lược SVD ma trận thuật ngữ- tài liệu X, đó: T, D ma trận trực giao S ma trận đường chéo giá trị số t số hàng X d số cột X m hạng X ( min(t,d)) k số chiều chọn mơ hình giảm lược (k m) Giảm lược số chiều, lựa chọn k tới hạn với thực Đúng ý tưởng, muốn giá trị k đủ lớn để phù hợp với đặc tính cấu trúc thực liệu, đủ nhỏ để lọc chi tiết không phù hợp hay chi tiết khơng quan trọng Ví dụ, ví dụ trước thực tính tốn với tài liệu (c1 c5, m1 m4) 12 thuật ngữ, ma trận X (12×9) cho số lần xuất thuật ngữ tài liệu: 1 1 0 010010000 X 0 0 Với ma trận 12×9 thuật ngữ tài liệu, X phân tích thành ba ma trận khác T0S0DT0, T0 D0 có cột trực giao T0 gồm vectơ giá trị số chiều với 12 thuật ngữ S0 ma trận đường chéo giá trị số D0 gồm vectơ giá trị số chiều với tài liệu T0 0.22 S 0.11 0.07 0.20 0.24 0.04 0.40 0.06 0.17 0.64 0.27 0.27 0.11 0.11 0.30 0.21 0.01 0.14 0.27 D 0.49 0.04 0.03 0.62 3.34 2.54 2.35 0.45 1.64 1.50 1.31 0.85 0.20 0.56 0.61 0.46 0.06 0.17 0.54 0.28 0.00 0.01 0.02 0.08 0.03 0.23 0.11 0.19 0.44 0.62 0.53 Bây giờ, tìm xấp xỉ X việc giữ lại hai giá trị số S0 cột tương ứng ma trận T ma trận D0 (Chú ý rằng, sử dụng kết hợp T0 D0 để xác định vị trí 12 thuật ngữ tài liệu, theo thứ tự định sẵn biểu diễn 2-chiều) Mơ hình giảm lược sau: ˆ X X = TSDT 0.22 0.20 0.24 0.40 0.64 0.27 0.30 0.27 0.21 0.01 0.04 0.03 0.20 0.06 0.09 0.16 ˆ X 0.22 0.06 0.04 0.19 0.05 0.22 0.22 0.42 0.66 0.85 0.62 0.06 0.04 Thơng thường, kích thước đơn miền lớn vừa phải 200 Xét ý nghĩa mang lại: Kích thước bảng tần số gốc giả sử (t×d), t tổng số thuật ngữ d tổng số tài liệu Dễ có đến t = triệu d = 10,000 CSDL tài liệu nhỏ Sau giảm thiểu, kích thước ba ma trận đơn giả sử cịn 200: - Kích thước ma trận thứ t×k Với số ta có triệ200 = 200 triệu đầu vào - Kích thước ma trận đơn 200×200 = 40,000 đầu vào (sự thật 40,000 đầu vào 200 cần phải lưu trữ, lại nhận giá trị 0) - Kích thước ma trận cuối k×d Với số ta có 200×10,000 =2 triệu đầu vào Cuối ta có khoảng 202 triệu đầu vào bảng sau áp dụng SVD 51 Ngược lại, (t×d) gần tới 10 tỷ, nói cách khác SVD làm giảm đáng kể không gian sử dụng khoảng 1/50 so với bảng gốc Chú ý: Trong nhiều trường hợp, ma trận gốc t×d ma trận rải rác, lưu trữ số phần tử nhỏ t×d nhiều Trong trường hợp phân tích SVD lại làm tăng tổng số lưu trữ Các phép so sánh kỹ thuật SVD Về bản, có ba phép so sánh cần quan tâm: So sánh hai thuật ngữ (trả lời câu hỏi “tương tự thuật ngữ i j nào?”); so sánh hai tài liệu (“tương tự tài liệu i j sao?”); so sánh thuật ngữ với tài liệu (“thuật ngữ i tài liệu j có mối quan hệ nào?”) Trong cách tiếp cận vấn đề truy tìm thơng tin, số lượng tương ứng để so sánh hai hàng với nhau, hai cột với hay xem xét ô riêng lẻ ma trận gốc, ma trận liệu term-document X Trong ˆ trường hợp này, tạo so sánh tương tự sử dụng ma trận , X coi biểu diễn mẫu quan trọng xác thực liệu X Với tương đồng tính tốn sử dụng ma trận nhỏ T, D ˆvà S So sánh hai thuật ngữ: Tích vơ hướng hai vectơ hàng phạm vi hai thuật ngữ có tương đồng qua tập tài liệu Ma trận ( X ˆ xác định ˆT X X ) ma trận vuông đối xứng chứa tích số thuật ngữ với thuật ngữ Với S ma trận chéo D ma trận trực giao, dễ dàng xác định được: ˆ X X ˆ T = TS2TT ˆ hàng i j ma trận TS Đó là, xét hàng TS tương đương với thuật ngữ tích điểm so sánh thuật ngữ So sánh hai tài liệu: Phân tích việc so sánh hai tài liệu tương đồng, trường hợp tích hai vectơ cột ma trận giá hai tài liệu tương đồng mô tả qua thuật ngữ Vì vậy, ma trận ( X X tích điểm tài liệu đến tài liệu Việc định nghĩa ma trận T, S D đảm bảo rằng: ˆ T X X ˆ = DS2DT Ở đây, ô (i,j) ( ˆT ˆ ) thu việc tính tích hàng i j ma X X trận DS Vì thế, coi hàng ma trận DS tương ứng với tài liệu So sánh thuật ngữ với tài liệu: Sự so sánh khác với hai so sánh trước Thay việc cố gắng để đánh giá tích điểm hàng hay cột so sánh chủ yếu thuật ngữ tài liệu dựa vào giá trị ô riêng ˆ lẻ trongX ˆ X 52 ˆ Bởi vậy, ô (i,j) X thu việc tính tích hàng i ma trận TS1/2 với hàng thứ j ma trận DS 1/2 Chú ý rằng, So sánh (như thuật ngữthuật ngữ hay tài liêu-tài liệu) gồm việc sử dụng hàng TS DS cho toạ độ Tìm kiếm p tài liệu phù hợp cho truy vấn q Với q truy vấn, ta coi q tài liệu tạo lập vectơ X q Tuy nhiên, có đặc điểm là: k khái niệm quan trọng xét xét tất t thuật ngữ Khi yêu cầu tìm p tài liệu phù hợp với q, ta phải tìm p tài liệu d1, , dp sau: Với i j p, tính tương tự Xq di lớn hay tính tương tự Xq dj, khơng có tài liệu dz mà tính tương tự dz Xq vượt q tính tương tự dp Hoặc, tính tốn độ tương đồng truy vấn tài liệu dựa tính tốn cosin - Chuyển véctơ truy vấn q không gian thuật ngữ sang véctơ qc không gian khái niệm: qc = DT q Mức độ tương tự truy vấn với tài liệu tính tích vơ hướng hay hệ số cosin qc hàng T Có thể biến đổi (ánh xạ từ X vào D): X = T0 * S0 * D0T S0-1 * T0T * X = D0T (lúc T0* T0T = 1) D0=XT*T0*S0-1 + Áp dụng biến đổi với q: qc = qT * T * S-1 + Sau so sánh vectơ thay đổi việc sử dụng biện pháp cosin chuẩn cos(qc ( DT )i biểu diễn cột thứ i ma trận DT - Làm việc với véctơ k chiều thay cho véctơ t chiều (k nhỏ t nhiều lần) Đánh giá hiệu mơ hình LSI Kiểm nghiệm thực tế với tập liệu MED, tập liệu chuẩn nghiên cứu lý thuyết tập hợp thuộc y học, gồm 1033 tài liệu 30 truy vấn Việc mục tự động tất thuật ngữ xuất nhiều tài liệu kết 5823 thuật ngữ đánh mục SVD hệ số 100 ma trận 5823 thuật ngữ với 1033 tài liệu sử dụng truy tìm hiệu quả, đánh giá dựa vào 30 câu 53 truy vấn có với tập liệu Đánh giá mơ hình LSI tập liệu MED dựa vào số recall precision biểu diễn sơ đồ sau: Precision Recall Hình 2.9 Đồ thị Recall – Precision thuật toán LSI Phương pháp LSI thực tốt mức thấp recall thể hai nhân tố: thứ nhất, độ xác (precision) tương đối tốt hệ thống mức recall thấp, mang lại khả cải tiến Thứ hai, LSI thiết kế chủ yếu để giải vấn đề tính đồng nghĩa (vì tăng recall); thành cơng vấn đề tính đa nghĩa (precision) 54 CHƢƠNG CÀI ĐẶT THỰC NGHIỆM MƠ HÌNH LSI 3.1 Bài toán Cơ sở liệu đa phương tiện bao gồm văn bản, hình ảnh, âm video Mỗi loại liệu có tính chất đặc trưng riêng, phạm vi nghiên cứu biểu diễn, tổ chức, lưu trữ truy vấn liệu đa phương tiện lớn Trong đó, tài liệu văn loại liệu quan trọng, loại liệu thiếu quan, tổ chức, thư viện… người ta dùng để mơ tả loại liệu khác Trong máy tìm kiếm, loại liệu phải trài qua quy trình xử lý để tìm đặc trưng riêng đối tượng, sau đối sánh với yêu cầu để tìm liệu phù hợp Hệ thống truy tìm tài liệu văn khơng nằm ngồi quy trình đó, tài liệu xử lý tìm đại diện tài liệu, đồng thời câu truy vấn người sử dụng đưa vào xử lý để đưa đại diện truy vấn Quá trình tiền xử lý yêu cầu cách thức tìm đặc trưng tài liệu, cách thức tổ chức lưu trữ tài liệu, trình xử lý văn để loại yếu tố không cần thiết nhiều bước xử lý khác Bài toán tập trung vào bước đối sánh đại diện câu truy vấn với đại diện tài liệu, nghiên cứu kỹ thuật đem lại hiệu so sánh để đưa tài liệu phù hợp nhất, nhanh Trong thực tế, có nhiều kỹ thuật tìm kiếm, có kỹ thuật hiệu khơng cao song cách thức đơn giản, dễ hiểu, có kỹ thuật đem lại hiểu tốt, giảm bớt phức tạp song chưa linh hoạt có kỹ thuật xem tốt Một số kỹ thuật nghiên cứu phạm vi luận văn mô hình Boolean; mơ hình khơng gian vectơ; mơ hình tìm kiếm sở cụm; mơ hình tìm kiếm theo xác xuất; mơ hình phản hồi phù hợp mơ hình tìm kiếm LSI Bài tốn tập trung vào mơ tả kỹ thuật LSI, cài đặt kỹ thuật ngơn ngữ lập trình C# sử dụng hệ quản trị sở liệu Microsoft Access Chương trình mơ thuật tốn tìm kiếm LSI, phương pháp chủ yếu tính tốn ma trận Các ma trận xây dựng từ tài liệu thuật ngữ xuất tài liệu đó, từ việc phân tích SVD để tính tốn, tìm tài liệu quan tâm dựa vào câu truy vấn Trong hệ thống tìm kiếm, số lượng tài liệu lớn, tài liệu lại có nhiều thuật ngữ khác nhau, ma trận thuật ngữ - tài liệu (term – document) lớn để trả tài liệu phù hợp phải đem so sánh yêu cầu với đối tượng Điều phức tạp gây tốn thời gian, dung lượng nhớ Kỹ thuật LSI nhằm giảm bớt phức tạp giai đoạn đem lại hiểu tìm kiếm 55 Bài tốn khơng sâu vào q trình tiền xử lý văn bản, mơ kỹ thuật đối sánh LSI cho thấy giảm lược chiều không gian thuật ngữ - tài liệu, tức giảm thiểu phức tạp đối sánh câu truy vấn tập liệu 3.2 Chức chƣơng trình Chƣơng trình tìm kiếm Tài liệu Thêm tài liệu Hình 3.1 Sơ đồ chức Tài liệu văn đọc vào bảng chứa tài liệu CSDL đưa mục danh sách tài liệu Nội dung tài liệu chọn danh sách hiển thị tài liệu đưa ra, sau gọi đến hàm có chức lấy danh sách từ phân tích tài liệu từ sở liệu hiển thị bảng hai chiều gồm từ số từ Qua trình phân tích, kí tự dấu câu, kí tự nối (như dấu , : ; / ) bị loại bỏ đem lại từ, số lượng từ lấy từ nội dung tài liệu lưu vào CSDL theo bảng từ xuất từ thêm vào bảng số lượng từ có thay đổi Sau tài liệu phân tích xử lý, ma trận A (ma trận thuật ngữ - tài liệu) vecto câu truy vấn q (do người dùng đưa vào) tạo lập Dựa vào kỹ thuật phân tích SVD để phân tích ma trận A thành ma trận U, S, V thiết lập số k (k≤ số tài liệu) để xây dựng ma trận Uk, Sk Vk theo kỹ thuật tìm kiếm LSI Từ ma trận xây dựng được, tính q khoảng cách tài liệu với q để đưa kết tài liệu xem “gần” với câu truy vấn q Chức xử lý việc kết nối với sở liệu Access thông qua giao thức kết nối OLEDB, chứa hàm xử lý việc truy xuất, cập nhật, xóa liệu 56 3.3 Hoạt động chƣơng trình Giao diện chương trình gồm chức chính: chức nhập thêm file; chức phân tích tìm kiếm Trong cửa sổ giao diện gồm: khung bên trái chứa file dạng text đưa vào, bên phải chứa thuật ngữ đánh mục tần số xuất thuật ngữ tài liệu chọn, nội dung file chọn Hình 3.2 Chức thêm tài liệu Lớp Tài liệu cho phép thêm file vào danh sách file chức Thêm Chức Xóa tài liêu cho phép bỏ file khơng mong muốn Hình 3.3 Chức xóa tài liệu Lớp Phân tích tìm kiếm mơ tả bước tìm kiếm phương pháp LSI Trong lớp này, người dùng đưa câu truy vấn đề tìm kiếm tài liệu phù hợp Bước biểu diễn ma trận thuật ngữ - tài liệu ma trận câu truy vấn ... tìm kiếm đa phương tiện đến kỹ thuật mục, xử lý tài liệu, trích lọc thơng tin đến chi tiết vấn đề tìm kiếm tài liệu văn Đặc biệt, nghiên cứu mơ hình tìm kiếm sâu nghiên cứu mơ hình LSI- tìm kiếm. .. truy tìm miền cụ thể kỹ thuật tìm kiếm kết hợp hiệu với truy vấn DBMS truyền thống 1.3.2 Vấn đề truy tìm tài liệu văn (Text retrieval) Kỹ thuật truy vấn tài liệu văn gọi chung kỹ thuật truy tìm. .. phú, đa dạng phức tạp loại hình thơng tin như: văn bản, hình ảnh, video, siêu văn bản, đa phương tiện? ?? Tương ứng với khối lượng liệu khổng lồ đó, người ta quan tâm nhiều đến sở liệu đa phương tiện