Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 86 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
86
Dung lượng
1,11 MB
Nội dung
LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành đến PGS.TS Đặng Văn Đức, người tận tình hướng dẫn, giúp đỡ em suốt thời gian thực luận văn Con cảm ơn Cha, Mẹ gia đình, người dạy dỗ, khuyến khích, động viên lúc khó khăn, tạo điều kiện cho chúng nghiên cứu học tập Em cảm ơn thầy, cô Viện Công Nghệ Thông Tin Hà Nội thầy cô Khoa Công nghệ thơng tin – ĐH Thái Ngun dìu dắt, giảng dạy em, giúp em có kiến thức quý báu năm học qua Cảm ơn bạn tận tình động viên đóng góp ý kiến cho luận văn Mặc dù cố gắng với tận tâm thầy giáo hướng dẫn song trình độ cịn hạn chế, nội dung đề tài cịn mẻ nên Luận văn khó tránh khỏi thiếu sót Em mong nhận thơng cảm góp ý thầy bạn Thái Nguyên, tháng 11/2008 Học viên Phạm Thị Ngọc -1Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỤC LỤC MỤC LỤC DANH MỤC CÁC TỪ TIẾNG ANH VÀ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH, ĐỒ THỊ MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN (MDBMS) 1.1 Mục đích MDBMS 1.2 Các yêu cầu MDBMS 11 1.2.1 Khả quản trị lưu trữ lớn 13 1.2.2 Hỗ trợ truy vấn khai thác liệu 14 1.2.3 Tích hợp phương tiện, tổng hợp thể 14 1.2.4 Giao diện tương tác 15 1.2.5 Hiệu suất 15 1.3 Các vấn đề MDBMS .16 1.3.1 Mơ hình hố liệu MULTIMEDIA 16 1.3.2 Lưu trữ đối tượng MULTIMEDIA 17 1.3.3 Tích hợp Multimedia, thể chất lượng dịch vụ (QoS) 19 1.3.4 Chỉ số hoá Multimedia 20 1.3.5 Hỗ trợ truy vấn Multimedia, khai thác duyệt qua 21 1.3.6 Quản trị CSDL Multimedia phân tán 22 1.3.7 Sự hỗ trợ hệ thống 23 1.4 Kết luận 23 CHƯƠNG 2: MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM VĂN BẢN THEO NỘI DUNG 25 2.1 Giới thiệu hệ tìm kiếm thông tin 25 2.1.1 Kỹ thuật tìm kiếm thơng tin 25 2.1.2 Một số vấn đề tìm kiếm thơng tin 26 -2Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 2.1.3 Hệ thống tìm kiếm thông tin – IR 27 2.1.4 Sự khác biệt hệ thống IR hệ thống thông tin khác 32 2.1.5 Các hệ tìm kiếm văn thường sử dụng 34 2.2 Một số kỹ thuật tìm kiếm văn theo nội dung 35 2.2.1 Chỉ mục tự động văn mơ hình tìm kiếm Bool 35 2.2.1.1 Mơ hình tìm kiếm Bool sở 35 2.2.1.2 Tìm kiếm Bool mở rộng 37 2.2.1.3 Các bước để xây dựng hệ thống tìm kiếm thơng tin – IR 39 2.2.1.4 Lập mục tài liệu 40 2.2.2 Mơ hình tìm kiếm không gian vector 51 2.2.2.1 Mơ hình tìm kiếm khơng gian vector sở 51 2.2.2.2 Kỹ thuật phản hồi phù hợp (Relevance Feedback Technique) .53 2.2.3 Thước đo hiệu 55 2.3 Ví dụ 56 2.4 Kết luận 58 CHƯƠNG 3: MỘT SỐ KỸ THUẬT NÂNG CAO HIỆU NĂNG TÌM KIẾM VĂN BẢN .59 3.1 Giới thiệu .59 3.2 Một số kỹ thuật nâng cao hiệu tìm kiếm đa phương tiện 60 3.2.1 Lọc phân lớp, thuộc tính có cấu trúc từ khóa .60 3.2.2 Các phương pháp sở tính khơng tam giác 61 3.2.3 Mơ hình tìm kiếm sở cụm (cluster-based) 63 3.2.3.1 Sinh cụm 63 3.2.3.2 Tìm kiếm sở cụm 64 3.2.4 Chỉ mục ngữ nghĩa tiềm ẩn (LSI) để tìm kiếm thơng tin sở không gian vector 64 3.3 Kỹ thuật LSI 66 3.3.1 Giới thiệu LSI 66 3.3.2 Phương pháp luận LSI 67 -3Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG 4: PHÁT TRIỂN CHƯƠNG TRÌNH THỬ NGHIỆM 79 4.1 Giới thiệu toán 79 4.2 Chức chương trình 79 4.3 Quy trình phát triển ứng dụng 79 4.3.1 Xây dựng ma trận Term – Doc .80 4.3.2 Lập mục tài liệu 80 4.3.3 Xây dựng ma trận trọng số 80 4.3.4 Tìm kiếm theo mơ hình vector 81 4.3.5 Phương pháp LSI 81 4.2 Cài đặt thử nghiệm 82 4.2.1 Giao diện hình lập mục 82 4.2.2 Giao diện hình cập nhập mục 83 4.2.2 Tìm kiếm tài liệu theo mơ hình vector 83 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 84 TÀI LIỆU THAM KHẢO 86 -4Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC TỪ TIẾNG ANH VÀ VIẾT TẮT Từ gốc Giải nghĩa Cluster-based Cơ sở cụm CSDL Cơ sở liệu DBMS (Database Management System) Hệ quản trị sở liệu MDBMS (Multimedia Database Hệ quản trị sở liệu đa phương tiện Management System) Doc Tài liệu Docs Nhiều tài liệu DSS (Decision Support Systems) Hệ hỗ trợ định Exact match Đối sánh xác IMS (Information Management System) Hệ quản lý thông tin Index Chỉ mục IR (Information Retrieval) Truy tìm thơng tin IRS (Information Retrieval System) Hệ truy tìm thơng tin LSI (Latent Semantic Indexing) Chỉ mục ngữ nghĩa tiềm ẩn MultiMedia Truyền thông da phương tiện Precision Độ xác QAS (Question Anser System) Hệ trả lời câu hỏi Query Truy vấn Term Thuật ngữ (từ) Ranking Sắp xếp Record Bản ghi Recall Khả tìm thấy SC (Similarity Coeficient) Độ tương quan SVD (Singular Value Decomposition) Kỹ thuật tách giá trị đơn Text-partern Mẫu văn The Term Discrimination Value Giá trị phân biệt từ The Signal – Noise Ratio Độ nhiễu tín hiệu -5- Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com DANH MỤC CÁC BẢNG Bảng 2.2: Cách tập tin nghịch đảo lưu trữ 43 Bảng 2.3 Cách tập tin trực tiếp lưu trữ 43 Bảng 2.4: Thêm tài liệu vào tập tin nghịch đảo 44 Bảng 2.5: Danh sách từ dừng tiếng Anh 49 Bảng 3.1: Bảng khoảng cách đối tượng CSDL đến vector so sánh 62 DANH MỤC CÁC HÌNH, ĐỒ THỊ Hình1.1 Kiến trúc bậc cao cho MDBMS đáp ứng yêu cầu cho liệu MULTIMEDI 10 Hình 1.2 Mơ hình khả lưu trữ hệ thống Multimedia .13 Hình 2.1 Mơ hình tổng qt tìm kiếm thơng tin 28 Hình 2.3 Mơ hình kiến trúc hệ tìm kiếm thơng tin 31 Hình 2.4 Cấu trúc hệ tìm kiếm thơng tin tiêu biểu .31 Hình 2.5 Các từ theo thứ tự 46 Hình 2.6 Mơ hình minh hoạ mối quan hệ tài liệu D1 đến D5 thuật ngữ “CAR” 48 Hình 2.7 Quá trình chọn từ làm mục .50 Hình 2.8 Mơ hình thước đo hiệu .55 Hình 2.9 Đồ thị so sánh hiệu 56 Hình 3.1 Mơ hình LSI 67 Hình 3.2 Mơ hình tính tốn xếp thứ hạng cho tài liệu .68 Hình 3.3 Minh hoạ kỹ thuật Chỉ số hố ngữ nghĩa tiềm ẩn (LSI) .69 Hình 3.4 Mơ hình minh hoạ tách giá trị đơn (SVD) 75 Hình 4.1 Giao diện hình lập mục 82 Hình 4.2 Giao diện hình cập nhập mục 83 Hình 4.3 Giao diện tìm kiếm theo mơ hình vector .83 -6Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com MỞ ĐẦU Cùng với phát triển nhanh chóng cơng nghệ tin học khối lượng liệu đa phương tiện (Multimedia) thu thập lưu trữ dạng số ngày nhiều dẫn tới việc tìm kiếm liệu đa phương tiện trở nên khó khăn cần có hệ thống tìm kiếm thơng tin (Information Retrieval) hỗ trợ người dùng tìm kiếm cách xác nhanh chóng thông tin mà họ cần kho tư liệu khổng lồ Hiện có số hệ thống tìm kiếm GoogleDesktop, DTSearch, Lucene, nhiên hệ thống sử dung kỹ thuật tìm kiếm đơn giản nên hiệu cịn chưa cao Vì mục tiêu luận văn nhằm tìm hiểu số kỹ thuật nâng cao tìm kiếm thơng tin, cụ thể tìm kiếm văn theo nội dung sở liệu đa phương tiện nhằm đáp ứng nhu cầu cấp thiết thời đại bùng nổ thông tin điện tử Bố cục luận văn gồm phần sau: + CHƯƠNG 1: TỔNG QUAN VỀ HỆ QUẢN TRỊ CSDL ĐA PHƯƠNG TIỆN: Phần giới thiệu tổng quan hệ quản trị CSDL đa phương tiện + CHƯƠNG 2: MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM VĂN BẢN - Trình bày v ấn đềvề hệ tìm kiếm thơng tin - Trình bày kỹ thuật sở mục văn sở mơ hình Bool mơ hình vector + CHƯƠNG 3: MỘT SỐ KỸ THUẬT NÂNG CAO HIỆU NĂNG TÌM KIẾM VĂN - Trình bày sở lý thuyết số kỹ thuật mục nâng cao - Giới thiệu kỹ thuật mục nâng cao LSI + CHƯƠNG 4: PHÁT TRIỂN CHƯƠNG TRÌNH THỬ NGHIỆM: Chương phát triển chương trình thử nghiệm áp dụng kỹ thuật mục kỹ thuật tìm kiếm văn theo nội dung sở liệu đa phương tiện + KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: Trình bày kết đạt luận văn nêu phương hướng phát triển đề tài tương lai + TÀI LIỆU THAM KHẢO PHỤ LỤC: Trình bày thơng tin liên quan đến luận văn -7Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG 1: TỔNG QUAN HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN (MDBMS) Trung tâm hệ thống thơng tin đa phương tiện (MULTIMEDIA) hệ quản trị CSDL MULTIMEDIA (MDBMS - Multimedia Database Management System) Theo truyền thống, CSDL bao gồm liệu có liên quan thực thể cho trước hệ quản trị CSDL (DBMS) liệu có liên quan đến với tập hợp chương trình dùng để khai báo, tạo lập, lưu trữ, truy cập truy vấn CSDL Tương tự vậy, xem CSDL MULTIMEDIA tập loại liệu Multimedia văn bản, hình ảnh, video, âm thanh, đối tượng đồ hoạ… Một hệ quản trị CSDL MULTIMEDIA cung cấp hỗ trợ cho loại liệu MULTIMEDIA việc tạo lập, lưu trữ, truy cập, truy vấn kiểm soát Sự khác kiểu liệu CSDL MULTIMEDIA địi hỏi phương thức đặc biệt để tối ưu hoá việc lưu trữ, truy cập, số hoá khai thác MDBMS cần phải cung cấp yêu cầu đặc biệt cách cung cấp chế tóm tắt bậc cao để quản lý kiểu liệu khác giao diện thích hợp để thể chúng 1.1 Mục đích MDBMS Một MDBMS cung cấp mơi trường thích hợp để sử dụng quản lý thơng tin CSDL MULTIMEDIA Vì vậy, phải hỗ trợ kiểu liệu MULTIMEDIA khác bên cạnh việc phải cung cấp đầy đủ chức DBMS truyền thống khai báo tạo lập CSDL, khai thác liệu, truy cập tổ chức liệu, độc lập liệu, tính riêng, tồn vẹn liệu, kiểm soát phiên Các chức MDBMS tương tự chức DBMS, nhiên, chất thông tin MULTIMEDIA tạo đòi hỏi Bằng cách sử dụng chức tổng qt DBMS trình bày mục đích MDBMS sau: -8Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com • Sự thống nhất: bảo đảm liệu tạo lại chương trình khác địi hỏi liệu • Độc lập liệu: Đảm bảo tách rời CSDL chức quản trị từ chương trình ứng dụng • Điều khiển quán: đảm bảo toàn vẹn CSDL MULTIMEDIA thông qua quy tắc áp dụng giao dịch đồng thời • Sự tồn tại: bảo đảm đối tượng liệu tồn qua giao dịch khác yêu cầu chương trình • Tính riêng: ngăn chặn c ác truy cập sửa chữa liệu lưu trữ cách trái phép • Kiểm sốt tồn vẹn: bảo đảm toàn vẹn CSDL từ giao dịch sang giao dịch khác thông qua việc áp đặt ràng buộc • Khả phục hồi: phải có phương thức cần thiết để đảm bảo kết giao dịch thất bại không làm ảnh hưởng đến liệu lưu trữ • Hỗ trợ truy vấn: bảo đảm chế truy vấn phù hợp với liệu MULTIMEDIA • Kiểm sốt phiên bản: tổ chức quản lý phiên khác đối tượng lưu trữ yêu cầu ứng dụng -9Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Hình1.1 Kiến trúc bậc cao cho MDBMS đáp ứng yêu cầu cho liệu MULTIMEDI Đối với việc điều khiển quán, giao dịch chuỗi hướng dẫn thực thi cách hồn tồn khơng hồn tồn, trường hợp khơng hồn tồn CSDL khơi phục lại trạng thái trước đó, việc đưa chế tương ứng đ ảm bảo cho việc quán vấn đề khó khăn CSDL MULTIMEDIA Các CSDL quan hệ truyền thống sử dụng ghi bảng đơn vị quán CSDL MULTIMEDIA thường sử dụng đối tượng đơn lẻ (hoặc đối tượng ghép) đơn vị logic truy cập Như đối tượng MULTIMEDIA đơn lẻ tạo thành đơn vị quán Đối với vấn đề lưu trữ, phương thức đơn giản lưu trữ tệp MULTIMEDIA tệp tương ứng hệ điều hành Tuy nhiên với đặc thù dung lượng lớn, liệu MULTIMEDIA cho chi phí triển khai theo cách thức trở nên tốn Hơn nữa, hệ thống cần phải lưu trữ metadata MULTIMEDIA đối tượng MULTIMEDIA tổng hợp Vì vậy, hầu hết MDBMS phân loại thành phần cố định tạm thời lưu trữ liệu cố định sau giao dịch cập nhật Các liệu tạm thời - 10 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com − 0.4201 − 0.2995 − 0.1206 − 0.1576 − 0.1206 U = − 0.2626 − 0.4201 − 0.4201 − 0.2626 − 0.3151 − 0.2995 − 0.4945 V = − 0.6458 − 0.5817 − 0.0460 0.4078 − 0.4538 − 0.2006 − 0.4538 0.1547 − 0.0460 − 0.0460 0.1547 − 0.4013 0.4078 0.0748 − 0.2001 0.2749 − 0.3046 0.2749 0.3794 0.0748 0.0748 − 0.3794 − 0.6093 − 0.2001 0.6492 − 0.7194 0.2469 4.0989 S = 0.0000 0.0000 − 0.5780 − 0.4945 T − 0.2556 V = 0.6492 − 0.5780 0.7750 0.0000 2.3616 0.0000 − 0.6458 − 0.7194 − 0.2556 0.0000 0.0000 1.2737 − 0.5817 0.2469 0.7750 Bước 3: Thực giảm chiều vector cách giữ lại cột U V cột hàng S − 0.4201 − 0.2995 − 0.1206 − 0.1576 − 0.1206 U ≈ U s = − 0.2626 − 0.4201 − 0.4201 − 0.2626 − 0.3151 − 0.2995 − 0.4945 V ≈ Vs = − 0.6458 − 0.5817 0.0748 − 0.2001 0.2749 − 0.3046 0.2749 0.3794 0.0748 0.0748 − 0.3794 − 0.6093 − 0.2001 4.0989 S ≈ Ss = 0.0000 0.6492 − 0.4945 − 0.7194 V T ≈ VsT = 0.6492 0.2469 0.0000 2.3616 − 0.6458 − 0.7194 − 0.5817 0.2469 - 72 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Bước 4: Tìm toạ độ vector tài liệu khơng gian chiều rút gọn Các hàng V giữ giá trị vector đặc trưng Đây tọa độ vectors tài liệu riêng, d1(-0.4945, 0.6492) d2(-0.6458, -0.7194) d3(-0.5817, 0.2469) Bước 5: Tìm tọa độ véc tơ truy vấn không gian chiều rút gọn q=qTUsSs-1 Lưu ý: Đây toạ độ vector truy vấn không gian hai chiều Chú ý xem ma trận ma trận truy vấn q ban đầu cho Bước khác q=qTUsSs-1 − 0.4201 − 0.2995 − 0.1206 − 0.1576 − 0.1206 q= [0 0 0 0 1] − 0.2626 − 0.4201 − 0.4201 − 0.2626 − 0.3151 − 0.2995 q = [− 0.2140 0.0748 − 0.2001 0.2749 − 0.3046 − 2749 0.3794 0.0748 0.0748 0.3794 − 0.6093 − 0.2001 4.0989 0.0000 0.0000 2.3616 − 0.1821] Bước 6: Sắp xếp tài liệu theo thứ tự giảm dần giá trị tương đồng cosin câu truy vấn tài liệu S(q,d)= q*d qd - 73 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com S(q,d1)= S(q,d2)= S(q,d3)= (−0.2140)(−0.4945) + (−0.1821)(0.6492) (−0.2140) + (−0.1821) (−0.4945) + (0.6492) = −0.0541 (−0.2140)(−0.6458) + (−0.1821)(0.7194) (−0.2140) + (−0.1821) (−0.6458) + (−0.7194) (−0.2140)(−0.5817) + (−0.1821)(0.2469) (−0.2140) + (−0.1821) 2 (−0.5817) + (0.2469) = 0.9910 = 0.4478 Sắp xếp tài liệu theo thứ tự giảm dần giá trị tương đồng: d2>d3>d1 Chúng ta thấy tài liệu d có giá trị tương đồng cao d3 d1 Vector gần với vector truy vấn vector khác * Kỹ thuật tách giá trị đơn (SVD): Ý tưởng kỹ thuật tách giá trị đơn (SVD) tách đặc trưng chủ yếu ma trận term-doc AT xấp xỉ ma trận nhỏ Định lý SVD phát biểu sau: Ma trận A với kích thước MxN số thực biểu diễn sau: A = U * S * VT - 74 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com đó, U ma trận trực giao cột M * r với r hạng (rank) ma trận A, S ma trận đường chéo V ma trận trực giao cột N * r Ma trận trực giao cột U có nghĩa UT * U = I, I ma trận đồng Nếu S không tăng (các phần tử s ắp xếp theo thứ tự giảm dần) phân tách Như vậy, kỹ thuật SVD tách ma trận thành tích ma trận Việc tách có độ phức tạp tính tốn O(n3), độ phức tạp đáng kể, tạo ước tính gần r Documents Terms A = r r S VT rxr rxN N U Mxr MxN Hình 3.4 Mơ hình minh hoạ tách giá trị đơn (SVD) * Các bước tính SVD đầy đủ cho ma trận A: Bước 1: Tính hoán vị A: AT ATA Bước 2: Xác định giá trị đặc trưng ATA xếp theo thứ tự giảm dần Bước 3: Xây dựng ma trận đường chéo S cách đặt giá trị đơn theo thứ tự giảm dần dọc theo đường chéo Tính nghịch đảo S-1 Bước 4: Sử dụng thứ tự giá trị đặc trưng bước tính vector đặc trưng ATA Đặt giá trị đặc trưng dọc theo cột V tính hốn vị VT Bước 5: Tính U với U=AVS -1 Để hồn thành việc chứng minh, tính SVD đầy đủ sử dụng công thức A=USVT - 75 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Ví dụ: Tính SVD đầy đủ cho ma trận sau đây: 4 A= 3 0 − 5 Bước 1: Tính hốn vị A: AT ATA 4 Ma trận hoán vị AT = 0 3 − 5 4 0 AT A = 3 − 5 4 3 25 = − 5 − 15 − 15 25 Bước 2: Xác định giá trị đặc trưng ATA xếp theo thứ tự giảm dần Căn bậc hai lúc để tính giá trị đơn A 25 − c AT A − cl = − 15 − 15 25 − c | ATA – cl | = (25-c)(25-c) – (-15)(-15) = phương trình đặc trưng c2 – 50c+400=0 Phương trình bậc cho giá trị Các giá trị đơn Theo thứ tự giảm dần, có | 40 | > | 10 | Các giá trị đặc trưng c1 = 40; c2 = 10 s1= 40 = 6.3245 > s2 = 10 = 3.1622 Bước 3: Xây dựng ma trận đường chéo S cách đặt giá trị đơn theo thứ tự giảm dần dọc theo đường chéo Tính nghịch đảo S-1 6.3245 S= 0 0.1581 S −1 = 3.1622 0 0.3162 Bước 4: Sử dụng thứ tự giá trị đặc trưng từ bước tính vector đặc trưng ATA Đặt giá trị đặc trưng dọc theo cột V tính hốn vị VT - 76 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Với c1=40 Với c2=10 25 − 40 AT A − cl = − 15 − 15 − 15 = 25 − 40 − 15 − 15 T 25 − 10 A A − cl = − 15 − 15 − 15 − 15 = 25 − 10 − 15 (ATA – cl) x1 = (ATA – cl) x2 = − 15 − 15 15 − 15 − 15 x1 0 = − 15 x2 0 − 15 x1 0 = 15 x2 0 -15x1 + -15x2 = -15x1 + -15x2 = -15x1 + -15x2 = 15x1 + 15x2 = Giải thích cho x2 cho cơng thức Giải thích cho x2 cho cơng thức khác: x2=x1 khác: x2=x1 x x x1 = = x2 − x1 − 15 − 15 x x x2 = = x2 x1 Chia chiều dài nó, L = x12 + x22 = x1 L = x12 + x22 = x1 x / L 0.7071 x1 = = = − x1 / L − − 0.7071 x1 / L x1 = = x1 / L V = [x1 0.7071 x2 ] = − 0.7071 0.7071 VT = 0.7071 = 0.7071 0.7071 0.7071 0.7071 − 0.7071 0.7071 Bước 5: Tính U với U=AVS-1 Để hồn thành việc chứng minh, tính SVD đầy đủ sử dụng công thức A=USVT 4 U = AVS −1 = 3 0.7071 − 5 − 0.7071 0.7071 0.1581 0.7071 0 0.3162 - 77 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4 U = AVS −1 = 3 0.1118 − 5 − 0.1118 0.2236 0.2236 0.4472 U = AVS −1 = 0.8944 0.8944 − 0.4472 0.4472 A = USV T = 0.8944 0.8944 6.3245 − 0.4472 0 0.7071 3.1622 0.7071 0.4472 A = USV T = 0.8944 0.8944 4.4721 − 0.4472 2.2360 − 4.4721 2.2360 3.9998 A = USV T = 2.9999 4 ≈ − 4.9997 3 − 0.7071 0.7071 − 5 Tính trực giao ma trận V U có cách xem xét vector đặc trưng chúng Điều chứng minh tích điểm vector cột Tất tích điểm cho = Ngoài ra, vẽ thấy tất trực giao - 78 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com CHƯƠNG 4: PHÁT TRIỂN CHƯƠNG TRÌNH THỬ NGHIỆM 4.1 Giới thiệu tốn Chương trình xây dựng nhằm giải tốn có đầu vào đầu sau: Input: tập gồm nhiều liệu văn lưu trữ máy tính dạng không nén Output: Danh sách tệp văn chứa từ hay cụm từ câu truy vấn Với đầu vào đầu toán chương trình phải đáp ứng yêu cầu sau: • Chương trình cho phép thu thập tạo mục tài liệu; • Cho phép cập nhật lại mục có tài liệu đưa vào hệ thống; • Cho phép người dùng nhập vào câu truy vấn, sau thực tìm kiếm tài liệu liên quan đến câu truy vấn; • Sắp xếp tài liệu theo thứ tự giảm dần độ tương quan tài liệu câu truy vấn, sau hiển thị kết cho người dùng 4.2 Chức chương trình Chương trình xây dựng với chức sau: - Tập hợp tài liệu - Tách từ từ tài liệu - Tính trọng số từ ứng với tài liệu - Chọn lọc từ có giá trị phân biệt cao làm mục - Lập mục cho từ tạo nên tài liệu - Cập nhật lại mục thêm tài liệu - Hiển thị kết tìm kiếm cho người dùng 4.3 Quy trình phát triển ứng dụng Để xây dựng chương trình đáp ứng chức trên, cần thực bước sau đây: - 79 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.3.1 Xây dựng ma trận Term – Doc Xây dựng ma trận Term – Doc A có kích thước MxN (M thuật ngữ, N tài liệu) bao gồm tần số tfij thuật ngữ i tài liệu j Ma trận ma trận chứa thuật ngữ xuất tập trung số tài liệu 4.3.2 Lập mục tài liệu Mục tiêu làm mục tìm thuật ngữ tốt để đại diện tài liệu cho tài liệu truy tìm xác tiến trình truy vấn Tiến trình mục tự động bao gồm bước sau: • Tách từ từ tài liệu; • Loại bỏ từ dừng; • Nhận biết từ đồng nghĩa Mọi thuật ngữ có ý nghĩa tương tự thay từ chung; • Tính trọng số thuật ngữ tài liệu công thức: Wij = tfij * log (N/dfj); • Tạo tệp mục lục sở thuật ngữ trọng số thuật ngữ nói 4.3.3 Xây dựng ma trận trọng số Ma trận trọng số xây dựng cách tính trọng số từ ứng với tài liệu Trọng số thuật ngữ phản ánh tầm quan trọng thuật ngữ tài liệu Khi gán trọng số thuật ngữ, cần phải quan tâm đến hai: tần số thuật ngữ (tfij) tần số tài liệu (dfj) Cơng thức chung để tính trọng số thuật ngữ là: Wij = tfij * log (N/dfj) đó, Wij trọng số thuật ngữ j tài liệu i, tfij tần số thuật ngữ j tài liệu i, N tổng số tài liệu tập tài liệu, dfj tần số tài liệu chứa thuật ngữ j Trọng số tỷ lệ với tần số thuật ngữ tỷ lệ nghịch với tần số tài liệu, công thức thường gọi tf.idf [idf=log(N/dfi)] - 80 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.3.4 Tìm kiếm theo mơ hình vector Việc tìm kiếm mơ hình khơng gian vector thực dựa sở tính tương đồng câu truy vấn Qj tài liệu Di Độ tương đồng tài liệu Di câu truy vấn Qj tính sau: N S ( Di , Q j ) = ∑ Tik Q jk k =1 Để bù vào độ chênh lệch kích thước tài liệu kích thước câu truy vấn, tính tương đồng nói chuẩn hóa với θ góc hai vector (gọi khoảng cách cosin) tính theo cơng thức: N S ( Di , Q j ) = cos θ = Di Q j | Di || Q j | = ∑T k =1 N ik ∑ Tik2 k =1 Q jk N ∑Q k =1 jk Đây hệ số cosine quen thuộc vector Di Qj Khi tìm kiếm , danh sách trả xếp theo thứ tự giảm dần độ tương đồng 4.3.5 Phương pháp LSI Bước1: Đánh trọng số thuật ngữ xây dựng ma trận term-doc A ma trận truy vấn Q; Bước 2: Tách ma trận A thành tích ma trận tìm ma trận U, S, V, đó: A = USVT Bước 3: Thực giảm chiều ma trận cách tạo ma trận vng Ss có chiều s x s từ ma trận S Tương tự cho ma trận Vs có chiều s x N ma trận Us có chiều M x s tương ứng Bước 4: Tìm toạ độ vector tài liệu không gian giảm chiều này; Bước 5: Tìm tọa độ véc tơ truy vấn không gian giảm chiều: q=qTUsSs-1 Bước 6: Sắp xếp tài liệu theo thứ tự giảm dần giá trị tương đồng - 81 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com cosin câu truy vấn tài liệu Cơng thức tính tốn để tính giá trị tương đồng cosin mơ hình khơng gian vector sở Thực chất tính tích điểm toạ độ vector câu truy vấn tài liệu chia cho tích độ dài vector truy vấn vector tài liệu Cosθdi = S(q,d)= q*d qd 4.2 Cài đặt thử nghiệm Chương trình cài đặt C# Chương trình gồm phần: phần lập mục phần tìm kiếm Phần tìm kiếm chia làm modul: tìm kiếm theo mơ hình vector tìm kiếm theo kỹ thuật LSI 4.2.1 Giao diện hình lập mục Hình 4.1: Giao diện hình lập mục - 82 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com 4.2.2 Giao diện hình cập nhập mục Hình 4.2: Giao diện hình cập nhập mục 4.2.2 Tìm kiếm tài liệu theo mơ hình vector Giao diện hình tìm kiếm theo mơ hình vector kết tìm kiếm: Hình 4.3 Giao diện tìm kiếm theo mơ hình vector - 83 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Kỹ thuật tìm kiếm thơng tin hệ thống sở liệu đa phương tiện vấn đề mang tính thời Cơng nghệ thông tin Bản luận văn đề cập số vấn đề mang tính chất sở CSDL đa phương tiện số kỹ thuật tìm kiếm văn theo nội dung CSDL đa phương tiện mơ hình Bool sở, mơ hình không gian vector, số kỹ thuật nâng cao tìm kiếm như: lọc phân lớp, phương pháp tính không tam giác, kỹ thuật phân cụm đặc biệt sâu vào tìm hiểu kỹ thuật mục ngữ nghĩa tiềm ẩn (LSI - Latent Semantic Indexing) Bản luận văn xây dựng chương trình thử nghiệm, demo chức lập mục số kỹ thuật tìm kiếm văn đơn giản mơ hình không gian vector Đây sở cho việc tiếp tục xây dựng đánh giá tính hiệu kỹ thuật nâng cao tìm kiếm sau Do eo hẹp thời gian hạn chế tài liệu trình độ lập trình cịn yếu nên luận văn chưa thể sâu vào việc xây dựng cài đặt chương trình thử nghiệm áp dụng kỹ thuật nâng cao tìm kiếm văn theo nội dung mong muốn HƯỚNG PHÁT TRIỂN Đây đề tài có tính thực tế cao Với nhiệm vụ nghiên cứu, luận văn đáp ứng số yêu cầu đặt ra.Tuy nhiên để áp dụng kỹ thuật nâng cao tìm kiếm vào chương trình ứng dụng cụ thể cho người sử dụng địi hỏi phải có thêm thời gian nghiên cứu không với kỹ thuật tìm kiếm mà cịn số kỹ thuật khác liên quan đến việc truy tìm cho đạt hiệu tốt Do hướng phát triển luận văn sau: Thêm chức tự thu thập tài liệu định kì tự động cập nhập mục; Cài đặt chương trình tìm kiếm văn sử dụng kỹ thuật nâng cao; - 84 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com Phát triển ứng dụng có áp dụng kỹ thuật nâng cao tìm kiếm để cung cấp máy tìm kiếm hiệu cho người sử dụng (cụ thể áp dụng vào hệ thống thư viện số) - 85 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com TÀI LIỆU THAM KHẢO Tiếng Việt Đặng Văn Đức (2004/2005), “Multimedia Database Management System” [1] Chương 1,Chương 4, Chương [2] Đặng Văn Đức (2007), “Nâng cao hiệu MMDMS (Multimedia Database Management System)”, Bài Tiếng Anh [1] Guojun Lu, “Multimedia Database Management Systems”, Artech House, Boston, London, 1999 [2] Subrahmanian V.S., “Principles of Multimedia Database Systems”, Morgan Kaufmann Publishers, Inc., California, 1998 [3] David Hand, Heikki Mannila, Padhraic Smyth, Principles of Data Mining, A Bradford Book The MIT Press Cambridge, Massachusetts LondonEngland, 2001 [4] Xu, Feilong, Latent Semantic Indexing [5] Witten I.H, Moffat A., Bell C.T., “Managing Gigabytes, Compressing and Indexing Documents and Images”, Second Edition, Morrgan Kaufman Publishers, 1999 [6] Theory of Information Retrieval, Florida State University LIS-5263 (Fall, 2003): “Vector Model Information Retrieval”, Written by Rich Ackerman, September 25 2003 [7] Thomas K Lundauer,Peter W Foltz,Darrel Laham, “Introduction to Latent Semantic Analysis” [8] Karl Aberer(2003/4), EPFL-SSC, “Latent Semantic Indexing”, Tr 36-67 [9] Deerwater, Dumais, Furnas, Landauer, Harshman, “Latent Semantic Indexing” Website [1] Từ điển bách khoa toàn thư: http://vi.wikipedia.org [2] Trang http://www.miislita.com [3] Trang mã nguồn mở: http://www.codeProject.com http://www.SourceForge.com - 86 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn LUAN VAN CHAT LUONG download : add luanvanchat@agmail.com ... kỹ thuật mục nâng cao - Giới thiệu kỹ thuật mục nâng cao LSI + CHƯƠNG 4: PHÁT TRIỂN CHƯƠNG TRÌNH THỬ NGHIỆM: Chương phát triển chương trình thử nghiệm áp dụng kỹ thuật mục kỹ thuật tìm kiếm văn. .. tốt Hệ tìm kiếm văn Lucene: Hệ tìm kiếm văn Lucene hệ tìm kiếm mã nguồn mở Hệ thống phát triển Net ngôn ngữ Java Hệ thống nhiều lập trình viên phát triển 2.2 Một số kỹ thuật tìm kiếm văn theo... luận 23 CHƯƠNG 2: MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM VĂN BẢN THEO NỘI DUNG 25 2.1 Giới thiệu hệ tìm kiếm thông tin 25 2.1.1 Kỹ thuật tìm kiếm thơng tin