Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 86 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
86
Dung lượng
0,99 MB
Nội dung
LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành đến PGS.TS Đặng Văn Đức, người tận tình hướng dẫn, giúp đỡ em suốt thời gian thực luận văn Con cảm ơn Cha, Mẹ gia đình, người dạy dỗ, khuyến khích, động viên lúc khó khăn, tạo điều kiện cho chúng nghiên cứu học tập Em cảm ơn thầy, cô Viện Công Nghệ Thông Tin Hà Nội thầy cô Khoa Công nghệ thông tin – ĐH Thái Nguyên dìu dắt, giảng dạy em, giúp em có kiến thức quý báu năm học qua Cảm ơn bạn tận tình động viên đóng góp ý kiến cho luận văn Mặc dù cố gắng với tận tâm thầy giáo hướng dẫn song trình độ hạn chế, nội dung đề tài mẻ nên Luận văn khó tránh khỏi thiếu sót Em mong nhận thông cảm góp ý thầy cô bạn Thái Nguyên, tháng 11/2008 Học viên Phạm Thị Ngọc -1Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 MỤC LỤC MỤC LỤC DANH MỤC CÁC TỪ TIẾNG ANH VÀ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH, ĐỒ THỊ MỞ ĐẦU CHƯƠNG 1: TỔNG QUAN HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN (MDBMS) 1.1 Mục đích MDBMS 1.2 Các yêu cầu MDBMS 11 1.2.1 Khả quản trị lưu trữ lớn 13 1.2.2 Hỗ trợ truy vấn khai thác liệu 14 1.2.3 Tích hợp phương tiện, tổng hợp thể 14 1.2.4 Giao diện tương tác 15 1.2.5 Hiệu suất 15 1.3 Các vấn đề MDBMS .16 1.3.1 Mô hình hoá liệu MULTIMEDIA 16 1.3.2 Lưu trữ đối tượng MULTIMEDIA 17 1.3.3 Tích hợp Multimedia, thể chất lượng dịch vụ (QoS) 19 1.3.4 Chỉ số hoá Multimedia 20 1.3.5 Hỗ trợ truy vấn Multimedia, khai thác duyệt qua 21 1.3.6 Quản trị CSDL Multimedia phân tán 22 1.3.7 Sự hỗ trợ hệ thống 23 1.4 Kết luận 23 CHƯƠNG 2: MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM VĂN BẢN THEO NỘI DUNG 25 2.1 Giới thiệu hệ tìm kiếm thông tin 25 2.1.1 Kỹ thuật tìm kiếm thông tin 25 2.1.2 Một số vấn đề tìm kiếm thông tin 26 -2Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 2.1.3 Hệ thống tìm kiếm thông tin – IR 27 2.1.4 Sự khác biệt hệ thống IR hệ thống thông tin khác 32 2.1.5 Các hệ tìm kiếm văn thường sử dụng 34 2.2 Một số kỹ thuật tìm kiếm văn theo nội dung 35 2.2.1 Chỉ mục tự động văn mô hình tìm kiếm Bool 35 2.2.1.1 Mô hình tìm kiếm Bool sở 35 2.2.1.2 Tìm kiếm Bool mở rộng 37 2.2.1.3 Các bước để xây dựng hệ thống tìm kiếm thông tin – IR 39 2.2.1.4 Lập mục tài liệu 40 2.2.2 Mô hình tìm kiếm không gian vector 51 2.2.2.1 Mô hình tìm kiếm không gian vector sở 51 2.2.2.2 Kỹ thuật phản hồi phù hợp (Relevance Feedback Technique) .53 2.2.3 Thước đo hiệu 55 2.3 Ví dụ 56 2.4 Kết luận 58 CHƯƠNG 3: MỘT SỐ KỸ THUẬT NÂNG CAO HIỆU NĂNG TÌM KIẾM VĂN BẢN .59 3.1 Giới thiệu .59 3.2 Một số kỹ thuật nâng cao hiệu tìm kiếm đa phương tiện 60 3.2.1 Lọc phân lớp, thuộc tính có cấu trúc từ khóa .60 3.2.2 Các phương pháp sở tính không tam giác 61 3.2.3 Mô hình tìm kiếm sở cụm (cluster-based) 63 3.2.3.1 Sinh cụm 63 3.2.3.2 Tìm kiếm sở cụm 64 3.2.4 Chỉ mục ngữ nghĩa tiềm ẩn (LSI) để tìm kiếm thông tin sở không gian vector 64 3.3 Kỹ thuật LSI 66 3.3.1 Giới thiệu LSI 66 3.3.2 Phương pháp luận LSI 67 -3Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 CHƯƠNG 4: PHÁT TRIỂN CHƯƠNG TRÌNH THỬ NGHIỆM 79 4.1 Giới thiệu toán 79 4.2 Chức chương trình 79 4.3 Quy trình phát triển ứng dụng 79 4.3.1 Xây dựng ma trận Term – Doc .80 4.3.2 Lập mục tài liệu 80 4.3.3 Xây dựng ma trận trọng số 80 4.3.4 Tìm kiếm theo mô hình vector 81 4.3.5 Phương pháp LSI 81 4.2 Cài đặt thử nghiệm 82 4.2.1 Giao diện hình lập mục 82 4.2.2 Giao diện hình cập nhập mục 83 4.2.2 Tìm kiếm tài liệu theo mô hình vector 83 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 84 TÀI LIỆU THAM KHẢO 86 -4Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 DANH MỤC CÁC TỪ TIẾNG ANH VÀ VIẾT TẮT Từ gốc Giải nghĩa Cluster-based Cơ sở cụm CSDL Cơ sở liệu DBMS (Database Management System) Hệ quản trị sở liệu MDBMS (Multimedia Database Hệ quản trị sở liệu đa phương tiện Management System) Doc Tài liệu Docs Nhiều tài liệu DSS (Decision Support Systems) Hệ hỗ trợ định Exact match Đối sánh xác IMS (Information Management System) Hệ quản lý thông tin Index Chỉ mục IR (Information Retrieval) Truy tìm thông tin IRS (Information Retrieval System) Hệ truy tìm thông tin LSI (Latent Semantic Indexing) Chỉ mục ngữ nghĩa tiềm ẩn MultiMedia Truyền thông da phương tiện Precision Độ xác QAS (Question Anser System) Hệ trả lời câu hỏi Query Truy vấn Term Thuật ngữ (từ) Ranking Sắp xếp Record Bản ghi Recall Khả tìm thấy SC (Similarity Coeficient) Độ tương quan SVD (Singular Value Decomposition) Kỹ thuật tách giá trị đơn Text-partern Mẫu văn The Term Discrimination Value Giá trị phân biệt từ The Signal – Noise Ratio Độ nhiễu tín hiệu -5- Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 DANH MỤC CÁC BẢNG Bảng 2.2: Cách tập tin nghịch đảo lưu trữ 43 Bảng 2.3 Cách tập tin trực tiếp lưu trữ 43 Bảng 2.4: Thêm tài liệu vào tập tin nghịch đảo 44 Bảng 2.5: Danh sách từ dừng tiếng Anh 49 Bảng 3.1: Bảng khoảng cách đối tượng CSDL đến vector so sánh 62 DANH MỤC CÁC HÌNH, ĐỒ THỊ Hình1.1 Kiến trúc bậc cao cho MDBMS đáp ứng yêu cầu cho liệu MULTIMEDI 10 Hình 1.2 Mô hình khả lưu trữ hệ thống Multimedia .13 Hình 2.1 Mô hình tổng quát tìm kiếm thông tin 28 Hình 2.3 Mô hình kiến trúc hệ tìm kiếm thông tin 31 Hình 2.4 Cấu trúc hệ tìm kiếm thông tin tiêu biểu .31 Hình 2.5 Các từ theo thứ tự 46 Hình 2.6 Mô hình minh hoạ mối quan hệ tài liệu D1 đến D5 thuật ngữ “CAR” 48 Hình 2.7 Quá trình chọn từ làm mục .50 Hình 2.8 Mô hình thước đo hiệu .55 Hình 2.9 Đồ thị so sánh hiệu 56 Hình 3.1 Mô hình LSI 67 Hình 3.2 Mô hình tính toán xếp thứ hạng cho tài liệu .68 Hình 3.3 Minh hoạ kỹ thuật Chỉ số hoá ngữ nghĩa tiềm ẩn (LSI) .69 Hình 3.4 Mô hình minh hoạ tách giá trị đơn (SVD) 75 Hình 4.1 Giao diện hình lập mục 82 Hình 4.2 Giao diện hình cập nhập mục 83 Hình 4.3 Giao diện tìm kiếm theo mô hình vector .83 -6Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 MỞ ĐẦU Cùng với phát triển nhanh chóng công nghệ tin học khối lượng liệu đa phương tiện (Multimedia) thu thập lưu trữ dạng số ngày nhiều dẫn tới việc tìm kiếm liệu đa phương tiện trở nên khó khăn cần có hệ thống tìm kiếm thông tin (Information Retrieval) hỗ trợ người dùng tìm kiếm cách xác nhanh chóng thông tin mà họ cần kho tư liệu khổng lồ Hiện có số hệ thống tìm kiếm GoogleDesktop, DTSearch, Lucene, nhiên hệ thống sử dung kỹ thuật tìm kiếm đơn giản nên hiệu chưa cao Vì mục tiêu luận văn nhằm tìm hiểu số kỹ thuật nâng cao tìm kiếm thông tin, cụ thể tìm kiếm văn theo nội dung sở liệu đa phương tiện nhằm đáp ứng nhu cầu cấp thiết thời đại bùng nổ thông tin điện tử Bố cục luận văn gồm phần sau: + CHƯƠNG 1: TỔNG QUAN VỀ HỆ QUẢN TRỊ CSDL ĐA PHƯƠNG TIỆN: Phần giới thiệu tổng quan hệ quản trị CSDL đa phương tiện + CHƯƠNG 2: MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM VĂN BẢN - Trình bày v ấn đềvề hệ tìm kiếm thông tin - Trình bày kỹ thuật sở mục văn sở mô hình Bool mô hình vector + CHƯƠNG 3: MỘT SỐ KỸ THUẬT NÂNG CAO HIỆU NĂNG TÌM KIẾM VĂN - Trình bày sở lý thuyết số kỹ thuật mục nâng cao - Giới thiệu kỹ thuật mục nâng cao LSI + CHƯƠNG 4: PHÁT TRIỂN CHƯƠNG TRÌNH THỬ NGHIỆM: Chương phát triển chương trình thử nghiệm áp dụng kỹ thuật mục kỹ thuật tìm kiếm văn theo nội dung sở liệu đa phương tiện + KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: Trình bày kết đạt luận văn nêu phương hướng phát triển đề tài tương lai + TÀI LIỆU THAM KHẢO PHỤ LỤC: Trình bày thông tin liên quan đến luận văn -7Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 CHƯƠNG 1: TỔNG QUAN HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN (MDBMS) Trung tâm hệ thống thông tin đa phương tiện (MULTIMEDIA) hệ quản trị CSDL MULTIMEDIA (MDBMS - Multimedia Database Management System) Theo truyền thống, CSDL bao gồm liệu có liên quan thực thể cho trước hệ quản trị CSDL (DBMS) liệu có liên quan đến với tập hợp chương trình dùng để khai báo, tạo lập, lưu trữ, truy cập truy vấn CSDL Tương tự vậy, xem CSDL MULTIMEDIA tập loại liệu Multimedia văn bản, hình ảnh, video, âm thanh, đối tượng đồ hoạ… Một hệ quản trị CSDL MULTIMEDIA cung cấp hỗ trợ cho loại liệu MULTIMEDIA việc tạo lập, lưu trữ, truy cập, truy vấn kiểm soát Sự khác kiểu liệu CSDL MULTIMEDIA đòi hỏi phương thức đặc biệt để tối ưu hoá việc lưu trữ, truy cập, số hoá khai thác MDBMS cần phải cung cấp yêu cầu đặc biệt cách cung cấp chế tóm tắt bậc cao để quản lý kiểu liệu khác giao diện thích hợp để thể chúng 1.1 Mục đích MDBMS Một MDBMS cung cấp môi trường thích hợp để sử dụng quản lý thông tin CSDL MULTIMEDIA Vì vậy, phải hỗ trợ kiểu liệu MULTIMEDIA khác bên cạnh việc phải cung cấp đầy đủ chức DBMS truyền thống khai báo tạo lập CSDL, khai thác liệu, truy cập tổ chức liệu, độc lập liệu, tính riêng, toàn vẹn liệu, kiểm soát phiên Các chức MDBMS tương tự chức DBMS, nhiên, chất thông tin MULTIMEDIA tạo đòi hỏi Bằng cách sử dụng chức tổng quát DBMS trình bày mục đích MDBMS sau: -8Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 • Sự thống nhất: bảo đảm liệu tạo lại chương trình khác đòi hỏi liệu • Độc lập liệu: Đảm bảo tách rời CSDL chức quản trị từ chương trình ứng dụng • Điều khiển quán: đảm bảo toàn vẹn CSDL MULTIMEDIA thông qua quy tắc áp dụng giao dịch đồng thời • Sự tồn tại: bảo đảm đối tượng liệu tồn qua giao dịch khác yêu cầu chương trình • Tính riêng: ngăn chặn c ác truy cập sửa chữa liệu lưu trữ cách trái phép • Kiểm soát toàn vẹn: bảo đảm toàn vẹn CSDL từ giao dịch sang giao dịch khác thông qua việc áp đặt ràng buộc • Khả phục hồi: phải có phương thức cần thiết để đảm bảo kết giao dịch thất bại không làm ảnh hưởng đến liệu lưu trữ • Hỗ trợ truy vấn: bảo đảm chế truy vấn phù hợp với liệu MULTIMEDIA • Kiểm soát phiên bản: tổ chức quản lý phiên khác đối tượng lưu trữ yêu cầu ứng dụng -9Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Hình1.1 Kiến trúc bậc cao cho MDBMS đáp ứng yêu cầu cho liệu MULTIMEDI Đối với việc điều khiển quán, giao dịch chuỗi hướng dẫn thực thi cách hoàn toàn không hoàn toàn, trường hợp không hoàn toàn CSDL khôi phục lại trạng thái trước đó, việc đưa chế tương ứng đ ảm bảo cho việc quán vấn đề khó khăn CSDL MULTIMEDIA Các CSDL quan hệ truyền thống sử dụng ghi bảng đơn vị quán CSDL MULTIMEDIA thường sử dụng đối tượng đơn lẻ (hoặc đối tượng ghép) đơn vị logic truy cập Như đối tượng MULTIMEDIA đơn lẻ tạo thành đơn vị quán Đối với vấn đề lưu trữ, phương thức đơn giản lưu trữ tệp MULTIMEDIA tệp tương ứng hệ điều hành Tuy nhiên với đặc thù dung lượng lớn, liệu MULTIMEDIA cho chi phí triển khai theo cách thức trở nên tốn Hơn nữa, hệ thống cần phải lưu trữ metadata MULTIMEDIA đối tượng MULTIMEDIA tổng hợp Vì vậy, hầu hết MDBMS phân loại thành phần cố định tạm thời lưu trữ liệu cố định sau giao dịch cập nhật Các liệu tạm thời - 10 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 − 0.4201 − 0.2995 − 0.1206 − 0.1576 − 0.1206 U = − 0.2626 − 0.4201 − 0.4201 − 0.2626 − 0.3151 − 0.2995 − 0.4945 V = − 0.6458 − 0.5817 − 0.0460 0.4078 − 0.4538 − 0.2006 − 0.4538 0.1547 − 0.0460 − 0.0460 0.1547 − 0.4013 0.4078 0.0748 − 0.2001 0.2749 − 0.3046 0.2749 0.3794 0.0748 0.0748 − 0.3794 − 0.6093 − 0.2001 0.6492 − 0.7194 0.2469 4.0989 S = 0.0000 0.0000 0.0000 2.3616 0.0000 − 0.5780 − 0.4945 T − 0.2556 V = 0.6492 − 0.5780 0.7750 − 0.6458 − 0.7194 − 0.2556 0.0000 0.0000 1.2737 − 0.5817 0.2469 0.7750 Bước 3: Thực giảm chiều vector cách giữ lại cột U V cột hàng S − 0.4201 − 0.2995 − 0.1206 − 0.1576 − 0.1206 U ≈ U s = − 0.2626 − 0.4201 − 0.4201 − 0.2626 − 0.3151 − 0.2995 − 0.4945 V ≈ Vs = − 0.6458 − 0.5817 0.0748 − 0.2001 0.2749 − 0.3046 0.2749 0.3794 0.0748 0.0748 − 0.3794 − 0.6093 − 0.2001 4.0989 S ≈ Ss = 0.0000 0.6492 − 0.4945 − 0.7194 V T ≈ VsT = 0.6492 0.2469 0.0000 2.3616 − 0.6458 − 0.7194 − 0.5817 0.2469 - 72 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Bước 4: Tìm toạ độ vector tài liệu không gian chiều rút gọn Các hàng V giữ giá trị vector đặc trưng Đây tọa độ vectors tài liệu riêng, d1(-0.4945, 0.6492) d2(-0.6458, -0.7194) d3(-0.5817, 0.2469) Bước 5: Tìm tọa độ véc tơ truy vấn không gian chiều rút gọn q=qTUsSs-1 Lưu ý: Đây toạ độ vector truy vấn không gian hai chiều Chú ý xem ma trận ma trận truy vấn q ban đầu cho Bước khác q=qTUsSs-1 − 0.4201 − 0.2995 − 0.1206 − 0.1576 − 0.1206 q= [0 0 0 0 1] − 0.2626 − 0.4201 − 0.4201 − 0.2626 − 0.3151 − 0.2995 q = [− 0.2140 0.0748 − 0.2001 0.2749 − 0.3046 − 2749 0.3794 0.0748 0.0748 0.3794 − 0.6093 − 0.2001 4.0989 0.0000 0.0000 2.3616 − 0.1821] Bước 6: Sắp xếp tài liệu theo thứ tự giảm dần giá trị tương đồng cosin câu truy vấn tài liệu S(q,d)= q*d qd - 73 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 S(q,d1)= S(q,d2)= S(q,d3)= (−0.2140)(−0.4945) + (−0.1821)(0.6492) (−0.2140) + (−0.1821) (−0.4945) + (0.6492) = −0.0541 (−0.2140)(−0.6458) + (−0.1821)(0.7194) (−0.2140) + (−0.1821) (−0.6458) + (−0.7194) (−0.2140)(−0.5817) + (−0.1821)(0.2469) (−0.2140) + (−0.1821) 2 (−0.5817) + (0.2469) = 0.9910 = 0.4478 Sắp xếp tài liệu theo thứ tự giảm dần giá trị tương đồng: d2>d3>d1 Chúng ta thấy tài liệu d có giá trị tương đồng cao d3 d1 Vector gần với vector truy vấn vector khác * Kỹ thuật tách giá trị đơn (SVD): Ý tưởng kỹ thuật tách giá trị đơn (SVD) tách đặc trưng chủ yếu ma trận term-doc AT xấp xỉ ma trận nhỏ Định lý SVD phát biểu sau: Ma trận A với kích thước MxN số thực biểu diễn sau: A = U * S * VT - 74 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 đó, U ma trận trực giao cột M * r với r hạng (rank) ma trận A, S ma trận đường chéo V ma trận trực giao cột N * r Ma trận trực giao cột U có nghĩa UT * U = I, I ma trận đồng Nếu S không tăng (các phần tử s ắp xếp theo thứ tự giảm dần) phân tách Như vậy, kỹ thuật SVD tách ma trận thành tích ma trận Việc tách có độ phức tạp tính toán O(n3), độ phức tạp đáng kể, tạo ước tính gần r Documents Terms A = r r S VT rxr rxN N U Mxr MxN Hình 3.4 Mô hình minh hoạ tách giá trị đơn (SVD) * Các bước tính SVD đầy đủ cho ma trận A: Bước 1: Tính hoán vị A: AT ATA Bước 2: Xác định giá trị đặc trưng ATA xếp theo thứ tự giảm dần Bước 3: Xây dựng ma trận đường chéo S cách đặt giá trị đơn theo thứ tự giảm dần dọc theo đường chéo Tính nghịch đảo S-1 Bước 4: Sử dụng thứ tự giá trị đặc trưng bước tính vector đặc trưng ATA Đặt giá trị đặc trưng dọc theo cột V tính hoán vị VT Bước 5: Tính U với U=AVS -1 Để hoàn thành việc chứng minh, tính SVD đầy đủ sử dụng công thức A=USVT - 75 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Ví dụ: Tính SVD đầy đủ cho ma trận sau đây: 4 A= 3 0 − 5 Bước 1: Tính hoán vị A: AT ATA 4 Ma trận hoán vị AT = 0 3 − 5 4 0 AT A = 3 − 5 4 3 25 = − 5 − 15 − 15 25 Bước 2: Xác định giá trị đặc trưng ATA xếp theo thứ tự giảm dần Căn bậc hai lúc để tính giá trị đơn A 25 − c AT A − cl = − 15 − 15 25 − c | ATA – cl | = (25-c)(25-c) – (-15)(-15) = phương trình đặc trưng c2 – 50c+400=0 Phương trình bậc cho giá trị Các giá trị đơn Theo thứ tự giảm dần, có | 40 | > | 10 | Các giá trị đặc trưng c1 = 40; c2 = 10 s1= 40 = 6.3245 > s2 = 10 = 3.1622 Bước 3: Xây dựng ma trận đường chéo S cách đặt giá trị đơn theo thứ tự giảm dần dọc theo đường chéo Tính nghịch đảo S-1 6.3245 S= 0 0.1581 S −1 = 3.1622 0 0.3162 Bước 4: Sử dụng thứ tự giá trị đặc trưng từ bước tính vector đặc trưng ATA Đặt giá trị đặc trưng dọc theo cột V tính hoán vị VT - 76 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Với c1=40 Với c2=10 25 − 40 AT A − cl = − 15 − 15 − 15 = 25 − 40 − 15 − 15 T 25 − 10 A A − cl = − 15 − 15 − 15 − 15 = 25 − 10 − 15 (ATA – cl) x1 = (ATA – cl) x2 = − 15 − 15 15 − 15 − 15 x1 0 = − 15 x2 0 − 15 x1 0 = 15 x2 0 -15x1 + -15x2 = -15x1 + -15x2 = -15x1 + -15x2 = 15x1 + 15x2 = Giải thích cho x2 cho công thức Giải thích cho x2 cho công thức khác: x2=x1 khác: x2=x1 x x x1 = = x2 − x1 − 15 − 15 x x x2 = = x2 x1 Chia chiều dài nó, L = x12 + x22 = x1 L = x12 + x22 = x1 x / L 0.7071 x1 = = = − x1 / L − − 0.7071 x1 / L x1 = = x1 / L V = [x1 0.7071 x2 ] = − 0.7071 0.7071 VT = 0.7071 = 0.7071 0.7071 0.7071 0.7071 − 0.7071 0.7071 Bước 5: Tính U với U=AVS-1 Để hoàn thành việc chứng minh, tính SVD đầy đủ sử dụng công thức A=USVT 4 U = AVS −1 = 3 0.7071 − 5 − 0.7071 0.7071 0.1581 0.7071 0 0.3162 - 77 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 4 U = AVS −1 = 3 0.1118 − 5 − 0.1118 0.2236 0.2236 0.4472 U = AVS −1 = 0.8944 0.8944 − 0.4472 0.4472 A = USV T = 0.8944 0.8944 6.3245 − 0.4472 0 0.7071 3.1622 0.7071 0.4472 A = USV T = 0.8944 0.8944 4.4721 − 0.4472 2.2360 − 4.4721 2.2360 3.9998 A = USV T = 2.9999 4 ≈ − 4.9997 3 − 0.7071 0.7071 − 5 Tính trực giao ma trận V U có cách xem xét vector đặc trưng chúng Điều chứng minh tích điểm vector cột Tất tích điểm cho = Ngoài ra, vẽ thấy tất trực giao - 78 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 CHƯƠNG 4: PHÁT TRIỂN CHƯƠNG TRÌNH THỬ NGHIỆM 4.1 Giới thiệu toán Chương trình xây dựng nhằm giải toán có đầu vào đầu sau: Input: tập gồm nhiều liệu văn lưu trữ máy tính dạng không nén Output: Danh sách tệp văn chứa từ hay cụm từ câu truy vấn Với đầu vào đầu toán chương trình phải đáp ứng yêu cầu sau: • Chương trình cho phép thu thập tạo mục tài liệu; • Cho phép cập nhật lại mục có tài liệu đưa vào hệ thống; • Cho phép người dùng nhập vào câu truy vấn, sau thực tìm kiếm tài liệu liên quan đến câu truy vấn; • Sắp xếp tài liệu theo thứ tự giảm dần độ tương quan tài liệu câu truy vấn, sau hiển thị kết cho người dùng 4.2 Chức chương trình Chương trình xây dựng với chức sau: - Tập hợp tài liệu - Tách từ từ tài liệu - Tính trọng số từ ứng với tài liệu - Chọn lọc từ có giá trị phân biệt cao làm mục - Lập mục cho từ tạo nên tài liệu - Cập nhật lại mục thêm tài liệu - Hiển thị kết tìm kiếm cho người dùng 4.3 Quy trình phát triển ứng dụng Để xây dựng chương trình đáp ứng chức trên, cần thực bước sau đây: - 79 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 4.3.1 Xây dựng ma trận Term – Doc Xây dựng ma trận Term – Doc A có kích thước MxN (M thuật ngữ, N tài liệu) bao gồm tần số tfij thuật ngữ i tài liệu j Ma trận ma trận chứa thuật ngữ xuất tập trung số tài liệu 4.3.2 Lập mục tài liệu Mục tiêu làm mục tìm thuật ngữ tốt để đại diện tài liệu cho tài liệu truy tìm xác tiến trình truy vấn Tiến trình mục tự động bao gồm bước sau: • Tách từ từ tài liệu; • Loại bỏ từ dừng; • Nhận biết từ đồng nghĩa Mọi thuật ngữ có ý nghĩa tương tự thay từ chung; • Tính trọng số thuật ngữ tài liệu công thức: Wij = tfij * log (N/dfj); • Tạo tệp mục lục sở thuật ngữ trọng số thuật ngữ nói 4.3.3 Xây dựng ma trận trọng số Ma trận trọng số xây dựng cách tính trọng số từ ứng với tài liệu Trọng số thuật ngữ phản ánh tầm quan trọng thuật ngữ tài liệu Khi gán trọng số thuật ngữ, cần phải quan tâm đến hai: tần số thuật ngữ (tfij) tần số tài liệu (dfj) Công thức chung để tính trọng số thuật ngữ là: Wij = tfij * log (N/dfj) đó, Wij trọng số thuật ngữ j tài liệu i, tfij tần số thuật ngữ j tài liệu i, N tổng số tài liệu tập tài liệu, dfj tần số tài liệu chứa thuật ngữ j Trọng số tỷ lệ với tần số thuật ngữ tỷ lệ nghịch với tần số tài liệu, công thức thường gọi tf.idf [idf=log(N/dfi)] - 80 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 4.3.4 Tìm kiếm theo mô hình vector Việc tìm kiếm mô hình không gian vector thực dựa sở tính tương đồng câu truy vấn Qj tài liệu Di Độ tương đồng tài liệu Di câu truy vấn Qj tính sau: N S ( Di , Q j ) = ∑ Tik Q jk k =1 Để bù vào độ chênh lệch kích thước tài liệu kích thước câu truy vấn, tính tương đồng nói chuẩn hóa với θ góc hai vector (gọi khoảng cách cosin) tính theo công thức: N S ( Di , Q j ) = cos θ = Di Q j | Di || Q j | = ∑T k =1 N ik ∑ Tik2 k =1 Q jk N ∑Q k =1 jk Đây hệ số cosine quen thuộc vector Di Qj Khi tìm kiếm , danh sách trả xếp theo thứ tự giảm dần độ tương đồng 4.3.5 Phương pháp LSI Bước1: Đánh trọng số thuật ngữ xây dựng ma trận term-doc A ma trận truy vấn Q; Bước 2: Tách ma trận A thành tích ma trận tìm ma trận U, S, V, đó: A = USVT Bước 3: Thực giảm chiều ma trận cách tạo ma trận vuông Ss có chiều s x s từ ma trận S Tương tự cho ma trận Vs có chiều s x N ma trận Us có chiều M x s tương ứng Bước 4: Tìm toạ độ vector tài liệu không gian giảm chiều này; Bước 5: Tìm tọa độ véc tơ truy vấn không gian giảm chiều: q=qTUsSs-1 Bước 6: Sắp xếp tài liệu theo thứ tự giảm dần giá trị tương đồng - 81 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 cosin câu truy vấn tài liệu Công thức tính toán để tính giá trị tương đồng cosin mô hình không gian vector sở Thực chất tính tích điểm toạ độ vector câu truy vấn tài liệu chia cho tích độ dài vector truy vấn vector tài liệu Cosθdi = S(q,d)= q*d qd 4.2 Cài đặt thử nghiệm Chương trình cài đặt C# Chương trình gồm phần: phần lập mục phần tìm kiếm Phần tìm kiếm chia làm modul: tìm kiếm theo mô hình vector tìm kiếm theo kỹ thuật LSI 4.2.1 Giao diện hình lập mục Hình 4.1: Giao diện hình lập mục - 82 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 4.2.2 Giao diện hình cập nhập mục Hình 4.2: Giao diện hình cập nhập mục 4.2.2 Tìm kiếm tài liệu theo mô hình vector Giao diện hình tìm kiếm theo mô hình vector kết tìm kiếm: Hình 4.3 Giao diện tìm kiếm theo mô hình vector - 83 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN KẾT LUẬN Kỹ thuật tìm kiếm thông tin hệ thống sở liệu đa phương tiện vấn đề mang tính thời Công nghệ thông tin Bản luận văn đề cập số vấn đề mang tính chất sở CSDL đa phương tiện số kỹ thuật tìm kiếm văn theo nội dung CSDL đa phương tiện mô hình Bool sở, mô hình không gian vector, số kỹ thuật nâng cao tìm kiếm như: lọc phân lớp, phương pháp tính không tam giác, kỹ thuật phân cụm đặc biệt sâu vào tìm hiểu kỹ thuật mục ngữ nghĩa tiềm ẩn (LSI - Latent Semantic Indexing) Bản luận văn xây dựng chương trình thử nghiệm, demo chức lập mục số kỹ thuật tìm kiếm văn đơn giản mô hình không gian vector Đây sở cho việc tiếp tục xây dựng đánh giá tính hiệu kỹ thuật nâng cao tìm kiếm sau Do eo hẹp thời gian hạn chế tài liệu trình độ lập trình yếu nên luận văn chưa thể sâu vào việc xây dựng cài đặt chương trình thử nghiệm áp dụng kỹ thuật nâng cao tìm kiếm văn theo nội dung mong muốn HƯỚNG PHÁT TRIỂN Đây đề tài có tính thực tế cao Với nhiệm vụ nghiên cứu, luận văn đáp ứng số yêu cầu đặt ra.Tuy nhiên để áp dụng kỹ thuật nâng cao tìm kiếm vào chương trình ứng dụng cụ thể cho người sử dụng đòi hỏi phải có thêm thời gian nghiên cứu không với kỹ thuật tìm kiếm mà số kỹ thuật khác liên quan đến việc truy tìm cho đạt hiệu tốt Do hướng phát triển luận văn sau: Thêm chức tự thu thập tài liệu định kì tự động cập nhập mục; Cài đặt chương trình tìm kiếm văn sử dụng kỹ thuật nâng cao; - 84 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 Phát triển ứng dụng có áp dụng kỹ thuật nâng cao tìm kiếm để cung cấp máy tìm kiếm hiệu cho người sử dụng (cụ thể áp dụng vào hệ thống thư viện số) - 85 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 TÀI LIỆU THAM KHẢO Tiếng Việt Đặng Văn Đức (2004/2005), “Multimedia Database Management System” [1] Chương 1,Chương 4, Chương [2] Đặng Văn Đức (2007), “Nâng cao hiệu MMDMS (Multimedia Database Management System)”, Bài Tiếng Anh [1] Guojun Lu, “Multimedia Database Management Systems”, Artech House, Boston, London, 1999 [2] Subrahmanian V.S., “Principles of Multimedia Database Systems”, Morgan Kaufmann Publishers, Inc., California, 1998 [3] David Hand, Heikki Mannila, Padhraic Smyth, Principles of Data Mining, A Bradford Book The MIT Press Cambridge, Massachusetts LondonEngland, 2001 [4] Xu, Feilong, Latent Semantic Indexing [5] Witten I.H, Moffat A., Bell C.T., “Managing Gigabytes, Compressing and Indexing Documents and Images”, Second Edition, Morrgan Kaufman Publishers, 1999 [6] Theory of Information Retrieval, Florida State University LIS-5263 (Fall, 2003): “Vector Model Information Retrieval”, Written by Rich Ackerman, September 25 2003 [7] Thomas K Lundauer,Peter W Foltz,Darrel Laham, “Introduction to Latent Semantic Analysis” [8] Karl Aberer(2003/4), EPFL-SSC, “Latent Semantic Indexing”, Tr 36-67 [9] Deerwater, Dumais, Furnas, Landauer, Harshman, “Latent Semantic Indexing” Website [1] Từ điển bách khoa toàn thư: http://vi.wikipedia.org [2] Trang http://www.miislita.com [3] Trang mã nguồn mở: http://www.codeProject.com http://www.SourceForge.com - 86 Số hóa Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 [...]... văn bản theo nội dung trong c ơ sở dữ liệu đa phương tiện nên trong chương tiếp theo của luận văn này sẽ trình bày một số kỹ thuật chỉ mục và tìm kiếm tài liệu văn bản - 24 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn Viết thuê luận văn thạc sĩ Luanvanaz@mail.com - 0972.162.399 CHƯƠNG 2: MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM VĂN BẢN THEO NỘI DUNG 2.1 Giới thiệu hệ tìm kiếm. .. lập trình viên phát triển 2.2 Một số kỹ thuật tìm kiếm văn bản theo nội dung 2.2.1 Chỉ mục tự động văn bản và mô hình tìm kiếm Bool 2.2.1.1 Mô hình tìm kiếm Bool cơ sở Mục tiêu của hệ thống IR là tìm kiếm các mục thích hợp trong CSDL tài liệu để áp ứng các câu truy vấn người sử dụng Phần lớn các hệ thống IR thương mại hiện nay có thể phân lớp như hệ thống IR Bool hay hệ thống tìm kiếm theo mẫu văn bản. .. hoặc /và phản hồi thích hợp Kiến trúc của hệ tìm kiếm thông tin: Hình 2.3 Mô hình kiến trúc của hệ tìm kiếm thông tin Giao diện người sử dụng (1) NSD yêu cầu Văn bản Các tính toán cho văn bản NSD phản hồi Tính toán cho câu truy vấn Truy vấn Tìm kiếm Chỉ mục Tài liệu đã sắp xếp Săp xếp Tìm kiếm tài liệu (2) (3) Quản trị cơ sở dữ liệu Lập chỉ mục Tệp chỉ mục Cơ sở dữ liệu văn bản Hình 2.4 Cấu trúc hệ tìm kiếm. .. các bản ghi không có cấu trúc Chúng không chứa các thuộc tính cố định Nó chỉ đơn thuần là tài liệu văn bản Các tài liệu này có thể chỉ mục bằng các từ khóa, bộ mô tả tài liệu, hay các thuật ngữ (term) chỉ mục Mỗi thuật ngữ chỉ mục được sử dụng để mô tả nội dung văn bản chỉ theo một khía cạnh nào đó, không đầy đủ và không rõ ràng cho toàn bộ nội dung văn bản Nhiều thuật ngữ chỉ mục được gắn theo tài liệu. .. của bản luận văn đã đề cập được một số vấn đề mang tính chất cơ sở của cơ sở dữ liệu đa phương tiện như cách thức và mô hình lưu trữ dữ liệu, cách thức chỉ số hoá cũng như các yêu cầu và các vấn đề cần được giải quyết đối với một hệ thống quản trị cơ sở dữ liệu đa phương tiện (MDBMS) Tuy nhiên, với mục đích và yêu cầu của chủ đề nghiên cứu là trình bày các vấn đề liên quan đến việc tìm kiếm dữ liệu văn. .. diện tìm kiếm trực tiếp và lập chỉ mục thì DTSearch còn cung cấp thư viện dll dùng cho lập trình viên Thư viện dll này có khả năng lập chỉ mục, thực hiện tìm kiếm theo mô hình boolean Có thể nói DTSearch là điển hình tìm kiếm văn bản theo mô hình boolean khá tốt hiện nay Hệ tìm kiếm văn bản Lucene: Hệ tìm kiếm văn bản Lucene là hệ tìm kiếm mã nguồn mở Hệ thống được phát triển cả trên nền Net và cả... tin 2.1.1 Kỹ thuật tìm kiếm thông tin Kỹ thuật truy vấn tài liệu văn bản được gọi chung là kỹ thuật tìm kiếm thông tin (IR – Information Retrieval) Kỹ thuật IR trong hệ thống đa phương tiện rất quan trọng vì hai lý do chính sau đây: • Đang tồn tại số lượng lớn tài liệu văn bản trong các thư viện Mà văn bản là tài nguyên rất quan trọng đối với các cơ quan tổ chức Do đó cần có IR đủ tốt để sử dụng có hiệu... lập chỉ mục: các từ trích được từ các văn bản thu thập được sẽ được bộ phận này lựa chọn để làm các từ chỉ mục Các từ chỉ mục phải là các từ thể hiện được nội dung của văn bản Hai bộ phận phân tích văn bản và lập chỉ mục thường đi liền với nhau và thường chỉ gọi là bộ phận lập chỉ mục (3) Bộ phận so khớp và sắp xếp các tài liệu trả về: Các từ trích được từ câu truy vấn và các từ chỉ mục của văn bản. .. truy vấn đến cơ sở dữ liệu trong hệ quản trị cơ sở dữ liệu ta phải học hết các tập lệnh này Nhưng ngược lại nó sẽ cung cấp cho ta các dữ liệu đầy đủ và hoàn toàn chính xác Hiện nay hệ quản trị cơ sở dữ liệu được sử dụng rộng rãi trên thế giới Một số hệ quản trị cơ sở dữ liệu thông dụng: Access, SQL Server, Oracle Hệ quản lý thông tin (IMS): Hệ quản lý thông tin là hệ quản trị cơ sở dữ liệu nhưng có... cơ sở dữ liệu (DBMS), hệ quản lý thông tin (MIS), hệ hỗ trợ ra quyết định (DSS), hệ trả lời câu hỏi (QAS) và hệ tìm kiếm thông tin (IR) Việc hiểu biết sự khác nhau giữa hai hệ thống tìm kiếm văn bản (IR) và các hệ thống thông tin khác giúp ta hiểu rõ các kỹ thuật tìm kiếm văn bản Hệ quản trị cơ sở dữ liệu: Bất cứ hệ thống thông tin tự động nào cũng dựa trên một tập các mục được lưu trữ (gọi là cơ sở