1. Trang chủ
  2. » Luận Văn - Báo Cáo

Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản

86 532 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 913,1 KB

Nội dung

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - 1 - LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành nhất đến PGS.TS Đặng Văn Đức, người đã tận tình hướng dẫn, giúp đỡ em trong suốt thời gian thực hiện luận văn này. Con cảm ơn Cha, Mẹ và gia đình, những người đã dạy dỗ, khuyến khích, động viên con trong những lúc khó khăn, tạo mọi điều kiện cho chúng con nghiên cứu học tập. Em cảm ơn các thầy, cô trong Viện Công Nghệ Thông Tin Hà Nội cùng các thầy cô trong Khoa Công nghệ thông tin – ĐH Thái Nguyên đã dìu dắt, giảng dạy em, giúp em có những kiến thức quý báu trong những năm học qua. Cảm ơn các bạn đã tận tình động viên đóng góp ý kiến cho luận văn của tôi. Mặc dù đã cố gắng hết sức cùng với sự tận tâm của thầy giáo hướng dẫn song do trình độ còn hạn chế, nội dung đề tài còn mới mẻ nên Luận văn khó tránh khỏi những thiếu sót. Em rất mong nhận được sự thông cảm và góp ý của thầy cô và các bạn. Thái Nguyên, tháng 11/2008 Học viên Phạm Thị Ngọc Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - 2 - MỤC LỤC MỤC LỤC 2 DANH MỤC CÁC TỪ TIẾNG ANH VÀ VIẾT TẮT 5 DANH MỤC CÁC BẢNG 6 DANH MỤC CÁC HÌNH, ĐỒ THỊ 6 MỞ ĐẦU 7 CHƯƠNG 1: TỔNG QUAN HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN (MDBMS) 8 1.1 Mục đích của MDBMS 8 1.2 Các yêu cầu của một MDBMS 11 1.2.1 Khả năng quản trị lưu trữ lớn 13 1.2.2 Hỗ trợ truy vấn và khai thác dữ liệu 14 1.2.3 Tích hợp các phương tiện, tổng hợp và thể hiện 14 1.2.4 Giao diện và tương tác. 15 1.2.5 Hiệu suất. 15 1.3 Các vấn đề của MDBMS 16 1.3.1 Mô hình hoá dữ liệu MULTIMEDIA 16 1.3.2 Lưu trữ đối tượng MULTIMEDIA 17 1.3.3 Tích hợp Multimedia, thể hiện và chất lượng của dịch vụ (QoS) 19 1.3.4 Chỉ số hoá Multimedia 20 1.3.5 Hỗ trợ truy vấn Multimedia, khai thác và duyệt qua. 21 1.3.6 Quản trị CSDL Multimedia phân tán 22 1.3.7 Sự hỗ trợ của hệ thống 23 1.4 Kết luận 23 CHƯƠNG 2: MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM VĂN BẢN THEO NỘI DUNG 25 2.1 Giới thiệu hệ tìm kiếm thông tin 25 2.1.1 Kỹ thuật tìm kiếm thông tin 25 2.1.2 Một số vấn đề trong tìm kiếm thông tin 26 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - 3 - 2.1.3 Hệ thống tìm kiếm thông tin – IR 27 2.1.4 Sự khác biệt giữa các hệ thống IR và các hệ thống thông tin khác 32 2.1.5 Các hệ tìm kiếm văn bản thường được sử dụng hiện nay 34 2.2 Một số kỹ thuật tìm kiếm văn bản theo nội dung 35 2.2.1 Chỉ mục tự động văn bản và mô hình tìm kiếm Bool 35 2.2.1.1. Mô hình tìm kiếm Bool cơ sở 35 2.2.1.2 Tìm kiếm Bool mở rộng 37 2.2.1.3 Các bước để xây dựng hệ thống tìm kiếm thông tin – IR 39 2.2.1.4 Lập chỉ mục tài liệu 40 2.2.2 Mô hình tìm kiếm không gian vector 51 2.2.2.1 Mô hình tìm kiếm không gian vector cơ sở 51 2.2.2.2. Kỹ thuật phản hồi phù hợp (Relevance Feedback Technique) 53 2.2.3. Thước đo hiệu năng 55 2.3 Ví dụ 56 2.4 Kết luận 58 CHƯƠNG 3: MỘT SỐ KỸ THUẬT NÂNG CAO HIỆU NĂNG TÌM KIẾM VĂN BẢN 59 3.1 Giới thiệu 59 3.2 Một số kỹ thuật nâng cao hiệu năng tìm kiếm đa phương tiện 60 3.2.1 Lọc bằng phân lớp, thuộc tính có cấu trúc và các từ khóa 60 3.2.2 Các phương pháp trên cơ sở tính không đều tam giác 61 3.2.3 Mô hình tìm kiếm trên cơ sở cụm (cluster-based) 63 3.2.3.1 Sinh cụm 63 3.2.3.2 Tìm kiếm trên cơ sở cụm 64 3.2.4 Chỉ mục ngữ nghĩa tiềm ẩn (LSI) để tìm kiếm thông tin trên cơ sở không gian vector 64 3.3 Kỹ thuật LSI 66 3.3.1 Giới thiệu LSI 66 3.3.2 Phương pháp luận LSI 67 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - 4 - CHƯƠNG 4: PHÁT TRIỂN CHƯƠNG TRÌNH THỬ NGHIỆM 79 4.1 Giới thiệu bài toán 79 4.2 Chức năng chương trình 79 4.3 Quy trình phát triển ứng dụng 79 4.3.1 Xây dựng ma trận Term – Doc 80 4.3.2 Lập chỉ mục tài liệu 80 4.3.3 Xây dựng ma trận trọng số 80 4.3.4 Tìm kiếm theo mô hình vector 81 4.3.5 Phương pháp LSI 81 4.2 Cài đặt thử nghiệm 82 4.2.1 Giao diện màn hình lập chỉ mục 82 4.2.2 Giao diện màn hình cập nhập chỉ mục 83 4.2.2 Tìm kiếm tài liệu theo mô hình vector 83 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 84 TÀI LIỆU THAM KHẢO 86 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - 5 - DANH MỤC CÁC TỪ TIẾNG ANH VÀ VIẾT TẮT Từ gốc Giải nghĩa Cluster-based Cơ sở cụm CSDL Cơ sở dữ liệu DBMS (Database Management System) Hệ quản trị cơ sở dữ liệu MDBMS (Multimedia Database Management System) Hệ quản trị cơ sở dữ liệu đa phương tiện Doc Tài liệu Docs Nhiều tài liệu DSS (Decision Support Systems) Hệ hỗ trợ ra quyết định Exact match Đối sánh chính xác IMS (Information Management System) Hệ quản lý thông tin Index Chỉ mục IR (Information Retrieval) Truy tìm thông tin IRS (Information Retrieval System) Hệ truy tìm thông tin LSI (Latent Semantic Indexing) Chỉ mục ngữ nghĩa tiềm ẩn MultiMedia Truyền thông da phương tiện Precision Độ chính xác QAS (Question Anser System) Hệ trả lời câu hỏi Query Truy vấn Term Thuật ngữ (từ) Ranking Sắp xếp Record Bản ghi Recall Khả năng tìm thấy SC (Similarity Coeficient) Độ tương quan SVD (Singular Value Decomposition) Kỹ thuật tách giá trị đơn Text-partern Mẫu văn bản The Term Discrimination Value Giá trị phân biệt từ The Signal – Noise Ratio Độ nhiễu tín hiệu Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - 6 - DANH MỤC CÁC BẢNG Bảng 2.2: Cách tập tin nghịch đảo lưu trữ 43 Bảng 2.3 Cách tập tin trực tiếp lưu trữ 43 Bảng 2.4: Thêm một tài liệu mới vào tập tin nghịch đảo 44 Bảng 2.5: Danh sách từ dừng của tiếng Anh 49 Bảng 3.1: Bảng khoảng cách của từng đối tượng trong CSDL đến từng vector so sánh 62 DANH MỤC CÁC HÌNH, ĐỒ THỊ Hình1.1. Kiến trúc bậc cao cho một MDBMS đáp ứng các yêu cầu cho dữ liệu MULTIMEDI 10 Hình 1.2. Mô hình khả năng lưu trữ của các hệ thống Multimedia 13 Hình 2.1. Mô hình tổng quát tìm kiếm thông tin 28 Hình 2.3. Mô hình kiến trúc của hệ tìm kiếm thông tin 31 Hình 2.4. Cấu trúc hệ tìm kiếm thông tin tiêu biểu 31 Hình 2.5. Các từ được sắp theo thứ tự 46 Hình 2.6. Mô hình minh hoạ mối quan hệ giữa 5 tài liệu D1 đến D5 và thuật ngữ “CAR” 48 Hình 2.7. Quá trình chọn từ làm chỉ mục 50 Hình 2.8. Mô hình thước đo hiệu năng 55 Hình 2.9. Đồ thị so sánh hiệu năng 56 Hình 3.1. Mô hình LSI 67 Hình 3.2. Mô hình tính toán và xếp thứ hạng cho các tài liệu 68 Hình 3.3. Minh hoạ kỹ thuật Chỉ số hoá ngữ nghĩa tiềm ẩn (LSI) 69 Hình 3.4. Mô hình minh hoạ tách giá trị đơn (SVD) 75 Hình 4.1. Giao diện màn hình lập chỉ mục 82 Hình 4.2. Giao diện màn hình cập nhập chỉ mục 83 Hình 4.3. Giao diện tìm kiếm theo mô hình vector 83 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - 7 - MỞ ĐẦU Cùng với sự phát triển nhanh chóng của công nghệ tin học thì khối lượng dữ liệu đa phương tiện (Multimedia) được thu thập và lưu trữ dưới dạng số ngày càng nhiều dẫn tới việc tìm kiếm dữ liệu đa phương tiện trở nên khó khăn vì vậy cần có các hệ thống tìm kiếm thông tin (Information Retrieval) hỗ trợ người dùng tìm kiếm một cách chính xác và nhanh chóng các thông tin mà họ cần trên kho tư liệu khổng lồ này. Hiện nay có một số hệ thống tìm kiếm như GoogleDesktop, DTSearch, Lucene, tuy nhiên các hệ thống này sử dung các kỹ thuật tìm kiếm đơn giản nên hiệu quả còn chưa cao. Vì vậy mục tiêu của luận văn này nhằm tìm hiểu một số kỹ thuật nâng cao tìm kiếm thông tin, cụ thể ở đây là tìm kiếm văn bản theo nội dung trong cơ sở dữ liệu đa phương tiện nhằm đáp ứng nhu cầu cấp thiết của thời đại bùng nổ thông tin điện tử hiện nay. Bố cục của luận văn gồm các phần sau: + CHƯƠNG 1: TỔNG QUAN VỀ HỆ QUẢN TRỊ CSDL ĐA PHƯƠNG TIỆN: Phần này sẽ giới thiệu tổng quan về hệ quản trị CSDL đa phương tiện. + CHƯƠNG 2: MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM VĂN BẢN - Trình bày các v ấn đề về hệ tìm kiếm thông tin. - Trình bày kỹ thuật cơ sở chỉ mục văn bản trên cơ sở mô hình Bool và mô hình vector. + CHƯƠNG 3: MỘT SỐ KỸ THUẬT NÂNG CAO HIỆU NĂNG TÌM KIẾM VĂN - Trình bày cơ sở lý thuyết về một số kỹ thuật chỉ mục nâng cao. - Giới thiệu kỹ thuật chỉ mục nâng cao LSI. + CHƯƠNG 4: PHÁT TRIỂN CHƯƠNG TRÌNH THỬ NGHIỆM: Chương này phát triển chương trình thử nghiệm áp dụng kỹ thuật chỉ mục và kỹ thuật tìm kiếm văn bản theo nội dung trong cơ sở dữ liệu đa phương tiện. + KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN: Trình bày các kết quả đạt được trong luận văn và nêu phương hướng phát triển của đề tài trong tương lai. + TÀI LIỆU THAM KHẢO và PHỤ LỤC: Trình bày các thông tin liên quan đến luận văn. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - 8 - CHƯƠNG 1: TỔNG QUAN HỆ QUẢN TRỊ CƠ SỞ DỮ LIỆU ĐA PHƯƠNG TIỆN (MDBMS) Trung tâm của một hệ thống thông tin đa phương tiện (MULTIMEDIA) chính là hệ quản trị CSDL MULTIMEDIA (MDBMS - Multimedia Database Management System). Theo truyền thống, một CSDL bao gồm một bộ các dữ liệu có liên quan về một thực thể cho trước hoặc một hệ quản trị CSDL (DBMS) là một bộ các dữ liệu có liên quan đến nhau với một tập hợp các chương trình được dùng để khai báo, tạo lập, lưu trữ, truy cập và truy vấn CSDL. Tương tự như vậy, chúng ta có thể xem một CSDL MULTIMEDIA là một tập các loại dữ liệu Multimedia như văn bản, hình ảnh, video, âm thanh, các đối tượng đồ hoạ…. Một hệ quản trị CSDL MULTIMEDIA cung cấp hỗ trợ cho các loại dữ liệu MULTIMEDIA trong việc tạo lập, lưu trữ, truy cập, truy vấn và kiểm soát. Sự khác nhau của các kiểu dữ liệu trong CSDL MULTIMEDIA có thể đòi hỏi các phương thức đặc biệt để tối ưu hoá việc lưu trữ, truy cập, chỉ số hoá và khai thác. MDBMS cần phải cung cấp các yêu cầu đặc biệt này bằng cách cung cấp các cơ chế tóm tắt bậc cao để quản lý các kiểu dữ liệu khác nhau cũng như các giao diện thích hợp để thể hiện chúng. 1.1 Mục đích của MDBMS Một MDBMS cung cấp một môi trường thích hợp để sử dụng và quản lý các thông tin CSDL MULTIMEDIA. Vì vậy, nó phải hỗ trợ các kiểu dữ liệu MULTIMEDIA khác nhau bên cạnh việc phải cung cấp đầy đủ các chức năng của một DBMS truyền thống như khai báo và tạo lập CSDL, khai thác dữ liệu, truy cập và tổ chức dữ liệu, độc lập dữ liệu, tính riêng, toàn vẹn dữ liệu, kiểm soát phiên bản. Các chức năng của MDBMS cơ bản tương tự như các chức năng của DBMS, tuy nhiên, bản chất của thông tin MULTIMEDIA tạo ra các đòi hỏi mới. Bằng cách sử dụng các chức năng tổng quát của DBMS chúng ta có thể trình bày mục đích của MDBMS như sau: Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - 9 - • Sự thống nhất: bảo đảm rằng một dữ liệu không phải tạo lại khi các chương trình khác nhau đòi hỏi dữ liệu đó. • Độc lập dữ liệu: Đảm bảo sự tách rời giữa CSDL và các chức năng quản trị từ các chương trình ứng dụng. • Điều khiển nhất quán: đảm bảo sự toàn vẹn của CSDL MULTIMEDIA thông qua các quy tắc được áp dụng trên các giao dịch đồng thời. • Sự tồn tại: bảo đảm các đối tượng dữ liệu tồn tại qua các giao dịch khác nhau cũng như các yêu cầu của chương trình. • Tính riêng: ngăn chặn các truy cập và sửa chữa các dữ liệu được lưu trữ một cách trái phép. • Kiểm soát sự toàn vẹn: bảo đảm sự toàn vẹn của CSDL từ một giao dịch này sang một giao dịch khác thông qua việc áp đặt các ràng buộc. • Khả năng phục hồi: phải có các phương thức cần thiết để đảm bảo rằng kết quả của các giao dịch thất bại không làm ảnh hưởng đến dữ liệu lưu trữ. • Hỗ trợ truy vấn: bảo đảm các cơ chế truy vấn phù hợp với dữ liệu MULTIMEDIA. • Kiểm soát phiên bản: tổ chức và quản lý các phiên bản khác nhau của các đối tượng lưu trữ có thể được yêu cầu bởi các ứng dụng. Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn - 10 - Hình1.1. Kiến trúc bậc cao cho một MDBMS đáp ứng các yêu cầu cho dữ liệu MULTIMEDI Đối với việc điều khiển nhất quán, một giao dịch là một chuỗi các hướng dẫn được thực thi một cách hoàn toàn hoặc không hoàn toàn, đối với trường hợp không hoàn toàn CSDL sẽ được khôi phục lại trạng thái trước đó, việc đưa ra được một cơ chế tương ứng đảm bảo cho việc nhất quán là một vấn đề khó khăn đối với CSDL MULTIMEDIA. Các CSDL quan hệ truyền thống sử dụng một bản ghi hoặc một bảng duy nhất như là một đơn vị nhất quán. CSDL MULTIMEDIA thường sử dụng một đối tượng đơn lẻ (hoặc đối tượng ghép) như là một đơn vị logic của truy cập. Như vậy một đối tượng MULTIMEDIA đơn lẻ có thể tạo thành đơn vị nhất quán. Đối với vấn đề lưu trữ, một phương thức đơn giản là lưu trữ các tệp MULTIMEDIA trong các tệp tương ứng của hệ điều hành. Tuy nhiên với đặc thù là dung lượng lớn, các dữ liệu MULTIMEDIA là cho chi phí triển khai theo cách thức này trở nên tốn kém. Hơn nữa, hệ thống cũng cần phải lưu trữ các metadata MULTIMEDIA và có thể cả các đối tượng MULTIMEDIA tổng hợp. Vì vậy, hầu hết các MDBMS phân loại thành 2 phần là cố định và tạm thời và chỉ lưu trữ các dữ liệu cố định sau khi các giao dịch được cập nhật. Các dữ liệu tạm thời [...]... chỉ mục và tìm kiếm tài liệu văn bản - 24 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CHƯƠNG 2: MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM VĂN BẢN THEO NỘI DUNG 2.1 Giới thiệu hệ tìm kiếm thông tin 2.1.1 Kỹ thuật tìm kiếm thông tin Kỹ thuật truy vấn tài liệu văn bản được gọi chung là kỹ thuật tìm kiếm thông tin (IR – Information Retrieval) Kỹ thuật IR trong hệ thống đa phương... khá tốt hiện nay Hệ tìm kiếm văn bản Lucene: Hệ tìm kiếm văn bản Lucene là hệ tìm kiếm mã nguồn mở Hệ thống được phát triển cả trên nền Net và cả trên ngôn ngữ Java Hệ thống hiện cũng được khá nhiều lập trình viên phát triển 2.2 Một số kỹ thuật tìm kiếm văn bản theo nội dung 2.2.1 Chỉ mục tự động văn bản và mô hình tìm kiếm Bool 2.2.1.1 Mô hình tìm kiếm Bool cơ sở Mục tiêu của hệ thống IR là tìm kiếm. .. IR Bool hay hệ thống tìm kiếm theo mẫu văn bản (text-pattern) Các câu truy vấn trong tìm kiếm mẫu văn bản là các xâu hay biểu thức thông thường Trong khi tìm kiếm, mọi tài liệu được tìm kiếm và cái nào chứa xâu truy vấn thì được lấy ra Các hệ thống “mẫu văn bản là hình thức chung nhất cho việc tìm kiếm trong CSDL hay tập hợp tài liệu nhỏ Một thí dụ quen thuộc của tìm kiếm mẫu văn bản là họ công cụ grep... đối sánh tương đồng hoặc/và phản hồi thích hợp Kiến trúc của hệ tìm kiếm thông tin: Hình 2.3 Mô hình kiến trúc của hệ tìm kiếm thông tin Giao diện người sử dụng (1) NSD yêu cầu Văn bản Các tính toán cho văn bản NSD phản hồi Tính toán cho câu truy vấn Truy vấn Tìm kiếm Chỉ mục Tài liệu đã sắp xếp Săp xếp Quản trị cơ sở dữ liệu Tìm kiếm tài liệu (2) (3) Lập chỉ mục Tệp chỉ mục Cơ sở dữ liệu văn bản Hình... liệu của mình dưới dạng các bảng Mỗi một cơ sở dữ liệu được lưu trữ thành nhiều bảng khác nhau Mỗi một cột trong bảng là một - 32 Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn thuộc tính, và mỗi một dòng là một bộ dữ liệu cụ thể Trong mỗi một bảng có một thuộc tính duy nhất đại diện cho bảng, nó không được trùng lặp và ta gọi đó là khoá chính Các bảng có mối liên hệ với... 2.1.2 Một số vấn đề trong tìm kiếm thông tin Kể từ những năm 40, các vấn đề trong việc lưu trữ thông tin và tìm kiếm thông tin đã thu hút sự chú ý rất lớn Với một lượng thông tin khổng lồ thì việc tìm kiếm chính xác và nhanh chóng càng trở nên khó khăn hơn Với sự ra đời của máy tính, rất nhiều ý tưởng lớn được đưa ra nhằm cung cấp một hệ thống tìm kiếm thông minh và chính xác Tuy nhiên, vấn đề tìm kiếm. .. hỏi (QAS) và hệ tìm kiếm thông tin (IR) Việc hiểu biết sự khác nhau giữa hai hệ thống tìm kiếm văn bản (IR) và các hệ thống thông tin khác giúp ta hi u rõ các ể kỹ thuật tìm kiếm văn bản Hệ quản trị cơ sở dữ liệu: Bất cứ hệ thống thông tin tự động nào cũng dựa trên một tập các mục được lưu trữ (gọi là cơ sở dữ liệu) cần thiết cho việc truy cập Do đó hệ quản trị cơ sở dữ liệu đơn giản là một hệ thống được... Quy tắc tìm kiếm của nó như sau: • Toán tử OR: Xem xét hai thuật ngữ đồng nghĩa Thí dụ, cho trước câu truy vấn (term1 OR term2) thì hiện diện của một trong hai thuật ngữ trong tài liệu đủ để đáp ứng tìm kiếm tài liệu này • Toán tử AND: Tổ hợp các thuật ngữ (hay từ khóa) vào một câu truy vấn Vậy, truy vấn (term1 AND term2) chỉ ra cả hai thuật ngữ phải hiện diện trong tài liệu để cho kết quả là tìm thấy... GoogleDesktop: Google desktop search giúp cho chúng ta có th tìm kiếm một cách dễ dàng ể trong máy tính ủa mình giống như việc tìm kiếm trên web của google Google c Desktop là một ứng dụng cung cấp cho chúng ta tìm kiếm một văn bản với từ khóa đầy đủ trong mail, các file, âm nhạc, ảnh, chat, Gmail, và các trang web n trong ằm máy mình B việc làm cho có thể tìm kiếm được trên máy tính của mình, ằng Desktop đặt... chỉ số hoá cũng như các yêu cầu và các vấn đề cần được giải quyết đối với một hệ thống quản trị cơ sở dữ liệu đa phương tiện (MDBMS) Tuy nhiên, với mục đích và yêu cầu của chủ đề nghiên cứu là trình bày các vấn đề liên quan đến việc tìm kiếm dữ liệu văn bản theo nội dung trong c ơ sở dữ liệu đa phương tiện nên trong chương tiếp theo của luận văn này sẽ trình bày một số kỹ thuật chỉ mục và tìm kiếm . Thước đo hiệu năng 55 2.3 Ví dụ 56 2.4 Kết luận 58 CHƯƠNG 3: MỘT SỐ KỸ THUẬT NÂNG CAO HIỆU NĂNG TÌM KIẾM VĂN BẢN 59 3.1 Giới thiệu 59 3.2 Một số kỹ thuật nâng cao hiệu năng tìm kiếm đa phương. MỘT SỐ KỸ THUẬT CHỈ MỤC VÀ TÌM KIẾM VĂN BẢN THEO NỘI DUNG 25 2.1 Giới thiệu hệ tìm kiếm thông tin 25 2.1.1 Kỹ thuật tìm kiếm thông tin 25 2.1.2 Một số vấn đề trong tìm kiếm thông tin 26 Số. TÌM KIẾM VĂN BẢN - Trình bày các v ấn đề về hệ tìm kiếm thông tin. - Trình bày kỹ thuật cơ sở chỉ mục văn bản trên cơ sở mô hình Bool và mô hình vector. + CHƯƠNG 3: MỘT SỐ KỸ THUẬT NÂNG CAO

Ngày đăng: 19/08/2014, 15:55

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đặng Văn Đức (200 4/2005), “Multimedia Database Management System” Chương 1,Chương 4 , Ch ươ ng 9 Sách, tạp chí
Tiêu đề: Multimedia Database Management System”
[2] Đặng Văn Đức (2007), “ Nâng cao hi ệu năng MMDMS (Multimedia Database Management System)”, Bài 8.Ti ếng Anh Sách, tạp chí
Tiêu đề: Nâng cao hiệu năng MMDMS (Multimedia Database Management System)”
Tác giả: Đặng Văn Đức
Năm: 2007
[1] Guojun Lu, “Multimedia Database Management Systems”, Artech House, Boston, London, 1999 Sách, tạp chí
Tiêu đề: Multimedia Database Management Systems”
[2] Subrahmanian V.S., “Principles of Multimedia Database Systems”, Morgan Kaufmann Publishers, Inc., California, 1998 Sách, tạp chí
Tiêu đề: Principles of Multimedia Database Systems”
[3] David Hand, Heikki Mannila, Padhraic Smyth, Principles of Data Mining, A Bradford Book The MIT Press Cambridge, Massachusetts LondonEngland, 2001 Sách, tạp chí
Tiêu đề: Principles of Data Mining
[5] Witten I.H, Moffat A., Bell C.T., “Managing Gigabytes, Compressing and Indexing Documents and Images”, Second Edition, Morrgan Kaufman Publishers, 1999 Sách, tạp chí
Tiêu đề: Managing Gigabytes, Compressing and Indexing Documents and Images”
[6] Theory of Information Retrieval, Florida State University LIS-5263 (Fall, 2003): “Vector Model Information Retrieval”, Written by Rich Ackerman, September 25. 2003 Sách, tạp chí
Tiêu đề: “Vector Model Information Retrieval”
[7] Thomas K Lundauer,Peter W. Foltz,Darrel Laham, “Introduction to Latent Semantic Analysis” Sách, tạp chí
Tiêu đề: “Introduction to Latent Semantic Analysis
[8] Karl Aberer(2003/4), EPFL-SSC, “Latent Semantic Indexing”, Tr 36-67 Sách, tạp chí
Tiêu đề: Latent Semantic Indexing”
[9] Deerwater, Dumais, Furnas, Landauer, Harshman, “Latent Semantic Indexing” Sách, tạp chí
Tiêu đề: Latent Semantic Indexing

HÌNH ẢNH LIÊN QUAN

Hình 1.2. Mô hình kh ả nă ng l ư u tr ữ của các hệ thống Multimedia - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 1.2. Mô hình kh ả nă ng l ư u tr ữ của các hệ thống Multimedia (Trang 13)
Hình 2.1 Mô hình t ổng quát tìm kiếm thông tin Mô hình 2.1 g ồ m 4 thành ph ần: - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 2.1 Mô hình t ổng quát tìm kiếm thông tin Mô hình 2.1 g ồ m 4 thành ph ần: (Trang 28)
Hình 2.2 Ti ến trình truy vấn tài liệu cơ sở - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 2.2 Ti ến trình truy vấn tài liệu cơ sở (Trang 30)
Hình 2.4 C ấu trúc hệ tìm kiếm thông tin tiêu biểuGiao diện người sử dụng - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 2.4 C ấu trúc hệ tìm kiếm thông tin tiêu biểuGiao diện người sử dụng (Trang 31)
Hình 2.3. Mô hình ki ến trúc của hệ tìm kiếm  thông tin - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 2.3. Mô hình ki ến trúc của hệ tìm kiếm thông tin (Trang 31)
Hình 2.5 Các t ừ được sắp theo thứ tự - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 2.5 Các t ừ được sắp theo thứ tự (Trang 46)
Hình 2.6: Mô hình minh ho ạ mối quan hệ giữa 5 tài liệu D1 đến D5 và thuật  ng ữ “CAR” - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 2.6 Mô hình minh ho ạ mối quan hệ giữa 5 tài liệu D1 đến D5 và thuật ng ữ “CAR” (Trang 48)
Hình 2.7 Quá trình ch ọn từ làm chỉ mục - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 2.7 Quá trình ch ọn từ làm chỉ mục (Trang 50)
Hình 2.8. Mô hình th ước đ o hi ệu nă ng - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 2.8. Mô hình th ước đ o hi ệu nă ng (Trang 55)
Hình 2.9.  Đồ  th ị so sánh hiệu nă ng - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 2.9. Đồ th ị so sánh hiệu nă ng (Trang 56)
Hình 3.1. Mô hình LSI - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 3.1. Mô hình LSI (Trang 67)
Hình 3.2. Mô hình tính toán và x ếp thứ hạng cho các tài liệu - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 3.2. Mô hình tính toán và x ếp thứ hạng cho các tài liệu (Trang 68)
Hình 3.3. Minh ho ạ  k ỹ  thu ậ t Ch ỉ số hoá ngữ nghĩa tiềm ẩn (LSI) - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 3.3. Minh ho ạ k ỹ thu ậ t Ch ỉ số hoá ngữ nghĩa tiềm ẩn (LSI) (Trang 69)
Hình 3.4. Mô hình minh ho ạ tách giá trị đơ n (SVD) - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 3.4. Mô hình minh ho ạ tách giá trị đơ n (SVD) (Trang 75)
Hình 4.1: Giao di ện màn hình lập chỉ mục - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 4.1 Giao di ện màn hình lập chỉ mục (Trang 82)
Hình 4.2: Giao di ện màn hình cập nhập chỉ mục - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 4.2 Giao di ện màn hình cập nhập chỉ mục (Trang 83)
Hình 4.3. Giao di ện tìm kiếm theo mô hình vector - Đồ án tốt nghiệp một số kỹ THUẬT NÂNG CAO HIỆU NĂNG tìm KIẾM văn bản
Hình 4.3. Giao di ện tìm kiếm theo mô hình vector (Trang 83)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w