Phương pháp LSI

Một phần của tài liệu Luận văn: Phát triển chương trình thử nghiệm áp dụng kỹ thuật chỉ mục và kỹ thuật tìm kiếm văn bản pot (Trang 82)

Bước1:Đánh trọng số thuật ngữ và xây dựng ma trận term-doc A và ma trận

truy vấn Q;

Bước 2: Tách ma trận A thành tích của các ma trận và tìm các ma trận U, S, V, trong đó:

A = USVT

Bước 3: Thực hiện giảm chiều ma trận bằng cách tạo một ma trận vuông Ss có chiều là s x s từ ma trận S. Tương tự như vậy cho ma trận Vs có chiều là s x N và ma trận Us có chiều là M x s tương ứng

Bước 4: Tìm các toạ độ vector tài liệu mới trong không gian giảm chiều này;

Bước 5: Tìm các tọa độ véc tơ truy vấn mới trong không gian giảm chiều: q=qTUsSs-1

cosin giữa câu truy vấn và tài liệu.

Công thức tính toán để tính các giá trị tương đồng cosin trong mô hình không gian vector cơ sở. Thực chất là tính tích điểm giữa các toạ độ vector câu truy vấn và tài liệu chia cho tích của độ dài vector truy vấn và vector tài liệu.

Cosθdi = S(q,d)= d q d q* 4.2 Cài đặt thử nghiệm

Chương trình được cài đặt trên nền C#.

Chương trình gồm 2 phần: phần lập chỉ mục và phần tìm kiếm. Phần tìm kiếmđược chia ra làm 2 modul: tìm kiếm theo mô hình vector và tìm kiếm theo kỹ thuật LSI.

4.2.1 Giao diện màn hình lập chỉ mục

4.2.2 Giao diện màn hình cập nhập chỉ mục

Hình 4.2: Giao diện màn hình cập nhập chỉ mục

4.2.2 Tìm kiếm tài liệu theo mô hình vector

Giao diện màn hình tìm kiếm theo mô hình vector và kết quả tìm kiếm:

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

1. KẾT LUẬN

Kỹ thuật tìm kiếm thông tin trong hệ thống cơ sở dữ liệu đa phương tiện đã và đang là một vấnđề mang tính thời sự của Công nghệ thông tin. Bản luận văn này đã đề cập được một số vấn đề mang tính chất cơ sở của CSDL đa phương tiện và một số kỹ thuật tìm kiếm văn bản theo nội dung trong CSDL đa phương tiện như mô hình Bool cơ sở, mô hình không gian vector, và một số kỹ thuật nâng cao tìm kiếm như: lọc bằng phân lớp, phương pháp tính không đều tam giác, kỹ thuật phân cụm và đặc biệt đi sâu vào tìm hiểu kỹ thuật chỉ mục ngữ nghĩa tiềm ẩn (LSI - Latent Semantic Indexing). Bản luận văn cũng đã xây dựng chương trình thử nghiệm, demo chức năng lập chỉ mục và một số kỹ thuật tìm kiếm văn bản đơn giản như mô hình không gian vector. Đây cũng là cơ sở cho việc tiếp tục xây dựng và đánh giá tính hiệu quả của các kỹ thuật nâng cao tìm kiếm sau này.

Do sự eo hẹp về thời gian cũng như hạn chế về tài liệu và trình độ lập trình còn yếu kém nên bản luận văn chưa thể đi sâu vào việc xây dựng và cài đặt một chương trình thử nghiệm áp dụng kỹ thuật nâng cao trong tìm kiếm văn bản theo nội dung như mong muốn.

2. HƯỚNG PHÁT TRIỂN

Đây là một đề tài có tính thực tế cao. Với nhiệm vụ là nghiên cứu, luận văn đã đáp ứng được một số yêu cầu cơ bản đặt ra.Tuy nhiên để áp dụng kỹ thuật nâng cao tìm kiếm vào một chương trình ứng dụng cụ thể cho người sử dụng thì đòi hỏi phải có thêm thời gian nghiên cứu không chỉ với các kỹ thuật tìm kiếm mà còn một số kỹ thuật khác liên quan đến việc truy tìm sao cho đạt hiệu quả tốt nhất. Do đó hướng phát triển của luận văn như sau:

 Thêm chức năng tự thu thập tài liệu định kì và tự động cập nhập chỉ mục;

 Phát triển ứng dụng có áp dụng kỹ thuật nâng cao tìm kiếm để cung cấp một bộ máy tìm kiếm hiệu quả cho người sử dụng (cụ thể là áp dụng vào hệ thống thư viện số).

TÀI LIỆU THAM KHẢO Tiếng Việt

[1] Đặng Văn Đức (2004/2005), “Multimedia Database Management System”

Chương 1,Chương 4, Chương 9.

[2] Đặng Văn Đức (2007), “Nâng cao hiệu năng MMDMS (Multimedia Database Management System)”, Bài 8.

Tiếng Anh

[1] Guojun Lu, “Multimedia Database Management Systems”, Artech House, Boston, London, 1999. (adsbygoogle = window.adsbygoogle || []).push({});

[2] Subrahmanian V.S., “Principles of Multimedia Database Systems”, Morgan Kaufmann Publishers, Inc., California, 1998.

[3] David Hand, Heikki Mannila, Padhraic Smyth, Principles of Data Mining, A Bradford Book The MIT Press Cambridge, Massachusetts LondonEngland, 2001. [4] Xu, Feilong, Latent Semantic Indexing.

[5] Witten I.H, Moffat A., Bell C.T., “Managing Gigabytes, Compressing and Indexing Documents and Images”, Second Edition, Morrgan Kaufman Publishers, 1999.

[6] Theory of Information Retrieval, Florida State University LIS-5263 (Fall, 2003): “Vector Model Information Retrieval”, Written by Rich Ackerman, September 25. 2003.

[7] Thomas K Lundauer,Peter W. Foltz,Darrel Laham, “Introduction to Latent Semantic Analysis”.

[8] Karl Aberer(2003/4), EPFL-SSC, “Latent Semantic Indexing”, Tr 36-67. [9] Deerwater, Dumais, Furnas, Landauer, Harshman, “Latent Semantic Indexing”

Website

[1] Từ điển bách khoa toàn thư [2] Trang http://www.miislita.com

[3] Trang mã nguồn mở:

Một phần của tài liệu Luận văn: Phát triển chương trình thử nghiệm áp dụng kỹ thuật chỉ mục và kỹ thuật tìm kiếm văn bản pot (Trang 82)