Phát biểu bài toán

Làm thể nào để xây dựng một hệ thống tìm kiếm văn bản, sao cho các tài liệu truy vấn của người dùng được đưa vào hệ thống tìm kiếm sẽ được xử lý và đưa ra đại diện phù họp và chính xác nhất với yêu càu người dùng?

Để thực hiện được yêu cầu trên thì trong một hệ thống tìm kiếm, các dữ liệu đều phải trải qua quy trình xử lý để tìm ra đặc trưng riêng của từng đối tượng, sau đó so sánh với cơ sở dữ liệu để tìm ra dữ liệu phù hợp nhất. Hệ thống tìm kiếm văn bản không nằm ngoài quy trình đó, các tài liệu truy vấn của người dùng được đưa vào cũng xử lý đưa ra tài liệu đại diện truy vấn. Quá trình tiền xử lý này yêu cầu tìm ra cách thức đặc trưng của tài liệu, cách tổ chức lưu trữ tài liệu, quá trình xử lý văn bản để loại đi các yếu tố không cần thiết và rất nhiều các bước xử lý khác. Bài toán tập trung vào bước so sánh câu truy vấn với đại diện tài liệu, nghiên cứu các kỹ thuật đem lại hiệu quả để đưa ra kết quả chính xác, nhanh nhất.

Trong thực tế, thì có nhiều kỹ thuật thuật tìm kiếm, có kỹ thuật hiệu quả không cao song cách thức hoạt động đơn giản, dễ hiểu, có kỹ thuật đem lại hiệu quả tốt, giảm bớt phức tạp xong chưa linh hoạt... Bài toán trong khóa luận này sẽ tập trung vào mô tả kỹ thuật LSA và cài đặt kỹ thuật này ừên ngôn ngữ lập trình c# 2010 được áp dụng vào cơ sở dữ liệu là các chương trình mô phỏng thuật toán tìm kiếm LSA, phương pháp này chủ yếu tính toán ừên ma ừận. Các ma ừận được xây dựng từ các tài liệu và các thuật ngữ xuất hiện trong tài liệu đó, từ việc phân tích SVD để có thể tính toán, tìm ra các tài liệu được quan tâm dựa vào câu truy vấn nào đó. Trong hệ thống tìm kiếm, số lượng tài liệu là rất lớn, mỗi tài liệu lại có nhiều thuật ngữ khác nhau, vì thế ma trận thuật ngữ tài liệu (term- document) là rất lớn. Điều này có thể gây ra sự phức tạp tốn kém thời gian và bộ nhớ. Kỹ thuật LSA nhằm giảm bớt sự phức tạp trong giai đoạn này và đem lại hiệu quả tìm kiếm.

Phương pháp TF-IDF (Term Frequency-Inverse Document Frequency)

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN