II. CÀI ĐẶT THỬ NGHIỆM
2. Xử lý dữ liệu để phục vụ cho mô hình tìm kiếm văn bản bằng phương pháp tập thô dung sai.
HƯỚNG PHÁT TRIỂN TRONG TƯƠNG LA
Trong thời gian làm đồ án tốt nghiệp em đã tìm hiểu về các đặc điểm của tiếng Việt cũng như các cách chuyển đổi nguồn dữ liệu văn bản tiếng Việt ở dạng phi cấu trúc về dạng cấu trúc để làm đầu vào cho các mô hình khai phá dữ văn bản liệu nói chung và nguồn dữ liệu phục vụ cho bài toán tìm kiếm văn bản tiếng Việt nói riêng. Đồ án đã trình bầy một số phương pháp về xử lý văn bản tiếng Việt, nghiên cứu một số phương pháp để lọc ra tập các từ khoá và hai mô hình tìm kiếm văn bản tiếng Việt đó là
mô hình không gian vector và mô hình tập thô dung sai đồng thời áp dụng
mô hình lý thuyết tập thô dung sai để cài đặt chương trình. Trong đồ án này một số kỹ thuật khai phá dữ liệu văn bản đã được nghiên cứu và tìm hiểu. Mục tiêu của em trong thời gian tới là sẽ là áp dụng những nghiên cứu ở phần trên và từ đó xây dựng được một hệ thống tìm kiếm văn bản tiếng Việt tự động. Việc tự động được thực hiện từ việc tách từ, đánh trọng số cho các từ được tách, lọc các từ đại diện cho văn bản và cuối cùng là áp dụng và cải tiến mô hình tập tập thô dung sai vào công việc tìm kiếm văn bản Việt.
Cụ thể hơn về những công việc cũng như các bước cần phải làm để có thể hoàn thiện được một hệ thống phục vụ tìm kiếm văn bản tiếng Việt một cách hiệu quả đó là:
Nghiên cứu và lựa chọn ra một kỹ thuật tách các từ đại diện cho văn bản sao cho thật chính xác. Áp dụng phân tích cú pháp đối với văn bản đầu
vào sau đó áp dụng kỹ thuật sinh từ đại diện. Từ tập các từ đại diện, thực
hiện kỹ thuật lọc từ để đưa ra các từ đại diện cuối cùng cho văn bản. Những
terms được tách ra của văn bản cần phải có đầy đủ những yếu tố sau: Đó là các từ đại diện đặc trưng nhất của văn bản và đồng thời phân biệt được sự khác biệt giữa văn bản này với văn bản khác trong tập các văn bản.
Đưa ra phương pháp xử lý tốt và hiệu quả đối với vấn đề đồng âm khác nghĩa hoặc đồng nghĩa khác âm, giải quyết được phần nào sự nhập nhằng trong ngôn ngữ.
Tổ chức dữ liệu hợp lý để đáp ứng được thời gian xử lý và thích hợp về không gian lưu trữ đồng thời có thể chạy tốt trên môi trường nhiều người sử dụng.
Xây dựng một mô hình tìm kiếm văn bản tiếng Việt dựa trên mô hình TRSM đồng thời có những cải tiến về mặt thuật toán để có thể đáp ứng được tính hợp lý, chính xác cao trong việc tìm kiếm văn bản tiếng Việt.