II. CÀI ĐẶT THỬ NGHIỆM
1. TIỀN XỬ LÝ VĂN BẢN TIẾNG VIỆT 1 Tổ chức từ điển
1.1 Tổ chức từ điển
Việc chọn một cơ sở dữ liệu phù hợp cho việc tổ chức từ điển cũng hết sức cần thiết và quan trọng. Nếu cơ sở dữ liệu được tổ chức tốt và hợp lý thì công việc tiền xử lý văn bản tiếng Việt sẽ đạt hiệu quả cao đặc biệt là về mặt tốc độ xử lý. Trong phần cài đặt này em sử dụng cơ sở dữ liệu Access. Đây là một cơ sở dữ liệu được sử dụng rộng rãi và phổ biến đối với những bài toán vừa và nhỏ và không yêu cầu nhiều về độ an toàn của dữ liệu.
Việc tổ chức dữ liệu từ điển theo các bảng và được chia theo bảng chữ cái sẽ giúp cho chúng ta thu hẹp được phạm vi tìm kiềm của các từ trong toàn bộ các từ có trong từ điển. Đồng thời giúp cho tốc độ của quá trình tách từ tiếng Việt nhanh hơn.
Cũng trong cơ sở dữ liệu này em định nghĩa một bảng chứa các từ không có nghĩa, ít ý nghĩa, các ký hiệu để từ đó giúp cho việc tách các từ có nghĩa trong văn bản nhanh hơn và chia nhỏ các đoạn cần tách tốt hơn. Chính việc chia nhỏ các đoạn cần tách tốt sẽ giúp cho thuật toán tách từ có nghĩa đạt hiệu quả cao hơn vì tránh phải thực hiện nhiều vòng lặp thừa mà không tách ra được từ có nghĩa nào cả.
Hình 5: Tổ chức lưu trữ từ điển
1.2. Tổ chức cơ sở dữ liệu văn bản
Việc chuyển đổi dữ liệu văn bản từ dạng phi cấu trúc về dạng cấu trúc đó là một công việc cần thiết để từ đó chúng ta có thể áp dụng các kỹ thuật khai phá văn bản nói chung cũng như tìm kiếm văn bản tiếng Việt nói riêng.
Các văn bản tiếng Việt được lưu trữ trong cơ sử dữ liệu Access như sau:
Hình 6: Sơ đồ lưu trữ cơ sở dữ liệu văn bản
1.3. Xác định các từ khoá trong văn bản
Để xác định chính xác các từ khoá cho văn bản cũng là một bài toán hết sức phức tạp, đặc biệt là đối với các văn bản tiếng Việt. Để giải quyết tốt bài toán này chúng ta cần phải tổ chức tốt từ điển, cần phải có một giải thuật tách từ tiếng Việt hợp lý để chọn ra tập các từ đại diện cho văn bản. Sau đó chọn lọc ra các từ khoá làm tập các từ đại diện cho văn bản. Các từ đại diện cho văn bản phải thoả mãn các tính chất đó là một tập các từ có thể phân biệt được giữa văn bản này với các văn bản khác nhưng đồng thời phải đưa ra được các từ mang tính trọng tâm của văn bản. Trong đồ án này em chọn ngưỡng cho từ tách được dài nhất gồm bốn tiếng ghép lại.
Các từ được tách sẽ ưu tiên từ có độ dài dài nhất. Ví dụ từ công nhân
sẽ được chọn thay vì từ công và từ nhân. Một điểm cần lưa ý là từ loại của
từ cần tách cũng quan trọng. Chúng ta nhận thấy rằng nếu từ, từ ghép được tách là danh từ hoặc động từ thì có ý nghĩa đại diện cho văn bản nhiều hơn so với các từ loại dạng đại từ giới từ.
Dưới đây là kết quả của việc tách từ có nghĩa cho một số văn bản tiếng Việt.