Cài đặt module tiền xử lý văn bản

Module tiền xử lý văn bản bao gồm tiền xử lý cho dữ liệu huấn luyện và tiền xử lý cho dữ liệu kiểm tra phân loại. Đây là hai quá trình khác nhau, vì việc tiền xử lý cho tập huấn luyện là quá trình lựa chọn ra tập từ khoá đặc trưng chung. Sau đó, tập từ khoá đặc trưng này được dùng biểu diễn cho tập dữ liệu kiểm tra.

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 41/67

Sau đây là lược đồ tiền xử lý cho tập văn bản huấn luyện và tập văn bản kiểm tra:

Hình 3-5: Lược đồ tiền xử lý tập dữ liệu và trích chọn tập đặc trưng.

Trên lược đồ tiền xử lý của hai tập dữ liệu huấn luyện và kiểm tra đã cho thấy các quá trình: Nạp từ điển, Tiền xử lý ký tự và Tách từ và loại từ dừng. Trong đó, các quy trình thực hiện các bước Tiền xử lý ký tự và Tách từ và loại từ dừng đã được chỉ ra trong những phần trên.

Ta hãy xem xét quy trình Nạp từ điển dưới dạng bảng băm sau đây. Việc lưu từ điển ở dạng bảng băm có ý nghĩa quan trọng, vì đây là cách thức lưu trữ cho phép truy cập trực tiếp tới một phần tử nếu biết từ khoá hoặc chỉ số của phần tử đó. Cách truy cập này sẽ làm giảm thời gian đáng kể so với việc phải duyệt toàn bộ mảng từ để tìm kiếm xem một từ có xuất hiện trong mảng từ đó hay không.

1. Đọc vào từng dòng của file từ điển, mỗi dòng tương ứng với một từ khoá trong từ điển.

2. Với mỗi xâu, tinh chỉnh về dạng xâu chuẩn.

3. Bổ sung vào một ArrayList (chứa toàn bộ danh sách các từ trong từ điển khi kết thúc quá trình đọc file).

4. Từ mảng ArrayList thu được, tính bảng băm của từ điển đó (dựa vào lớp HashTable trong C#).

Sinh viên thực hiện: Hoàng Thị Nhung – Lớp HTTTA-K11 Trang 42/67

Sự khác biệt trong hai quá trình tiền xử lý văn bản huấn luyện và tiền xử lý văn bản kiểm tra là sau quá trình tiền xử lý tập văn bản huấn luyện, ta thu được tập thuật ngữ đặc trưng chung (RepresentTermUnion), tập thuật ngữ này sau đó được dùng để biểu diễn vector thưa cho toàn bộ văn bản trong tập dữ liệu kiểm tra. Các vector trọng số trong tập văn bản kiểm tra có thể được tính theo mô hình TFxIDF hoặc TF (nếu số lượng văn bản trong tập kiểm tra nhỏ).

Các mô hình biểu diễn văn bản

Bài toán phân loại văn bản