Với |D| là tổng số lượng các tư liệu.

Một phần của tài liệu Các ứng dụng dùng kỹ thuật SVM (Trang 26 - 28)

-_ Mô tả nhị phân cho biết một từ cụ thể tìm thấy trong một tư liệu cụ thể (tương

tự một từ là một ứng viên chỉ khi nó xuất hiện từ 3 tư liệu trở lên).

-_ Sử dụng danh sách søp (stop list) cho các mô tả trên. Các từ gọi là stop-word

là những từ có giá trị tần số xuất hiện cao trong các văn bản, các từ này thường xuất hiện trong tất cả các loại văn bản. Cần có khả năng lọc bỏ các từ

không có tác dụng trên nội dung toàn bộ chủ để của văn bản như các giới từ,

liên từ và các mạo từ để làm tăng hiệu suất hệ thống. Phân lớn thời gian xử

lý và bộ nhớ làm việc thường được lưu trử, nếu như các từ không góp phân vào nội dung thực sự của các văn bản thì nên loại bỏ. Việc lựa chọn các từ cho danh sách s¿øp là một chức năng của nhiệm vụ phân lớp. Công việc phân

lớp sẽ tốt hơn nếu thuật toán học xác định được một từ cụ thể là quan trọng

hay không?

-_ Sử dụng các từ stemming: Stemming có nghĩa là làm giảm các hình thức khác biệt của các từ cùng gốc. Kỹ thuật này được biết như bỏ hậu tố hoặc rút ngắn từ ngữ (những từ đồng nghĩa hoặc các dạng khác nhau của một từ: danh từ,

tính từ). Theo lý thuyết thông tin gốc từ ngữ (stemming) làm việc tốt như các

đơn vị tiêu biểu và không cần quan tâm đến thứ tự của chúng trong tư liệu.

Kết quả thực hiện stemming trên một số ngôn ngữ cho thấy: đối với các thuật toán stemming cần quan tâm đến ngữ nghĩa của từ. Các nghiên cứu gần đây chỉ ra rằng kỹ thuật stemming là phù hợp dù mang các cải tiến nhỏ đối với

hiệu quả truy xuất thông tin trên phạm vi rộng của các tập hợp. Nhưng khi

giải quyết với các tư liệu tương đối ngắn, giá trị kỹ thuật stemming rất lớn.

Trong ứng dụng, dữ liệu là các emaii thường ngắn nên việc sử dụng kỹ thuật

stemming rất có hiệu quả. b. Số lượng các đặc trưng

Có một vấn để cần giải quyết là sự lựa chọn giữa việc sử dụng một số các đặc trưng hay tất cả các đặc trưng?

Trong nhận dạng văn bản, mỗi đặc trưng là một từ. Một ưu điểm của việc sử

dụng một số giới hạn các đặc trưng là sự tổng quát tốt hơn. Sự tổng quát hoá ở

đây có nghĩa là chúng ta có được sự thực thi hiệu quả trên tập dữ liệu luyện thì có được sự thưc thi hiệu quả trên tập dữ liệu thử nghiệm. Theo các thuật toán

50

học nên có một tập các đặc trưng tối ưu ít hơn là tổng số các đặc trưng sẵn có (ví

Một phần của tài liệu Các ứng dụng dùng kỹ thuật SVM (Trang 26 - 28)