Một vấn đề chủ yếu đối mặt với doanh nghiệp và các viện ngày nay là tràn thông tin. Sự phân loại các tài liệu hữu ích từ các tài liệu mà không đáng quan tâm cho cả các cá nhân và tổ chức. Một cách để chọn lọc qua một số tài liệu lớn là sử dụng công nghệ tìm từ khoá. Tuy nhiên các từ khoá tìm kiếm là hữu hạn. Một trở ngại chính là các từ khoá tìm kiếm không phân biệt theo nội dung. Trong nhiều ngôn ngữ, một từ hay một cụm từ có thể có nhiều nghĩa, bởi vậy một phép tìm kiếm có thể có nhiều ánh xạ (match) mà không trong chủđề mong muốn. Ví dụ một truy vấn trên cụm từ river bank có thể trả lại các tài liệu về Hudson River Bank & Trust Company, vì từ “bank” có 2 nghĩa. Một cách tốt nhất là con người sắp xếp và phân loại tài liệu theo nội dung của
chúng, nhưng nó không linh hoạt cho khối lượng các tài liệu lớn. Oracle Text yêu cầu nhiều hướng tiếp cận để phân loại tài liệu. Với phân loại dựa theo nguyên tắc, phai tự viết các nguyên tắc phân loại. Với học có kiểm soát. Oracle Text tạo các nguyên tắc phân loại dựa theo tập các tài liệu mẫu đã được xác định trước. Cuối cùng với học không kiểm soát (clustering), Oracle Text thực hiện tất cả các bước từ viết các nguyên tắc phân loại tới việc phân loại các tài liệu.
4.2.1. Các ứng dụng phân loại trong Oracle Text
Oracle Text cho phép xây dựng các ứng dụng phân loại tài liệu. Một ứng dụng phân loại tài liệu thực hiện một vài hành động dựa trên nội dung tài liệu. Các hành động bao gồm việc gán các mã phân loại tới một tài liệu cho tìm kiếm tương lai hoặc gửi một tài liệu tới một người dùng. Kết quả là một tập hoặc luồng tài liệu đã được phân loại. Oracle Text cho phép người sử dụng tạo các ứng dụng phân loại văn bản theo nhiều cách. Trong phần này đưa ra một kịch bản phân loại và chỉ ra làm thế để Oracle Text để xây dựng một giải pháp. Cấu trúc chung của một ứng dụng phân loại văn bản:
Oracle Text cho phép phân loại văn bản theo các cách sau:
- Phân loại dựa theo nguyên tắc - Rule-Based Classification: nhóm các tài liệu với nhau, quyết định trên các phân loại và tính toán các nguyên tắc cho các phân loại đó, các nguyên tắc đó là các cụm từ truy vấn thực sự
Ưu điểm: Phân loại này chính xác cho các tập tài liệu nhỏ, các kết quả luôn dựa trên các nguyên tắc đã xác định trước
Nhược điểm: định nghĩa các nguyên tắc mà có thể được khó với các tập tài liệu lớn với nhiều phân loại. Khi tập tài liệu phát triển, cần viết nguyên tắc thích hợp hơn.
- Phân loại có kiểm soát. Phương pháp này tương tự như phân loại theo nguyên tắc, nhưng bước tạo nguyên tắc là tự động với CTX_CLS.TRAIN. CTX_CLS.TRAIN tính toán các nguyên tắc phân loại từ một tập mẫu các tài liệu đã phân loại trước. Với phân loại theo nguyên tắc có thể sử dụng toán tử MATCHES để phân loại văn bản. Oracle Text đề xuất hai phiên bản phân loại có kiểm soát, sử dụng tham chiếu RULE_CLASSIFIER và sử dụng SVM_CLASSIFIER
Ưu điểm: các nguyên tắc được thiết đặt động, rất có ích cho các tập tài liệu lớn.
Nhược điểm:
o Phải gán các tài liệu vào các phân loại trước khi sinh ra các nguyên tắc
o Các nguyên tắc có thể là xác định hoặc chính xác là theo người sử dụng.
Phân loại không kiểm soát: Tất cả các bước từ việc nhóm các tài liệu tới việc viết các nguyên tắc phân loại tự động với CTX_CLS.CLUSTERING.
Ưu điểm:
o Không cần cung cấp hoặc nguyên tắc phân loại và các tài liệu mẫu trong tập huấn luyện
o Trợ giúp việc tìm các mẫu hoặc nội dung tương tự trong tập tài liệu của bạn
o Thực tế, có thể sử dụng phân loại không kiểm soát khi không có một ý tưởng rõ ràng về nguyên tắc và phân loại. một kịch bản có thể sử dụng các phân loại không kiểm soát cung cấp một tập phân loại ban đầu. và sau đó xây dựng mô hình theo phân loại có kiểm soát
Nhược điểm:
o Phân nhóm có thể có kết quả trong các nhóm không mong muốn, khi toán tử phân nhóm không phải do người dùng xác định nhưng dựa trên giải thuật bên trong
o Không thấy và sửa được các nguyên tắc tạo nhóm.
Trong các phần tiếp theo tác giả chỉ nói đến ứng dụng của SVM được sử dụng với các ứng dụng khai phá văn bản được hỗ trợ trong Oracle 10g như thế nào.