Khai phá văn bản với Oracle

Một phần của tài liệu phân loại văn bản bằng phương pháp support vector machine (Trang 60 - 62)

Khai phá dữ liệu là một kỹ thuật phân tích tầm quan trọng với sự phát triển ngày càng nhiều số lượng dữ liệu trong các CSDL chính phủ và cơ quan. Trong khi các hệ quản trị CSDL thiên về thu nhận dữ liệu, chứ chưa có các công cụ để khai thác dữ liệu. Các ứng dụng thành công của khai phá dữ liệu thường yêu cầu các phương pháp luận phức tạp và kinh nghiệm thực tế của người khai phá dữ liệu. Hơn nữa, khai phá dữ liệu là một hoạt động tính toán mạng yêu cầu nhiều tài nguyên hệ thống. SVM làm nổi lên các vấn đề về việc chọn dữ liệu đa chiều khác với các kỹ thuật khác. Thành công của SVM là được cho là nền tảng lý thuyết mạnh dựa trên học thuyết Vapnik- Chervonenkis (VC). Các thuộc tính có quy tắc của giải thuật đảm bảo sự tổng quát hoá tốt tới tập dữ liệu. Đó là các một ít hạn chế thừa hưởng từ SVM chuẩn, trong đó làm giảm tính khả dụng thực tế của giải thuật:

- Thực hiện vượt ra ngoài thường không thoả mãn - điều chỉnh tham số SVM và chuẩn bị dữ liệu là bắt buộc

- Khả năng linh hoạt với số các bản ghi ít (bậc 2) và

- Các mô hình không tuyến tính có thể tăng trưởng rất nhanh về kịch cỡ, làm hiệu suât tính điểm (scoring) chậm không hợp lý Hiện nay đã có nhiều công cụ sử dụng thuật toán SVM một cách hiệu quả, song các công cụ đó thường tách rời với CSDL. Tài liệu này mô tả làm thế nào để các khó khăn được chú trọng trong thực hiện SVM của Oracle. Hầu hết các giải pháp thiết kế được đặt trọng tâm vào cải tiến khả năng sử dụng và làm SVM tới với người dùng CSDL với tri thức khai phá dữ liệu hạn chế. Tài liệu này mô tả các mục tiêu có thể thu được không cần làm mất tính toàn vẹn của SVM. Trong Oracle, SVM chỉ là một sản phẩm có chất lượng được dựng sẵn trong một CSDL. Sự hợp nhất SVM với Oracle vào trong CSDL đưa ra một số các thuận lợi:

- Bảo mật dữ liệu và toàn vẹn trong quá trình khai phá - Xử lý phân tán và tính sẵn sàng cao.

- View dữ liệu tập trung và có thể biến đổi dữ liệu và

- Phát triển mô hình linh hoạt bao gồm việc đặt lịch về xây dựng và phát triển mô hình

Với các vấn đề khai phá văn bản, Oracle hỗ trợ cho khai phá văn bản với 2 sản phẩm:

- Oracle Data Mining (ODM) - Oracle Text

Phần sau đây giới thiệu một số khái niệm và phương pháp luận cho việc khai phá văn bản được sử dụng trong Oracle. Đầu tiên, Oracle quan niệm dữ liệu văn bản chỉ làkiểu dữ liệu phi cấu trúc, tiếp theo chúng ta sẽ đến với

cách tiếp cận của Oracle với khai phá văn bản là Kết hợp văn bản và Dữ liệu có cấu trúc.

Một một vài ví dụ, văn bản được kết hợp với dữ liệu có cấu trúc. Ví dụ, các bản ghi bệnh nhân hoặc các bản ghi bệnh án khác thường chứa cả dữ liệu có cấu trúc (nhiệt độ, nhịp tim,…) và dữ liệu phi cấu trúc (các ghi chú của bác sỹ điều trị). Với các trưòng hợp này chúng ta dùng ODM để thực hiện khai phá trên dữ liệu có cấu trúc, phi cấu trúc hoặc cả dữ liệu có cấu trúc kết hợp với dữ liệu phi cấu trúc.

Oracle hỗ trợ khai phá một hoặc nhiều trường dữ liệu văn bản. Một cột dữ liệu văn bản phải có kiểu CLOB, BLOB, BFILE, LONG, VARCHAR2, XMLType, CHAR, RAW, or LONG RAW. Trước khi các trường văn bản có thể được sử dụng trong khai phá, các đặc trưng của các cột văn bản cần được trích dẫn vào một bảng dữ liệu lồng (nested table). Trước khi có thể trích chọn đặc trưng, phải tạo một chỉ số văn bản (text index) cho các cột chứa các văn bản sử dụng Oracle Text.

Một phần của tài liệu phân loại văn bản bằng phương pháp support vector machine (Trang 60 - 62)