Chương 1. TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ BÀI TOÁN CHẨN ĐOÁN BỆNH
1.2. Khai phá dữ liệu
1.2.3. Các hệ thống khai phá dữ liệu và kiến trúc tổng quát của chúng
- Theo loại của CSDL đã khai phá:
+ Các mô hình dữ liệu (hệ thống khai phá dữ liệu quan hệ, hệ thống khai phá dữ liệu giao dịch, hệ thống khai phá dữ liệu quan hệ - đối tượng, hệ thống khai phá dữ liệu kho dữ liệu).
+ Các kiểu dữ liệu đã xử lý (hệ thống khai phá dữ liệu không gian, hệ thống khai phá dữ liệu chuỗi thời gian, hệ thống khai phá dữ liệu văn bản, hệ thống khai phá dữ liệu dòng dữ liệu, hệ thống khai phá dữ liệu đa phương tiện, hệ thống khai phá dữ liệu Web).
+ Các loại CSDL riêng cho mỗi ứng dụng.
- Theo loại của tri thức đã phát hiện:
+ Dựa trên các chức năng khai phá dữ liệu như đặc trưng hóa, tách lọc, kết hợp và phân tích tương quan, phân loại dự đoán, phân cụm, phân tích ngoại lai, phân tích tiến hóa. Một hệ thống khai phá dữ liệu toàn diện thường cung cấp đa chức năng hoặc tích hợp nhiều chức năng.
+ Dựa trên hạt nhân hoặc tính trừu tượng của tri thức được khám phá bao gồm các tri thức tổng quát (ở mức trừu tượng cao), tri thức mức nguyên thủy (ở mức dữ liệu thô), hoặc tri thức ở mức đa tầng (xem xét một số mức trừu tượng). Một hệ thống khai phá dữ liệu tiên tiến sẽ rất tiện cho việc phát hiện tri thức ở đa mức trừu tượng.
Các hệ thống khai phá dữ liệu cũng có thể được phân loại như những thứ mà các quy tắc khai phá dữ liệu (các mẫu xuất hiện một cách phổ biến) ngược với các bất quy tắc (loại trừ, ngoại lai).
Nói chung, các quy tắc khai phá dữ liệu mô tả khái niệm, sự kết hợp, phân tích tương quan, phân loại, dự đoán và phân cụm sẽ loại trừ được các phần tử ngoại lai... các phương pháp này cũng có thể giúp cho việc khám phá các phần tử ngoại lai.
- Theo loại kỹ thuật đã sử dụng:
+ Các kỹ thuật có thể được mô tả tùy theo mức độ tương tác sử dụng, ví dụ như các hệ tự trị, các hệ thống thăm dò tương tác.
+ Các hệ thống hướng truy vấn, hoặc các phương pháp phân tích dữ liệu đã sử dụng, ví dụ như các kỹ thuật hướng CSDL hay kho dữ liệu, máy học, thống kê, hiển thị, nhận dạng mẫu, mạng nơ – ron,...
Một hệ thống khai phá dữ liệu phức tạp thường chấp nhận các kỹ thuật khai phá dữ liệu đa tạp hoặc trắc nghiệm một kỹ thuật tích hợp, hiệu quả trên cơ sở liên hợp nhiều cách tiếp cận riêng lẻ.
- Theo loại các ứng dụng đã thích ứng:
Các hệ thống khai phá dữ liệu có được trang bị riêng cho ngành tài chính, giao thông liên lạc, thị trường vốn, thư tín điện tử,...
Các ứng dụng khác nhau thường đòi hỏi sự tích hợp các phương pháp đặc tả. Do vậy, nhìn chung các hệ thống khai phá dữ liệu đa mục tiêu không thể có đủ các nhiệm vụ khai phá đặc trưng theo miền.
- Hệ thống khai phá dữ liệu được phát triển dựa trên khái niệm rộng của khai phá dữ liệu. Khai phá dữ liệu là một quá trình phát hiện tri thức được quan tâm từ khối lượng lớn dữ liệu trong các cơ sở dữ liệu, kho dữ liệu, hay các kho chứa thông tin khác.
* Kiến trúc của một hệ thống khai phá dữ liệu:
Hình 1.2. Kiến trúc của một hệ thống khai phá dữ liệu điển hình
- Cơ sở dữ liệu, kho dữ liệu hoặc các lưu trữ thông tin khác (Database, Data warehouse, World Wide Web, và Other information repositories): Đây là một hay một tập các CSDL, các kho dữ liệu, các trang tính hay các dạng lưu trữ thông tin khác. Thành phần này là các nguồn dữ liệu/thông tin sẽ được khai phá. Các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu có thể được thể hiện trên những dữ liệu này.
- Máy chủ CSDL hay máy chủ kho dữ liệu (Database hay data warehouse server): Máy chủ này có trách nhiệm lấy những dữ liệu thích hợp dựa trên các yêu cầu khai phá của người dùng.
Database Data
Warehouse
World Wide Web
Other Info Repositories Data cleaning, integration and selection
Knowledge Base Graphical User Interface
Pattern Evaluation
Data Mining Engine
Database or Data warehouse Server
- Cơ sở tri thức (Knowledge base): Đây là miền tri thức được dùng để hướng dẫn việc tìm kiếm hay đánh giá độ quan tâm của các mẫu kết quả được tìm thấy. Tri thức miền có thể là các phân cấp khái niệm, niềm tin của người sử dụng, các ràng buộc hay các ngưỡng giá trị, siêu dữ liệu, …
- Kỹ nghệ khai phá dữ liệu (Data mining engine): Một hệ thống khai phá dữ liệu cần phải có một tập các mô-đun chức năng để thực hiện công việc như: đặc trưng hóa, kết hợp và phân tích tương quan, phân lớp, dự đoán, phân cụm, phân tích ngoại lai và phân tích tiến hóa. Là thành phần chứa các khối chức năng thực hiện các tác vụ khai phá dữ liệu.
- Mô-đun đánh giá mẫu (Pattern evaluation module): Bộ phận này thực hiện đo mức quan tâm và tương tác với các mô-đun khai phá dữ liệu để duyệt tìm các mẫu đáng được quan tâm. Thành phần này làm việc với các độ đo (và các ngưỡng giá trị) hỗ trợ tìm kiếm và đánh giá các mẫu sao cho các mẫu được tìm thấy là những mẫu được quan tâm bởi người sử dụng. Nó có thể dùng các ngưỡng về độ quan tâm để lọc mẫu đã khám phá được. Cũng có thể mô-đun đánh giá mẫu được tích hợp vào mô-đun khai phá, tùy theo sự cài đặt của phương pháp khai phá được dùng. Thành phần này có thể được tích hợp vào thành phần Data mining engine.
- Giao diện đồ họa người dùng (Graphical user interface): Bộ phận này cho phép người dùng giao tiếp với hệ thống khai phá dữ liệu bằng việc định rõ một truy vấn khai phá dữ liệu hoặc một nhiệm vụ cung cấp thông tin để giúp đỡ tiêu điểm tìm kiếm và thực hiện khai phá dữ liệu thăm dò dựa trên những kết quả khai phá dữ liệu trung gian. Người sử dụng có thể chỉ định câu truy vấn hay tác vụ khai phá dữ liệu. Ngoài ra, bộ phận này còn cho phép người dùng duyệt các lược đồ CSDL, lược đồ kho dữ liệu/kho dữ liệu (hay các cấu trúc dữ liệu), các đánh giá mẫu khai phá được và hiển thị các mẫu ở các dạng khác nhau. [4]