Giới thiệu chung

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 67 - 68)

Chơng 8 Khảo nghiệm khai phá dữ liệu trong Oracle

8.1Giới thiệu chung

Oracle Data Mining Suite (Oracle Darwin) là phần mềm khai phá dữ liệu mạnh do hãng phần mềm Oracle đa ra. Oracle Darwin dựa trên nền tảng công nghệ về hệ quản trị CSDL và kho dữ liệu của Oracle (Oracle Data Warehouse). Oracle Darwin là một thành phần trong giải pháp tổng thể về Oracle Data Warehouse. Oracle Darwin giúp ngời dùng chuyển số lợng lớn dữ liệu thành các thông tin nghiệp vụ thông minh. Darwin giúp tìm ra các mẫu và tơng quan có ý nghĩa trong các dữ liệu nghiệp vụ cho phép hiểu tốt hơn và dự báo hành vi của khách hàng.

Hình 8.1 Màn hình ứng dụng Oracle Darwin Với Oracle Darwin, ngời dùng có thể đề ra quyết định về:

- Chăm sóc những khách hàng đã có

- Nắm bắt những khách hàng mới

- Phát hiện sự gian lận

- Tìm ra những khách hàng sộp

Oracle Darwin áp dụng các kỹ thuật khai phá dữ liệu vào các ứng dụng thực tế nghiệp vụ. Giao diện theo kiểu các cửa sổ làm việc nối tiếp nhau (wizards) dễ dùng giúp cho ngời phân tích điều khiển quá trình khai phá dữ liệu của mình thông qua các tuỳ chọn và tham số.

Darwin là sản phẩm khai phá dữ liệu thơng mại hoàn chỉnh tích hợp chặt chẽ với CSDL Oracle và đã trở thành sự chọn lựa tự nhiên của các tổ chức đang tìm kiếm sự thu hồi vốn nhanh chóng từ các đầu t.

Trong chơng này, ta sẽ khảo nghiệm sản phẩm nhìn từ góc độ áp dụng các giải pháp khai phá dữ liệu vào thành một sản phẩm thơng mại áp dụng vào thực tế. Cụ thể, ta tìm hiểu việc áp dụng các kỹ thuật cây quyết định, mạng nơron và thuật toán k ngời láng giềng gần nhất vào việc khai phá dữ liệu. Bởi vì khai phá dữ liệu là một bớc quan trọng của quá trình phát hiện tri thức trong CSDL (KDD) và các bớc phát hiện tri thức trong CSDL lại có liên quan chặt chẽ đến việc chuẩn bị dữ liệu và các nền tảng cho phép các công cụ khai phá dữ liệu thực hiện. Do vậy, trớc khi tìm hiểu về Oracle Darwin, ta điểm qua nền tảng dữ liệu bao gồm hệ quản trị CSDL Oracle8i và Oracle Data Warehouse dùng cho việc khai phá dữ liệu.

Vài nét về Hệ Quản trị CSDL Oracle8i và Oracle Data Warehouse

Các ứng dụng khai phá dữ liệu đòi hỏi một số kỹ thuật xử lý khác biệt so với các ứng dụng tác nghiệp trực tuyến do các truy vấn phức tạp và không định trớc (ad hoc) trên một kho dữ liệu khổng lồ. Để hớng đến các yêu cầu đó, Oracle8i đã đi trớc một bớc trong việc cung cấp hàng loạt các kỹ thuật xử lý câu hỏi, tối u việc chọn đờng truy xuất dữ liệu hiệu quả nhất cũng nh khai thác triệt để các cấu trúc phần cứng song song. Trong thực tế, Oracle đã chứng tỏ hiệu năng cao cấp cho nhiều ứng dụng với các cơ sở dữ liệu có kích thớc đến hàng terabyte. Một ứng dụng có thể có một bảng dữ liệu có số bản ghi rất lớn. Nhiều ng ời dùng sẽ đồng thời truy cập và thao tác trên các bản ghi của nó. Nếu kỹ thuật khoá đến mức trang hoặc đến mức bản ghi của hệ quản trị CSDL không tốt cũng nh hạn chế về phần cứng, chắc chắn hiệu năng ứng dụng sẽ bị giảm đáng kể. Oracle8i giải quyết đợc “cổ chai” đó của hiệu năng nhờ kỹ thuật phân hoạch bảng hay “chia để trị”. Các bảng và chỉ số khổng lồ đợc chia thành các phần nhỏ hơn đợc quản lý, lu trữ và xử lý tách biệt cũng nh có thể thực hiện song song.

Kiến trúc xử lý câu hỏi song song của Oracle8i tận dụng khả năng phần cứng giúp tăng hiệu năng của các câu hỏi truy vấn và cập nhật bằng cách chia linh hoạt các thao tác đó ra thành các tác vụ tách biệt và phân phối chúng cho các bộ vi xử lý và cân bằng tải cho các nút nối cụm. Kiến trúc này làm việc hiệu quả và thông minh với hầu hết các hệ thống phần cứng song song hiện nay.

Oracle Warehouse mang đến một họ các sản phẩm cho việc thiết kế, triển khai và quản lý một kho dữ liệu hiệu quả. Mỗi sản phẩm đợc thiết kế để tích hợp với mọi sản phẩm khác. Một đặc trng của Oracle Warehouse là dựa trên nền tảng công nghệ mạnh, công cụ phân tích thiết kế và các ứng dụng nghiệp vụ thông minh.

Oracle Warehouse bao gồm Warehouse Builder. Đây là một công cụ hoàn chỉnh cho thiết kế, triển khai và quản lý các kho dữ liệu xí nghiệp và các ứng dụng thông minh th- ơng mại điện tử. Đó là môi trờng cho phép mô hình hoá, thiết kế, kết xuất dữ liệu, truyền và tải, thu nạp, quản lý siêu dữ liệu, tích hợp các công cụ phân tích và quản trị kho. Nó cũng cho phép tích hợp các thành phần hệ quản trị CSDL, hệ đa chiều và công cụ truy vấn của ngời dùng.

Một phần của tài liệu KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN LUẬT KẾT HỢP TRONG CƠ SỞ DỮ LIỆU LỚN (Trang 67 - 68)