Lựa chọn công cụ

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 73)

Có rất nhiều sản phẩm hỗ trợ việc khai phá tri thức từ CSDL.

Bảng dưới ñây liệt kê một số sản phẩm khai phá dữ liệu của các hãng

khác nhau và những tính năng của mỗi sản phẩm

Bảng 2.2 Bảng các sản phẩm khai phá dữ liệu

Company Product NN Tree

Naïve Bayes k- Mns k- NN Stats Pred Time

Series Clust Assoc Win 32 UNIX Par API SDK SQL Ext Angoss International Ltd. KnowledgeSEEK ER Y Y Y Y Y KnowledgeSTUDIO Y Y Y Y Y Y Y Y Y Y Business Objects BusinessMiner Y Y Cognos Incorporated 4Thought Y Y Y Y Scenario Y Y Fair, Isaac/HNC Software DataBase Mining Marksman Y Y Y Y Y Informix/RedBrick Software Inc.

Red Brick Data

Mine Y Y Y Y Y International

Business Machines Intelligent Miner Y Y Y Y Y Y Y Y Y Y Y Accrue Software Decision Series Y Y Y Y Y Y Y Y Y NeuralWare NeuralSIM Y Y Y Oracle Corp. Darwin Y Y Y Y Y Y Salford Systems CART Y Y Y Y SAS Institute Enterprise Miner Y Y Y Y Y Y Y Y Y SPSS, Inc. Answer Tree Y Y Y Y Y Clementine Y Y Y Y Y Y Y Y Neural Connection Y Y Y Y Y Unica Technology Pattern Recognition Workbench Y Y Y Y Y Y Y Y Y Model 1 Y Y Y Y Y Y Y Y Y

CSDL ngành Thuế sử dụng là CSDL Oracle. Do vậy việc chọn công cụ khai phá dữ liệu của hãng Oracle cũng là một lựa chọn tất yếu.

Khai phá dữ liệu bằng sản phẩm của hãng Oracle, có thể lựa chọn: 1. Darwin: Là một ứng dụng khai phá dữ liệu ñặc biệt ñể xử lý với nhiều gigabytes dữ liệu và cung cấp những câu trả lời cho các bài toán phức tạp như phân lớp dữ liệu, dựñoán và dự báo.

Phần mềm Darwin giúp ta chuyển ñổi một khối lượng dữ liệu lớn thành những tri thức kinh doanh (tri thức nghiệp vụ - Business intelligence). Darwin giúp tìm ra những mẫu và các liên kết có ý nghĩa trong toàn bộ dữ liệu – Các mẫu cho phép ta hiểu tốt hơn và dựñoán ñược hành vi của khách hàng.

2. Oracle Data Mining (ODM) ñược thiết kế cho người lập trình, những nhà phân tích hệ thống, các quản trị dự án và cho tất cả những ai quan tâm ñến việc phát triển các ứng dụng CSDL dùng khai phá dữ liệu ñể phát hiện ra các mẫu ẩn và dùng tri thức ñó ñể tạo các dựñoán.

ODM là công cụ khai phá dữ liệu ñược nhúng trong CSDL Oracle. Dữ liệu không tách rời CSDL - dữ liệu, và tất cả những hoạt ñộng chuẩn bị dữ liệu, xây dựng mô hình và áp dụng mô hình ñều ñược giữ trong CSDL. Việc này cho phép Oracle xây dựng nền tảng cho những nhà phân tích dữ liệu và những ngươờiphát triển ứng dụng có thể tích hợp khai phá dữ liệu một cách liền mạch với các ứng dụng CSDL.

Darwin là sản phẩm khai phá dữ liệu chỉ chạy trên nền Unix. Hiện tại trong ngành Thuế vẫn ñang sử dụng hệ ñiều hành Windows, và cũng chưa mua bản quyền sử dụng Darwin.

Các thành phần liên quan ñến CSDL Oracle sử dụng tại ngành Thuế ñều có mua bản quyền của hãng. ODM là có sẵn trong CSDL Oracle. Do vậy ODM là công cụ khai phá dữ liệu ñược lựa chọn trong luận văn này.

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 73)