Lựa chọn cơng cụ

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 73 - 76)

Cĩ rất nhiều sản phẩm hỗ trợ việc khai phá tri thức từ CSDL.

Bảng dưới đây liệt kê một số sản phẩm khai phá dữ liệu của các hãng

khác nhau và những tính năng của mỗi sản phẩm

Bảng 2.2 Bảng các sản phẩm khai phá dữ liệu

Company Product NN Tree

Nạve Bayes k- Mns k- NN Stats Pred Time

Series Clust Assoc Win 32 UNIX Par API SDK SQL Ext Angoss International Ltd. KnowledgeSEEK ER Y Y Y Y Y KnowledgeSTUDIO Y Y Y Y Y Y Y Y Y Y Business Objects BusinessMiner Y Y Cognos Incorporated 4Thought Y Y Y Y Scenario Y Y Fair, Isaac/HNC Software DataBase Mining Marksman Y Y Y Y Y Informix/RedBrick Software Inc.

Red Brick Data

Mine Y Y Y Y Y International

Business Machines Intelligent Miner Y Y Y Y Y Y Y Y Y Y Y Accrue Software Decision Series Y Y Y Y Y Y Y Y Y NeuralWare NeuralSIM Y Y Y Oracle Corp. Darwin Y Y Y Y Y Y Salford Systems CART Y Y Y Y SAS Institute Enterprise Miner Y Y Y Y Y Y Y Y Y SPSS, Inc. Answer Tree Y Y Y Y Y Clementine Y Y Y Y Y Y Y Y Neural Connection Y Y Y Y Y Unica Technology Pattern Recognition Workbench Y Y Y Y Y Y Y Y Y Model 1 Y Y Y Y Y Y Y Y Y

CSDL ngành Thuế sử dụng là CSDL Oracle. Do vậy việc chọn cơng cụ khai phá dữ liệu của hãng Oracle cũng là một lựa chọn tất yếu.

Khai phá dữ liệu bằng sản phẩm của hãng Oracle, cĩ thể lựa chọn: 1. Darwin: Là một ứng dụng khai phá dữ liệu đặc biệt để xử lý với nhiều gigabytes dữ liệu và cung cấp những câu trả lời cho các bài tốn phức tạp như phân lớp dữ liệu, dựđốn và dự báo.

Phần mềm Darwin giúp ta chuyển đổi một khối lượng dữ liệu lớn thành những tri thức kinh doanh (tri thức nghiệp vụ - Business intelligence). Darwin giúp tìm ra những mẫu và các liên kết cĩ ý nghĩa trong tồn bộ dữ liệu – Các mẫu cho phép ta hiểu tốt hơn và dựđốn được hành vi của khách hàng.

2. Oracle Data Mining (ODM) được thiết kế cho người lập trình, những nhà phân tích hệ thống, các quản trị dự án và cho tất cả những ai quan tâm đến việc phát triển các ứng dụng CSDL dùng khai phá dữ liệu để phát hiện ra các mẫu ẩn và dùng tri thức đĩ để tạo các dựđốn.

ODM là cơng cụ khai phá dữ liệu được nhúng trong CSDL Oracle. Dữ liệu khơng tách rời CSDL - dữ liệu, và tất cả những hoạt động chuẩn bị dữ liệu, xây dựng mơ hình và áp dụng mơ hình đều được giữ trong CSDL. Việc này cho phép Oracle xây dựng nền tảng cho những nhà phân tích dữ liệu và những ngươờiphát triển ứng dụng cĩ thể tích hợp khai phá dữ liệu một cách liền mạch với các ứng dụng CSDL.

Darwin là sản phẩm khai phá dữ liệu chỉ chạy trên nền Unix. Hiện tại trong ngành Thuế vẫn đang sử dụng hệ điều hành Windows, và cũng chưa mua bản quyền sử dụng Darwin.

Các thành phần liên quan đến CSDL Oracle sử dụng tại ngành Thuế đều cĩ mua bản quyền của hãng. ODM là cĩ sẵn trong CSDL Oracle. Do vậy ODM là cơng cụ khai phá dữ liệu được lựa chọn trong luận văn này.

Một phần của tài liệu Luận văn: Nghiên cứu và áp dụng một số kỹ thuật khai phá dữ liệu với cơ sơ sở dữ liệu ngành Thuế Việt Nam. docx (Trang 73 - 76)