Đề tài trình bày một hệ thống KPDL trên hệ quản trị cơ sở dữ liệu quan hệ Oracle dựa trên các truy vấn SQL và các hàm định nghĩa trực tiếp bởi người dùng, và sẽ chứng minh rằng “SQL là không hiệu quả hoặc không đầy đủ cho khai phá dữ liệu là sai”. Mục đích của luận văn là khám phá rất nhiều những vấn đề gặp phải khi CSDL được tích hợp vào quá trình khai phá dữ liệụ
42
Hiện nay có nhiều công cụ khai phá dữ liệu thương mại sẵn có trên thị trường như IBM‟s Intelligent Miner, DBMiner,Oracle Data Mining, …Chúng có khả năng cung cấp KPDL trên CSDL quan hệ. Mặc dù chúng là những công cụ khai khá là hiệu quả, chúng phát triển cho những hệ quản trị CSDL cụ thể.
Với sự gia tăng trong việc sử dụng hệ quản trị CSDL quan hệ để lưu trữ và thao tác dữ liệu, khai phá trực tiếp trên hệ quản trị CSDL quan hệ mang lại lợi thế của việc sử dụng những thành quả của nhiều thập kỷ nghiên cứu được thực hiện trong lĩnh vực nàỵ Bộ nhớ chính luôn luôn áp đặt một giới hạn về kích thước của dữ liệu có thể được xử lý. Tuy nhiên sử dụng hệ quản trị CSDL quan hệ cung cấp cho chúng ta những lợi ích của việc sử dụng hệ thống quản lý bộ đệm đặc biệt phát triển để giải phóng người sử dụng/ứng dụng từ những cân nhắc kích thước của dữ liệụ Xây dựng thuật toán khai phá để làm việc trên hệ quản trị CSDL quan hệ cũng mang lại cho chúng ta lợi thế khai phá trên các tập dữ liệu rất lớn, hệ quản trị CSDL quan hệ đã được xây dựng để quản lý khối lượng lớn dữ liệu như thế.
Các file sử dụng cho các thuật toán khai phá, chúng được sử dụng làm dữ liệu đầu vào và không chứa trong cơ sở dữ liệụ Chúng thường bị giới hạn số lượng giao dịch có thể được khai phá. Ví dụ, DBMiner giới hạn số lượng giao dịch là 64K mà nó có thể xử lý khai phá. Người sử dụng có thể lựa chọn hệ quản trị CSDL quan hệ sử dụng cho các ứng dụng của mình, các thuật toán khai phá phải được phát triển sử dụng các tiêu chuẩn được chấp nhận, để hệ thống không giới hạn về số lượng giao dịch và phải chuyển sang hệ quản trị CSDL quan hệ khác một cách dễ dàng. Do đó, luận văn này sẽ tập trung sử dụng tiêu chuẩn SQL-92 và UDFs được cung cấp bởi hệ quản trị CSDL Oracle cho việc khai phá luật kết hợp.
Với xu hướng KPDL trên các kho dữ liệu lớn, với việc sử dụng luật kết hợp, chúng tôi đề xuất phương pháp chỉ cần quét cơ sở dữ liệu giao dịch một lần để tạo ra tất cả các luật phù hợp. Ngược lại, thuật toán Apriori chuẩn yêu cầu quét lặp đi lặp lại các cơ sở dữ liệu, do đó dẫn đến truy cập vào/ra sẽ tăng lên đặc biệt là khi xem xét các bộ dữ liệu ứng cử viên lớn. Ngôn ngữ PL/SQL đã được tích hợp hoàn toàn với cơ sở dữ liệu của Oracle, và thuật toán này được thực hiện trong môi trường Oraclẹ
43
Tính toàn vẹn dữ liệu trong cấu trúc dữ liệu, dữ liệu các tập phổ biến đầy đủ có thể được lưu trữ trong một bảng quan hệ. Như vậy việc thực hiện các truy vấn bên trong PL/SQL sẽ làm tăng tốc độ truy cập đến bất kỳ phần tử nàọ Các thí nghiệm cho thấy rằng thuật toán này thực hiện trong ngôn ngữ PL/SQL giải quyết được vấn đề kích thước lớn lên mà thuật toán cổ điển Apriori gặp phải khi khối lượng giao dịch tiếp tục lớn lên, khối lượng dữ liệu càng tăng.
Sau khi toàn bộ cơ sở dữ liệu được quét, phép đếm các tập phổ biến thích hợp được tổ chức trong một cây tập phổ biến đầy đủ, kết quả thu được như thể hiện trong phần bên trái của hình bên dướị Cây tập phổ biến đầy đủ có năm tập mục „a‟, „b‟, „c‟, „d‟ và „e‟ trong cơ sở dữ liệu D là một ví dụ điển hình.
Tổ chức các bộ đếm trong cây tập phổ biến đầy đủ không chỉ cho phép chúng ta lưu trữ chúng một cách hiệu quả (sử dụng ít bộ nhớ), mà còn hỗ trợ tạo ra các luật kết hợp. Trong hình, một dãy các thuộc tính biểu thị số lượng của một tập phổ biến có được thông qua việc đếm các tập trong CSDL. Các tập được khoanh tròn là các tập không phổ biến sẽ được bỏ bớt vì chúng không đạt được độ hỗ trợ tối thiểụ
44
Chúng ta sẽ xây dựng các bảng có các thuộc tính khác nhau để lưu giữ thông tin và số lượng các tập mục trong CSDL, thông qua việc đếm số lượng tập mục trong CSDL. - Dữ liệu gốc và dữ liệu tiền xử lý đều được lưu giữ trong các bảng dữ liệu quan
hệ của CSDL ORACLẸ
- Các thủ tục và hàm thực thi các thuật toán khai khá được viết bằng ngôn ngữ PL/SQL, và được lưu giữ trong CSDL. Người dùng sẽ gọi các thủ tục hoặc hàm để thực hiện gọi các chương trình KPDL, các tham số được truyền vào và không truy cập trực tiếp vào dữ liệụ