Module Chuẩn bị dữ liệu

Một phần của tài liệu Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức (Trang 83 - 85)

Nhiệm vụ của module này là thực hiện kết nối với cơ sở dữ liệu, thực hiện các thao tác trên cơ sở dữ liêu nhằm tạo ra một kho dữ liệu dùng cho module khai phá dữ liệu.

Để xây dựng module này ta sử dụng cơ chế JDBC nhằm truy nhập dữ liệu. JDBC là một phần của các hàm Java API cho việc truy nhập dữ liệu do Sun MicroSystems phát triển . Đây là một phương thức chuẩn hoá để tích hợp CSDL quan hệ với các chương trình Java.

JDBC chứa một tập hợp các đối tượng và phương thức của CSDL quan hệ để giao tiếp với các nguồn dữ liệu SQL. Các JDBC API được tích hợp trong bộ công cụ phát triển của Java, là một phần trong môi trường máy ảo

Java. JDBC được thiết kế dựa vào giao tiếp mức gọi SQL theo chuẩn X/Open, tương tự như ODBC.

1.Cơ chế hoạt động của JDBC

JDBC hoạt động tương tự như ODBC nhưng thông qua các đối tượng:

• Chương trình Java tạo một đối tượng kết nối (connection object) để thực hiện việc kết nối với CSDL

• Tạo một đối tượng Statement (câu lệnh) và chuyển các câu lênh SQL đến CSDL thông qua đối tượng này và nhận về các kết quả (có thể là các thông tin hày tập các record)

2. Các kiểu trình điều khiển JDBC

Các trình điểu khiển JDBC có thể phân thành 4 kiểu sau phụ thuộc vào cách thức hoạt động và các kết nối với CSDL:

• Cầu nối JDBC-ODBC : cung cấp các truy cập JDBC thông qua các truy cập ODBC

• Trình API gốc có một phần Java (Native-API partly Java technology based driver) chuyển các lệnh gọi JDBC thành các lệnh gọi API

• Trình giao thức mạng hoàn toàn Java (net protocol all Java technology based driver) chuyển các lệnh gọi JDBC thành các giao thức mạng độc lập với hệ quản trị CSDL

• Trình giao thức gốc hoàn toàn Java (native protocol all Java technology based driver)

Với dữ liệu sinh viên: bảng dữ liệu sinh viên có nhiều thông tin, tuy nhiên vấn đề quan tâm ở đây là tri thức từ dữ liệu điểm nên cần phải chọn lọc những thông tin phù hợp. Để đáp ứng được yêu cầu trên, việc chuẩn bị dữ liệu được tiến hành như sau:

1. Sử dụng query CHUANBI để lấy dữ liệu:

SELECT Tenbomon, Dientuso, Ktlaptrinh, Lttruyentin, Nvnghepnoi, Toanroirac, Lthdoituong, Cnphanmem,Pttkht

Nguyễn Tiến Thành – Công nghệ phần mềm K44 84

Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức FROM Sinhvien, Bomon

2. Tiêu chuần hoá số liệu

Dữ liệu có trong query CHUANBI sẽ được tiêu chuẩn hoá trước khi dùng kĩ thuật khai phá dữ liệu, việc tiêu chuẩn được tiến hành bằng cách phân loại các dữ liệu điểm theo thứ tự như sau:

Điểm Xếp loại 9-10 Giỏi 7-8 Khá 5-6 Trung bình ≤ 4 Kém 3.Rút gọn dữ liệu

Từ bảng kết quả dữ liệu đã được chuẩn bị ở trên, các thuộc tính được ánh xạ qua tập số nguyên: Thuộc tính Số nguyên Dientuso = “Giỏi” 1 Cnphanmem = “Khá” 2 Pttkht = “Trung bình” 3 Dientuso = “Kém” 4 TenBomon = “CNPM” 5 ... ...

Một phần của tài liệu Kỹ thuật khai phá dữ liệu và ứng dụng xây dựng cơ sở tri thức (Trang 83 - 85)