Trong khuôn khổ đề tài nghiên cứu “Phát hiện luật kết hợp” và chứng minh thực tiễn của luật kết hợp do vậy bảng dữ liệu được chọn là các thuộc tính nhị phân. Chương trình này được cài đặt bằng thuật toán Apriori nhị phân, như đã trình bày ở trên thuật toán Apriori nhị phân sử dụng các vector bit cho các thuộc tính, vector nhị phân n chiều ứng với n giao tác trong cơ sở
Dữ liệu quản lý sinh viên Chọn lọc dữ liệu Xác định vấn đề Tri thức Các mẫu Sử dụng thuật toán phát hiện luật kết hợp Đánh giá và biểu diễn tri thức Khai phá dữ liệu Xử lý và làm sạch dữ liệu Bảng dữ liệu để khai phá
Thực hiện biến đổi xây dựng bảng dữ liệu
để khai phá XML
Thu thập và tiền xử lý dữ liệu
dữ liệu. Có thể biểu diễn cơ sở dữ liệu bằng một ma trận nhị phân trong đó dòng thứ I tương ứng với giao tác (bản ghi) ti và cột thứ j tương ứng với mục (thuộc tính ) ij. Các thuộc tính chỉ được quan tâm có hay không (1 hay 0) xuất hiện trong CSDL khai phá. Ta quan tâm đến một số vấn đề, ví dụ:
- Sinh viên thuộc khu vực nào ?
- Sinh viên có điểm trung bình tích lũy < 2; 2 điểm tích lũy < 3.5 hay điểm tích lũy 3.5
- Sinh viên có nghiện chơi Game không? - Sinh viên có thường xuyên bỏ học không?
Sau đây là danh sách các trường (filelds) mà chúng ta quan tâm có trong bảng CSDL khai phá. Các trường dữ liệu có giá trị 0 hoặc 1 (true hoặc false). Ý nghĩa của các giá trị 0 hoặc 1:
Giá trị 0: Có nghĩa là không Giá trị 1: Có nghĩa là có
1. Giới tính: Sinh viên Nam giá trị 1, nữ là 0
2. Khu vực: Có 3 thuộc tính là KV1, KV2 và KV2NT. Khi một trong 3 thuộc tính được chọn có giá trị 1, 2 thuộc tính còn lại có giá trị 0.
3. Dân tộc thiểu số: Sinh viên là người dân tộc thiểu số giá trị 1, không là dân tộc thiểu số giá trị 0.
4. Điểm tích lũy: Có 3 thuộc tính là Điểm tích lũy <2; 2 điểm tích lũy < 3.5 và điểm tích lũy 3.5. khi một trong 3 thộc tính được chọn có giá trị 1, 2 thuộc tính còn lại giá trị 0.
5. Ở KTX ( ở trong ký túc xá): Sinh viên ở trong ký túc xá giá trị 1, ở trọ ngoài giá trị 0.
6. Thường xuyên bỏ học: Sinh viên thường xuyên bỏ học giá trị 1, ngược lại nhận giá trị 0
7. Nghiện Game: Sinh viên nghiện Game giá trị 1, ngược lại giá trị 0 8. Lô đề-Cờ bạc: Sinh viên tham gia Lô đề-Cờ bạc giá trị 1, ngược lại giá trị 0
9. Hay tụ tập uống rượu: Sinh viên hay tụ tập uống rượu giá trị 1, ngược lại giá trị 0
10. Gia đình khó khăn: Sinh viên có hoàn cảnh gia đình khó khăn giá trị 1, ngược lại giá trị 0
11. Đi làm thêm: Sinh viên có đi làm thêm ngoài giờ học giá trị 1, không đi làm thêm giá trị 0
Những thông tin sinh viên được mã hóa thành bảng dữ liệu dạng nhị phân có dạng như sau:
Hình 3.2. Bảng cơ sở dữ liệu khai phá
Ví dụ: Ở bảng dữ liệu (Hình 3.2) sinh viên Trần Thanh Tùng có các thông tin như sau:
Thông tin có giá trị 1: Là sinh viên Nam, ở KV2NT, điểm tích lũy<2, thường xuyên bỏ học, Nghiện Game, có tham gia Lô đề-Cờ bạc.
Thông tin có giá trị 0: Không ở KV1, KV2, không ở trong ký túc xá, gia đình không thuộc diện khó khăn, không đi làm thêm.