Chương trình tiến hành khai phá dữ liệu trong cơ sở dữ liệu bệnh nhân bị bệnh tiểu đường. Dữ liệu đầu vào là một file text có cấu trúc như sau:
− Mỗi dòng là thông tin về một bệnh nhân. Cuối mỗi dòng có dấu kết thúc là dấu ‘.’.
− Trên mỗi dòng một bệnh nhân thể hiện qua 9 thuộc tính, giữa 2 thuộc tính có dấu ‘,’ ngăn cách.
− Thuộc tính thứ 9 là thuộc tính quyết định tương ứng với 2 trường hợp là bị bệnh (có giá trị là 1) và không bị bệnh (có giá trị là 2).
Ví dụ về cơ sở dữ liệu: 1, 172, 68, 49, 579, 42.4, 0.702, 28, 2. 0, 173, 78, 32, 265, 46.5, 1.159, 58, 1. 6, 111, 64, 39, 0, 34.2, 0.260, 24, 1. 9, 152, 78, 34, 171, 34.2, 0.893, 33, 2. 0, 189, 104, 25, 0, 34.3, 0.435, 41, 2. 1, 122, 64, 32, 156, 35.1, 0.692, 30, 2. 3, 111, 56, 39, 0, 30.1, 0.557, 30, 1. 2, 125, 60, 20, 140, 33.8, 0.088, 31, 1.
Các thuộc tính tương ứng với một sốđại lượng mà các bác sĩ dùng để xác định tình trạng bệnh của bệnh nhân.
− Thuộc tính (1): Số lần mang thai.
− Thuộc tính (2): Plasma glucose concentration a 2 hours in an oral glucose tolerance test.
− Thuộc tính (3) : Diastolic blood pressure (mm Hg).
− Thuộc tính (4): Triceps skin fold thickness (mm).
− Thuộc tính (5): 2-Hour serum insulin (mu U/ml).
− Thuộc tính (6): Body mass index (weight in kg/(height in m)^2)
− Thuộc tính (8):Tuổi của bệnh nhân.
− Thuộc tính (9): bằng 1 nếu bị bệnh và bằng 2 nếu không bị bệnh. Bộ dữ liệu gồm thông tin về 768 bệnh nhân, trong đó:
• 500 (65.1%) người là bị bệnh.
• 268 (34.9%) người là không bị bệnh.
Trong ví dụ trên thì bệnh nhân có thông tin lưu trữ ở dòng 1 là một người không bị bệnh vì có thuộc tính thứ (9) có giá trị là 2.
Một đặc điểm quan trọng trong cơ sở dữ liệu này là có thể có những dữ liệu là số thực, điều này khiến nhiều thuật toán không thể thực hiện được trước khi định lượng các giá trịđó. Thuật toán xây dựng cây quyết định nhờ sử dụng siêu phẳng được trình bày trong Chương 2 phần 2.2.2.4 có thể thực hiện trên loại dữ liệu này.