Trong mẫu xét nghiệm theo phương pháp Pap Smear, ngoài các tế bào cổ tử cung, còn có rất nhiều loại tế bào phụ khác như hồng cầu, bạch cầu, xác tế bào, vi trùng,… Để đơn giản, dữ liệu nhập chỉ giới hạn trong các loại sau: tế bào trụ, tế bào gai cận đáy, tế bào gai trung gian và tế bào gai bề mặt, tế bào loạn sản nhẹ chưa sưng hoá, tế bào loạn sản vừa, tế bào loạn sản nặng. Dữ liệu này được thực hiện bởi bác sĩ khoa giải phẫu học của đại học Y khoa Herlev, bằng cách sử dụng camera kĩ thuật số kết nối với kính hiển vi và máy tính.
Cơ sở dữ liệu gồm 500 mẫu, trong đó có 50 mẫu tế bào trụ, 50 mẫu tế bào gai cận đáy, 50 mẫu tế bào gai trung gian, 50 mẫu tế bào gai bề mặt (nghĩa là tổng cộng 200 mẫu chẩn đoán bình thường); 100 mẫu tế bào loạn sản nhẹ chưa sừng hóa, 100 mẫu tế bào loạn sản vừa chưa sừng hóa và 100 mẫu tế bào loạn sản nặng chưa sừng hóa (nghĩa là 300 mẫu tế bào loạn sản đang ở tình trạng bất thường dẫn đến ung thư). Trong đó có 20 thuộc tính như sau:
2. Diện tích bào tương y2
3. Tỷ lệ nhân / bào tương y3
4. Độ sáng nhân y4
5. Độ sáng bào tương y5
6. Đường kính ngắn nhất của nhân y6
7. Đường kính dài nhất của nhân y7
8. Độ giãn dài của nhân y8
9. Độ tròn của nhân y9
10.Đường kính ngắn nhất bào tương y10
11.Đường kính dài nhất của bào tương y11
12.Độ giãn dài của bào tương y12
13.Độ tròn của bào tương y13
14.Chu vi nhân y14
15.Chu vi bào tương y15
16.Vị trí nhân y16
17.Cực đại trong nhân y17
18.Cực tiểu trong nhân y18
19.Cực đại trong bào tương y19
20.Cực tiểu trong bào tương y20
Khi kiểm tra độ chính xác của thuật toán, một vài thuộc tính sẽ được lựa chọn để phân lớp ung thư, dựa trên luật chuyên gia hoặc dựa trên việc rút trích đặc trưng, do số lượng thuộc tính lớn.