Dữ liệu thử nghiệm

Trong 5 cơ sở dữ liệu luận văn dùng để thử nghiệm: CSDL đậu tƣơng, CSDL nấm, CSDL ung thƣ phổi và CSDL điều tra dân số của Mỹ 1990 đƣợc lấy từ UCI Machine Learning Repository. Cơ sở dữ liệu còn lại lấy từ thống kê về thuê bao di động phát sinh của thủ đô Hà Nội năm trƣớc.

Link thông tin về cơ sở dữ liệu đỗ tƣơng:

http://archive.ics.uci.edu/ml/datasets/Soybean+Small

http://archive.ics.uci.edu/ml/machine-learning-databases/soybean/soybean-small.names

Link thông tin về cơ sở dữ liệu nấm:

http://archive.ics.uci.edu/ml/datasets/Mushroom

Link thông tin về cơ sở dữ liệu điều tra dân số của Mỹ 1990

http://archive.ics.uci.edu/ml/datasets/US+Census+Data+%281990%29/ http://archive.ics.uci.edu/ml/machine-learning-databases/census1990-mld/

Link thông tin về cơ sở dữ liệu ung thƣ phổi:

http://archive.ics.uci.edu/ml/datasets/Lung+Cancer

http://archive.ics.uci.edu/ml/machine-learning-databases/lung-cancer/lung-cancer.names

Down dữ liệu chuẩn về CSDL này theo địa chỉ:

http://archive.ics.uci.edu/ml/machine-learning-databases/soybean/soybean-small.data http://archive.ics.uci.edu/ml/machine-learning-databases/lung-cancer/lung-cancer.data

a) Cơ dữ liệu đậu tƣơng: Cơ sở dữ liệu này chứa 47 bản ghi, mỗi bản ghi có 35

thuộc tính. Mỗi bản ghi đƣợc dán nhãn tƣơng ứng với một trong 4 bệnh dịch: Bệnh Diaporthe Stem, bệnh Charcoal, bệnh Rhizoctonia Root và bệnh Phytophthora. Ngoại trừ bệnh Phytophthora có 17 bản ghi, các bệnh dịch còn lại đều tƣơng ứng với 10 bản ghi.

b) Cơ sở dữ liệu nấm: Cơ sở dữ liệu này chứa 8124 bản ghi, mỗi bản ghi có 22 thuộc tính. CSDL này đƣợc phân thành 2 cụm: Nấm an toàn và nấm độc. Cụm 1 có 4208 bản ghi, cụm 2 có 3916 bản ghi. Chúng tôi tiến hành thực nghiệm nhiều lần để xác định khả năng phân cụm của 2 thuật toán với số lƣợng bản ghi nhiều.

c) Cơ sở dữ liệu ung thƣ phổi: Cơ sở dữ liệu này chứa 32 bản ghi, mỗi bản ghi có

57 thuộc tính với thuộc tính đầu là thuộc tính gán nhãn ứng với một trong 3 nhóm ung thƣ phổi: Ung thƣ tuyến (một biến biểu mô ác tính), ung thƣ biểu mô tế bào có vảy, ung thƣ biểu mô tế bào nhỏ. 32 bản ghi này đƣợc phân thành 3 cụm: Cụm 1 có 9 bản ghi, cụm 2 có 13 bản ghi và cụm 3 có 10 bản ghi tƣơng ứng với các nhóm đã nêu ở trên.

d) Cơ sở dữ liệu thuê bao di động: Dữ liệu thử nghiệm là một cơ sở dữ liệu quan

hệ về Thuê bao di động phát sinh của thủ đô Hà Nội. Cơ sở dữ liệu gồm 3 bảng đƣợc mô tả nhƣ hình 4.3.

Hình 4.3: Mô hình quan hệ của dữ liệu thử nghiệm

Trong đó, bảng Huyen có quan hệ 1:n với bảng Thue_bao_phat_sinh và bảng

Khu_vuc có quan hệ 1:n với bảng Huyen.

Trong thử nghiệm này, bảng Huyen (có 28 bản ghi) là bảng đích và bảng

Thue_bao_phat_sinh (có 203 bản ghi) là bảng tham chiếu cần đƣợc tóm tắt dữ liệu. Mỗi bản ghi trong bảng Huyen liên kết với nhiều bản ghi trong bảng Thue_bao_phat_sinh

thông qua trƣờng Ma_huyen. Mỗi bản ghi trong bảng Thue_bao_phat sinh, ngoài khoá chính là STT và khoá ngoại là Ma_huyen, có 6 thuộc tính tƣơng ứng là số thuê bao phát sinh của loại gói cƣớc Economy, Sumo, Tomato, gói cƣớc cho học sinh sinh viên và nhóm các gói cƣớc khác.

e) Cơ sở dữ liệu điều tra dân số của Mỹ năm 1990: Cơ sở dữ liệu điều tra dân số

của Mỹ có 2.458.285 bản ghi với 68 thuộc tính, dung lƣợng tổng cộng 345MB. Bộ dữ liệu này kế thừa từ bộ dữ liệu thô USCensus1990. Chúng tôi tiến hành thực nghiệm 100 lần với mỗi lần là 10000 bản ghi trong tập dữ liệu này để xác định khả năng phân cụm với tập dữ liệu lớn nhiều bản ghi của 2 thuật toán.

Phƣơng pháp phân cấp

Chƣơng trình và dữ liệu thử nghiệm