Tính toán thực nghiệm - xử lý giá trị thiếu trong- 123docz.net

Để đánh giá hiệu quả của HMiT, chúng tôi đã thực hiện các tính toán thực nghiệm trên hai CSDL chuẩn lấy từ kho dữ liệu UCI [16], đó là Vote và Credit Card. Vote có 435 bản ghi, 17 thuộc tính; Credit Card bao gồm 690 bản ghi và 15 thuộc tính. Cả hai CSDL này đều không có giá trị thiếu. Các tính toán thực nghiệm là nhƣ sau.

Đầu tiên, thực hiện chèn dữ liệu thiếu vào mỗi thuộc tính của mỗi CSDL bằng cách xóa đi một cách ngẫu nhiên một số giá trị. Tỷ lệ các giá trị xóa đi thay đổi từ 10% đến 70% với gia số bằng 10%. Với mỗi CSDL đã bị làm cho thiếu giá trị thuộc tính, thực hiện xử lý giá trị thiếu bằng phƣơng pháp HMiT và phƣơng pháp k-láng giềng gần nhất, sau đó so sánh CSDL thu đƣợc với CSDL ban đầu. Để khai phá khai phá luật kết hợp chúng tôi sử dụng thuật

toán FP-tree với các ngƣỡng minsupp =0.3 và minconfidence = 0.60. Đối với

phƣơng pháp k-láng giềng gần nhất, số láng giềng đƣợc chọn là 10. phƣơng pháp HMiT đƣợc lập trình bằng Visual C++ 6.0 và thực hiện trên máy 2.53 GHz với bộ nhớ 0.99 GB trong môi trƣờng Window XP 2005.

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

Dựa trên các kết quả tính toán, chúng tôi thu đƣợc các các nhận xét nhƣ sau.

1.Về sự phụ thuộc của độ chính xác vào số lượng giá trị thiếu trong

CSDL: Đối với cả hai phƣơng pháp HMiT và k-NN, độ chính xác của các giá

trị thiếu ƣớc lƣợng đều giảm dần khi số lƣợng các giá trị thiếu tăng dần, (Hình 3.2). Tuy nhiên, độ chính xác của HMiT cao hơn nhiều so với độ chính xác của k-NN.

2.Về sự phụ thuộc của độ chính xác vào độ tin cậy khi sử dụng HMiT: Độ chính xác của các giá trị thiếu ƣớc lƣợng đƣợc càng cao khi độ tin cậy tối

thiểu quy định minconfidence càng cao (Hình 3.3). Điều này là hợp lý, bởi vì

khi độ tin cậy quy định càng cao, các luật khai phá đƣợc càng mạnh, khả năng dự đoán chính xác các giá trị thiếu của chúng càng lớn.

3.Về sự phụ thuộc của độ chính xác vào độ hỗ trợ khi sử dụng HMiT: Độ chính xác của các giá trị thiếu ƣớc lƣợng đƣợc không phụ thuộc vào

minsupp quy định (Hình 3.4). Chỉ có số luật khai phá đƣợc sẽ tăng lên khi

minsupp giảm (một điều rất dễ hiểu).

4.So sánh thời gian xử lý giá trị thiếu bằng HMiT và bằng k-NN: HMiT hiệu quả hơn k-NN về thời gian xử lý giá trị thiếu, (Hình 3.5).

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

CSDL VOTE

CSDL CREDIT CARD

K-NNI HMVI

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn

CSDL VOTE

Giá trị thiếu = 20 % Minconfidence = 60 %

CSDL CREDIT CARD

Giá trị thiếu = 20 % Minconfidence = 60 %

K-NNI HMVI

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn CSDL VOTE Minsupp = 0.3 % Minconfidence = 60 % CSDL CREDIT CARD Minsupp = 0.3 % Minconfidence = 60 % K-NNI HMVI

Số hóa bởi Trung tâm Học liệu – Đại học Thái Nguyên http://www.lrc-tnu.edu.vn