GIAO DIỆN CHƯƠNG TRÌNH

Một phần của tài liệu TÌM HIỂU KHO DỮ LIỆU VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU (Trang 39)

Khi chương trình chạy, dữ liệu từ file word.train và word.test sẽ được nạp vào các dataset.

+ Thông tin trong file word.train được nạp vào lưới dữ liệu học. Cho phép lọc dữ liệu theo các lớp tài liệu: Có 50 lớp tài liệu, số tài liệu là 4000, kích thước từ điển là 7953. Kích thước từ điển được coi là số thứ tự lớn nhất của từ trong từ điển có xuất hiện ít nhất trong 1 tài liệu ghi trong file word.train

+ Thông tin trong file test.train được nạp vào lưới dữ liệu kiểm tra. Ở đây có tất cả 500 tài liệu. Cho phép lọc các tài liệu theo từng lớp. Có tất cả 42 lớp tài liệu được ghi trong file test.train.

Muốn đọc lại file dữ liệu đầu vào, chọn lại đường dẫn sau đó ấn “Nạp lại dữ liệu” Muốn lưu lại kết quả thực hiện, chọn “Lưu dữ liệu”.

Với từng tài liệu, khi chạy, kết quả được đưa sang lưới “Kết quả chạy”. Lưới thông tin này cho biết xác suất một tài liệu nào đó thuộc các lớp văn bản từ 1-50. Lưới kết quả cho phép lọc theo từng tài liệu.

Kết quả phân lớp: được hiển thị trong lưới kết quả. Lưới kết quả này lưu thông tin số thứ tự của tài liệu dự đoán, lớp tài liệu thực tế của tài liệu đó và lớp tài liệu được dự đoán.

+ Lưới kết quả phân lớp cho phép lọc theo các điều kiện: Tất cả kết quả, dự đoán đúng, dự đoán sai.

Lý do: do xác xuất tính được là rất nhỏ, mặc dù chọn kiểu số decimal nhưng kết quả tính toán nhỏ tới mức ngôn ngữ lập trình tự cho về giá trị 0. Nếu tất cả xác suất có giá trị 0 thì sẽ không lấy ra được xác suất lớn nhất. Đây là tham số kỹ thuật phụ trợ cho việc tính toán, không ảnh hưởng tới kết quả cuối cùng.

Một phần của tài liệu TÌM HIỂU KHO DỮ LIỆU VÀ KỸ THUẬT KHAI PHÁ DỮ LIỆU (Trang 39)