Nguyên nhân dữ liệu cần tiền xử lý

Một phần của tài liệu Báo cáo tổng kết chè xuất khẩu (Trang 33 - 34)

• Dữ liệu không hoàn chỉnh có thể xảy ra vì một số nguyên nhân:

Một vài thuộc tính quan trọng không được cung cấp. Ví dụ: thông tin khách hàng đối với giao dịch bán hàng vì lý do cá nhân có thể khách hàng không muốn cung cấp thông tin của họ, hay thuộc tính mã số bằng lái xe đối với người không có bằng lái xe họ không thể cung cấp thông tin được yêu cầu…

Một số dữ liệu không được chọn lựa đơn giản bởi vì nó không được xem làm quan trọng tại thời điểm nhập dữ liệu. Hay nói cách khác việc xem xét dữ liệu tại thời điểm nhập dữ liệu và thời điểm phân tích là khác nhau.

Vấn đề con người/ phần mềm/ phần cứng.

Dữ liệu không nhất quán với những dữ liệu đã được lưu trước đó có thể bị xóa dẫn đến việc mất mát dữ liệu.

• Dữ liệu nhiễu có thể xảy ra vì một số nguyên nhân:

 Công cụ lựa chọn dữ liệu được sử dụng bị lỗi.

 Lỗi do con người hay máy tính lúc ghi chép dữ liệu.

 Lỗi trong quá trình truyền tải dữ liệu.

 Giới hạn về công nghệ như là kích thước buffer bị giới hạn trong quá trình truyền, nhận dữ liệu…

 Dữ liệu không chính xác cũng có thể là do không nhất quán trong việc đặt tên, định dạng dữ liệu.

• Dữ liệu không nhất quán có thể là do:

 Dữ liệu được tập hợp từ nhiều nguồn khác nhau.

 Vài thuộc tính được biểu diễn bằng những tên khác nhau trong cơ sở dữ liệu. Ví dụ: thuộc tính customer indentification có thể là customer_id trong cơ sở dữ liệu này nhưng là cust_id trong cơ sở dữ liệu khác.

Một phần của tài liệu Báo cáo tổng kết chè xuất khẩu (Trang 33 - 34)