1) Bước 1: Lựa chọn biến
3.3.2. Giới thiệu tập số liệu và vấn đề tiền xử lý số liệu
Thông thường, dữ liệu được thu thập từ các đơn vị về cơ quan Tập đoàn VNPT là dữ liệu thô, chứa nhiều nhiễu hoặc khuyết thiếu và có định dạng không tương thích với đầu vào của các giải thuật. Vì vậy đề có thể sử dụng dữ liệu đó, thường phải thực hiện một bước là tiền xử lý dữ liệu. Đây là một bước quan trọng, có ảnh hưởng lớn tới kết quả khai phá và chiếm nhiều thời gian và chi phí nhất trong quá trình khai phá dữ liệu. Thông thường bước này chiếm khoảng 60% trong toàn bộ quá trình. Tùy theo hiện trạng của dữ liệu, quá trình có thể gồm nhiều bước và có thể được thực hiện bằng tay hoặc thông qua nhiều phương pháp khác nhau, các bước này thường bao gồm:
- Trích chọn dữ liệu: trích xuất các dữ liệu cần thiết cho các bước phân tích ban đầu và quá trình khai phá dữ liệu sau này.
- Làm sạch dữ liệu: mục đích của bước làm sạch dữ liệu là để đảm bảo chất lượng cho dữ liệu đã được lựa chọn. Dữ liệu trong thực tế thường không hoàn chỉnh, không nhất quán và có chứa nhiễu. Quá trình làm sạch dữ liệu sẽ cố gắng thêm giá trị vào những giá trị bị thiếu, làm mịn các điểm nhiễu và sửa lại các dữ liệu không nhất quán.
- Chuyển đổi dữ liệu: trong bước này, dữ liệu sẽ được chuyển đổi hoặc củng cố để đưa về dạng phù hợp với thuật toán khai phá.
- Rút gọn dữ liệu: kỹ thuật rút gọn dữ liệu có thể được sử dụng để đưa tập dữ liệu gốc về một tập dữ liệu nhỏ hơn nhiều. Khai phá trên tập dữ liệu rút gọn này sẽ hiệu quả hơn nhiều so với khai phá trên tập dữ liệu gốc.
Tập số liệu hoạt động sản xuất kinh doanh hiện nay của VNPT được lưu trữ chủ yếu dưới dạng số, bao gồm số liệu từ năm 1999 tới 2007 của 79 đơn vị thành viên, mỗi đơn vị thành viên có 613 chỉ tiêu sản xuất kinh doanh. Tập số liệu là khá lớn nên cần rút gọn dữ liệu để khai phá dữ liệu cho hiệu quả.
Mô hình Mẫu dữ liệu mới Giá trị dự báo Dự báo giá trị mới