Các nhà nghiên cứu cần quan tâm tới khả năng thu thập được các dữ liệu của các biến đã chọn trong bước trước. Dữ liệu kỹ thuật thường dễ dàng thu thập được từ nhiều nhà cung cấp với giá thành phải chăng, trong khi đó, thông tin cơ sở thường khó thu thập hơn. Thời gian thu thập dữ liệu không thể được tính vào thời gian tiền xử lý, huấn luyện hoặc đánh giá mạng nơron. Nhà cung cấp cũng nên chú trọng tới chất lượng dữ liệu; dữ liệu nên được kiểm tra lỗi bằng cách kiểm tra sự thay đổi theo thời gian, khoảng giá trị, sự thống nhất, logic, và các giá trị thiếu.
Các giá trị thiếu, vấn đề thường xuyên xuất hiện, có thể được giải quyết bằng một số cách. Tất cả các giá trị thiếu có thể được loại bỏ hoặc có thể thay tất cả các giá trị thiếu bằng giá trị xuất hiện nhiều nhất hoặc giá trị trung bình cộng của các giá trị lân cận.
Khi sử dụng dữ liệu cơ sở làm đầu vào cho mạng nơron, cần để ý tới bốn vấn đề sau:
- Phương pháp tính cần nhất quán trong toàn bộ quá trình
- Không nên sửa lại các giá trị dữ liệu sau khi đã khởi tạo nó vào hệ thống bởi
các giá trị sửa lại sẽ không có giá trị gì cho việc dự báo thực tế.
- Dữ liệu để làm đầu vào cho mạng nơron nên được làm trễ một cách hợp lý
bởi vì thông tin cơ sở không thể có nhanh như thông tin thị trường chứng khóan được.
- Các nhà nghiên cứu nên đảm bảo rằng các nguồn dữ liệu vẫn sẽ cung cấp được các thông tin cơ sở trong tương lai.