1) Bước 1: Lựa chọn biến
3.3.3. Phương pháp mạng nơrontrong dự báo số liệu SXKD tại VNPT
Phương pháp Phân lớp dữ liệu có thể được thực hiện bằng nhiều giải thuật khác nhau như: Cây quyết định, mạng Bayes, k-người láng giềng gần nhất (k- NN), mạng nơron… Mỗi loại giải thuật thích hợp với một số loại dữ liệu nhất định. Số liệu SXKD thực tế của VNPT rất lớn bao gồm dữ liệu tất cả các tỉnh thành trong cả nước trên các lĩnh vực viễn thông như: mạng cố định, mạng di động, mạng Internet và mạng hội tụ. Số lượng các chỉ tiêu dữ liệu cho các lĩnh vực này là rất lớn. Không những thế dữ liệu các tỉnh khác nhau là rất khác nhau cũng như bản thân nguồn dữ liệu có rất nhiều nhiễu, có sự nhảy bậc giữa các tỉnh và giữa các năm.
Vì sự chênh lệch giữa các chỉ tiêu lớn cho nên các mô hình tuyến tính không được áp dụng để khai phá dữ liệu bởi vì mô hình tuyến tính sẽ tạo ra một hàm gần đúng nhất tới các điểm, mà sự chênh lệch giữa các chỉ tiêu lớn cho nên dự báo sẽ không chính xác.
Mô hình dùng để khai phá cần phải đáp ứng được các yêu cầu dự báo chính xác cũng như phù hợp với nguồn dữ liệu nhiều chiều, thay đổi liên tục, có sự nhảy bậc cũng như có nhiễu của Tập đoàn cho nên sẽ phải sử dụng một số mô hình phi tuyến như cây quyết định, k-NN, mạng nơron…
- Mô hình dùng mạng Nơron:
Thích hợp với nhiều kiểu dữ liệu khác nhau như liên tục, rời rạc, kiểu số, kiểu chữ… thuộc các lĩnh vực khác nhau
Mạng Nơron đặc biệt thích hợp khi sử dụng để phân lớp dữ liệu và
dự báo bởi vì mạng Nơron có khả năng học và khả năng khái quát hóa.Với mô hình mạng Nơron, khi có dữ liệu mới sẽ tự động điều chỉnh lại các trọng số liên kết và ngưỡng để phù hợp với dữ liệu mới và nhờ khả năng khái quát hóa mà mạng Nơron sẽ đưa ra dự báo chính xác với sự thay đổi của cơ sở dữ liệu.
Mạng Nơron có độ chính xác tương đối cao.
Ảnh hưởng ít bởi nhiễu.
Với dữ liệu nhỏ thì xây dựng mô hình nhanh. Với dữ liệu lớn thì thời gian chạy là chấp nhận được.
- Mô hình khai phá dữ liệu dùng cây quyết định:
Mô hình cồng kềnh khi các nhánh dự báo lớn.
- Mô hình khai phá dữ liệu sử dụng thuật toán k-NN
Xây dựng mô hình đơn giản.
Độ chính xác khá tốt với dữ liệu nhỏ.
Chạy chậm khi lượng dữ liệu lớn.
Với yêu cầu đưa ra dự báo chính xác trên nguồn dữ liệu lớn, thay đổi, có nhiễu, nhiều chiều, qua việc phân tích các ưu nhược điểm của các mô hình thì sử dụng mô hình mạng Nơron để dự báo số liệu SXKD cho VNPT là thích hợp hơn cả.