Mô hình Dự báo giá trị mới

Một phần của tài liệu (LUẬN văn THẠC sĩ) áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu sản xuất kinh doanh cho VNPT (Trang 60 - 63)

3.3.2. Giới thiệu tập số liệu và vấn đề tiền xử lý số liệu

Thông thường, dữ liệu được thu thập từ các đơn vị về cơ quan Tập đoàn VNPT là dữ liệu thô, chứa nhiều nhiễu hoặc khuyết thiếu và có định dạng không tương thích với đầu vào của các giải thuật. Vì vậy đề có thể sử dụng dữ liệu đó, thường phải thực hiện một bước là tiền xử lý dữ liệu. Đây là một bước quan trọng, có ảnh hưởng lớn tới kết quả khai phá và chiếm nhiều thời gian và chi phí nhất trong quá trình khai phá dữ liệu. Thông thường bước này chiếm khoảng 60% trong toàn bộ quá trình. Tùy theo hiện trạng của dữ liệu, quá trình có thể gồm nhiều bước và có thể được thực hiện bằng tay hoặc thông qua nhiều phương pháp khác nhau, các bước này thường bao gồm:

- Trích chọn dữ liệu: trích xuất các dữ liệu cần thiết cho các bước phân tích ban đầu và quá trình khai phá dữ liệu sau này.

- Làm sạch dữ liệu: mục đích của bước làm sạch dữ liệu là để đảm bảo chất lượng cho dữ liệu đã được lựa chọn. Dữ liệu trong thực tế thường không hoàn chỉnh, không nhất quán và có chứa nhiễu. Quá trình làm sạch dữ liệu sẽ cố gắng thêm giá trị vào những giá trị bị thiếu, làm mịn các điểm nhiễu và sửa lại các dữ liệu không nhất quán.

- Chuyển đổi dữ liệu: trong bước này, dữ liệu sẽ được chuyển đổi hoặc củng cố để đưa về dạng phù hợp với thuật toán khai phá.

- Rút gọn dữ liệu: kỹ thuật rút gọn dữ liệu có thể được sử dụng để đưa tập dữ liệu gốc về một tập dữ liệu nhỏ hơn nhiều. Khai phá trên tập dữ liệu rút gọn này sẽ hiệu quả hơn nhiều so với khai phá trên tập dữ liệu gốc.

Tập số liệu hoạt động sản xuất kinh doanh hiện nay của VNPT được lưu trữ chủ yếu dưới dạng số, bao gồm số liệu từ năm 1999 tới 2007 của 79 đơn vị thành viên, mỗi đơn vị thành viên có 613 chỉ tiêu sản xuất kinh doanh. Tập số liệu là khá lớn nên cần rút gọn dữ liệu để khai phá dữ liệu cho hiệu quả.

Mô hình Mẫu dữ liệu mới Giá trị dự báo Dự báo giá trị mới

3.3.3. Phương pháp mạng nơrontrong dự báo số liệu SXKD tại VNPT

Phương pháp Phân lớp dữ liệu có thể được thực hiện bằng nhiều giải thuật khác nhau như: Cây quyết định, mạng Bayes, k-người láng giềng gần nhất (k- NN), mạng nơron… Mỗi loại giải thuật thích hợp với một số loại dữ liệu nhất định. Số liệu SXKD thực tế của VNPT rất lớn bao gồm dữ liệu tất cả các tỉnh thành trong cả nước trên các lĩnh vực viễn thông như: mạng cố định, mạng di động, mạng Internet và mạng hội tụ. Số lượng các chỉ tiêu dữ liệu cho các lĩnh vực này là rất lớn. Không những thế dữ liệu các tỉnh khác nhau là rất khác nhau cũng như bản thân nguồn dữ liệu có rất nhiều nhiễu, có sự nhảy bậc giữa các tỉnh và giữa các năm.

Vì sự chênh lệch giữa các chỉ tiêu lớn cho nên các mô hình tuyến tính không được áp dụng để khai phá dữ liệu bởi vì mô hình tuyến tính sẽ tạo ra một hàm gần đúng nhất tới các điểm, mà sự chênh lệch giữa các chỉ tiêu lớn cho nên dự báo sẽ không chính xác.

Mô hình dùng để khai phá cần phải đáp ứng được các yêu cầu dự báo chính xác cũng như phù hợp với nguồn dữ liệu nhiều chiều, thay đổi liên tục, có sự nhảy bậc cũng như có nhiễu của Tập đoàn cho nên sẽ phải sử dụng một số mô hình phi tuyến như cây quyết định, k-NN, mạng nơron…

- Mô hình dùng mạng Nơron:

 Thích hợp với nhiều kiểu dữ liệu khác nhau như liên tục, rời rạc, kiểu số, kiểu chữ… thuộc các lĩnh vực khác nhau

 Mạng Nơron đặc biệt thích hợp khi sử dụng để phân lớp dữ liệu và

dự báo bởi vì mạng Nơron có khả năng học và khả năng khái quát hóa.Với mô hình mạng Nơron, khi có dữ liệu mới sẽ tự động điều chỉnh lại các trọng số liên kết và ngưỡng để phù hợp với dữ liệu mới và nhờ khả năng khái quát hóa mà mạng Nơron sẽ đưa ra dự báo chính xác với sự thay đổi của cơ sở dữ liệu.

 Mạng Nơron có độ chính xác tương đối cao.

 Ảnh hưởng ít bởi nhiễu.

 Với dữ liệu nhỏ thì xây dựng mô hình nhanh. Với dữ liệu lớn thì thời gian chạy là chấp nhận được.

- Mô hình khai phá dữ liệu dùng cây quyết định:

 Mô hình cồng kềnh khi các nhánh dự báo lớn.

- Mô hình khai phá dữ liệu sử dụng thuật toán k-NN

 Xây dựng mô hình đơn giản.

 Độ chính xác khá tốt với dữ liệu nhỏ.

 Chạy chậm khi lượng dữ liệu lớn.

Với yêu cầu đưa ra dự báo chính xác trên nguồn dữ liệu lớn, thay đổi, có nhiễu, nhiều chiều, qua việc phân tích các ưu nhược điểm của các mô hình thì sử dụng mô hình mạng Nơron để dự báo số liệu SXKD cho VNPT là thích hợp hơn cả.

3.3.4. Phần mềm công cụ hỗ trợ dự báo

a. Giới thiệu phần mềm nguồn mở Yale

Yale là mô ̣t bô ̣ công cụ mã nguồn mở dành cho thao tác Khai phá dữ liê ̣u và học máy, đươ ̣c phát triển từ năm 2001 bởi Nhóm Trí tuê ̣ nhân ta ̣o của Trường Đa ̣i ho ̣c Dort mund [18]. Ngoài ra Yale còn tích hợp với bộ công cụ Khai phá dữ liê ̣u nổi tiếng khác là bô ̣ công cụ Weka , giúp người sử dụng có thể sử

dụng các thao tác được hỗ trợ bởi Weka một cách dễ dàng . Yale sử dụng

ngôn ngữ XML, một ngôn ngữ mô tả cấu trúc đối tượng được sử dụng rất rộng rãi hiện nay, để mô tả các cây toán tử mô hình hóa các tiến trình Khai phá dữ liệu. Với định dạng dữ liệu chuẩn này, các cây toán tử có thể được đọc dễ dàng bởi người dùng hoặc bởi chương trình. Hơn nữa, các file cấu hình nhiệm vụ bằng XML tạo thành một chuẩn trao đổi dữ liệu giữa các nhiệm vụ khai phá dữ liệu.

Với chương trình mã nguồn mở Yale chúng ta có thể thực hiện các thao tác Khai phá, xử lý dữ liệu như:

- Các giải thuật học máy :

 Phân lớp và hồi quy: SVM (support vector machine), mạng nơron,

cây quyết định, mạng Bayes...

 Phân cụm: kMeans, EM, phân cụm dựa vào mật độ...

 Khai phá luật kết hợp: Tertius, Apriori.

- Các thao tác xử lí dữ liệu : rời rạc hóa, lọc mẫu, xử lí các giá trị thiếu hoặc không xác định, chuẩn hóa dữ liệu, giảm số chiều của dữ liệu...

- Các thao tác đánh giá : đánh giá chéo và một số phương pháp đánh giá khác, các thao tác tối ưu hóa tham số...

- Các thao tác nhập , xuất dữ liê ̣u : cho phép nhập, xuất dữ liệu từ file text với các định dạng như arff, C4.5, CSV... hoặc từ CSDL.

Một phần của tài liệu (LUẬN văn THẠC sĩ) áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu sản xuất kinh doanh cho VNPT (Trang 60 - 63)

Tải bản đầy đủ (PDF)

(100 trang)