Dự báo bằng phương pháp phân lớp dữ liệu

Một phần của tài liệu (LUẬN văn THẠC sĩ) áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu sản xuất kinh doanh cho VNPT (Trang 20 - 23)

CHƯƠNG 1. KHẢO CỨU CÁC PHƯƠNG PHÁP DỰ BÁO VỀ HOẠT ĐỘNG SẢN XUẤT KINH DOANH DOANH NGHIỆP

1. Tổng quan các phương pháp dự báo

1.4. Dự báo bằng phương pháp phân lớp dữ liệu

Quá trình phân lớp dữ liệu thường gồm 2 bước: xây dựng mô hình và sử dụng mô hình để phân lớp dữ liệu [12].

Bước 1: một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu.

Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc tính lớp. Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện (training data set). Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác định trước khi xây dựng mô hình, vì vậy phương pháp này còn được gọi là học có thầy (supervised learning) khác với phân cụm dữ liệu là học không có thầy (unsupervised learning).

Bước 2: sử dụng mô hình để phân lớp dữ liệu. Trước hết chúng ta phải tính độ chính xác của mô hình. Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử dụng để dự báo nhãn lớp cho các mẫu dữ liệu khác trong tương lai.

Các kỹ thuật phân lớp dữ liệu chủ yếu để dự báo số liệu gồm có: phân lớp theo phương pháp Bayes, phân lớp theo cây quyết định, phân lớp theo phương pháp máy vector hỗ trợ (SVM), phân lớp theo phương pháp mạng nơron, thuật toán di truyền, thuật toán người lãng riềng gần nhất, …

1.4.2. Độ chính xác phân lớp

Ước lượng độ chính xác của mô hình phân lớp là một bước quan trọng cho phép người dùng đánh giá được dữ liệu được phân lớp trong tương lai của họ sẽ chính xác đến đâu. Ngoài ra độ chính xác này còn có thể dùng làm tiêu chí để so sánh các bộ phân lớp khác nhau[12].

Để ước lượng độ chính xác của mô hình phân lớp, chúng ta có 1 số phương pháp như holdout hay k-fold cross-validation, bootstrapping, leave-one-out

- Phương pháp holdout: trong phương pháp này, tập dữ liệu ban đầu sẽ được chia ngẫu nhiên ra làm 2 tập: tập huấn luyệntập kiểm thử. Tập huấn luyện được dùng để xây dựng mô hình còn tập kiểm thử được dùng để ước lượng độ chính xác. Sơ đồ phương pháp này được thể hiện trong hình dưới.

Hình 2. Đánh giá độ chính xác của bộ phân lớp bằng phương pháp holdout

- Phương pháp k-fold cross-validation: trong phương pháp này, tập dữ liệu ban đầu sẽ được chia thành k tập con (fold), thường là với kích thước bằng nhau.

Bước huấn luyện và bước kiểm thử sẽ được thực hiện làm k lần. Tại mỗi lần lặp thứ i, tập con Si sẽ được dùng làm tập kiểm thử còn các tập con còn lại sẽ được dùng làm tập huấn luyện. Độ chính xác sẽ được tính bằng tổng số các trường hợp phân loại đúng trong k lần chia cho tổng số mẫu trong tập dữ liệu ban đầu.

Để tăng độ chính xác của phương pháp phân lớp, người ta đưa ra một số kỹ thuật như: Bagging boosting. Tư tưởng chính của kỹ thuật bagging là thay vì xây dựng một bộ phân lớp, chúng ta sẽ xây dựng k bộ phân lớp từ tập dữ liệu ban đầu, với mỗi mẫu mới cần phân lớp, mỗi bộ phân lớp sẽ có 1 kết quả dự báo và nhãn nào được dự báo nhiều nhất bởi các bộ phân lớp sẽ được gán cho mẫu mới. Kỹ thuật boosting tương tự kỹ thuật bagging nhưng mỗi mẫu học sẽ được gán thêm 1 trọng số để giúp các bộ phân loại xây dựng sau tránh các lỗi mà các bộ phân loại trước gặp phải.

KẾT LUẬN CHƯƠNG 1

Trong chương 1, luận văn đã trình bày một cách tổng quan về dự báo và các phương pháp dự báo. Các phương pháp dự báo bao gồm các phương pháp dự báo định tính và các phương pháp dự báo định lượng. Trong phương pháp định

Tập huấn luyện

Tập kiểm thử Dữ liệu

Bộ phân lớp

Đánh giá độ chính xác

báo bằng mô hình chuỗi thời gian và 3 mô hình chuỗi thời gian điển hình nhất đang được ứng dụng hiện nay là mô hình làm trơn hàm mũ chuỗi thời gian, mô hình trung bình trượt tích hợp tự hồi quy và mô hình tự hồi quy véc tơ.

Trong mô hình nhân quả, luận văn đã giới thiệu nhanh các mô hình hồi quy tuyến tính và phi tuyến, và phương pháp dự báo bằng phân lớp dữ liệu. Phương pháp dự báo phân lớp dữ liệu sẽ là đối tượng nghiên cứu chính của luận văn này.

Trong chương tiếp theo, luận văn sẽ tập trung trình bày phương pháp phân lớp dữ liệu sử dụng mạng nơron nhân tạo để dự báo định lượng.

Một phần của tài liệu (LUẬN văn THẠC sĩ) áp dụng các kỹ thuật phân lớp dữ liệu, hồi quy để dự báo số liệu sản xuất kinh doanh cho VNPT (Trang 20 - 23)

Tải bản đầy đủ (PDF)

(100 trang)