.4 Hồi qui tuyến tính

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng hệ thống dự đoán công nợ tiền điện khách hàng, sản lượng điện tổn thất ngành điện (Trang 35 - 37)

Sau đây là một số khái niệm:

- Các biến ngẫu nhiên X1, .., Xk (các biến dự báo) và Y (biến phụ thuộc) - Xi cĩ miền (domain) là dom(Xi), Y cĩ miền là dom(Y)

- P là một phân bố xác xuất trên dom(X1) x…x dom(Xk) x dom(Y) - CSDL huấn luyện D là một mẫu ngẫu nhiên từ P

- Bộ dự báo (predictor) là hàm ánh xạ d: dom(X1) … dom(Xk)  dom(Y)

Nếu Y là số, bài tốn là bài tốn hồi qui. Y được gọi là biến phụ thuộc, d được gọi là hàm hồi qui. Gọi r là một bản ghi ngẫu nhiên lấy từ P. Tỷ suất lỗi trung bình bình phương của d được định nghĩa là:

RT(d,P) = E(r.Y – d(r.X1, …, r.Xk))2

Định nghĩa bài tốn: Cho trước tập dữ liệu D là một mẫu ngẫu nhiên từ phân bố xác xuất P, tìm hàm hồi qui d mà RT(d, P) đạt cực tiểu.

Mơ hình quan hệ tuyến tính trên được xây dựng trên cơ sở mối liên hệ giữa một biến phụ thuộc Y và nhiều biến độc lập X được gọi là mơ hình hồi quy tuyến tính bội. Khi mơ hình quan hệ tuyến tính được xây dựng trên cơ sở mối liên hệ giữa hai biến(biến phụ thuộc Y và biến độc lập X) thì được gọi là mơ hình hồi quy tuyến tính đơn.

Mơ hình hồi qui phi tuyến: là các dạng mơ hình hồi qui nĩi lên mức phụ thuộc của một biến phụ thuộc với một hay nhiều biến độc lập mà phương trình của mơ hình hồi qui cĩ dạng phi tuyến tính đối với các hệ số. Chẳng hạn, như hàm hồi qui Parabol, hồi qui Hyperbol…

2.1.3. Phân lớp Bayes

Phân lớp Bayes là phương pháp phân lớp thống kê dự đốn xác suất các thành viên thuộc lớp. Phân lớp Bayes cho tính chính xác và tốc độ cao khi áp dụng vào các CSDL lớn. Phương pháp Nạve Bayes là một phương pháp phân lớp Bayes đơn giản. Phương pháp này giả thiết ảnh hưởng của một giá trị thuộc tính tới lớp là độc lập với các giá trị thuộc tính khác - gọi là độc lập điều kiện lớp.

Lý thuyết xác xuất Bayes: Cho X là dữ liệu mẫu của một lớp chưa biết. H là giả thiết X thuộc lớp C. Bài tốn phân lớp sẽ xác định P(H|X) – là xác xuất của giả thuyết H khi X thuộc lớp C. Hay cịn gọi là xác suất hậu nghiệm của H với điều kiện X. Cơng thức tính xác xuất Bayes như sau:

P(H|X) = P(H) * P(X|H) / P(X)

Trong đĩ, P(X|H) là xác xuất hậu nghiệm của X với điều kiện H, P(X) là xác xuất tiên nghiệm của X.

Phân lớp Nạve Bayes:

(1) Biểu diễn dữ liệu cần xác định lớp bằng vecto X = (x1,…, xn) mơ tả n độ đo của n thuộc tính A1, …, An.

(2) Giả sử cĩ m lớp C1, C2…, Cm. X là dữ liệu chưa biết lớp, việc phân lớp sẽ dự đốn X thuộc về lớp Ci với xác suất cĩ điều kiện P(Ci|X) là lớn nhất, nghĩa là:

37

Theo cơng thức Bayes, xác suất này được tính bằng P(Ci|X) = P(Ci)*P(X|Ci)/P(X). Do đĩ, nếu P(X) là hằng số ta chỉ cần đi tìm Ci cĩ tích P(Ci) * P(X|Ci) lớn nhất.

(3) Nếu dữ liệu cĩ nhiều thuộc tính, chi phí tính tốn P(X|Ci) cĩ thể rất lớn, vì vậy với giả thiết các thuộc tính độc lập điều kiện lớp thì cĩ thể tính:

P(X|Ci) =  

n

k 1

P(Xk|Ci).

Trong đĩ, P(Xk|Ci) được tính như sau: Với giả thiết Ak là thuộc tính giá trị tên thì P(Xk|Ci) = Sik/Si, trong đĩ Sik là số tập dữ liệu huấn luyện của lớp Ci cĩ giá trị Xk với Ak, Si là số tập dữ liệu thuộc lớp Ci.

(4) Để phân lớp cho đối tượng X chưa biết lớp: Tính các giá trị P(X|Ci) cho mọi lớp Ci và X thuộc lớp Ci khi và chỉ khi P(Ci|X) = Max P(Ci)*P(X|Ci)

2.2. Dự đốn thơng tin chuỗi thời gian với thuật tốn AutoRegression Trees AutoRegression Trees

Thuật tốn AutoRegression Trees là một mơ hình hồi qui tự động mà hàm mục tiêu f tương ứng với một cây hồi qui. Trong lĩnh vực nghiên cứu, tên của thuật tốn này là AutoRegression Trees (ART). ART được phát triển bởi ba nhà nghiên cứu Chris Meek, David Maxwell Chickering, and David Heckerman, vào năm 2001.

Trong ART, hàm f được đại diện bởi một cây hồi qui. Hình vẽ dưới đây biểu diễn một cây hồi qui với dữ liệu chuỗi thời gian trong hình 2.6 Chuyển đổi dữ liệu mẫu cơng nợ.

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng hệ thống dự đoán công nợ tiền điện khách hàng, sản lượng điện tổn thất ngành điện (Trang 35 - 37)

Tải bản đầy đủ (PDF)

(74 trang)