.11 Mơ hình kiến trúc HOLAP

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng hệ thống dự đoán công nợ tiền điện khách hàng, sản lượng điện tổn thất ngành điện (Trang 31)

CHƢƠNG 2. CÁC KỸ THUẬT DỰ BÁO CƠNG NỢ, TỔN THẤT

2.1 Giới thiệu về chuỗi thời gian

Một chuỗi thời gian (time series) là chuỗi trị số thực, mỗi trị số biểu diễn một giá trị đo tại những thời điểm cách đều nhau, diễn ra một cách tuần tự. Trên thực tế, cĩ rất nhiều đối tượng biến đổi theo thời gian. Tập hợp các giá trị biến đổi của đối tượng cấu thành chuỗi thời gian. Ví dụ: sản lượng thương phẩm điện bán cho khách hàng, số khách hàng nợ tiền hằng tháng, giá cổ phiếu đĩng cửa là các hình ảnh cụ thể về chuỗi thời gian. Tập dữ liệu chuỗi thời gian xuất hiện trong hầu hết các lĩnh vực như kỹ thuật, kinh tế, tài chính, y học, v.v…

Trong một chuỗi thời gian, thơng thường, giá trị của đối tượng tại thời điểm xem xét cĩ liên quan tới các giá trị tại các thời điểm phía trước. Ví dụ: số khách hàng nợ tiền điện tháng 10 liên quan tới số khách hàng nợ tiền điện tháng 9 và tháng 8.

Bước thời gian trong Timeseries cĩ thể là rời rạc hay liên tục. Chúng ta chỉ nghiên cứu chuỗi thời gian cĩ chiều thời gian tăng rời rạc, trong khi giá trị quan sát trong chuỗi cĩ thể là rời rạc hay liên tục. Giá cổ phiếu, doanh thu tiền điện, sản lượng điện thương phẩm, dịng lợi nhuận của cơng ty điện lực là những quan sát liên tục. Chuỗi thời gian dự báo thời tiết với các giá trị như nắng, mây, mưa là các quan sát rời rạc.

Mục đích chính của việc thu thập các dữ liệu chuỗi thời gian là nhằm mục đích dự báo hoặc dự đốn về các giá trị trong tương lai. Ví dụ, nhà máy thuỷ điện cần dự đốn nhu cầu điện tiêu dùng để tính tốn lượng nước hồ chứa, lên kế hoạch sản xuất điện cho năm tới, từng mùa trong năm…Cơng ty điện lực cần dự đốn biểu đồ phụ tải để phân tải điện năng theo các giờ cao điểm trong ngày… Dự đốn chính là cơng việc khai phá dữ liệu thơng dụng nhất. Bất kỳ một ứng dụng CRM hoặc ERP nào cũng cĩ thể thu được lợi ích từ các chuỗi thời gian dự đốn giá trị trong tương lai.

33

2.1.1. Một số khái niệm về chuỗi thời gian

Định nghĩa 1: Chuỗi thời gian X = (x1, x2, ..., xn) là một tập n giá trị xi được ghi nhận trên các khoảng thời gian bằng nhau của một biến thực và được sắp thứ tự theo thời gian.

Cơ sở dữ liệu chuỗi thời gian là tập hợp các chuỗi thời gian, trong đĩ mỗi bản ghi là một chuỗi thời gian T = {Xi}ni = 1

Chuỗi thời gian cĩ thể biểu diễn các đối tượng khác nhau, trong các lĩnh vực khác nhau nhưng chúng đều cĩ điểm chung là cĩ 2 chiều: một chiều là thời gian, chiều cịn lại là độ biến thiên giá trị theo thời gian. Cĩ thể biểu diễn chuỗi thời gian như biểu đồ dưới đây:

Hình 2.2 Mơ tả chuỗi thời gian trên đồ thị

Định nghĩa 2: Cho một chuỗi thời gian X độ dài n, một dãy con S của X là một dãy cĩ độ dài m (1≤ m ≤ n) các vị trí liền nhau trong X:

S = (xp, …, xp+m-1), 1 ≤ p ≤ n-m-1

Từ định nghĩa, cĩ thể thấy chuỗi thời gian X với độ dài n sẽ cĩ n – m + 1dãy con cĩ độ dài m. Mỗi dãy con cũng chính là một chuỗi thời gian cĩ độ dài m. Khái niệm dãy con khác với khái niệm mẫu tuần tự (sequential pattern), mẫu tuần tự chấp nhận các phần tử trong mẫu cĩ thể khơng liên tục trong dãy ban đầu, trong khi trong một dãy con các phần tử là liên tiếp nhau trong chuỗi thời gian ban đầu.

Ví dụ: Cho chuỗi thời gian X = (3, 2, 5, 7, 4, 8, 10, 7), nhận thấy S1 = (2,5,7) là một dãy con của X, S2 = (5,7,8) khơng phải là dãy con của X do 7 và 8 là các giá trị khơng liên tiếp nhau nhau X.

Để trích xuất các dãy con từ trong chuỗi thời gian, người ta cịn sử dụng khái niệm “cửa sổ”: Cho chuỗi thời gian X = (x1, x2,…xn), một cửa sổ X’ với độ rộng ω là một dãy các phần tử liên tiếp nhau X’ (xi, …, xi+ω-1). Về bản chất cửa sổ là một dãy con được nhấn mạnh về cách thức rút trích dữ liệu giống như khi quan sát chuỗi thời

dài bằng nhau. Ký hiệu W (X) = {Si | i= 1, …, n-ω+1} là tập các dãy con Si cĩ chiều dài ω thu được từ chuỗi thời gian X.

Định nghĩa 3 ; Cho chuỗi thời gian X = (x1, x2, …, xn) trên đoạn thời gian [t1, tn], hàm theo thời gian x (t) được gọi là đại diện cho chuỗi thời gian X nếu x (ti) = xi với ti = t1, t2, …, tn.

Định nghĩa 4: Hàm tuyến tính f (t) = at + b thoả mãn |x (ti) – f (ti)|< ε, với ti thuộc [t1, tm] và ε > 0 thì a được gọi là một đặc trưng (feature) của chuỗi thời gian X trên [t1, tm].

Trong định nghĩa trên, ε là một sai số chọn trước, đại diện cho độ nhiễu trong ứng dụng mà ta cần xây dựng. Một đặc trưng của chuỗi thời gian tương ứng với dãy con S thực chất là hệ số gĩc của hàm f (t). Tuỳ theo giá trị của a mà nĩ thể hiện xu thế (trend) của chuỗi thời gian trên đoạn đĩ. Hệ số gĩc được xem là một đặc trưng quan trọng nhất trên chuỗi thời gian.

Định nghĩa 5: Một sự thay đổi đặc trưng giữa hai đoạn liền kề nhau được gọi là một sự kiện

Hình 2.3 Minh hoạ sự kiện tại thời điểm t2

Theo định nghĩa trên, nếu trên hai đoạn liền kề [t1, t2], [t2, t3] chuỗi thời gian lần lượt cĩ đặc trưng là a1 và a2, a1 khác a2 thì ta nĩi tại thời điểm t2 cĩ một sự kiện.

Trên cùng một chuỗi thời gian cĩ thể chứa nhiều thành phần, sự kiện xảy ra đồng thời như

 Xu thế: ví dụ, nhu cầu tiêu thụ điện năng của khách hàng tăng tuyến tính theo từng năm.

 Các thành phần thay đổi theo từng thời kỳ, thể hiện qua các mẫu thay đổi theo một chu kỳ (ví dụ, sản lượng điện tổn thất theo tháng, năm, các mùa trong năm)

35

 Các biến cố xảy ra do những tác động bên ngồi: tăng giá điện, đổi giá, hạn hán…

 Độ nhiễu.

2.1.2. Hồi qui

Hồi qui là một kỹ thuật phân tích dữ liệu dùng thống kê để xây dựng các mơ hình dự báo cho các trường dự báo cĩ giá trị liên tục. Kỹ thuật hồi qui tự động xác định một cơng thức tốn học mà cực tiểu hố các phép đo lỗi giữa dự báo từ mơ hình hồi qui với dữ liệu thực. Dạng đơn giản nhất của một mơ hình hồi qui chứa một biến phụ thuộc (cịn gọi là biến đầu ra, hay biến Y) và một biến độc lập đơn (cịn gọi là biến đầu vào, hay biến X).

Dạng thơng dụng nhất của hồi qui là mơ hình hồi qui tuyến tính (linear regression), trong đĩ một đường thẳng phù hợp nhất với dữ liệu được tính tốn. Đĩ là đường thẳng cực tiểu hố khoảng cách trung bình của tất cả các điểm đến đường thẳng đĩ.

Đường này trở thành mơ hình dự báo khi giá trị của biến phụ thuộc là chưa biết; giá trị của nĩ được dự báo bởi điểm nằm trên đường mà tương ứng với giá trị của các biến phụ thuộc cho bản ghi đĩ.

Hình 2.4 Hồi qui tuyến tính Sau đây là một số khái niệm: Sau đây là một số khái niệm:

- Các biến ngẫu nhiên X1, .., Xk (các biến dự báo) và Y (biến phụ thuộc) - Xi cĩ miền (domain) là dom(Xi), Y cĩ miền là dom(Y)

- P là một phân bố xác xuất trên dom(X1) x…x dom(Xk) x dom(Y) - CSDL huấn luyện D là một mẫu ngẫu nhiên từ P

- Bộ dự báo (predictor) là hàm ánh xạ d: dom(X1) … dom(Xk)  dom(Y)

Nếu Y là số, bài tốn là bài tốn hồi qui. Y được gọi là biến phụ thuộc, d được gọi là hàm hồi qui. Gọi r là một bản ghi ngẫu nhiên lấy từ P. Tỷ suất lỗi trung bình bình phương của d được định nghĩa là:

RT(d,P) = E(r.Y – d(r.X1, …, r.Xk))2

Định nghĩa bài tốn: Cho trước tập dữ liệu D là một mẫu ngẫu nhiên từ phân bố xác xuất P, tìm hàm hồi qui d mà RT(d, P) đạt cực tiểu.

Mơ hình quan hệ tuyến tính trên được xây dựng trên cơ sở mối liên hệ giữa một biến phụ thuộc Y và nhiều biến độc lập X được gọi là mơ hình hồi quy tuyến tính bội. Khi mơ hình quan hệ tuyến tính được xây dựng trên cơ sở mối liên hệ giữa hai biến(biến phụ thuộc Y và biến độc lập X) thì được gọi là mơ hình hồi quy tuyến tính đơn.

Mơ hình hồi qui phi tuyến: là các dạng mơ hình hồi qui nĩi lên mức phụ thuộc của một biến phụ thuộc với một hay nhiều biến độc lập mà phương trình của mơ hình hồi qui cĩ dạng phi tuyến tính đối với các hệ số. Chẳng hạn, như hàm hồi qui Parabol, hồi qui Hyperbol…

2.1.3. Phân lớp Bayes

Phân lớp Bayes là phương pháp phân lớp thống kê dự đốn xác suất các thành viên thuộc lớp. Phân lớp Bayes cho tính chính xác và tốc độ cao khi áp dụng vào các CSDL lớn. Phương pháp Nạve Bayes là một phương pháp phân lớp Bayes đơn giản. Phương pháp này giả thiết ảnh hưởng của một giá trị thuộc tính tới lớp là độc lập với các giá trị thuộc tính khác - gọi là độc lập điều kiện lớp.

Lý thuyết xác xuất Bayes: Cho X là dữ liệu mẫu của một lớp chưa biết. H là giả thiết X thuộc lớp C. Bài tốn phân lớp sẽ xác định P(H|X) – là xác xuất của giả thuyết H khi X thuộc lớp C. Hay cịn gọi là xác suất hậu nghiệm của H với điều kiện X. Cơng thức tính xác xuất Bayes như sau:

P(H|X) = P(H) * P(X|H) / P(X)

Trong đĩ, P(X|H) là xác xuất hậu nghiệm của X với điều kiện H, P(X) là xác xuất tiên nghiệm của X.

Phân lớp Nạve Bayes:

(1) Biểu diễn dữ liệu cần xác định lớp bằng vecto X = (x1,…, xn) mơ tả n độ đo của n thuộc tính A1, …, An.

(2) Giả sử cĩ m lớp C1, C2…, Cm. X là dữ liệu chưa biết lớp, việc phân lớp sẽ dự đốn X thuộc về lớp Ci với xác suất cĩ điều kiện P(Ci|X) là lớn nhất, nghĩa là:

37

Theo cơng thức Bayes, xác suất này được tính bằng P(Ci|X) = P(Ci)*P(X|Ci)/P(X). Do đĩ, nếu P(X) là hằng số ta chỉ cần đi tìm Ci cĩ tích P(Ci) * P(X|Ci) lớn nhất.

(3) Nếu dữ liệu cĩ nhiều thuộc tính, chi phí tính tốn P(X|Ci) cĩ thể rất lớn, vì vậy với giả thiết các thuộc tính độc lập điều kiện lớp thì cĩ thể tính:

P(X|Ci) =  

n

k 1

P(Xk|Ci).

Trong đĩ, P(Xk|Ci) được tính như sau: Với giả thiết Ak là thuộc tính giá trị tên thì P(Xk|Ci) = Sik/Si, trong đĩ Sik là số tập dữ liệu huấn luyện của lớp Ci cĩ giá trị Xk với Ak, Si là số tập dữ liệu thuộc lớp Ci.

(4) Để phân lớp cho đối tượng X chưa biết lớp: Tính các giá trị P(X|Ci) cho mọi lớp Ci và X thuộc lớp Ci khi và chỉ khi P(Ci|X) = Max P(Ci)*P(X|Ci)

2.2. Dự đốn thơng tin chuỗi thời gian với thuật tốn AutoRegression Trees AutoRegression Trees

Thuật tốn AutoRegression Trees là một mơ hình hồi qui tự động mà hàm mục tiêu f tương ứng với một cây hồi qui. Trong lĩnh vực nghiên cứu, tên của thuật tốn này là AutoRegression Trees (ART). ART được phát triển bởi ba nhà nghiên cứu Chris Meek, David Maxwell Chickering, and David Heckerman, vào năm 2001.

Trong ART, hàm f được đại diện bởi một cây hồi qui. Hình vẽ dưới đây biểu diễn một cây hồi qui với dữ liệu chuỗi thời gian trong hình 2.6 Chuyển đổi dữ liệu mẫu cơng nợ.

Hình 2.5 Minh hoạ cây hồi qui

ART là thuật tốn thơng dụng giải quyết vấn đề dự đốn thơng tin trên dữ liệu chuỗi thời gian. Một tiến trình lặp trong thuật tốn ART xác định giá trị của x bằng hàm t(xt) với giá trị của x tại các thời điểm trước đĩ.

Xt = f (Xt-1 , Xt-2 , Xt-3 , … , Xt-n)+ εt

Trong đĩ, xt là hàm ước lượng, n là lần lặp và nhỏ hơn chiều dài của chuỗi thời gian. Epsilon (ε) đại diện cho nhiễu.

Một trong những bước chính của ART là chuyển đổi các trường hợp đơn lẻ trong chuỗi thời gian thành các trường hợp nội tại. Tiến trình được minh hoạ trong hình vẽ dưới đây: Tháng Tiền nợ Số KH 01/2010 250 222 367 627 02/2010 724 068 661 12 866 03/2010 064 321 755 586 04/2010 000 964 078 632 05/2010 898 600 384 591 06/2010 655 452 039 607 07/2010 729 377 873 2 609 …

Hình 2.6 Chuyển đổi dữ liệu mẫu cơng nợ

Bảng dữ liệu bên trái hình vẽ cĩ hai chuỗi thời gian: số tiền nợ và số khách hàng nợ trong tháng. Bảng dữ liệu bên phải là dữ liệu đã chuyển đổi. Cĩ 7 cột trong bảng: cột thứ nhất là số thứ tự trường hợp. Cột thứ 2 biểu thị số tiền nợ tại thời điểm t-2; cột thứ 3 biểu thị số tiền nợ tại thời điểm t-1; cột thứ tư biểu thị số tiền nợ tại thời điểm t. Ba cột cuối lưu thơng tin tương tự về số khách hàng nợ tiền điện. Mỗi hàng trong bảng bên phải biểu thị một trường hợp TIEN_NO (t0) và SOKH (t0) là hai cột được dự đốn. Bởi vì cây quyết định hỗ trợ lặp, chúng ta cĩ thể sử dụng kỹ thuật này để dự đốn tiền nợ và số khách hàng nợ. TIEN_NO (t-1), TIEN_NO (t-2), SOKH (t-1), và SOKH (t-2) là các tác nhân lặp. Trong thuật tốn ART, dữ liệu dự đốn được nội suy từ dữ liệu tại 8 thời điểm phía trước.

Một cách tương tự ta cĩ các bảng chuyển đổi dữ liệu tổn thất như sau:

Tháng Tổn thất (KW) 01/2010 6 168 671 02/2010 6 067 023 03/2010 6 004 193 04/2010 6 999 256 05/2010 7 302 728 …

Hình 2.7 Chuyển đổi dữ liệu mẫu tổn thất

TH TIEN_NO (t-2) TIEN_NO (t-1) TIEN_NO (t0) SOKH (t-2) SOKH (t-1) SOKH t0 1 250 222 367 724 068 661 064 321 755 627 12 866 586 2 724 068 661 064 321 755 000 964 078 12 866 586 632 3 064 321 755 000 964 078 898 600 384 586 632 591 4 000 964 078 898 600 384 655 452 039 632 591 607 5 898 600 384 655 452 039 729 377 873 591 607 2 609 …

39

Mục tiêu của giải thuật chuỗi thời gian ART là đi tìm hàm f. Nếu f là một hàm tuyến tính, chúng ta cĩ:

Xt = a1Xt-1 + a2Xt-2 + a3Xt-3 + … + anXt-n + εt

Mơ hình này thường được gọi một cách đơn giản là lặp tự động hay AR, được đề xuất và giải quyết bởi Yule vào năm 1927. Theo cách này, giá trị hiện tại của chuỗi thời gian cĩ thể được ước lượng bởi tổng tuyến tính cĩ trọng số của các giá trị trước đĩ trong chuỗi; các trọng số chính là các hệ số lặp.

Cĩ một số cách để giải quyết vấn đề hệ số lặp. Phương pháp phổ dụng nhất là điều chỉnh dần các hệ số lặp bằng cách cực tiểu hố độ lệch trung bình giữa chuỗi thời gian mơ hình hố Xnmodel và chuỗi thời gian quan sát thực Xn. Các kết quả của quá trình cực tiểu hố trong một hệ tuyến tính với hệ số điều chỉnh an được thể hiện qua cơng thức Yule-Walker dưới đây:

Hình 2.8 Cơng thức Yule-Walker tính hệ số điều chỉnh tại bước lặp thứ n Cơng thức này cho phép chúng ta tính tốn các hệ số cho thuật tốn ART

Sử dụng nhiều chuỗi thời gian: Trong thuật ngữ của DMX, mỗi chuỗi thời gian là một trường hợp riêng. Số lượng điện thương phẩm theo từng tháng mà cơng ty điện lực bán cho khách hàng trong cả năm trước tạo thành 1 trường hợp trong chuỗi thời gian, mặc dù cĩ cả thảy 12 điểm dữ liệu. Một mơ hình dự đốn cĩ thể cĩ nhiều chuỗi thời gian. Ví dụ, một mơ hình cĩ thể chứa tất cả các chuỗi thời gian về sản phẩm, bao gồm tổng số khách hàng nợ tiền điện, số tiền khách hàng nợ, số lượng điện năng tổn thất, sản lượng điện thương phẩm, .v.v. Chuỗi thời gian khơng phải luơn luơn độc lập. Tổng số khách hàng nợ tiền điện số lượng điện năng tổn thất cĩ thể liên quan mật thiết với nhau; ART cũng nhận ra các quan hệ chéo nếu như chúng tồn tại. Đây là đặc trưng của thuật tốn này.

1 6 168 671 6 067 023 6 004 193 2 6 067 023 6 004 193 6 999 256 3 6 004 193 6 999 256 7 302 728 …

Tính chất mùa, vùng của chuỗi thời gian: Phần lớn chuỗi thời gian đều cĩ các mẫu mang đặc trưng mùa. Ví dụ, số tiền nợ của khách hàng đạt đỉnh vào tháng 2, hay quý 1 của năm. Trữ lượng nước vào mùa mưa sẽ lớn hơn mùa khơ nên sản lượng điện sản xuất vào mùa mưa sẽ lớn hơn, khả năng thiếu điện vào mùa mưa là thấp hơn nhiều so với mùa khơ. Với tính chất vùng, mức đỉnh nợ, số khách hàng nợ, sản lượng

Một phần của tài liệu (LUẬN VĂN THẠC SĨ) Xây dựng hệ thống dự đoán công nợ tiền điện khách hàng, sản lượng điện tổn thất ngành điện (Trang 31)

Tải bản đầy đủ (PDF)

(74 trang)