Đối tượng để phân loại

Một phần của tài liệu ứng dụng mạng nơ ron nhân tạo trong dự báo ngắn hạn phụ tải điện khu vực tỉnh sóc trăng (Trang 50)

Đối tượng để phân loại là các dạng biểu đồ trong quá khứ. Thông thường các số liệu này thường được đo trong khoảng thời gian liên tục. Để tiến hành phân loại từ các số liệu đo lường ban đầu, người ta tiến hành gia công số liệu, tìm ra các đặc thù của đối tượng thuộc các nhóm khác nhau để xếp các biểu đồ tương đối giống nhau vào một nhóm. Khi tiến hành phân loại BĐPT điện có thể tìm ra các dấu hiệu, các dấu hiệu chính là cơ sở quyết định số nhóm nó phản ánh thói quen sử dụng điện của hệ thống điện đó, do đó nó mang tính đặc thù riêng đối với từng hệ thống điện. Bài toán phân loại BĐPT được hiểu là đi tìm các quy tắc để xếp các biểu đồ tương đối “giống nhau” vào cùng một lớp.

4.2 Phương pháp phân loại dạng BĐPT

Thông thường, bằng kinh nghiệm vận hành của bản thân, các chuyên gia lâu năm có thể phân biệt được các kiểu ngày gốc đặc trưng trong quá khứ. Tuy nhiên, trong quá trình vận động không ngừng của xã hội, cơ cấu kinh tế và tỷ trọng các ngành công nghiệp thay đổi, thói quen sinh hoạt khách hàng thay đổi…, theo thời gian sẽ xuất hiện một số kiểu ngày mới hoặc một số kiểu ngày trong quá khứ sẽ không xuất hiện nữa trong tập hợp các kiểu ngày gốc đặc trưng mà chỉ với kinh nghiệm của các chuyên gia nhiều khi không phát hiện được và cập nhật kịp thời. Và đó chính là nhược điểm lớn trong quá trình dự báo theo kinh nghiệm của chuyên gia.

Việc sử dụng MNR nhân tạo để phân loại kiểu ngày là một giải pháp khắc phục được hạn chế trên. Nhờ cơ chế huấn luyện lại MNR với các số liệu được cập nhật định kỳ, hệ thống dự báo có thể tìm ra và thích ứng với kiểu ngày mới phát

sinh không giống với một trong các dạng gốc hoặc loại bỏ các kiểu ngày không còn xuất hiện nữa.

Trong quá trình huấn luyện mạng, khi đưa các mẫu dạng biểu đồ phụ tải vào mạng, ta hoàn toàn không đưa yêu cầu cần phải thu được kết quả gì – bao nhiêu biểu đồ mẫu đầu ra. Quá trình học này gọi là học không giám sát mà MNR ánh xạ đặc trưng tự tổ chức Kohonen là một đại diện mang trong việc phân loại các biểu đồ ngày trong năm.

Theo các nghiên cứu của [2,6,11] mạng Kohonen được ứng dụng trong việc phân loại BĐPT đều cho kết quả tốt. Hầu hết các nghiên cứu này đều sử dụng mạng Kohonen kinh điển với thuật toán thường sử dụng là LQV, tuy nhiên luật học này cho kết quả hội tụ khá chậm vì mất khá nhiều thời gian huấn luyện, hiện nay xuất hiện một số thuật toán học mới được ứng dụng cho việc xây dựng mạng Kohonen mà điển hình là thuật toán trọng tâm mờ Fuzzy Clustering Method (FCM) cho kết quả hội tụ nhanh hơn, thuật toán này sẽ được ứng dụng để phân loại BĐPT trong luận văn này.

4.3 Mạng Kohonen và ứng dụng trong phân loại kiểu ngày 4.3.1 Giới thiệu 4.3.1 Giới thiệu

SOM (Self Organization Map) là kỹ thuật trực quan hóa dữ liệu. Giải thuật được xây dựng bởi giáo sư Teuvo Kohonen dựa trên kiến trúc mạng Kohonen. Điểm nổi bật của thuật giải SOM là nó sẽ chuyển các dạng quan hệ phức tạp, thống kê rời rạc giữa các đối tượng dữ liệu đa chiều (n chiều) về các quan hệ hình học trực quan đơn giản với số chiều được rút gọn đi nhiều lần – thường là một hoặc hai chiều. Về bản chất thuật giải được biết đến như là kỷ thuật nén dữ liệu dựa trên véc- tơ trọng số.

Thuật giải sẽ xây mạng Kohonen để lưu trữ thông tin như là cách duy trì của các quan hệ hình học bên trong tập huấn luyện.

so với các giải thuật “học có sự giám sát” truyền thống. Thế nên SOM còn được xem là một giải thuật học không giám sát.

4.3.2 Thuật giải SOM

Thuật giải huấn luyện SOM có thể được mô tả theo các bước cơ bản như sau: a. Khởi tạo: Các véc tơ trọng số cho từng nút trong mạng được khởi tạo. Các

giá trị khởi tạo này thường được chọn một cách ngNu nhiên và thỏa tiêu chuNn đủ nhỏ.

b. Chọn phần tử đại diện: Một véc tơ sẽ được chọn ngẫu nhiên từ tập huấn luyện và trở thành phần tử đại diện của nhóm.

c. Tìm mẫu khớp tốt nhất (MBU-Best Matching Unit) - phần tử neuron chiến thắng: Mỗi nút trên mạng sẽ được kiểm tra để tính xem nút nào có trọng số gần với vector nhập nhất. Phần tử chiến thắng được xem là phần tử so khớp tốt nhất MBU.

Thuật giải tìm mẫu khớp tốt nhất được thực hiện như sau:

¾ Duyệt tất cả các nút và tính khoảng cách Euclide giữa vector trọng số của mỗi nút và véc tơ nhập hiện hành.

Công thức để tính khoảng cách Euclide được cho như sau:

( ) ∑ = − = n i i W i V Dist 0 2 V: véc tơ nhập hiện hành

W: véc tơ trọng số của phần tử được chọn

¾ Nút có vector trọng số gần nhất với giá trị của véc tơ nhập sẽ được chọn là MBU

d. Xây dựng các phần tử lân cận: Bán kính lân cận của MBU sẽ được tính lại. Bán kính được xác định lớn nhất thường sẽ là bán kính của mạng, nhưng sau

đó giá trị này sẽ giảm dần sau những bước thực hiện. Tất cả những phần tử nằm trong bán kính trên sẽ được xem là phần tử lân cận của BMU.

4.4 Phương pháp trọng tâm mờ Fuzzy Clustering Method (FCM):

Thuật toán nhóm trung bình (C-means clusterings) được công bố lần đầu tiên bởi Duda và Hart được gọi là thuật toán Hard C-mean (hay còn gọi là Hard ISODATA). Phiên bản cải tiến cuối cùng của thuật toán được Bezdek giới thiệu.

Không giống như thuật toán Kohonen các trọng tâm được liên kết bằng mắt lưới, phương pháp trọng tâm mờ các trọng tâm hoàn toàn chuyển động độc lập trong không gian và chỉ phụ thuộc vào số liệu.

Phương pháp trọng tâm mờ ngoài việc xét đến nút có tọa độ gần với véc tơ đầu vào nhất, còn xét đến cả những nút khác nhưng với trọng số nhỏ hơn, tỷ lệ nghịch với khoảng cách từ nút tới véc tơ đầu vào. Điều đó có nghĩa là một véc tơ sẽ phụ thuộc vào nhiều nút trên mạng, khoảng cách càng xa độ phụ thuộc càng thấp. Trên cơ sở các trọng tâm, không gian số liệu đầu vào được chia thành nhiều nhóm. Mỗi nhóm được đại diện bằng trọng tâm của chúng. Đại diện của một nhóm được gọi là một nguyên mẫu.

Trong thuật toán này các dữ liệu có tính chất đặc biệt gần nhau được tập hợp thành nhóm, chúng có ma trận phụ thuộc U. Cho tập X mẫu với X={x1,x2,..xj}, trong đó mỗi nhóm x1,x2,..xj có tọa độ 24 chiều. Véc tơ thứ xj thuộc về nhóm thứ i với quan hệ hàm cho bởi.

ở đó là véc tơ trọng tâm và là thông số độ rộng của hàm. Véc tơ x phụ thuộc một vài nhóm với bậc khác nhau có giá trị từ 0 đến 1 (tổng mức phụ thuộc của một véc tơ x vào các tất cả các trọng tâm bằng 1).

Tổng hợp các mức phụ thuộc, ta có ma trận phụ thuộc U. Các hệ số của ma trận này cho biết khoảng cách từ các mẫu dữ liệu đến từng nhóm, hệ số phụ thuộc càng lớn thì khoảng cách giữa trọng tâm và mẫu dữ liệu càng gần nhau.

Các trọng tâm được tìm kiếm trên cơ sở tối ưu hóa hàm chi phí. Hàm này được định nghĩa bởi:

trong đó: ci, xj – tọa độ các điểm trong không gian, m – trọng số mũ với

Để tìm hàm nhỏ nhất (cùng với điều kiện ràng buộc ta có thể sử dụng thuật toán lặp sau do Bezdek đề xuất [8,13]:

(4.1)

trong đó: dij là khoảng cách Elít từ trọng tâm ci đến véc tơ xj dkj là khoảng cách Elít từ trọng tâm ck đến véc tơ xj Thuật toán FCM được thực hiện theo các bước sau:

- Đầu vào ma trận U có thể khởi tạo ngẫu nhiên với các giá trị từ 0 đến 1; - Tìm K trọng tâm nhóm mờ ci sử dụng công thức như trên;

- Tìm giá trị của hàm E. Nếu E đạt ngưỡng đặt trước hoặc nếu E không được cải tiến so với bước trước thì kết thúc quá trình lặp, ngược lại thực hiện bước kế tiếp;

- Tính toán bậc tự do mới của ma trận U sử dụng các công thức trên và trở về bước 2.

Bước tính lặp này được thực hiện nhiều lần. Độ chính xác của lời giải được xác định bằng cách lựa chọn trọng tâm của nhóm từ giá trị tự do của ma trận U. Các trọng tâm này tập trung xung quanh nơi có nhiều điểm dữ liệu nhất.

Ví dụ hoạt động của thuật toán trên được trình bày trên hình 4.1 với 3 trọng tâm được khởi tạo trùng tại một điểm. Sau khoảng 20 vòng lặp, các trọng tâm đã dịch chuyển về các trung điểm của vùng tập trung dữ liệu và hội tụ tại đó.

Hình 4.1: Quá trình dịch chuyển của các trọng tâm từ vị trí ngẫu nhiên ban đầu về các vùng số liệu vùng số liệu

4.5 Ứng dụng thuật toán và chạy thử mạng 4.5.1 Xử lý số liệu thu thập 4.5.1 Xử lý số liệu thu thập

Trước khi dữ liệu đưa vào phân loại, chúng ta phải xử lý sơ bộ để giúp cho giải quyết kết quả phân loại được tốt hơn. Tiền xử lý có thể giúp làm giảm kích thước của véc tơ đầu vào bằng cách loại bỏ những ngày phụ tải bị cắt do sửa chữa hoặc điều độ.

Theo các nghiên cứu trước đây [1,2,4,9] việc phân loại đồ thị phụ tải trong năm phần lớn dựa vào phương pháp ngày trong tuần, biểu đồ phụ tải ngày làm việc này thường khác với ngày nghỉ cuối tuần. Mô hình này thường phân biệt cho các nhóm ngày làm việc từ Thứ Hai cho đến Thứ Sáu, và nhóm ngày nghỉ cuối tuần và lễ tết. Yếu điểm của phương pháp này là các ngày nghỉ cuối tuần và lễ tết thường cho kết quả dự báo có độ chính xác khá thấp, thỉnh thoảng các ngày làm việc trước Thứ bảy và Chủ N hật bị ảnh hưởng bởi các ngày nghỉ này. Với cách phân loại này cũng không hoàn toàn đúng cho tất cả các vùng. Việc phân loại cũng cần dựa vào đặc thù điều kiện, thói quen, tập quán sử dụng điện của từng địa phương.

Với đặc thù đồ thị phụ tải của hai năm 2004 và 2005 tại Sóc Trăng việc áp dụng phương pháp phân nhóm theo ngày trong tuần là không hiệu quả vì BĐPT các ngày làm việc và ngày nghỉ hầu như không thay đổi nhiều, gây khó khăn trong việc phân nhóm. Một trong những cách phân loại có thể áp dụng cho hệ thống điện ít có sự thay đổi nhiều trong tuần là mô hình thứ trong tháng linh hoạt.

4.5.2 Phân nhóm biểu đồ phụ tải:

Chọn mạng bao gồm:

Số đầu vào là cố định, phụ thuộc vào số nhân tố sử dụng: trong bài toán phân loại kiểu ngày ta sử dụng 24 giá trị (ứng với 24 giờ trên đồ thị phụ tải), do đó số đầu ra là 24. Số nơ ron đầu ra bằng số nhóm các kiểu ngày khác nhau mà ta cần phân biệt.

Cách thức phân nhóm như sau: Các ngày cùng thứ trong một tháng của hai năm được đưa vào mạng tìm trọng tâm cách thức tìm trọng tâm theo tiêu chí thứ tự ưu tiên:

1. Các ngày trong tháng chia làm 4 nhóm: từ mùng 1 đến mùng 7, từ mùng 8 đến 15, từ 16 đến 23, từ 24 đến cuối tháng.

2. Các ngày trong tháng chia làm 3 nhóm: từ mùng 1đến mùng 10, từ 11 đến 20, từ 21 đến cuối tháng.

3. Các ngày trong tháng chia làm 2 nhóm: từng mùng 1 đến ngày 15, từng ngày 16 đến cuối tháng.

4. Các ngày trong tháng có dạng đồ thị phụ tải tương đương nhau và có thể xếp chung trong 1 nhóm.

Tìm trọng tâm theo cách chia: Các phần tử thuộc cùng một nhóm chỉ từ [1..10], [11..20], [21..31] các trọng tâm của nhóm sẽ là đại diện cho nhóm đó nếu ngày cần dự báo rơi vào nhóm của ngày nào sẽ lấy trọng tâm làm đồ thị phụ tải mẫu.

Chọn số liệu tháng 07 năm 2004 và 2005

2004 Tháng 7   2005 Tháng 7 CN Hai Ba Tư Năm Sáu Bảy   CN Hai Ba Tư Năm Sáu Bảy

            1  2  3                   1  2 

4  5  6  7  8  9  10    3  4  5  6  7  8  9 

11  12  13  14  15  16  17    10  11  12  13  14  15  16 

18  19  20  21  22  23  24    17  18  19  20  21  22  23 

25  26  27  28  29  30       24  25  26  27  28  29  30 

Kết quả phân nhóm ngày thứ 6 tháng 7 bao gồm các ngày 2,9,16,23,30,1,8,15,22,29 theo thứ tự từ 1-> 10 trước khi đưa vào phân nhóm với:

¾ Nếu chia làm 2 nhóm:

Với center là trọng tâm có ma trận 2x24: Với hai trọng tâm (mỗi hàng là một trọng tâm)

Nhóm thứ nhất bao gồm các ngày: 9,23,30,1,29 với 1 trọng tâm làm đại điện Nhóm thứ hai bao gồm các ngày: 2,16,8,15,22 với 1 trọng tâm làm đại điện

¾ Nếu chia làm 3 nhóm

Với center là trọng tâm có ma trận 3x24: với ba trọng tâm (mỗi hàng là một trọng tâm)

Nhóm thứ nhất bao gồm các ngày: 23,30,1,29 Nhóm thứ hai bao gồm các ngày: 16,15,22

Nhóm thứ ba bao gồm các ngày: 2,9,8 ¾ Nếu chia làm 4 nhóm

Với center là trọng tâm có ma trận 4x24: với bốn trọng tâm (mỗi hàng là một trọng tâm)

Nhóm thứ nhất bao gồm các ngày: 9,23,30,29 Nhóm thứ hai bao gồm các ngày: 2,16,8 Nhóm thứ ba bao gồm các ngày: 1 Nhóm thứ tư bao gồm các ngày: 15,22 Bảng 4.1 Kết quả phân nhóm thứ sáu tháng 7:

Thứ sáu: 2,9,16,23,30,1,8,15,22,29 2 nhóm: [1..15][16..30] - 9,23,30,1,29 - 2,16,8,15,22 3 nhóm: [1..10][11..20][21..30] - 23,30,1,29 - 16,15,22 4 nhóm: [1..7][8..15][16..21][22..30] - 9,23,30,29 - 2,16,8

- 2,9,8 - 1 - 15,22 Phân tích:

- Trường hợp 2 nhóm: Với kết quả hai nhóm ta không thể chọn được số nhóm như mong muốn với nhóm thứ nhất bao gồm các ngày từ 9,23,30,1,29 nhóm thứ hai bao gồm 2,16,8,15,22.

- Trường hợp 3 nhóm: Có thể chia nhóm thứ nhất bao gồm các ngày 23,30,1,29 sẽ đại diện cho các ngày từ [21…30], nhóm thứ hai bao gồm các ngày 16,15,22 sẽ đại điện cho các ngày từ [11…20], nhóm thứ ba có các ngày 2,9,8 sẽ đại diện cho các ngày từ [1..10]. Có thể nhận thấy với cách chia này các ngày cùng kiểu đều được xếp vào một nhóm mong muốn. Ngoại trừ ngày 1 của nhóm thứ nhất được xếp vào các nhóm ngày [21…30] và ngày 22 của nhóm thứ hai được xếp vào các nhóm ngày [11..20]. Nguyên nhân có thể do thời tiết hoặc do có sự kiện ảnh hưởng đến chế độ tiêu thụ điện và cung cấp điện.

- Trường hợp 4 nhóm: Với kết quả phân loại bốn nhóm ta không thể chọn được số nhóm như mong muốn với nhóm 1 bao gồm các ngày từ 9,23,30,29 nhóm thứ hai bao gồm 2,16,8 nhóm thứ ba chỉ có 1 ngày nhóm thứ 4 bao gồm hai ngày 15,22.

Như vậy với cách chia 3 nhóm là phù hợp nhất và đạt được mục tiêu như yêu cầu. Bảng 4.2 Kết quả phân nhóm ngày thứ bảy tháng 7:

Thứ bảy: 10 17 24 9 16 23 30 2 nhóm: [1..15][16..30] - 17, 24, 9 - 10, 16, 23, 30 3 nhóm: [1..10][11..20][21..30] - 17, 24, 9 - 30 - 10, 16, 23 4 nhóm: [1..7][8..15][16..21][22..30] - 16 - 17, 24 - 23, 30 - 10, 9

Với cách chia trên ta có thể chọn cách chia 4 nhóm chọn 3: nhóm 1 bao gồm hai ngày 17,24 sẽ đại diện cho các ngày từ [11..20], nhóm 2 bao gồm hai ngày 23,30 sẽ đại diện cho các ngày từ [21..30], nhóm 3 bao gồm hai ngày 10,9 sẽ đại diện cho các ngày từ [1..10].

Bảng 4.3 Kết quả phân nhóm chủ nhật tháng 7: Chủ nhật: 4 11 25 10 17 24 31 Chủ nhật: 4 11 25 10 17 24 31 2 nhóm: [1..15][16..30] - 10, 31 - 4, 11, 25, 17, 24 3 nhóm: [1..10][11..20][21..30]

Một phần của tài liệu ứng dụng mạng nơ ron nhân tạo trong dự báo ngắn hạn phụ tải điện khu vực tỉnh sóc trăng (Trang 50)

Tải bản đầy đủ (PDF)

(123 trang)