Phân nhóm dữ liệu dựa trên giải thuật Moutain Clustering:

Một phần của tài liệu Dự báo phụ tải điện sử dụng mạng Wavelet và Fuzzy logic (Trang 56)

Cho một tập hợp n dữ liệu {x1, x2,…,xn} trong không gian M chiều. Không làm mất tính tổng quát, giả thuyết rằng những điểm dữ liệu đã chuẩn hóa trong mỗi

chiều sao cho chúng nằm trong một đường cong đơn vị (trong mỗi chiều). Giả

thuyết rằng mỗi điểm dữ liệu là một thế năng của tâm nhóm. Định nghĩa thế năng tâm nhóm như sau

2 || || 1 k i n x x i k P e    (3.7a)

Với 2 4 a r  (3.7b)

Kí hiệu ||.|| biểu thị khoảng cách toán học và ra là một hằng số dương. Việc

tính toán thế năng của một điểm dữ liệu là một hàm khoảng cách từ điểm đó đến các điểm dữ liệu khác. Một điểm dữ liệu với nhiều điểm lân cận sẽ có thế năng cao.

Hằng số ralà bán kính hiệu quả định nghĩa một lân cận; những điểm nằm ngoài bán kính ít ảnh hưởng đến thế năng nhóm. Việc xác định thế năng tâm nhóm theo cách

này khác với phương pháp của Yager và Filevở chỗ : (1) thế năng một điểm dữ liệu liên quan đến điểm dữ liệu thực tế thay vì liên quanđến điểm mắt lưới, (2) thế năng các điểm lân cận tâm nhóm giảm theo hàm mũ bình phương khoảng cách thay vì

theo hàm khoảng cách của nó.

Sau khi thế năng của tất cả các điểm dữ liệu được tính toán ta chọn điểm dữ

liệu có thế năng cao nhất làm tâm nhóm thứ nhất. Gọi x1*là tọa độ và P1* là thế năng

tâm nhóm thứ nhất. Tính lại thế năng của mỗi điểm dữ liệu xi theo công thức sau

* 2 1 || || * 1. xi x i i P  P P e  (3.8a) Với 42 b r  (3.8b)

Trong đó rblà một hằng số dương. Như vậy ta trừ một lượng giá trị thế năng từ

mỗi điểm dữ liệu, lượng thế năng trừ đi này là một hàm khoảng cách từ điểm dữ

liệu đó đến tâm nhóm thứ nhất. Điểm dữ liệu càng gần tâm nhóm thứ nhất thì thế năng của nó giảm đi càng nhiều, và vì thế nó sẽ càng không được chọn làm tâm nhóm tiếp theo. Hằng số rb là bán kính hiệu quả xác định lân cận giảm thế năng. Để

tránh sự quá gần nhau giữa các tâm nhóm ta thường chọn rb lớn hơn ra, giá trị tốt

nhất là rb=1.5ra.

Khi tất cả thế năng của các điểm dữ liệu được tính lại theo phương trình (3.8a), chọn điểm dữ liệu với thế năng cao nhất làm tâm nhóm thứ 2. Sau đó ta tiếp

tục giảm thế năng của các điểm dữ liệu dựa trên khoảng cách giữa nó đến tâm nhóm

thứ 2. Tổng quát, sau khi tìmđược tâm thứ k, chúng ta tiến hành tính lại thế năng

* 2

|| || . xi xk

i i k

P P P e  (3.9)

Trong đó x*kPk*lần lượt là tâm và giá trị thế năng tâm nhóm thứ k.

Quá trình trên sẽ tiếp tục cho đến khi thế năng tâm nhóm giảm đến một ngưỡng nào đó phụ thuộc thế năng tâm nhóm đầu tiên:

* *

1

k

PP

Trong đó là một số đủ nhỏ. Việc chọn là một khâu quan trọng ảnh hưởng đến kết quả tính toán. Nếu quá lớn thì số tâm nhóm sẽ quá ít, nếu quá nhỏ thì số tâm nhóm tìm được sẽ lớn. Rất khó để xác định một số hiệu quả cho nên ta dùng các tiêu chuẩn sau để chấp nhận, loại bỏ hoặc dừng quá trình tìm tâm nhóm:

If Pk* P1*Chấp nhận xk* là tâm nhóm và tiếp tục.

Else if Pk* P1*Loại bỏ x*k và kết thúc quá trình phân nhóm.

Đặt dminlà khoảng cách bé nhất giữa xk* và các tâm nhóm tìmđược trước đó.

If * min * 1 1 k a P d rP  Chấp nhận x*k là tâm nhóm và tiếp tục.

Else Loại bỏ xk* và đặt thế năng tại x*k bằng 0

Chọn điểm dữ liệu với thế năng cao nhất tiếp theo như là một tâm nhóm mới

và sau đókiểm tra lại các tiêu chuẩn trên.

Trong đó là giá trị ngưỡng trên thế năng xác định việc chọn một điểm dữ

liệu là tâm nhóm và ngưỡng dưới của thế năng xác định việc loại bỏ một tâm

nhóm. Ở đây ta chọn =0.5 và =0.15. Nếu thế năng điểm dữ liệu rơi vào giữa ngưỡng trên và ngưỡng dưới thế năng thì chúng ta sẽ kiểm tra hai tiêu chuẩn sau cùng để xác định việc lựa chọn x*k là tâm hay loại bỏ nó.

Một phần của tài liệu Dự báo phụ tải điện sử dụng mạng Wavelet và Fuzzy logic (Trang 56)

Tải bản đầy đủ (PDF)

(100 trang)