Chơng trình dự báo dữ liệu

Một phần của tài liệu Xây dựng mô hình mạng nơ ron dự báo dữ liệu và ứng dụng mô hình đó trong bài toán dự báo đỉnh lũ sông Trà Khúc tại trạm khí tượng Sơn Giang (Trang 68 - 75)

B ớc 2: Thu thập dữ liệu

5.4.Chơng trình dự báo dữ liệu

Màn hình chính của chơng trình nh sau :

Chơng trình xây dựng gồm các mục thực đơn : Khởi tạo tham số, Luyện mạng nơ ron, Dự báo dữ liệu. Sau đây, các đặc trng chính của chơng trình sẽ đợc mô tả chi tiết.

Mở tệp huấn luyện

Tệp dữ liệu huấn luyện là tệp có cấu trúc đợc lu trữ trong một tệp TXT, chứa 43 mẫu số liệu từ năm 1995 đến năm 1999 về mực nớc đỉnh lũ, mực nớc chân lũ và lợng ma trung bình đo đợc tại trạm Sơn Giang. Số liệu đa vào mạng đợc mã hóa trong đoạn [0.1,0.9] theo nguyên tắc nêu trên.

- Các trờng dữ liệu đợc phân cách nhau bằng dấu “;”

- Trờng dữ liệu dự báo là trờng cuối cùng, là đầu ra của mạng.

- Tệp dự báo không đợc có khoảng trống phía cuối, nếu có cần đợc loại bỏ. Ví dụ : tệp dữ liệu sau khi đợc mã hóa nh sau :

Màn hình nhập các tham số cấu trúc mạng

Cho phép ngời sử dụng nhập các tham số đầu vào cho mạng nh số nơ ron trong lớp ẩn, hằng số học ban đầu, bớc của hằng số học, bớc thích nghi, hệ số chính xác làm tiêu chuẩn dừng. Số lớp mạng ngầm định là 2, số đầu vào là 2 và số đầu ra là 1 lấy theo tệp huấn luyện.

Với bài toán này, số nơ ron trên lớp ẩn chọn là 4, giá trị các tham số khác ngầm định trên màn hình nhập đợc coi là các giá trị khởi đầu khá tốt. Sau khi nhập xong, nhấn OK để gán giá trị các tham số cho mạng nơ ron.

Màn hình nhập các tham số của giải thuật di truyền

Cho phép ngời sử dụng nhập các tham số của giải thuật di truyền nh kích th- ớc quần thể, xác suất tạp lai, xác suất đột biến, số thế hệ tiến hóa...Các giá trị ngầm định ở màn hình dới đợc xem là các giá trị xuất phát khá tốt tìm đợc theo phơng pháp thử và sai, kích thớc quần thể chọn là 100, số thế hệ tiến hóa là 100.

Tỷ lệ chuyển giao số cá thể sang luyện tiếp bằng giải thuật BP ngầm định là 0.05. Số trọng số của mạng tơng ứng với bài toán thử nghiệm khi chọn 4 nơ ron trong lớp ẩn là 4*2 + 4 + 4*1 + 1 = 17 trọng số, do vậy độ dài của chuỗi cá thể là 17*20 = 340.

Bớc tiếp theo là thực thi giải thuật lai GA - BP

Tìm kiếm bằng giải thuật di truyền

Màn hình tìm kiếm các cá thể tốt bằng giải thuật di truyền có dạng sau

Tại mỗi thế hệ tiến hóa, màn hình thông báo số cá thể tốt có sức khỏe lớn hơn sức khỏe trung bình toàn quần thể và số cá thể trung bình có sức khỏe nhỏ hơn sức khỏe trung bình. Nhận thấy rằng ở gai đoạn cuối của số thế hệ tiến hóa, số cá thể tốt chiếm đại đa số, giá trị sức khỏe của chúng gần với giá trị sức khoẻ trung bình.

Sau 100 thế hệ tiến hóa, 5 cá thể có sức khỏe tốt nhất trong số 100 cá thể ở quần thể cuối cùng đợc lu trữ lại làm đầu vào cho giải thuật BP.

Huấn luyện bằng giải thuật BP

5 cá thể lần lợt đợc giải thuật BP sử dụng hằng số học biến đổi luyện đến bão hòa với các tham số ban đầu đã đợc khởi tạo.

Các đồ thị dới đây mô tả một chu kỳ luyện đối với một cá thể.

Trên đồ thị, đờng màu xanh nhạt là các đầu ra mong muốn đối với tập dữ liệu, đờng màu xanh đậm là trả lời của mạng đối với dữ liệu đầu vào. Đối với mỗi cá thể, tại điểm xuất phát luyện bằng giải thuật BP, hai đờng này đã khá gần nhau, do vậy giải thuật di truyền tìm kiếm các cá thể đã khá gần lời giải.

Tập dữ liệu huấn luyện đồng thời cũng dùng làm tập kiểm tra để kiểm tra khả năng tổng quát hóa của mạng. Việc kiểm tra này đợc thực hiện với việc cập nhật đồ thị đều đặn sau 50 chu kỳ huấn luyện. Sau một số lớn chu kỳ huấn luyện, khả năng tổng quát hóa của mạng đã khá tốt so với ban đầu. Trên hình vẽ, hai đờng gần nh trùng nhau. Đồng thời, lỗi MSE tiếp tục giảm cho đến khi nhỏ hơn hệ số chính xác, tập trọng số đợc ghi lại và thuật toán lại tiếp tục với cá thể tiếp theo

Kết thúc chu kỳ huấn luyện 5 cá thể, cá thể có tập trọng số tốt nhất (có sai số MSe nhỏ nhất) đợc chọn làm kết quả của giải thuật. Tập trọng số này đợc ghi lại dới dạng một tệp TXT.

Dự báo dữ liệu

Mạng sau khi đợc huấn luyện sử dụng để dự báo dữ liệu. Tệp dữ liệu dự báo là tệp TXT chứa số liệu về mối quan hệ giữa mực nớc đỉnh lũ với mực nớc chân lũ và lợng ma đo đợc tại trạm Sơn Giang. Tệp này có cấu trúc và đợc tỷ lệ hóa giống nh tệp huấn luyện Màn hình dự báo nh sau :

Trên màn hình, đờng biểu diễn đầu ra mong muốn và trả lời của mạng sát nhau, chứng tỏ khả năng tổng quát hóa của mạng sau khi đợc học là khá tốt.

Kết luận

Kết luận từ luận văn

Luận văn trình bày giải pháp xây dựng giải thuật lai GA - BP sử dụng trong thủ tục huấn luyện mạng nơ ron truyền thẳng nhiều lớp và ứng dụng của mạng nơ ron truyền thẳng trong bài toán dự báo. Để xây dựng đợc giải thuật lai, luận văn tiến hành nghiên cứu các vấn đề lý thuyết về mạng nơ ron truyền thẳng, giải thuật BP và giải thuật GA và giải pháp tích hợp giải thuật GA với giải thuật BP. Trên cơ sở đó, luận văn xây dựng mô hình mạng nơ ron dự báo dữ liệu và thực thi mô hình với một bài toán dự báo trong lĩnh vực khí tợng thuỷ văn. Các kết luận đợc rút ra từ luận văn bao gồm 4 điểm nh sau:

1. Giải thuật BP đợc sử dụng rộng rãi và có hiệu quả trong việc huấn luyện mạng nơ ron truyền thẳng nhiều lớp để thực thi một bài toán trong thực tế với u điểm có thể tiến đến điểm cực trị khi luyện đến bão hòa. Tuy nhiên, hiệu năng của giải thuật phụ thuộc rất nhiều yếu tố nh việc chọn số nơ ron trong lớp ẩn, hàm kích hoạt, giá trị các trọng số khởi tạo ban đầu, giá trị hằng số học và tập huấn luyện...Các phơng pháp cả tiến giải thuật BP nh sử dụng tham số bớc đà, sử dụng hằng số học biến đổi, sử dụng Gradient kết hợp... phần nào đã cải tiến hiệu năng tìm kiếm của giải thuật. Tuy nhiên, một nhợc điểm cố hữu của giải thuật là luôn có khả năng hội tụ vào điểm cực trị địa phơng, không đảm bảo chắc chắn sẽ hội tụ vào điểm cực trị toàn cục. Nếu hội tụ vào điểm cực trị địa phơng, mạng sẽ phải bắt đầu luyện lại, điều này khiến mạng nơ ron không thể áp dụng đợc đối với các bài toán yêu cầu độ chính xác cao trong thời gian tối thiểu. Mặt khác, để mạng đạt đến điểm hội tụ nh mong muốn cần phải mất nhiểu thời gian huấn luyện, số chu kỳ huấn luyện có thể lên đến vài chục đến hàng trăm ngàn. (adsbygoogle = window.adsbygoogle || []).push({});

2. Giải thuật GA thực chất là giải thuật tìm kiếm có bớc chuyển ngẫu nhiên để giải các bài toán tối u trong thực tế bằng cách sử dụng các toán tử chọn lọc, lai ghép và đột biến để tiến hóa quần thể các lời giải ban đầu, sau nhiều thế hệ tiến hóa thu đ- ợc quần thể các lời giải gần với lời giải tối u. Không giống giải thuật BP, giải thuật GA đảm bảo tìm kiếm cực trị toàn cục, khó bị tắc tại các cực trị địa phơng vì luôn có

sự trao đổi cực trị với nhau. Tuy nhiên, giải thuật GA không có khả năng leo lên đỉnh cực trị đó. Nói cách khác, giải thuật GA không đảm bảo sự hội tụ.

3. Dựa trên nghiên cứu các u điểm, nhợc điểm của giải thuật GA và giải thuật BP, luận văn xây dựng giải pháp tích hợp giải thuật GA vào giải thuật BP tại thành một giải thuật lai dùng để huấn luyện mạng nơ ron truyền thẳng nhiều lớp. Giải thuật lai GA - BP kết hợp tính chất tìm kiếm toàn cục của giải thuật GA với tính hội tụ của giải thuật BP, đảm bảo giải thuật hội tụ về cực trị toàn cục.

4. Trên cơ sở giải thuật lai GA - BP đợc đề xuất, luận văn đa ra các bớc cần thực hiện để xây dựng mô hình mạng nơ ron dự báo và sử dụng giải thuật GA - BP huấn luyện mạng nơ ron truyền thẳng để thực thi một bài toán dự báo cụ thể trong lĩnh vực khí tợng thuỷ văn.

Các định hớng nghiên cứu tiếp theo

Tác giả của luận văn dự định một số nghiên cứu tiếp theo trong thời gian tới là:

1. Cải tiến toán tử chọn lọc và lai ghép của giải thuật GA trong giải thuật GA - BP nhằm nâng cao hiệu năng tìm kiếm cá thể tốt của giải thuật GA.

2. Tích hợp giải thuật GA vào giải thuật BP trong việc học cấu trúc của mạng nơ ron nhiều lớp, nghĩa là tìm ra số nơ ron trong lớp ẩn tốt nhất đối với một bài toán trong thực tế.

Một phần của tài liệu Xây dựng mô hình mạng nơ ron dự báo dữ liệu và ứng dụng mô hình đó trong bài toán dự báo đỉnh lũ sông Trà Khúc tại trạm khí tượng Sơn Giang (Trang 68 - 75)