Điều khiển sử dụng mạng nơron - Một só ứng dụng- 123docz.net

Phần 3: Một só ứng dụng

2.3 Điều khiển sử dụng mạng nơron

Mạng nơron có thể đ−ợc sử dụng nh− bộ điều khiển truyền thống trong điều khiển theo vòng hở hoặc điều khiển theo vòng kín (điều khiển có phản hồi).Quá trình luyện mạng có thể cài trong luật điều khiển thích nghi. Riêng bài toán điều khiển trong thời gian thực, tốc

độ hội tụ của thuật luyện mạng đóng vai trò quan trọng nhất. Nhìn chung, các ứng dụng cho thấy: ở bài toán điều khiển theo vòng hở, đối t−ợng là ổn định, còn bất định nằm ở thông số

đối t−ợng. Các tác động bên ngoài đ−ợc loại trừ hoặc có thể bỏ qua. Trong tình huống này mạng nơron phải xấp xỉ đ−ợc động học nghịch của đối t−ợng nhằm đạt đ−ợc tình huống

điều khiển lý t−ởng. Có khá nhiều ứng dụng của ph−ơng pháp trên, đăc biệt cho robot [40].

2.3.1 Điều khiển theo vòng hở

Thay cho việc luyện mạng để mô hình hoá động học nghịch của ĐTĐK, mạng nơron có thể đ−ợc luyện trực tiếp nh− một bộ điều khiển theo vòng hở nh− hình 7 d−ới đây:

Sai số e=yưyd được sử dụng để luyện mạng. Trong mô hình này cho trước đầu ra mong muốn yd. Vì vậy thông tin về sai số phải lan truyền ng−ợc qua cả đối t−ợng điều khiển và mạng nơron để hiệu chỉnh lại thông số mạng. Lưu ý rằng tình huống này luôn xuất hiện trong điều khiển cả theo vòng kín và vòng hở. Nh− vậy học có giám sát không đ−ợc sử dụng ở đây. Đầu ra mong muốn của mạng không biết trước nhưng phải được xác định để sử dụng thuật lan truyền ngược sai số. Khi sử dụng phương pháp này để luyện mạng có thể coi

ĐTĐK nh− “lớp đầu ra “ của mạng nơron. Nh−ng cũng có thể tránh quá trình lan truyền ng−ợc qua đối t−ợng bằng cách sử dụng thêm mô hình mạng nơron của ĐTĐK. Mô hình mạng nơron này nhận đ−ợc sau khi nhận dạng mô hình đối t−ợng. Nh− vậy sai số có thể dễ dàng lan truyền ng−ợc qua mô hình mạng của ĐTĐK. Nếu sử dụng đ−ợc mô hình mạng nơron mô phỏng động học nghịch của đối t−ợng thì mô hình mạng này cho phép lan truyền trực tiếp sai số sang mô hình mạng nơron của bộ điều khiển.

u y

yd e

Bé ®iÒu khiÓn bằng mạng

nơron

§T§K

Hình 7 : Bộ điều khiển thể hiện bằng mạng nơron trong cấu trúc điều khiển theo vòng hở.

255 2.3.2 Điều khiển theo vòng kín

Mạng nơron trong cấu trúc điều khiển theo vòng kín đóng vai trò bộ điều khiển với phản hồi nh− hình 8.

Nên lưu ý trường hợp này, đầu ra mong muốn của mạng nơron u thể hiện bộ điều khiển phải đ−ợc xác

định từ đầu ra mong muốn của

ĐTĐK yd tr−ớc khi sử dụng mọi thuật học có giám sát nh− lan truyền ng−ợc sai số.

Có thể có quan điểm khác về bộ

điều khiển bằng mạng nơron là mạng nơron được luyện để “bắt chước” bộ

điều khiển hiện tại nh− ở hình 9.

Tr−ờng hợp này hay xảy ra khi bộ

điều khiển hiện tại đang sử dụng quá

đắt hoặc không tin cậy. Sau khi bộ

điều khiển bằng mạng nơron thay thế bộ điều khiển hiện tại, nó có thể đ−ợc hiệu chỉnh qua quá trình luyện mạng

bám theo sự biến đổi động học của đối tượng và môi trường.

Việc sử dụng mạng nơron nh− trên t−ơng đ−ơng với việc thiết kế và sử dụng một hệ chuyên gia. Cần thận trọng với tiệm cận này vì phải rất linh hoạt. Có thể thay thế cho bộ

điều khiển hiện tại theo từng giai đoạn sao cho hợp lý và kinh tế.

2.3.3 Điều khiển với mô hình tham chiếu

Mạng nơron thay thế bộ điều khiển cũng có thể đ−ợc luyện để làm giảm sai số giữa đầu ra của đối t−ợng điều khiển và mô hình tham chiếu nh− ở hình 10.

ở đây một lần nữa đầu ra mong muốn của bộ điều khiển bằng mạng nơron u phải đ−ợc xác

định trước khi sử dụng thuật lan truyền ng−ợc sai số. Sai số e=yd−y đ−ợc truyền qua ĐTĐK và sau đó đ−ợc sử dụng để chỉnh trọng số liên kết của bộ điều khiển bằng mạng nơron. Tuy nhiên sai

u y

yd e Bé ®iÒu khiÓn bằng mạng

nơron

§T§K

Hình 8 : Bộ điều khiển thể hiện bằng mạng nơron trong cấu trúc điều khiển theo vòng kín.

uˆ

Hình 9 : Mạng nơron đ−ợc luyện bắt ch−ớc bộ điều khiÓn.

y e

yd Bé ®iÒu khiÓn

hiện tại ĐTĐK Bé ®iÒu khiÓn

bằng mạng nơron

e y u

yd Mô hình

tham chiÕu

Hình 10 : Điều khiển với mô hình tham chiếu và sai số lan truyÒn qua §T§K.

Bé ®iÒu khiÓn bằng mạng

nơron

§T§K

số e cũng có thể không lan truyền qua ĐTĐK mà qua mô hình mạng nơron mô phỏng

ĐTĐK hoặc mô phỏng động học nghịch của ĐTĐK tương tự như phần điều khiển theo vòng hở đã trình bày ở trên.

2.3.4 Điều khiển theo thời gian v−ợt quá (over time)

Trong các bài toán điều khiển sử dụng mạng nơron xem xét ở các phần trước, quỹ đạo mong muốn của đầu ra ĐTĐK thường được biết trước. Điều đó có nghĩa rằng đầu ra mong muốn của mạng nơron có thể đ−ợc biết tr−ớc hoặc có thể tính đ−ợc tr−ớc. Bài toán điển hình của dạng này là bài toán điều chỉnh và bài toán bám quỹ đạo [15,16]. Khi quỹ đạo mong muốn của đối tượng điều khiển không được biết trước thì thuật học có giám sát không sử dụng được. Một trong những bài toán không biết trước quỹ đạo mong muốn của ĐTĐK là

điều khiển làm cực tiểu năng l−ợng hoặc thời gian trong quá trình đạt đến trạng thái cần thiết nào đó của ĐTĐK. Ví dụ bài toán cực tiểu thời gian v−ợt quá là yêu cầu và hiệu quả

của các tác động hiện tại lên các kết quả của tương lai. Bài toán này có nhiều trong điều khiển robot thông minh hoặc xử lý ô nhiễm sao cho ảnh h−ởng về ô nhiễm môi tr−ờng của tác nhân ô nhiễm nào đó lên môi trường xung quanh sẽ chấm dứt trong thời gian ngắn nhất.

Hiện tại có hai ph−ơng pháp đ−ợc sử dụng:

1) Xây dựng mô hình của quá trình và sau đó sử dụng một dạng nào đó của thủ tục lan truyền ng−ợc theo thời gian nh− có ở [17, 25]. Ph−ơng pháp này khó sử dụng d−ới dạng tổng quát.

2) Sử dụng giá trị tới hạn thích nghi (adaptive critic) và các ph−ơng pháp học củng cố.

Ph−ơng pháp này bao gồm hai mạng nh− hình 11.

Bộ điều khiển bằng mạng nơron là mạng hoạt động chính, còn mạng tới hạn có thể là mạng nơron hoặc không. Mạng tới hạn sẽ xấp xỉ lời giải quy hoạch động cho bài toán điều khiển tối −u năng l−ợng hoặc thời gian v−ợt quá. Mạng này phải đảm bảo hoạt động tốt trong môi tr−ờng có nhiễu hoặc với mô

hình không chính xác của ĐTĐK

[37]. Mạng tới hạn phải tạo ra chỉ số thực hiện J theo ý đồ người thiết kế và chỉ dẫn cho bộ

điều khiển cần thích nghi nh− thế nào theo chỉ số thực hiện đó.

Khi điều khiển u làm cho chỉ số J tăng lên ở b−ớc tiếp theo, bộ điều khiển bằng nơron sẽ hoạt động theo thuật toán “thưởng”. Khi điều khiển u làm cho chỉ số J giảm đi ở bước sau đó thì bộ điều khiển bằng mạng nơron hoạt động theo thuật toán “phạt”. Trong thuật học không có giám sát, không có thông tin về đầu ra mong muốn và hệ học chỉ nhận đ−ợc

đánh giá về việc thực hiện quá trình học đó theo từng bước. Lưu ý rằng học có giám sát nếu

Mạng tới hạn

y u

yd e Bé ®iÒu khiÓn

bằng mạng nơron ĐTĐK

Hình 11 : Điều khiển bằng mạng nơron sử dụng mạng tới hạn.

257 có thể đ−ợc sử dụng sẽ tốt hơn học củng cố. Để thiết kế mạng nơron tới hạn phải xác định

được kết quả thực hiện hiện tại của ĐTĐK để “thưởng” hoặc “phạt” bộ điều khiển bằng nơron. Như vậy, mạng tới hạn thích nghi và các phương pháp học củng cố là cách hợp lý để giải quyết bài toán điêù khiển tối −u thời gian v−ợt quá.

2.3.5 Bộ điều khiển với hổ trợ quyết định của mạng nơron

Khi bộ tới hạn thích nghi là mạng nơron có thể xây dựng đ−ợc bộ điều khiển thông minh mức thấp. Trong đó mạng nơron đóng vai trò bộ lịch trình (scheduler) [33] sẽ quyết

định luật điều khiển nào đ−ợc sử dụng. Xem hình 12.

Mạng nơron cũng có thể đ−ợc luyện để xác định giá trị của các thông số trong bộ điều khiển công nghiệp PID thông th−ờng [2]. Ngoài ra mạng nơron có thể đóng vai trò bộ tối −u tìm giá trị tối −u của hàm mục tiêu điều khiển [28]. Đầu ra của mạng nơron là giá trị thông số của bộ điều khiển làm cực tiểu hàm giá. Mạng

nơron còn cung cấp những thông tin làm việc sai lệch cho bộ điều khiển, giúp bộ điều khiển hoạt động chính xác [1].