Học củng cố (Reinforcement learning)

Một phần của tài liệu Phân tích tình hình áp dụng AI trong các bài toán điều khiển hệ thống phát điện sức gió (Trang 44 - 47)

III. Pitch Angle Control

5. Học củng cố (Reinforcement learning)

Phương pháp h c c ng c bao g m m t môi trọ ủ ố ồ ộ ường, m t thông d ch và m t tác nhân. Tác nhân d a trên tr ng thái mà thông d ch nh n th c độ ị ộ ự ạ ị ậ ứ ược trước đó l a ch n hành đ ng ti p theo t t nh t đ th c hi n. Vi c th c hi n đự ọ ộ ế ố ấ ể ự ệ ệ ự ệ ược giám sát b i trình thông d ch, ngở ị ười mà cung c p thông tin cho ấ

5. Học củng cố (Reinforcement learning)

Vi c h c c ng c r i r c đệ ọ ủ ố ờ ạ ược th hi n nh sau:ể ệ ư

• S là t p h u h n các tr ng thái đậ ữ ạ ạ ược trình thông d ch nh n bi t. T p h p này đị ậ ế ậ ợ ượ ạc t o v i các bi n c a môi trớ ế ủ ường, trình thông d ch ph i quan ị ả

sát được và có th khác v i các bi n tr ng thái c a môi trể ớ ế ạ ủ ường.

• A là m t t p h p h u h n các hành đ ng độ ậ ợ ữ ạ ộ ược ti n hành b i tác nhân.ế ở

• st là tr ng thái t i th i đi m tạ ạ ờ ể

• at là hành đ ng th c hi n b i tác nhân khi thông d ch viên nh n tr ng thái stộ ự ệ ở ị ậ ạ

• r(t+1) là tr ng thái nh n đạ ậ ược sau khi hành đ ng at độ ược ti n hànhế

• s(t+1) là tr ng thái sau khi at đạ ược ti n hànhế

• Môi trường là chương trình Markov: MDP= s0,a0,r1,s1,a1,r2,s2,a2…⟨ ⟩

• π:S ×A→[0,1] hàm này cung c p xác xu t c a l a ch n hành đ ng a v i m i c p (s,a)ấ ấ ủ ự ọ ộ ớ ỗ ặ

• pss′=Pr{s(t+1))=s′|st=s at=a} là tr ng thái thay đ i t s sang s’ v i hành đ ng a∧ ạ ổ ừ ớ ộ

• p (s′,a′) là ch n hành đ ng a’ tr ng thái s’ theo π ọ ộ ở ạ π

• ras=E{rt+1|st=s at=a}∧

46

5. Học củng cố (Reinforcement learning)

5. Học củng cố (Reinforcement learning)

Một phần của tài liệu Phân tích tình hình áp dụng AI trong các bài toán điều khiển hệ thống phát điện sức gió (Trang 44 - 47)

Tải bản đầy đủ (PPTX)

(82 trang)