III. Pitch Angle Control
5. Học củng cố (Reinforcement learning)
Phương pháp h c c ng c bao g m m t môi trọ ủ ố ồ ộ ường, m t thông d ch và m t tác nhân. Tác nhân d a trên tr ng thái mà thông d ch nh n th c độ ị ộ ự ạ ị ậ ứ ược trước đó l a ch n hành đ ng ti p theo t t nh t đ th c hi n. Vi c th c hi n đự ọ ộ ế ố ấ ể ự ệ ệ ự ệ ược giám sát b i trình thông d ch, ngở ị ười mà cung c p thông tin cho ấ
5. Học củng cố (Reinforcement learning)
Vi c h c c ng c r i r c đệ ọ ủ ố ờ ạ ược th hi n nh sau:ể ệ ư
• S là t p h u h n các tr ng thái đậ ữ ạ ạ ược trình thông d ch nh n bi t. T p h p này đị ậ ế ậ ợ ượ ạc t o v i các bi n c a môi trớ ế ủ ường, trình thông d ch ph i quan ị ả
sát được và có th khác v i các bi n tr ng thái c a môi trể ớ ế ạ ủ ường.
• A là m t t p h p h u h n các hành đ ng độ ậ ợ ữ ạ ộ ược ti n hành b i tác nhân.ế ở
• st là tr ng thái t i th i đi m tạ ạ ờ ể
• at là hành đ ng th c hi n b i tác nhân khi thông d ch viên nh n tr ng thái stộ ự ệ ở ị ậ ạ
• r(t+1) là tr ng thái nh n đạ ậ ược sau khi hành đ ng at độ ược ti n hànhế
• s(t+1) là tr ng thái sau khi at đạ ược ti n hànhế
• Môi trường là chương trình Markov: MDP= s0,a0,r1,s1,a1,r2,s2,a2…⟨ ⟩
• π:S ×A→[0,1] hàm này cung c p xác xu t c a l a ch n hành đ ng a v i m i c p (s,a)ấ ấ ủ ự ọ ộ ớ ỗ ặ
• pss′=Pr{s(t+1))=s′|st=s at=a} là tr ng thái thay đ i t s sang s’ v i hành đ ng a∧ ạ ổ ừ ớ ộ
• p (s′,a′) là ch n hành đ ng a’ tr ng thái s’ theo π ọ ộ ở ạ π
• ras=E{rt+1|st=s at=a}∧
46
5. Học củng cố (Reinforcement learning)
5. Học củng cố (Reinforcement learning)