Thuật toán điều khiển Fuzzy Q-Learning để điều chỉnh các tham số Hys và TTT

Một phần của tài liệu Nghiên cứu mạng tự tổ chức dựa vào thuật toán điều khiển fuzzy q learning (Trang 47)

Hys và TTT:

Có thể thấy rằng sự điều phối SON giữa những các mục đích sử dụng khác nhau đã dẫn đến một tình huống rất phức tạp để xử lý các xung đột và sự phụ thuộc lẫn nhau giữa chúng. Hơn nữa, một thuật toán sẽ là cần thiết để thực hiện sự thay đổi chính xác trong quá trình điều hành.

Các nghiên cứu và phát triển các thuật toán trực tuyến là rất quan trọng trong quá trình tự tối ưu hóa với những thách thức hiện tại trong các mạng thực tế. Áp dụng kiến trúc mạng ANA vào thực tế là một công việc đầy thách thức, vì không có chức năng lập bản đồ xác định từ vector đầu vào đến vector đầu ra và do đó rất khó khăn để giải quyết các vấn đề tối ưu hóa một cách chính xác. Hơn nữa, không gian tham số này có thể rất lớn và liên tục. Kết quả là, các đầu vào có thể không đầy đủ và không chính xác phần nào đó gây ra tác động tiêu cực đối với việc ra quyết định.

Các thuật toán mô phỏng linh hoạt đã xuất hiện như một ứng viên tiềm năng cho việc giải quyết các vấn đề trên. Nó là một giải pháp phỏng đoán nghiên cứu, xác suất bằng cách mô phỏng các quá trình vật lý của luyện kim nghĩa là một chất đang dần nguội để đạt được một trạng thái năng lượng tối thiểu. Phương pháp này đã được áp dụng rộng rãi trong quy hoạch mạng lưới và tối ưu hóa, ví dụ, để giải quyết về vấn đề bao phủ và khả năng tối ưu hóa dung lượng. Nó cho thấy rằng các thuật toán mô phỏng mềm dẻo có thể được phát triển và áp dụng trong việc giải quyết các vấn đề phức tạp trong tối ưu hóa mạng.

Đó là nơi mà thuật toán Fuzzy Q-learning khởi nguồn. Nó được phát triển dựa trên ý tưởng mô phỏng luyện kim. Q-Learning là một hình thức thực tế của

Reinforcement Learning (RL), đó là một lĩnh vực quan trọng của việc học tập máy tính. RL là một kiểu học mà tác nhân đó đạt được mục tiêu cuối cùng bằng cách tương tác với môi trường xung quanh và bằng cách xem xét các kinh nghiệm quá khứ bắt nguồn từ hành động trước đó. Trong một tình huống khi chúng ta xử lý cả tính bền

vững và tính chính xác, Fuzzy Logic đã được mở rộng để xử lý các khái niệm về sự thật, giá trị của nó có thể dao động từ hoàn toàn đúng sự thật và hoàn toàn sai. Luận án này kết hợp các Fuzzy Logic với Q-Learning để xử lý các vấn đề thực tế với các thông số đầu vào và đầu ra liên tục.

Trong phần này, chúng ta sẽ nghiên cứu về Reinforcement Learning, Q- Learning, và Fuzzy Logic. Như vậy, các Fuzzy Q-Learning Algorithm sẽ được áp dụng cho các trường hợp nghiên cứu để điều chỉnh các thông số Hys và TTT

4.4.1. Reinforcement Learning:

Reinforcement Learning (RL) là một kỹ thuật khai thác kinh nghiệm của các tác nhân để tìm hiểu các cách xử lý tối ưu trong môi trường. Các tín hiệu củng cố được nhận về là tác động tốt hay tác động xấu đến quá trình tối ơi để tác nhân sửa đổi cách xử lý của nó. Thông qua sự tương tác của nó với môi trường, các tác nhân cố gắng nghiên cứu cho các trạng thái cụ thể của hệ thống để những hoạt động tác động tốt được tối đa hóa. Các vấn đề về học tập thường được mô hình hóa như quá trình xử lý quyết định và đã giải quyết bằng cách sử dụng các kỹ thuật lập trình động.

RL mô tả một kế hoạch học tập, nơi một nhân tố tối ưu giúp cải thiện khả năng xử lý của nó bằng cách tác động lên môi trường của mình và nhận được kết quả là hoạt động tốt hoặc thất bại. RL thực hiện một tìm kiếm trực tuyến để tìm một quyết định tối ưu trong vấn đề quyết định nhiều mức. Đó là một cách tiếp cận đầy hứa hẹn cho hình thành các tác nhân tự trị để cải thiện hiệu suất dựa trên kinh nghiệm thực tế.

Quá trình xử lý chung được mô tả như sau:

1. Vào thời điểm bước t, các tác nhân ở trạng thái x(t)

2. Nó chọn một trong các hành động khả thi ở trạng thái này, a(t) 3. Nó áp dụng các hành động, kết quả là:

a. Chuyển tiếp đến một trạng thái mới, x(t + 1) b. Việc tiếp nhận phản hồi, r(t)

4. t: = t + 1

5. Trở lại bước 2 hoặc dừng lại nếu các trạng thái mới là một thiết bị đầu cuối.

Gọi X là tập hợp của các trạng thái và A là tập hợp của các hoạt động.

r(t) là kết quả của hành động a(t) được chọn trong tập trạng thái x(t). Chức năng reinforcement là một ứng dụng của không gian sản phẩm.

Một phần của tài liệu Nghiên cứu mạng tự tổ chức dựa vào thuật toán điều khiển fuzzy q learning (Trang 47)