Biến trạng thái và biến hoạt động

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu mạng tự tổ chức dựa vào thuật toán điều khiển fuzzy q learning (Trang 50)

CHƢƠNG 2 CÁC ĐẶC ĐIỂM CỦA LTE-SON

4.4. Thuật toán điều khiển Fuzzy Q-Learning để điều chỉnh các tham số Hys và TTT

4.4.4.1. Biến trạng thái và biến hoạt động

Trạng thái có thể được đo bằng số liệu thống kê KPIs, nó cung cấp một chỉ dẫn về cách hệ thống được thực hiện. Các số liệu thống kê KPIs cho sự phối hợp của các trường hợp sử dụng là HOF, RLF và HPP. Do đó các vector trạng thái đầu vào trong công việc này đã được xác định là:

S = [HOF RLF HPP]

Những hoạt động cho một cell là thông số hoạt động và nó được xác định ở phần trên. Bằng cách điều chỉnh các thông số hoạt động, các nhân tố có thể thay đổi môi trường. Vì vậy vector đầu ra được xác định là:

A = [Hys Oc TTT]

Các tham số Oc là cặp tham số của cell, nó được tính toán dựa trên sự khác nhau của tải giữa hai cell trong khi đó, HOF, RLF, và HPP được tính cho mỗi cell riêng biệt. Do những hạn chế của phần mềm mô phỏng LTE-Sim, nó sẽ mất quá nhiều thời gian và quá phức tạp để thực hiện thay đổi Oc tham số đối với thuật toán FQLC. Vì vậy, Oc sẽ được điều chỉnh dựa vào sự quá trình tính toán sự khác nhau của tải bởi một thuật toán không phải là FQLC. Tuy nhiên trong luận án này, các thuật toán FQLC chỉ được áp dụng cho các thông số Hys và TTT. Kết quả là, các vector đầu ra sẽ là như sau:

A = [Hys TTT] 4.4.4.2. Các hàm thành phần:

Đối với quá trình fuzzification, một số hữu hạn các nhãn mờ được xác định trên các miền của mỗi biến số đầu vào như thể hiện trong hình 4.4 và hình 4.5. Đối với các vector đầu vào, mỗi biến sẽ có 3 nhãn mờ (Low, Medium, High). Mỗi nhãn được gán một hàm thành phần, chúng tạo nên biểu đồ mức độ thành phần của một biến mờ đặc trưng cho mỗi nhãn trong khoảng thời gian trong khoảng [0,1]. Các hàm thành phần có

dạng tam giác được sử dụng để tổng hợp các giá trị thành phần của tất cả các hàm tương đương với 1 tại bất kỳ điểm nào trên tên miền của một biến cụ thể.

Đối với các kết quả đầu ra, các trường hợp không có thông tin đã được cộng thêm kinh nghiệm. Gọi ymax và ymin là giới hạn trên và dưới của kết quả, kết quả đầu ra được phân bố đều trong khoảng [ymax, ymin]

• Từ các phần trên, chúng ta đã biết rằng các giá trị trễ hợp lệ (Hys) biến thiên giữa [0 dB - 10 dB] với bước nhảy 0,5 dB, kết quả có 21 giá trị trễ khác nhau. Tham số Hys được điều chỉnh dựa trên RLF của một cell đặc trưng. Nếu RLF tăng Hys sẽ được giảm và ngược lại.

• Thời gian để kích hoạt (TTT) được đưa ra trong tiêu chuẩn của 3GPP (0, 40, 64, 80, 100, 128,160, 256, 320, 480, 512, 640, 1024, 1280, 2560, 5120 ms). Có 16 khả năng cho giá trị TTT.

Phụ thuộc vào các trường hợp cụ thể riêng mà giá trị của Hys và TTT sẽ được giới hạn bởi các thiết lập nêu trên.

Hình 4.4: Hàm thành phần RLF và HPP

Phương trình của các hàm thành phần được tính như sau: 𝜇(𝑥)𝑙𝑜𝑤 = 1 x≤a b - x b - a a≤x≤b 0 x≥b (4.5) 𝜇(𝑥)𝑚𝑒𝑑𝑖𝑢𝑚 = 0 x≤a x - a b - a a≤x≤b c - x c - b b≤x≤c 0 x≥c (4.6) 𝜇(𝑥)ℎ𝑖𝑔ℎ = 0 x≤b x - b c - b b≤x≤c 0 x≥b (4.7) 4.4.4.3. Hàm trả về:

Việc trả về tức thời cung cấp cho các nhân tố thông tin phản hồi về hoạt động trước đó của mình tốt hay xấu. Thuật ngữ chất lượng trạng thái (SQ) đã được xác định bằng tổng số của các thông số giám sát (HOF, RLF, HPP). SQ cao hơn có nghĩa là hệ thống hoạt động kém hiệu quả. Theo như chúng ta biết rằng, lỗi kết nối vô tuyến là vấn đề nghiêm trọng nhất mà tất cả các nhà khai thác muốn tránh. Đối với HOF & HPP người dùng cuối sẽ không nhận được phản hồi. Nhưng nếu RLF xảy ra, thì kết nối sẽ bị hỏng.

SQ = w1 * HOF + w2 * RLF + w3 * HPP (4.8) Để có được một phản hồi tổng quát cho toàn bộ các cell thay vì phản hồi của mỗi cell, thì các tham số giám sát từ phương trình (4.8) được tính là giá trị trung bình của tất cả các cell. Sự khác nhau của những giá trị SQ giữa các trạng thái hiện tại và trạng thái trước đó xác định giá trị phản hồi:

rt+1 = -(SQt+1 – SQt)

Như đã đề cập ở trên, mục tiêu của hệ thống là để giảm các giá trị KPI càng nhiều càng tốt. Vì vậy, dấu trừ ở phương trình trên là để các phần phản hồi sẽ dương nếu SQ giá trị giảm.Cuối cùng, tất cả các nguồn sẽ sử dụng phần phản hồi này để cập nhật bảng q cho cặp giá trị trạng thái- hoạt động. Nếu những hoat động trong trạng thái trước đó dẫn đến một chất lượng trạng thái tốt hơn (tức là giá trị SQ nhỏ hơn), chúng sẽ nhận được giá trị phản hồi dương, ngược lại chúng sẽ nhận được giá trị phản hồi âm.

4.4.4.4. Hệ thống Fuzzy Inference (FIS):

Nói chung, các quy tắc trong hệ thống Fuzzy Inference gồm số tùy ý của các dạng khác nhau của các quy tắc được xây dựng bởi người vận hành AND và OR. Giả sử rằng một hệ thống Fuzzy Inference có một quy tắc bao gồm N quy tắc, và các vector đầu vào X có n phần tử đại diện cho không gian đầu vào, sau đó mỗi quy tắc có thể được viết như sau:

Vectơ đầu vào tại thời gian t: X = (x1...xn)t Đối với mỗi quy tắc i thì:

Nếu x1 là 𝐿𝑖1 và x2 là 𝐿𝑖2 và ... xn là 𝐿𝑖𝑛 Thì y là 𝑜1𝑖 với q(Li, 𝑜1𝑖) = 0

hoặc y là 𝑜2𝑖 với q(Li, 𝑜2𝑖) = 0 ...

hoặc y là 𝑜𝑘𝑖 với q(Li, 𝑜𝑘𝑖) = 0

Trong đó 𝐿𝑗𝑖 (j=1...n; i=1...N) là kí hiệu của các biến đầu vào xj tham gia vào quy tắc thứ i (thấp, trung bình hoặc cao); 𝑜𝑘𝑖 là hoạt động đầu ra thứ k của các quy luật thứ i, O là tập hợp các hoạt động của K. N là số lượng quy tắc. Li = [𝐿𝑖1𝐿𝑖𝑁] được gọi là mô hình vector của quy tắc i và đại diện cho một trạng thái của bộ điều khiển (ví dụ [L, L, L], hoặc [L, H, M],...). q (Li, 𝑜𝑘𝑖) là giá trị q của trạng thái mờ Li và hoạt động 𝑜𝑘𝑖 được thiết lập về 0 tại lúc bắt đầu thuật toán. Tổng số các quy tắc phụ thuộc vào số lượng các biến trong vectơ trạng thái đầu vào cũng như số lượng các hàm thành phần được định nghĩa cho mỗi biến. Như đã mô tả ở trên, ta có ba hàm thành phần cho mỗi biến, vì vậy tổng số quy tắc là 3 * 3 * 3 = 27 quy tắc trong hệ thống Fuzzy Inference (N = 27 quy tắc).

Kí hiệu các biến:

- Input 1: HOF: thấp (L), trung bình (M), cao (H) - Input 2: RLF: thấp (L), trung bình (M), cao (H) - Input 3: HPP: thấp (L), trung bình (M), cao (H) - Output 1: Hys

- Output 2: TTT

Mục tiêu của FQLC là để tìm ra những kết quả tốt nhất (đầu ra) cho mỗi quy tắc nhằm mở rộng tổng thể phản hồi. Vì vậy, ngoài việc có thể để xử lý các vấn đê về biến liên tục, FQLC cũng có thể khắc phục tình trạng thiếu nhân lực chuyên môn trong giai đoạn thiết kế FIS

Việc thực hiện các FQLC nhằm đưa ra một số kết luận đối lập với quy tắc. Kết luận không được sửa đổi, chúng được phân tích trong giai đoạn thăm dò và giá trị q được cập nhật. Trong giai đoạn thai thác, ta chỉ chọn có kết quả tốt nhất trong số những những trường hợp được đề xuất. Nếu một quy tắc được xác định chính xác thì không chỉ một hoạt động đầu ra, là đủ để xác định quy tắc đó. Trong trường hợp, chỉ có một phần thông tin hoặc thông tin không chính xác, một tập hợp con của các hoạt động có tác dụng tích cực được tích hợp trong các FIS.Trong trường hợp xấu nhất, không có một tiên nghiệm thông tin có giá trị tốt hơn tất cả các hoạt động có thể có được bao gồm trong một phần tất yếu của quy luật đó. Trong luận văn này, tôi giả sử rằng không có một tiên nghiệm thông tin có sẵn cho FQLC, gọi ymin& ymax là giới hạn trên và dưới cho một kết quả, kết quả được phân bố đều trong khoảng [ymin, ymax].

Áp dụng lý thuyết này với kịch bản mà tôi đưa ra, có một số tiên nghiệm thông tin từ kinh nghiệm của chuyên gia, tôi có thể giới hạn số lượng các đầu ra tích cực. Giá trị trễ biến thiên trong đoạn [0dB - 10dB], và TTT (0, 40, 64, 80, 100, 128, 160, 256, 320, 480, 512, 640, 1024, 1280,2560, 5120 ms).

Các biến đầu vào và đầu ra sẽ được mô tả là vector sau:

𝐻𝑂𝐹 𝑅𝐿𝐹 𝐻𝑃𝑃 = 𝑥 𝑦 𝑧 và 𝐻𝑦𝑠𝑇𝑇𝑇 = 𝑎 𝑏

Một số quy tắc FIS sẽ được trình bày dưới đây để minh họa cho các thuật toán FQLC: Quy tắc 1: Nếu 𝐻𝑂𝐹 𝑅𝐿𝐹 𝐻𝑃𝑃 = 𝐿 𝐿 𝐿 thì 𝐻𝑦𝑠𝑇𝑇𝑇 = 𝑎 𝑏 𝑖với qi = 0 Với a  [1,2,3,4,5] và b  [100,160,256,320,480] Quy tắc 2: Nếu 𝐻𝑂𝐹 𝑅𝐿𝐹 𝐻𝑃𝑃 = 𝐿 𝐿 𝑀 thì 𝐻𝑦𝑠 𝑇𝑇𝑇 = 𝑎 𝑏 𝑖với qi = 0 Với a  [1,2,3,4,5] và b  [0,100,160,320,480] Quy tắc 3: Nếu 𝐻𝑂𝐹 𝑅𝐿𝐹 𝐻𝑃𝑃 = 𝐿 𝐿 𝐻 thì 𝐻𝑦𝑠 𝑇𝑇𝑇 = 𝑎 𝑏 𝑖với qi = 0 Với a  [0,1,2,3,4,] và b  [0,100,160,320,480] Quy tắc 4: Nếu 𝐻𝑂𝐹 𝑅𝐿𝐹 𝐻𝑃𝑃 = 𝐿 𝑀 𝐿 thì 𝐻𝑦𝑠 𝑇𝑇𝑇 = 𝑎 𝑏 𝑖với qi = 0 Với a  [2,3,4,5,6] và b  [100,160,320,480,520]

Đây chỉ là một số ví dụ về quy tắc FIS mà tôi muốn để mô tả một cách dễ hiểu về cách thức thuật toán FQLC đang làm việc.Tổng các quy tắc là 27.Như vậy chúng ta có thể thấy, các giá trị Hys và TTT sẵn có đã được giới hạn trong tập hợp gồm 5 giá trị. Kết quả là, tập hợp các hoạt động có giá trị tích cực có thể sẽ là 5 * 5 = 25. Do đó bảng giá trị q sẽ là một vector với 25 giá trị (i = 25 cho mỗi quy tắc).

4.4.4.5. Cấu trúc hệ thống Fuzzy Inference:

Hình 4.6: Cấu trúc hệ thống Fuzzy Infernce

Cấu trúc là giống như một mạng lưới điều khiến gồm bốn lớp: một lớp đầu vào, hai lớp ẩn (tên là mờ hóa và Rule evaluation) và một lớp đầu ra (được đặt tên là lớp giải mờ hóa). Toàn bộ cấu trúc đã được thể hiện trong hình 4.6

Ba biến đầu vào là HOF, RLF, HPP sẽ được đưa vào các lớp đầu vào. Sau đó, trong lớp mờ hóa, mức độ của sự thật sẽ được tính toán từ các hàm thành viên. Giả sử rằng mỗi đầu vào sẽ có tối đa hai giá trị của hàm thành viên (L1 & L2). Trong một số trường hợp, nếu giá trị là 1 (khi đó ta có thể lấy giá trị là low hoặc high), đầu ra trong lớp mờ hóa cho mỗi đầu vào sẽ chỉ có một. Trong lớp Rule evaluation, quy tắc này sẽ được xác định. Quy tắc là một sự kết hợp của ba giá trị thật của ba biến đầu vào. Kết quả là, tổng số quy tắc sẽ là 8 cho một vector đầu vào cụ thể. Nhưng toàn bộ không gian của quy tắc sẽ là 27 cho tất cả các vector đầu vào trạng thái. Sau lớp Rule evaluation, bảng đầu ra Oi được xác định. Nó là một bảng gồm 25 giá trị. Cuối cùng, trong lớp giải mờ hóa, đầu ra của tham số HYS và TTT được tính toán.

4.4.4.6. Thuật toán FQLC:

Thuật toán FQLC bắt đầu bằng cách xác định trạng thái hiện tại của các tác nhân nghiên cứu. Các vector đầu vào sẽ được cung cấp và mức độ thật của mỗi hệ thống suy luận mờ với quy luật i đó là sản phẩm của các giá trị thành phần của mỗi nhãn trạng thái đầu vào cho các quy tắc i:

Input 𝐻𝑂𝐹 𝑅𝐿𝐹 𝐻𝑃𝑃 = 𝑥 𝑦 𝑧 ;

Đối với mỗi biến, giá trị thật được tính cho mỗi nhãn mờ từ phương trình (4.5),(4.6),(4.7):

𝜇𝑙𝑜𝑤(𝑥); 𝜇𝑚𝑒𝑑𝑖𝑢𝑚 (𝑥); 𝜇ℎ𝑖𝑔ℎ(𝑥);

𝜇𝑙𝑜𝑤(𝑦); 𝜇𝑚𝑒𝑑𝑖𝑢𝑚 (𝑦); 𝜇ℎ𝑖𝑔ℎ(𝑦);

𝜇𝑙𝑜𝑤(𝑧); 𝜇𝑚𝑒𝑑𝑖𝑢𝑚 (𝑧); 𝜇ℎ𝑖𝑔ℎ(𝑧);

Mức độ của sự thật của từng quy tắc i của hệ thống suy luận mờ FIS được tính toán như sau:

𝛼𝑖 = 3 𝜇𝐿𝑖𝑛(𝑆𝑖)

𝑛=1 (4.9)

Ví dụ, trong trường hợp quy tắc 1 với [HOF, RLF, HPP] = [L, L, L], giá trị thật sẽ là:

𝛼1 = 𝜇𝑙𝑜𝑤(𝐻𝑂𝐹) * 𝜇𝑙𝑜𝑤(𝑅𝐿𝐹) * 𝜇low (𝐻𝑃𝑃)

Cho P là tập hợp các quy tắc kích hoạt với độ của sự thật bằng không, sau đó là một chuỗi đầu ra (Op)được lựa chọn dựa trên các chính sách thăm dò, khai thác cho từng quy tắc kích hoạt:

𝑂𝑝 = argmax𝑘∈𝐾 𝑞(𝐿𝑝, 𝑂𝑝𝑘) với xác suất ε

𝑟𝑎𝑚𝑑𝑜𝑚𝑘𝑂𝑝𝑘 với xác suất 1 - ε (4.10)

Với ε là sự cân bằng giữa việc thăm dò và khai thác. Giá trị 1 có nghĩa là không thăm dò, chỉ hành động với giá trị q lớn nhất được chọn.

Hoạt động cuối cùng (a (s)) được áp dụng bởi FQLC sau đó được tính từ tất cả các hoạt động lựa chọn các quy tắc kích hoạt như phương trình (4.11).Nó là sản phẩm của lớp giải mờ hóa.

a(s) = 𝑝∈𝑃𝛼𝑝(s) * 𝑂𝑝 (4.11)

Hoạt động cuối cùng là một sự kết hợp của chuỗi hoạt động trong các quy tắc khác nhau. Do đó, mức độ sự thật ap(st) của từng quy tắc kích hoạt được tính vào phương trình (4.11).

Giá trị Q (Q(s,a(s))) cho các vector trạng thái đầu vào được tính toán như một phép nội suy của các giá trị Q hiện tại của các quy tắc kích hoạt và mức độ của sự thật: Q (s, a(s)) = 𝑝∈𝑃𝑠𝛼𝑝(s) * q(𝐿𝑝, 𝑂𝑝) (4.12) Áp dụng chuỗi hoạt động a(s), FQLC di chuyển qua các chuỗi cho một trạng thái mới St + 1 và nhận được một phản hổi rt + 1

Giá trị của trạng thái mới là:

V(st+1)= 𝑝∈𝑃𝑆𝑡+1𝛼𝑝(𝑆𝑡+1) * 𝑎𝑟𝑔𝑚𝑎𝑥𝑘∈𝐾 q(𝐿𝑝, 𝑂𝑝𝑘) (4.13)

Trong đó argmaxkK q(Lp, Okp) là giá trị q lớn nhất cho quy tắc p

Để cập nhật các giá trị q, các lượng Δ𝑄 được định nghĩa là sự khác biệt giữa giá trị cũ và giá trị mới của Q(x,a(x)).

∆𝑄 = rt+1 + 𝛾Vt(St+1) – Q(St, a(St)) (4.14)

Cập nhật giá trị q như sau:

qt(Lp, Op) ← qt(Lp, Op) + 𝛽𝛼p(St)∆𝑄 (4.15) Trong đó β là tỷ lệ học tập nằm trong khoảng [0,1], nó xác định những ảnh hưởng của các mới thông tin về các kiến thức trước đây. Giá trị 0 có nghĩa là không có học tập và 1 nghĩa là chỉ cácthông tin mới nhất được chú trọng.là nhân tố khấu hao, nằm trong khoảng [0,1]. Các  nhỏ hơn thì có tầm quan trọng hơn.

Toàn bộ thuật toán Fuzzy Q-Learning:

1.Vào thời điểm t, quan sát trạng thái St, cung cấp vector đầu vào [HOF, RLF, HPP]

2.Khởi tạo q(Li, Oik) = 0 với i = 0:26 (số quy tắc); kK (K=25)

3.Đối với mỗi quy tắc i, tính toán mức độ sự thật với trạng thái ban đầu ai(st) Lặp lại từ bước 4 đến bước 11 cho mỗi giá trị thời gian t

4.Đối với mỗi quy tắc Li, lựa chọn 1 hoạt động Oik với quy tắc EPP

5.Tính toán hoạt động cuối cùng a(st) cho trạng thái st và chất lượng tương ứng Q(st, a(st))

6.Thực hiện hoạt động a(st) và quan sát trạng thái mới a(st+1) và phản hồi rt+1 7.Tính toán mức độ sự thật của trạng thái mới ai(st+1)

8.Tính toán hàm giá trị của trạng thái mới V(st+1)

9.Tính toán sự khác nhau giữa giá trị trạng thái mới và trạng thái cũ ΔQ 10. Câp nhật chất lượng qt+1(Lp, Op)

11. t ← t+1

Nếu các giá trị hội tụ thì dừng cập nhật.

4.5. Kết hợp thuật toán FQLC và Diff_Load:

Như đề cập ở trên, việc bổ sung Oc vào thuật toán FQLC là một thách thức và sẽ mất rất nhiều thời gian do sự hạn chế của phần mềm mô phỏng LTE-Sim. Vì vậy, để điều chỉnh thông số Oc, một thuật toán đơn giản được cung cấp dựa vào việc đo lường sự khác biệt về tải. Hai thuật toán sẽ được kết hợp lại dựa trên các sự kiện kích hoạt chuyển giao A3.

4.5.1. Thuật toán Diff_Load:

Tham số chênh lệch chuyển giao Oc có một vai trò quan trọng trong trường hợp sử dụng cân bằng tải. Bằng cách điều chỉnh tham số này, chúng ta có thể phân phối tải trọng trong mạng. Thuật toán Diff_load được cung cấp để thực hiện thay đổi các thông số Oc, dựa trên tải trọng khác biệt giữa các cặp tế bào.

Oc(i, j) =

𝑚𝑖𝑛(𝑂𝐶(i, j) + ∆𝑂𝐶, 𝑂𝐶𝑚𝑎𝑥) nếu 𝜌𝑗 - 𝜌𝑖 ≥ 𝜌𝑡ℎ𝑟

𝑚𝑎𝑥(𝑂𝐶(i, j) - ∆𝑂𝐶, −𝑂𝐶𝑚𝑎𝑥) nếu 𝜌𝑖 - 𝜌𝑗 ≥ 𝜌𝑡ℎ𝑟

0 nếu |𝜌𝑖 - 𝜌𝑗 || < 𝜌𝑡ℎ𝑟

(4.16)

Với Oc (i, j) là chuyển giao chênh lệch của các tế bào i đối với tế bào j, Δ𝑂𝑐 là kích thước bước chênh lệch [0.2 dB], 𝑂𝑐𝑚𝑎𝑥 là giá trị chênh lệch chuyển giao lớn nhất [10 db], 𝜌i và 𝜌j là tải trọng của tế bào i và tế bào j tương ứng, và ρthr> 0 là mức ngưỡng được xác định trước để kích hoạt cân bằng tải (nó có thể được thiết lập ở mức 20% tải trọng khác nhau giữa các tế bào). Tế bào i và tế bào j được gọi SeNB và TeNB tương ứng. Tất cả Oc(i, j) được khởi tạo bằng 0. Các phương trình (4.16) được áp dụng định kỳ (khoảng 20s, khoảng thời gian này có thể được thay đổi trong quá trình mô phỏng) để đo lường tải trọng mới của mỗi tế bào. Điều quan trọng cần lưu ý là các giá

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu mạng tự tổ chức dựa vào thuật toán điều khiển fuzzy q learning (Trang 50)

Tải bản đầy đủ (PDF)

(65 trang)