Cácthông số giám sát

Một phần của tài liệu Nghiên cứu mạng tự tổ chức dựa vào thuật toán điều khiển fuzzy q learning (Trang 43)

Các thông số giám sát được sử dụng cho việc đánh giá và sự ước tính của các thuật toán HPO, LB và AC. Ở đây ta có một bản tóm tắt ngắn về định nghĩa và cách thức tính toán các thông số được như sau.

Công suất tín hiệu nhận được (RSRP) được tính toán dựa trên công suất truyền tải của một cell, các giá trị suy hao trên đường truyền kết hợp với vị trí của người dùng và hiện tượng fading. Thông số chất lượng RSRP không gây ra sự nhiễu loạn đối với các cell lân cận.

SINR:

Tỉ số tín hiệu trên nhiễu được lấy từ giá trị RSRP của cell đang phục vụ (SeNB) và RSRPs của tất cả các eNB khác trong chuỗi mạng nhiễu nhiệt. Nếu SINR của một cuộc gọi dưới ngưỡng tối thiểu (được định nghĩa trong tiêu chuẩn 3GPP: - 6.5 dB) trong một khoảng thời gian nhất định (1s, [7]) thì cuộc gọi sẽ bị gián đoạn.

Tỉ số chuyển giao bị lỗi (HOF):

Tỷ lệ sai hỏng trong việc chuyển giao là tỷ số giữa số lần chuyển giao thất bại với số lần thực hiện việc chuyển giao.Số lần chuyển giao là tổng của số lần truyền tải thành công và thất bại. Một chuyển giao gọi là không thành công khi người dùng cố gắng để kết nối với các TeNB nhưng SINR không đủ tốt để duy trì kết nối hoặc khi không có tài nguyên sẵn ở phía đích, đích đến eNB đáp ứng với sự chuyển giao thất bại.

Lưu ý rằng UE sẽ gửi thông tin về chuyển giao thất bại đến eNB, và số lần chuyển giao thất bại (NHOfailure) và tỷ lệ chuyển giao thất bại (HOF) sẽ được tính toán trong eNB.

Tỉ số chuyển giao Ping Pong:

Khi một cuộc gọi được truyền đến cho một TeNB mới và nó quay về SeNB trong vòng chưa đầy một khoảng thời gian xác định (không được định nghĩa trong 3GPP, nhưng bình thường trong vòng 10 s) sự chuyển giao này được coi là một quá trình chuyển giao Ping-Pong.

Tỷ lệ chuyển giao Ping-Pong (HPP) được định nghĩa là tỷ số giữa số lần chuyển giao Ping- Pong (NHPP) với tổng số lần chuyên giao (NHO). Các NHO, NHPP, HPP sẽ được xử lý ở eNB. UE sẽ thông báo cho eNB về chuyển giao Ping-Pong hoặc eNB sẽ xem xét chuyển giao có phải bị Ping-Pong hay không.

Tỷ suất sai hỏng đường truyền vô tuyến (RLF)

Tỷ suất sai hỏng đường truyền vô tuyến là xác suất mà một người sử dụng bị mất kết nối tới một eNB nếu người dùng di chuyển vào khu vực không có tín hiệu (SINR <-6,5 dB trong vòng 1s).

- Chuyển giao quá muộn

Trong trường hợp một chuyển giao được kích hoạt quá muộn, một kết nối sai hỏng sẽ xảy ra trong cell nguồn trước khi quá trình chuyền giao được thực hiện hoặc trong quá trình chuyển giao; UE cố gắng để tái thiết lập các kết nối vô tuyến ở cell đích (nếu việc chuyển giao đã bắt đầu) hoặc trong một cell mà không phải là cell nguồn (nếu việc chuyển giao không được thực hiện ).

- Chuyển giao quá sớm

Trong trường hợp chuyển giao được kích hoạt sớm, một kết nối thất bại xảy ra ngay sau khi chuyển giao thành công từ cell nguồn đến cell đích hoặc trong quá trình chuyển giao; UE cố gắng để thiết lập lại kết nối liên kết vô tuyến trong các cell nguồn.

Thông số RLF được định nghĩa là tỷ số giữa số lần kết nối vô tuyến thất bại (NRLF) với số cuộc gọi đã được chấp nhận bởi hệ thống mạng (Naccepted).

Dung lượng tải:

Một phương pháp đơn giản để đo tải là để tính toán việc giá trị trung bình của các khối tài nguyên vật lý (PRBs) trong một cell như công thức dưới đây:

Trong đó: nk là tổng số phân bổ PRBs trong khoảng thời gian đo ΔT, K là tổng số PRBs trong băng thông hệ thống, và tổng số lần thực hiện trên tất cả các kết nối với cell i trong quá trình đo .Lưu ý rằng 0 ≤ ρi ≤ 1.

Vấn đề của phương pháp này là việc sử dụng PRB không phải luôn luôn là một dấu hiệu tốt về dung lượng tải thực trong một cell. Bởi nếu có không sử dụng GBR để kết nối với cell, thì việc sử dụng PRB có thể cao như dự tính sẽ chuyển bất kỳ nguồn thành phần nào đến người sử dụng. Ngay cả trong trường hợp lưu thông GBR, việc sử dụng PRB cao có thể không phải là một dấu hiệu đáng tin cậy của tải trọng cao vì việc sử dụng PRB có hiệu quả hơn trong việc sử dụng gói dữ liệu chậm dần, trong khi vẫn đạt được các yêu cầu QoS cho tất cả người mang kết nối . Như các phương trình dưới đây:

Trong đó: Tk là thông lượng của gói thứ k trong khoảng thời gian ΔT và Rk(ref) là tốc độ dữ liệu trung bình cần thiết cho gói k xuất phát từ yêu cầu QoS của nó. (Trong trường hợp không GBR, Rk(ref) đại diện cho một GBR tương đương, tức là một

thông lượng tối thiểu mà có thể chấp nhận được đối với người dùng không sử dụng GBR).

Tải tối đa cho phép:

Các LB nên được kích hoạt trước khi mức tải đạt 100%; để cho các cell rảnh hoạt động hoặc để tránh tình trạng quá tải trước.Thông số này chỉ tải trọng tối đa một nguồn thành phần có thể xử lý với điều kiện không xảy ra trạng thái tắc nghẽn.Thông số này được sử dụng như là một bộ phận kích hoạt để bắt đầu hoạt động LB.

Mức tải mục tiêu:

Thông số này xác định một mức độ tuyền tải tối ưu ở các eNB mà nó đã được chỉ ra là các thông số QoS và thông số GoS là đạt yêu cầu đối với đa số người sử dụng và các hiên tượng không mong muốn (RLF, Ping-Pong, vv). Thông số này xác định mức tải mục tiêu tại các eNB cần đạt được và không vượt qua sau quá trình cân bằng tải. Mức tải mục tiêu được điều chỉnh cho cả SeNB & TeNB tham gia vào quá trình cân bằng tải, nơi mà mức tải mục tiêu tại SeNB xác định mức tải đó sẽ được thực hiện bằng cách giảm tải và ở cấp tải TeNB nó không nên vượt quá bởi người mới sử dụng.

4.3.2. Các thông số giám sát:

Sau khi phân tích các thông số giám sát, thuật toán điều phối SON sẽ đưa ra quyết định dựa trên các phân tích. Một tập hợp các thông số hoạt động sẽ được điều chỉnh để đạt được các mục đích điều phối. Ở đây, mô tả ngắn về những thông số sẽ được trình bày như sau:

Độ trễ:

Một quá trình chuyển giao được bắt đầu khi điều kiện A3 sau đây được đáp ứng: (adsbygoogle = window.adsbygoogle || []).push({});

RSRPTeNB> RSRP SeNB + Hys |TTT

Công suất tín hiệu nhận được của cell lân cận lớn hơn công suất tín hiệu nhận được của SeNB cộng với giá trị trễ (Hys) trị số trong một khoảng thời gian nhỏ nhất gọi là TTT (thời gian để kích hoạt). Để đơn giản hơn, các thông số offset sẽ được khử trong phương trình này (nghĩa là giá trị được thiết lập về 0). Do đó, chúng tôi sẽ nhấn mạnh vào tác động của thông số Hys. Các giá trị trễ biến thiên trong khoảng [0dB - 10dB] với bước nhảy là 0,5 dB, kết quả ta có 21 giá trị trễ khác nhau.

Thời gian kích hoạt:

Thời gian cần giữ để một quá trình chuyển giao được bắt đầu được định nghĩa bởi các tham số TTT. Các giá trị TTT cho mạng LTE được chuẩn hóa bởi 3GPP [7] là 0, 40, 64, 80, 100, 128, 160, 256, 320, 480, 512, 640, 1024, 1280, 2560, 5120 ms. Có 16 giá trị cho TTT.

Độ chênh lệch Oc là giá trị đặc trưng cho từng cặp tế bào, nó làm dịch chuyển các biên của cell (các điểm mà tại đó thường bị lỗi đường truyền đối với cả hai eNB là ngang nhau) đến một hoặc nhiều hướng nguồn khác nhau. Các giá trị Oc biến thiên trong khoảng [-10dB - 10dB] với bước nhảy 0.2dB [8]. Bên cạnh đó, độ chênh lệch chuyển giao hầu như thu hẹp các cell bị quá tải và mở rộng vùng phủ sóng của các cell lân cận ít tải hơn

Ngưỡng tải:

Ngưỡng truyền tải xác định mức tải tại mỗi cell phụ thuộc vào cách đặt của nhà khai thác. Bằng cách điều chỉnh các ngưỡng, chúng ta có thể quan sát các dao động của lỗi chuyển giao

4.4. Thuật toán điều khiển Fuzzy Q-Learning để điều chỉnh các tham số Hys và TTT: Hys và TTT:

Có thể thấy rằng sự điều phối SON giữa những các mục đích sử dụng khác nhau đã dẫn đến một tình huống rất phức tạp để xử lý các xung đột và sự phụ thuộc lẫn nhau giữa chúng. Hơn nữa, một thuật toán sẽ là cần thiết để thực hiện sự thay đổi chính xác trong quá trình điều hành.

Các nghiên cứu và phát triển các thuật toán trực tuyến là rất quan trọng trong quá trình tự tối ưu hóa với những thách thức hiện tại trong các mạng thực tế. Áp dụng kiến trúc mạng ANA vào thực tế là một công việc đầy thách thức, vì không có chức năng lập bản đồ xác định từ vector đầu vào đến vector đầu ra và do đó rất khó khăn để giải quyết các vấn đề tối ưu hóa một cách chính xác. Hơn nữa, không gian tham số này có thể rất lớn và liên tục. Kết quả là, các đầu vào có thể không đầy đủ và không chính xác phần nào đó gây ra tác động tiêu cực đối với việc ra quyết định.

Các thuật toán mô phỏng linh hoạt đã xuất hiện như một ứng viên tiềm năng cho việc giải quyết các vấn đề trên. Nó là một giải pháp phỏng đoán nghiên cứu, xác suất bằng cách mô phỏng các quá trình vật lý của luyện kim nghĩa là một chất đang dần nguội để đạt được một trạng thái năng lượng tối thiểu. Phương pháp này đã được áp dụng rộng rãi trong quy hoạch mạng lưới và tối ưu hóa, ví dụ, để giải quyết về vấn đề bao phủ và khả năng tối ưu hóa dung lượng. Nó cho thấy rằng các thuật toán mô phỏng mềm dẻo có thể được phát triển và áp dụng trong việc giải quyết các vấn đề phức tạp trong tối ưu hóa mạng.

Đó là nơi mà thuật toán Fuzzy Q-learning khởi nguồn. Nó được phát triển dựa trên ý tưởng mô phỏng luyện kim. Q-Learning là một hình thức thực tế của

Reinforcement Learning (RL), đó là một lĩnh vực quan trọng của việc học tập máy tính. RL là một kiểu học mà tác nhân đó đạt được mục tiêu cuối cùng bằng cách tương tác với môi trường xung quanh và bằng cách xem xét các kinh nghiệm quá khứ bắt nguồn từ hành động trước đó. Trong một tình huống khi chúng ta xử lý cả tính bền

vững và tính chính xác, Fuzzy Logic đã được mở rộng để xử lý các khái niệm về sự thật, giá trị của nó có thể dao động từ hoàn toàn đúng sự thật và hoàn toàn sai. Luận án này kết hợp các Fuzzy Logic với Q-Learning để xử lý các vấn đề thực tế với các thông số đầu vào và đầu ra liên tục.

Trong phần này, chúng ta sẽ nghiên cứu về Reinforcement Learning, Q- Learning, và Fuzzy Logic. Như vậy, các Fuzzy Q-Learning Algorithm sẽ được áp dụng cho các trường hợp nghiên cứu để điều chỉnh các thông số Hys và TTT

4.4.1. Reinforcement Learning:

Reinforcement Learning (RL) là một kỹ thuật khai thác kinh nghiệm của các tác nhân để tìm hiểu các cách xử lý tối ưu trong môi trường. Các tín hiệu củng cố được nhận về là tác động tốt hay tác động xấu đến quá trình tối ơi để tác nhân sửa đổi cách xử lý của nó. Thông qua sự tương tác của nó với môi trường, các tác nhân cố gắng nghiên cứu cho các trạng thái cụ thể của hệ thống để những hoạt động tác động tốt được tối đa hóa. Các vấn đề về học tập thường được mô hình hóa như quá trình xử lý quyết định và đã giải quyết bằng cách sử dụng các kỹ thuật lập trình động.

RL mô tả một kế hoạch học tập, nơi một nhân tố tối ưu giúp cải thiện khả năng xử lý của nó bằng cách tác động lên môi trường của mình và nhận được kết quả là hoạt động tốt hoặc thất bại. RL thực hiện một tìm kiếm trực tuyến để tìm một quyết định tối ưu trong vấn đề quyết định nhiều mức. Đó là một cách tiếp cận đầy hứa hẹn cho hình thành các tác nhân tự trị để cải thiện hiệu suất dựa trên kinh nghiệm thực tế.

Quá trình xử lý chung được mô tả như sau:

1. Vào thời điểm bước t, các tác nhân ở trạng thái x(t)

2. Nó chọn một trong các hành động khả thi ở trạng thái này, a(t) 3. Nó áp dụng các hành động, kết quả là:

a. Chuyển tiếp đến một trạng thái mới, x(t + 1) b. Việc tiếp nhận phản hồi, r(t)

4. t: = t + 1

5. Trở lại bước 2 hoặc dừng lại nếu các trạng thái mới là một thiết bị đầu cuối.

Gọi X là tập hợp của các trạng thái và A là tập hợp của các hoạt động.

r(t) là kết quả của hành động a(t) được chọn trong tập trạng thái x(t). Chức năng reinforcement là một ứng dụng của không gian sản phẩm.

4.4.2. Q-Learning:

Trong một số mô hình RL, nó đòi hỏi những thông tin rất chính xác về các xác suất truyền dẫn trạng thái và những kết quả. Tuy nhiên, trong một số mô hình hệ

thống, thông tin này không có sẵn, hoặc chỉ tương đối. Khi đó sẽ có vấn đề khi xây dựng mô hình RL cho các hệ thống này. Q-Learning (QL) là một trường hợp đặc biệt của RL có thể giải quyết vấn đề khi các mô hình hệ thống này là không có sẵn.Thay vào đó, nó dựa trên sự khác biệt tạm thời để từng bước giải quyết các vấn đề học tập. QL đạt được mục tiêu này bằng cách ước lượng một hàm giá trị của mỗi cặp trạng thái hành động được gọi là giá trị q. Chức năng này ước tính giá trị kết quả dự kiến thi lấy một hoạt động aA ra khỏi tập các hành động A từ khi bắt đầu trạng thái s đến khi đã có một trạng thái cố định . Mỗi hoạt động chuyển các nhân tố từ trạng thái si đến trạng thái si + 1 nhận được một kết quả ri + 1. Mục tiêu là để mở rộng tập kết quả. Các chức năng giá trị được định nghĩa theo phương trình (4.4).

(4.4) Và cũng có thể được ước tính bằng cách sử dụng phương pháp cập nhật sự khác biệt tạm thời một cách lặp đi lặp lại: (adsbygoogle = window.adsbygoogle || []).push({});

Trong đó: β là tỷ lệ học tập (0≤ β ≤ 1), các tham số tỷ lệ học tập để xác định việc học tập diễn ra nhanh hay chậm. Sự điều khiển thuật toán QL thì có thể thay đổi giá trị Q với sự biến thiên của các trạng thái và hoạt động. Nếu tỷ lệ học tập là quá nhỏ, quá trình học tập sẽ diễn ra rất chậm. Nếu β là quá cao, thì các thuật toán có thể không hội tụ. γ là hệ số chiết khấu (0 ≤ γ ≤ 1), nếu γ = 0, các tác nhân chỉ xem xét những kết quả trước mắt, hệ số γ càng gần 1 thì càng có nhiều nhân tố được xác định trước.

QL là một phương pháp RL, trong đó người học được xây dựng từng bước hàm Q, cố gắng để ước tính chi phí trong tương lai cho một hành động trong trạng thái hiện tại của nhân tố. Kết quả của hàm Q được gọi là giá trị Q. Giá trị Q trong QL là một ước tính về giá trị của chi phí trong tương lai nếu các chi nhánh có một hành động đặc trưng a khi nó đang ở trong trạng thái s. Bằng cách khảo sát môi trường, các nhân tố đã lâp ra một bảng giá trị Q cho mỗi trạng thái và mỗi hành động.

4.4.3. Fuzzy Q-Learning:

QL phải duy trì một giá trị q cho mỗi cặp trạng thái hoạt động; do đó nó trở nên rất phức tạp và đôi khi không thực tế nếu không gian trạng thái hay không gian hoạt động là liên tục. Vì vậy các Fuzzy Logic (FL) được cung cấp để rời rạc các biến liên tục. Fuzzy Q-Learning (FQL) là một kỹ thuật kết hợp với FL và QL nhằm khắc phục những thiếu sót của nhau.

Trong FQL, trạng thái và hoạt động của hệ thống được xác định bằng cách sử dụng hàm thành phần mờ. Các biến trạng thái liên tục chuyển đổi thành một số hữu hạn các hàm thành phần biến mờ. Quá trình này được gọi là fuzzification. Từ các biến mờ, kết quả tương ứng được tính toán dựa trên hệ thống suy luận mờ (FIS).Cuối cùng

Một phần của tài liệu Nghiên cứu mạng tự tổ chức dựa vào thuật toán điều khiển fuzzy q learning (Trang 43)