Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 27 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
27
Dung lượng
1,13 MB
Nội dung
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG NGUYỄN NGỌC THƠ HỆ HỖ TRỢ QUYẾT ĐỊNH PHÂN NHÓM CÁC TRẠM BTS THEO LƯU LƯỢNG Chuyên ngành: HỆ THỐNG THÔNG TIN Mã số: 8.48.01.04 TÓM TẮT LUẬN VĂN THẠC SĨ (Theo định hướng ứng dụng) TP HỒ CHÍ MINH – NĂM 2022 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS NGUYỄN XUÂN SÂM Phản biện 1: Phản biện 2: Luận văn bảo vệ trước Hội đồng chấm luận văn Học viện Công nghệ Bưu Viễn Thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Công nghệ Bưu Chính Viễn Thơng MỞ ĐẦU Lý chọn đề tài Trong lĩnh vực dịch vụ Viễn thông, hoạt động gắn liền với việc tiếp nhận xử lý thông tin, việc ứng dụng cơng nghệ thơng tin có ý nghĩa quan trọng ngành Viễn thông để phát triển bền vững có hiệu cao Qua q trình hoạt động, liệu tích lũy có kích thước ngày lớn, ẩn chứa nhiều thơng tin dạng quy luật chưa khám phá Chính vậy, nhu cầu đặt cần tìm cách biến đổi liệu “thô” thành thông tin phục vụ cơng tác dự báo, phân loại nhằm mục đích tư vấn hỗ trợ công việc kinh doanh Công nghệ, kỹ thuật liệu đã, phát triển mạnh mẽ trước khao khát tri thức người, thu hút quan tâm nhà nghiên cứu nhiều lĩnh vực khác học máy, hệ chuyên gia, thống kê Nhiều phương pháp kỹ thuật phân lớp đề xuất khơng có phương pháp tiếp cận phân loại tối ưu xác hẳn phương pháp khác Với mong muốn nghiên cứu việc xây dựng hệ thống hỗ trợ định để đánh giá, phân nhóm lưu lượng trạm NodeB/eNodeB từ liệu mạng Vinaphone Viễn thông Tây Ninh, chọn đề tài “Hệ hỗ trợ định phân nhóm trạm BTS theo lưu lượng” làm luận văn tốt nghiệp Tổng quan vấn đề nghiên cứu Trong năm gần Học máy (Machine Learning - ML) công cụ tiềm hứa hẹn để dự báo loạt vấn đề phức tạp Sự phát triển nhanh chóng ML tương quan trực tiếp với phát triển công nghệ; phát triển nhanh chóng cộng đồng AI có lợi cho phát triển nhiều thư viện công cụ mã nguồn mở (ví dụ: TensorFlow, Keras, PyTorch, fast.ai), giúp nhiều nhà nghiên cứu việc triển khai triển khai thuật tốn ML Cơng việc luận văn thực theo hướng liệu, tập trung vào việc tìm hiểu cách sử dụng biến đổi liệu thành thơng tin[1] phục vụ mục đích sản xuất kinh doanh mạng di động; mô tả đặc điểm lưu lượng truy cập di động người dùng, việc sử dụng ứng dụng kiểu lưu lượng truy cập họ Sau đó, cần phân tích số liệu thống kê thời gian mạng để xác định lưu lượng khu vực Việc khai thác lượng lớn thông tin cho phép cải thiện hiệu suất mạng để giải loạt vấn đề (ví dụ: phát bất thường) ảnh hưởng đến sở hạ tầng mạng Công việc việc nghiên cứu liệu đến từ việc triển khai mạng di động thực tế sau định tối ưu hóa mạng ứng phó với vơ số vấn đề mạng phân bổ tài nguyên, tiết kiệm lượng Mục tiêu nghiên cứu Nghiên cứu tổng quan lưu lượng mạng di động, chế hoạt động yếu tố tác động đến lưu lượng mạng Nghiên cứu mơ hình thuật tốn học máy hỗ trợ việc phân nhóm trạm BTS theo lưu lượng Nghiên cứu công cụ ngôn ngữ hỗ trợ việc khai phá liệu (như Google Colab, Python), từ cài đặt sử dụng cho đề tài Đối tượng phạm vi nghiên cứu Đối tượng nghiên cứu: hệ hỗ trợ định, thuật toán máy học(Machine learning): Cây định, rừng ngẫu nhiên… khai phá liệu Phạm vi nghiên cứu: Ứng dụng thuật tốn máy học để phân nhóm trạm BTS theo lưu lượng Các biểu mẫu, số liệu liên quan đến việc phân nhóm trạm BTS: Total traffic, Call setup Success rate Mẫu liệu danh sách lưu lượng trạm BTS mạng Vinaphone khu vực tỉnh Tây Ninh Phương pháp nghiên cứu Đề tài sử dụng phương pháp nghiên cứu lý thuyết kết hợp với xây dựng ứng dụng thực nghiệm: - Phương pháp nghiên cứu lý thuyết: Tìm hiểu, phân tích, tổng hợp tài liệu hệ hỗ trợ định, khai phá liệu đề xuất cải tiến số thuật toán máy học nhằm đạt mục tiêu nghiên cứu Thu thập, tìm hiểu, nghiên cứu tài liệu; số liệu mạng di động Vinaphone khu vực tỉnh Tây Ninh - Phương pháp nghiên cứu thực nghiệm: Phân tích yêu cầu thực tế công việc, áp dụng lý thuyết, thuật toán liên quan để xây dựng hệ hỗ trợ định; Xây dựng liệu mẫu dùng để kiểm tra, thử nghiệm chương trình đưa đánh giá kết Cấu trúc luận văn Ngoài phần mở đầu, mục lục, kết luận kiến nghị, danh mục hình vẽ, danh mục bảng biểu, tài liệu tham khảo, phụ lục, phần luận văn gồm chương sau: Chương 1: TỔNG QUAN LƯU LƯỢNG MẠNG DI ĐỘNG CÁC TRẠM BTS Chương 2: CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN Chương 3: ĐÁNH GIÁ ĐỀ XUẤT VÀ TRIỂN KHAI ỨNG DỤNG Chương 4: THỰC NGHIỆM TRÊN MÔI TRƯỜNG GOOGLE COLAB VÀ ĐÁNH GIÁ KẾT QUẢ Tóm tắt luận văn CHƯƠNG TỔNG QUAN VỀ LƯU LƯỢNG MẠNG DI ĐỘNG CÁC TRẠM BTS 1.1 Giới thiệu mơ hình tổng qt Hình 1.1: Cấu tạo trạm BTS Trạm thu phát gốc (BTS) thiết bị hỗ trợ giao tiếp không dây thiết bị người dùng (UE) mạng UE thiết bị điện thoại di động (thiết bị cầm tay), điện thoại WLL, máy tính có kết nối Internet khơng dây Mạng mạng công nghệ truyền thông không dây GSM, CDMA, vịng lặp cục khơng dây, Wi-Fi, WiMAX cơng nghệ mạng diện rộng (WAN) khác BTS cịn gọi nút B (trong mạng 3G) hay đơn giản trạm gốc (BS) Để thảo luận tiêu chuẩn LTE, chữ viết tắt eNB cho nút phát triển B sử dụng rộng rãi GNodeB cho 5G Mặc dù thuật ngữ BTS áp dụng cho tiêu chuẩn truyền thông không dây nào, thường kết hợp với cơng nghệ thông tin di động GSM CDMA Về vấn đề này, BTS phần phát triển hệ thống trạm gốc (BSS) để quản lý hệ thống Nó có thiết bị để mã hóa giải mã thơng tin liên lạc, công cụ lọc phổ (bộ lọc băng thông), v.v Anten coi thành phần BTS theo nghĩa chung chúng tạo điều kiện thuận lợi cho hoạt động BTS Thông thường, trạm BTS có số thu phát (TRX) cho phép phục vụ số tần số khác cung khác tế bào (trong trường hợp trạm gốc phân chia) Một BTS điều khiển điều khiển trạm gốc thông qua chức điều khiển trạm gốc (BCF) BCF thực đơn vị rời rạc chí kết hợp TRX trạm gốc nhỏ gọn BCF cung cấp kết nối vận hành bảo trì (O&M) với hệ thống quản lý mạng (NMS), đồng thời quản lý trạng thái hoạt động TRX, xử lý phần mềm thu thập cảnh báo Cấu trúc chức trạm BTS giữ nguyên công nghệ không dây Một trạm BTS bao gồm: Một trạm thu phát (TRX) có nhiệm vụ truyền nhận tín hiệu, gửi nhận tín hiệu từ phần tử mạng cao hơn; Một tổ hợp kết hợp nguồn cấp liệu từ số trạm thu phát để gửi thông qua ăng-ten làm giảm số lượng ăng-ten cần cài đặt; Một khuếch đại công suất giúp khuếch đại tín hiệu từ trạm thu phát để truyền thông tin qua ăng-ten; Một song công sử dụng để tách việc gửi nhận tín hiệu từ ăng-ten từ ăng-ten phần bên BTS 1.2 Cơ chế vận hành mạng Các thiết bị di động người dùng truy cập Internet đưa yêu cầu đến trạm thu phát sóng di động(BTS) Sau trạm BTS tập trung thiết bị RNC vào mạng Core VNPT IntraNet Từ người quản lý thống kê lưu lượng trạm BTS qua mạng Intranet để thống kê lưu lượng hàng ngày trạm thu phát gốc 1.3 Tổng quan lưu lượng mạng 1.3.1 Giới thiệu lưu lượng mạng Lưu lượng mạng di động mạng di động mạng truyền thơng liên kết đến từ nút cuối không dây Mạng phân phối vùng đất gọi cell (tạm dịch tế bào), vùng phục vụ thu phát vị trí cố định (thường ba điểm di động trạm thu phát sở) Các trạm gốc cung cấp cho tế bào phạm vi phủ sóng mạng sử dụng để truyền thoại, liệu loại nội dung khác Một tế bào thường sử dụng tập hợp tần số khác với lưu lượng lân cận, để tránh nhiễu cung cấp chất lượng dịch vụ đảm bảo lưu lượng Khi kết hợp với nhau, tế bào cung cấp vùng phủ sóng vơ tuyến khu vực địa lý rộng Điều cho phép nhiều thu phát di động (ví dụ: điện thoại di động, máy tính bảng máy tính xách tay trang bị modem băng thông rộng di động, máy nhắn tin, v.v.) giao tiếp với với thu phát điện thoại cố định đâu mạng, thông qua trạm gốc, số máy thu phát di chuyển qua nhiều tế bào q trình truyền Vùng phủ sóng lớn so với máy phát mặt đất, tháp di động bổ sung thêm vào vô thời hạn không bị giới hạn đường chân trời 1.3.2 Lịch sử mạng di động Mạng di động thương mại đầu tiên, hệ 1G, Nippon Telegraph and Telephone (NTT) mắt Nhật Bản vào năm 1979, ban đầu khu vực thủ Tokyo Trong vịng năm, mạng NTT mở rộng đến toàn dân số Nhật Bản trở thành mạng 1G tồn quốc Đó mạng không dây tương tự Hệ thống Bell phát triển công nghệ di động từ năm 1947 có mạng di động hoạt động Chicago Dallas trước năm 1979, dịch vụ thương mại bị trì hỗn tan rã Hệ thống Bell, với tài sản di động chuyển giao cho Công ty điều hành Bell khu vực Cuộc cách mạng không dây bắt đầu vào đầu năm 1990, dẫn đến chuyển đổi từ mạng tương tự sang kỹ thuật số Điều kích hoạt tiến công nghệ MOSFET MOSFET, ban đầu phát minh Mohamed M Atalla Dawon Kahng Bell Labs vào năm 1959, điều chỉnh cho mạng di động vào đầu năm 1990, với việc áp dụng rộng rãi MOSFET công suất, LDMOS (bộ khuếch đại RF), Thiết bị RF CMOS (mạch RF) dẫn đến phát triển phổ biến mạng di động không dây kỹ thuật số Mạng di động kỹ thuật số thương mại đầu tiên, hệ 2G, mắt vào năm 1991 Điều gây cạnh tranh lĩnh vực nhà khai thác thách thức nhà khai thác mạng tương tự 1G đương nhiệm 1.3.3 Các yếu tố ảnh hưởng đến lưu lượng mạng Có nhiều yếu tố gây ảnh hưởng đến lưu lượng mạng trình sử dụng Một số yếu tố tránh phải có biện pháp để cố gắng giảm thiểu ảnh hưởng tiêu cực mà chúng tác động lên hiệu suất mạng, nhiên số yếu tố khác khắc phục hồn tồn qua việc nâng cấp thiết bị hay quy hoạch mạng lưới tốt 1.4 Khảo sát hệ thống nguồn số liệu Trước phân tích, thiết kế xây dựng hệ thống trợ giúp định, cần chuẩn bị hạ tầng kĩ thuật tư liệu cho hệ thống: Hình 1.2: Thống kê lưu lượng theo ngày Hình 1.3: Thống kê lưu lượng theo 1.4.1 Chuẩn bị liệu Trong giai đoạn chuẩn bị liệu cần phân tích, thiết kế xây dựng sở liệu Cell trạm Cơ sở liệu xem sở liệu lưu lượng Trong thời gian đầu, sở liệu lưu lượng Cell có ý nghĩa toán thống kê, chưa thực giúp cho người quản lý phân nhóm theo trạm theo lưu lượng 1.4.2 Nhu cầu định Trên hệ thống thông tin với sở liệu lưu lượng giai đoạn tạo nên, người quản lý cần định đầu tư thêm trạm hay tối ưu lưu lượng Việc định công tác nhà quản lý tối ưu trạm Hệ thống trợ giúp định cho phép thực trợ giúp người quản lý định Các trợ giúp có ý nghĩa nhà quản lí đưa định cuối Trong trường hợp này, phần mềm máy tính cơng cụ giúp cho người định quản lí 1.5 Kết luận chương Chương trình bày tổng quan vấn đề nghiên cứu lưu lượng mạng di động yếu tố gây ảnh hưởng đến lưu lượng chất lượng dịch vụ mạng di động Dựa vào chế vận hành mạng, liệu lưu lượng từ nhà mạng Việt Nam thu thập để thực mục tiêu mà luận văn đề 11 SSE = ∑𝑁 ̂(𝑡))2 𝑡=1(𝑦(𝑡 ) − 𝑦 (2.6) Logloss Đây hàm mát sử dụng hồi quy logistic (đa thức) phần mở rộng nó, chẳng hạn mạng nơ-ron, định nghĩa khả log âm mơ hình logistic trả xác suất y_pred cho liệu huấn luyện y_true Mất nhật ký xác định cho hai nhiều nhãn Đối với mẫu đơn có nhãn y ∈ {0,1} ước lượng xác suất p = Pr(y = 1), cơng thức logloss là: (2.7) 2.3 Cơng trình liên quan - Merima Kulin, Tarik Kazaz, Eli De Poorter, Ingrid Moerman, "A Survey on Machine Learning-Based Performance Improvement of Wireless Networks: PHY, MAC and Network Layer," 29 January 2021 - Fengli Xu, Yong Li, Senior Member, IEEE, Huandong Wang, Pengyu Zhang, and Depeng Jin, Member, IEEE, "Understanding Mobile Traffic Patterns of Large Scale Cellular Towers in Urban Environment," 2016 - Hoang Duy Trinh, Angel Fernandez Gambiny, Lorenza Giupponi, Michele Rossiy and Paolo Dini, "Mobile Traffic Classification through Physical Control Channel Fingerprinting: a Deep Learning Approach," 2020 - Sébastien Dujardin, Damien Jacques, Jessica Steele and Catherine Linard, "Mobile Phone Data for Urban Climate Change Adaptation: Reviewing Applications, Opportunities and Key Challenges," 11 December 2020 - P Muñoz, R Barco, E Cruz, A Gómez-Andrades, E J Khatib1 and N Faour, "A method for identifying faulty cells using a classification tree-based UE diagnosis in LTE," 2017 - Hoang Duy Trinh, Nicola Bui, Joerg Widmer, Lorenza Giupponi, Paolo Dini, "Analysis and Modeling of Mobile Traffic Using Real Traces," 2017 12 - Leo Tisljaric, Dominik Cvetek, Martin Gregurić, Zuzanna Kurowska, "Classification of Travel Modes from Cellular Network Data Using Machine Learning Algorithms," October 2021 - Yan Sun, Chengxi Liu, and Chen Zhang, "Mobile Technology and Studies on Transport Behavior: Literature Analysis, Integrated Research Model, and Future Research Agenda," 25 October 2021 - Hoang Duy Trinh, Lorenza Giupponi and Paolo Dini, "Urban Anomaly Detection by processing Mobile Traffic Traces with LSTM Neural Networks," 2019 - Dehai Zhang, Linan Liu, Cheng Xie, Bing Yang and Qing Liu, "Citywide Cellular Traffic Prediction Based on a Hybrid Spatiotemporal Network," January 2020 - Shuai Zhao, Xiaopeng Jiang, Guy Jacobson, Rittwik Jana, Wen-Ling Hsu, Raif Rustamov, Manoop Talasila, Syed Anwar Aftab, Yi Chen, Cristian Borcea, "Cellular Network Traffic Prediction Incorporating Handover: A Graph Convolutional Approach," in 2020 17th Annual IEEE International Conference on Sensing, Communication, and Networking (SECON), 2020 - Razan M AlZoman, Mohammed J F Alenazi , "A Comparative Study of Traffic Classification Techniques for Smart City Networks," 08 July 2020 - Yi Zhao, Jianbo Li, Xin Miao, Xuan Ding, "Urban Crowd Flow Forecasting Based on Cellular Network," 19 May 2019 - QINGTIAN ZENG, QIANG SUN, GENG CHEN, HUA DUAN, CHAO LI, AND GE SONG, "Traffic Prediction of Wireless Cellular Networks Based on Deep Transfer Learning and Cross-Domain Data," 18 Sep 2020 - Amin Azari, Fateme Salehi, Panagiotis Papapetrouy, Cicek Cavdar, "Energy and Resource Efficiency by User Traffic Prediction and Classification in Cellular Networks," 02 Nov 2021 - Carolina Gijón, Matías Toril, Marta Solera, Salvador Luna-Ramírez, Luis Roberto Jiménez, "Encrypted Traffic Classification Based on Unsupervised Learning in Cellular Radio Access Networks," vol 8, 09 Sep 2020 13 - Amin Azari, Panagiotis Papapetrou, Stojan Denic, and Gunnar Peters, "Cellular Traffic Prediction and Classification: a comparative evaluation of LSTM and ARIMA," 03 Jun 2019 14 CHƯƠNG ĐÁNH GIÁ ĐỀ XUẤT VÀ TRIỂN KHAI ỨNG DỤNG 3.1 Mô hình nghiên cứu Luận văn sử dụng mơ hình Decision Forest (DF), mơ hình từ tảng mã nguồn mở dành cho việc xây dựng mơ hình học máy – Tensorflow DF gồm tập hợp thuật toán ML giải toán phân lớp có giám sát (supervised classification), hồi quy (regression) xếp hạng (ranking) Các thuật toán sử dụng phổ biến tập hợp DF Random Forests (RF) Gradient Boosted Decision Trees Hai thuật toán thuật toán kết hợp sử dụng nhiều “cây định” (decision trees), nhiên thuật tốn có kĩ thuật thực riêng Các bước xây dựng đề xuất mơ hình phân nhóm trạm BTS dựa lưu lượng gồm: - Bước 1: Thu thập, xử lý làm liệu lưu lượng mạng di động - Bước 2: Phân loại nhãn đại diện cho bốn trạm A, B, C, D dựa trường thơng tin lưu lượng tải lên Traffic_Volume_UL_GB sau tiến hành tách liệu thành tập training testing với tỉ lệ 70%, 30% tương ứng - Bước 3: Áp dụng thuật toán Random Forest, Gradient Boosted Decision Trees vào mơ hình - Bước 4: Tiến hành chạy mơ hình nhiều lần với hai thuật tốn, sau so sánh đánh giá kết dựa độ đo đánh giá hiệu mơ độ xác, độ mát Hình 3.1: Các bước thực nghiệm 15 3.2 Thuật toán RandomForest Gradient Boosted Decision Trees 3.2.1 Random Forest (RF) RF [9] thuật tốn học có giám sát, thường sử dụng cho toán phân lớp (classfication) hồi quy (regression) đồng thời sử dụng để dự đốn cho mơ hình kỹ thuật học máy, hay nói cách khác, RF tập hợp thuật tốn Decision Tree (DF) Nó phần mở rộng tập hợp bootstrap (đóng gói - bagging) định sử dụng cho toán phân loại hồi quy Trong bagging, số định tạo tạo từ mẫu bootstrap khác tập liệu huấn luyện Mẫu bootstrap mẫu tập liệu đào tạo mẫu xuất nhiều lần mẫu, gọi lấy mẫu có thay 3.2.2 Gradient Boosted Decision Trees (GBDT) [14] Cây định tăng cường độ dốc kỹ thuật máy học để tối ưu hóa giá trị dự đốn mơ hình thơng qua bước liên tiếp trình học tập Mỗi lần lặp lại định liên quan đến việc điều chỉnh giá trị hệ số, trọng số độ lệch áp dụng cho biến đầu vào sử dụng để dự đoán giá trị mục tiêu, với mục tiêu giảm thiểu hàm mát (thước đo chênh lệch giá trị dự đoán giá trị mục tiêu thực tế) Gradient điều chỉnh gia tăng thực bước quy trình; boost phương pháp đẩy nhanh việc cải thiện độ xác dự đoán đến giá trị đủ tối ưu Giống phương pháp thúc đẩy khác, tăng cường độ dốc kết hợp "người học" yếu thành người học mạnh theo kiểu lặp lặp lại Điều dễ giải thích cài đặt hồi quy bình phương nhỏ nhất, mục tiêu "dạy" mơ hình F để dự đốn giá trị biểu mẫu 𝑦̂ = 𝐹(𝑥) cách giảm thiểu sai số bình phương trung bình ∑(𝑦̂𝑖 − 𝑦𝑖 )2 i lập mục số 𝑛 tập hợp kích thước đào tạo n giá trị thực biến đầu y 𝑦̂: 𝑖 giá trị dự đoán 𝐹(𝑥) 𝑦𝑖 : giá trị quan sát n: số lượng mẫu y 16 3.3 Kết luận chương Chương đề xuất bước xây dựng mơ hình Decision Forest bước nghiên cứu đề tài Trong đó, thuật tốn sử dụng cho đề tài gồm có Random Forest Gradient Boosted Decision Tree Trong chương tiếp theo, luận văn trình bày trình xây dựng mơ hình thực nghiệm mơi trường Google Colaboratory với liệu lấy từ nhà mạng Việt Nam 17 CHƯƠNG THỰC NGHIỆM TRÊN MÔI TRƯỜNG GOOGLE COLAB VÀ ĐÁNH GIÁ KẾT QUẢ 4.1 Cài đặt môi trường Môi trường thực nghiệm sử dụng Google Colab thư viện hỗ trợ thuật tốn học máy Tensorflow Ngồi số thư viện hỗ trợ tính tốn khác python liệt kê sau: Pandas, Numpy 4.2 Dữ liệu thực nghiệm 4.2.1 Giới thiệu liệu Bộ liệu lưu lượng mạng có tổng cộng 24 trường 1000 dòng dùng thực nghiệm để đánh giá hiệu mơ hình sử dụng thuật tốn Random Forest Trong đó, trường liệu liên quan đến lưu lượng Traffic_Volume_UL_GB, Traffic_Volumn_DL_GB,… sử dụng để đánh trọng số lấy nhãn phục vụ cho mô hình Thơng tin liệu rút gọn số trường mô tả chi tiết bảng 4.1 Bảng 4.1: Tập liệu lưu lượng mạng TT Tên viết tắt Tên gốc Ý nghĩa IRHS Inter_RAT_HO_SR Tỉ lệ chuyển giao sang mạng di động khác thành công HSRP Handover_Success_Rate_ via_Per Tỉ lệ chuyển giao di động thành công UDATK User_Downlink_Average_ Throughput_Kbps Thông lượng trung bình đường xuống người dùng Kbps TVU Traffic_Volume_UL_GB Lưu lượng đường lên(GB) TVD Traffic_Volumn_DL_GB Lưu lượng đường xuống(GB) CellUpMax Cell_PDCP_Uplink_Max_ Throughput Thông lượng tối đa đường lên Cell_PDCP 18 EUTRAN EUTRAN_Initial_Context _Setup_Success_Ratio_bei ng_Subject_for_CS_Fallb ack_Per EUTRAN Thiết lập ban đầu Tỷ lệ thành công Đối tượng cho CS Dự phòng CellDownAvg Cell_PDCP_Downlink_A verage_Throughput Thơng lượng trung bình đường xuống cell PDCP IRHPSR Inter_RAT_HO_Preparati on_Success_Ratio Tỷ lệ chuyển giao Fallback mạng 2G/3G thành công 10 IRTHS Inter_RAT_Total_HO_SR Tỉ lệ gọi chuyển giao sang công công nghệ vô tuyến từ eNodeB(4G) sang 3G thành công 11 IeHS Intra_eNB_HO_SR_total Tỉ lệ gọi chuyển giao 4G thành công 12 UUAT User_Uplink_Average_Th roughput_Kbps Thơng lượng trung bình đường lên PDCP tế bào 13 CellUpAvg Cell_PDCP_Uplink Average_Throughput Thơng lượng trung bình đường lên Cell PDCP 14 IRHL Inter_RAT_HOSR_LTE_t o_WCDMA_Per Tỉ lệ gọi chuyển giao sang công công nghệ vô tuyến từ eNodeB(4G) sang 3G thành công 15 TDTV Total_Data_Traffic_Volu me_GB Tổng khối lượng lưu lượng liệu GB 16 Downlink Latency Downlink_Latency Độ trễ đường xuống 17 CellDownMax Cell_PDCP_Downlink_M ax_Throughput Thông lượng tối đa đường xuống Cell PDCP 4.2.2 Xử lý liệu Bộ liệu trước đưa vào mơ hình để huấn luyện cần trải bước làm liệu, bao gồm việc rút trích chọn trường liệu cần thiết, 19 thay ô liệu rỗng có giá trị gây nhiễu Đối với mơ hình học máy khác, việc chuẩn hóa liệu hỗ trợ cho trình huấn luyện mang lại kết tốt khả quan hơn, nhiên việc chuẩn hóa liệu khơng u cầu mơ hình sử dụng thuật tốn Random Forest Dữ liệu sau q trình xử lí giảm trường liệu giữ lại trường liên quan đến đề tài nghiên cứu Thơng tin tóm tắt bộ liệu mô tả bảng sau: Bảng 4.2: Thơng tin tóm tắt liệu mean std IRATHO_SR 87.92 30.85 HSRate_via_Per 98.50 8.65 UDAT_Kbps 30821 87 8696.75 TraVol_UL_GB 2.24 2.90 TraVol_DL_GB 26.08 26.90 CMax_Throughput 31922 03 18243.68 EUTRAN 99.20 8.91 CDown_Avg_Throug hput 20.43 4.61 IRHPS_Ratio 88.61 30.77 IRTHS 87.15 IeHS_total 25% 0.0 97.9 0.0 99.3 0.0 2553 5.90 0.0 50% 31321 61 75% 100 00 99.9 3645 4.98 0.71 1.42 2.68 99.82 99.79 100.00 100.00 64943 29 38.01 0.0 0.0 0.0 0.0 0.0 9.86 18.74 1629 8.50 100 00 17.5 99.3 31392 50 30.82 0.0 96.4 99.35 100 00 100.00 96.68 17.37 0.0 99.9 100.00 100 00 100.00 UUAT_Kbps 2414.8 945.76 0.0 1718 90 2392.8 3067 18 10840 40 CUp_Avg_Throughp ut 2.05 0.88 0.0 1.41 2.00 2.62 9.43 IRHL_toWPer 87.92 30.85 0.0 97.9 99.82 100 00 100.00 TDTV_GB 28.32 29.58 0.0 10.5 20.19 34.6 284.76 Downlink_Latency 21.18 12.00 0.0 15.7 18.61 23.0 169.26 100.00 20.47 100.00 31.8 4658 3.75 100 00 23.2 100 00 max 246.75 69771 00 100.00 39.62 100.00 20 CPDMax_Throughpu t 97.44 27.50 0.0 81.2 97.52 113 84 195.32 IFHPer 99.20 4.81 0.0 99.4 99.81 99.9 100.00 SD_all_Service 0.18 0.43 0.0 0.07 0.12 0.19 10.16 eSSRas_Per 99.80 3.19 0.0 99.9 99.96 99.9 100.00 RCESR_All_Service 99.83 3.16 0.0 99.9 99.98 100 00 100.02 CSSRC_Per 99.73 3.19 0.0 99.8 99.93 99.9 100.00 INTRA_HOSR_ATT 497.96 731.72 0.0 112 00 286.50 571 25 9784.0 RBURD_Per 6.75 8.80 0.0 2.47 4.30 7.54 79.61 Dựa thơng tin tóm tắt liệu từ bảng 4.2, tiến hành chọn trường liệu quan trọng liên quan để đánh nhãn, sau xây dựng, phân tích đánh giá hiệu mơ hình sử dụng 4.3 Kết thực nghiệm 4.3.1 Xây dựng tập train test cho mơ hình Trước xây dựng tập liệu train test, mô hình cần phải chọn nhãn phù hợp để huấn luyện mơ hình Nhãn sử dụng cho mơ hình cần phải qua bước chuyển đổi kiểu liệu kiểu số ngun cho phù hợp với mơ hình Dữ liệu thực nghiệm gồm 24 đặc trưng chia thành hai tập liệu huấn luyện (training data), liệu thử nghiệm (testing data), liệu huấn luyện chiếm 70% lại liệu thử nghiệm 4.3.2 Xây dựng mơ hình đánh giá Bài toán phân loại trạm BTS dựa lưu lượng mô tả sau: Dữ liệu đầu vào tập liệu huấn luyện mơ hình, có 70% từ tập liệu gốc (701 dòng liệu) với 24 đặc trưng khác Trong 24 loại đặc trưng, khơng có đặc trưng đầu vào định Do đó, tất cột sử dụng làm đặc điểm đầu vào ngoại trừ nhãn Đặc trưng sử dụng mơ hình hiển 21 thị lịch sử huấn luyện (training logs) tóm tắt mơ hình (model.summary) Mơ hình DF sử dụng đặc trưng dạng số, đặc trưng phân loại nguyên giá trị bị thiếu (missing-values) Các đặc trưng số khơng cần phải chuẩn hóa Các giá trị chuỗi phân loại khơng cần mã hóa Tính hiệu mơ hình đánh giá dựa độ xác (accuracy) độ mát (loss) Đối với accuracy, mơ hình có hiệu tốt giá trị gần ngược lại giá trị gần khả dự đốn mơ hình chưa tốt Tương tự vậy, độ mát mơ hình đại diện cho dự đốn chuẩn xác mơ hình, dự đốn xác giá trị gần ngược lại Với số lượng thay đổi K = {1, 51, 151, 201, 251, 300} độ xác độ mát lấy trung bình qua lần chạy, kết liệt kê sau: Bảng 4.3: Kết chạy mơ hình với thuật tốn RF STT Số Độ xác (Accuracy) Độ mát (Loss) 1 0.94 0.320204 51 0.974212 0.146839 101 0.977077 0.105082 151 0.97851 0.101884 201 0.97851 0.10259 251 0.984241 0.101035 300 0.979943 0.09969 Dựa vào bảng 4.3, ta thấy qua lần thay đổi số lượng cây, mơ hình RF cho kết với độ xác cao lần thực nghiệm đầu tiên, đạt 94% thứ tăng thêm 3% (đạt 97%) thứ 300 Tương tự vậy, độ mát mơ hình có cải thiện đáng kể, giảm 2.2% từ 3.2% định 0.9% cuối 22 Accuracy 0.99 0.98 0.97 0.96 0.95 0.94 0.93 0.92 0.91 Hình 4.1: Độ xác mơ hình RF lần thực nghiệm Hình 4.1 4.2 biểu diễn độ xác độ mát mơ hình Như hình vẽ biểu diễn, độ đo tăng dần theo lớp, gần tâm độ đo có giá trị thấp ngược lại Theo hình 4.1 mô tả, lần thực nghiệm đầu tiên, độ xác mơ hình đạt khoảng 94% tăng dần lần tiếp theo, đến lần cuối đạt gần 98% (97.99%) Loss 0.35 0.3 0.25 0.2 0.15 0.1 0.05 Hình 4.2: Độ mát mơ hình RF lần thực nghiệm Trong bảng 4.4, kết phân loại trạm hai mơ hình với tham đầu vào cố định Đối với mơ hình sử dụng thuật toán GBDT, tiến hành chọn lại đặc trưng có độ quan trọng cao đặc trưng cịn lại tham gia xây dựng mơ hình, đặc trưng CellUpMax, TVU, TDVT 23 Trong bảng 4.4 hình 4.3, ta thấy mơ hình RF cho kết dự đốn xác cao mơ hình GBDT hầu hết lần thay đổi số lượng Gần tất lần thực nghiệm, độ xác mơ hình RF giữ ổn định mức trung bình khoảng 94%, sau tăng dần định Ở lần thực nghiệm thứ tư, mơ hình GBDT đạt độ xác đáng kể khoảng 88%, nhiên sau độ xác có xu hướng giảm dần đến định cuối khoảng 72% Bảng 4.4: So sánh độ xác hai thuật tốn STT Thuật toán 51 101 151 201 251 300 RF 0.9855 0.9841 0.9826 0.9841 0.9855 0.9768 0.9918 GBDT 0.8333 0.8182 0.7879 0.8030 0.8182 0.8030 0.8030 RF 0.9262 0.9826 0.9897 0.9916 0.9922 0.993 0.9943 GBDT 0.7932 0.8135 0.8143 0.8208 0.8265 0.8417 0.8548 RF 0.9456 0.9521 0.955 0.9555 0.9731 0.9815 0.9852 GBDT 0.8521 0.8337 0.8282 0.819 0.8081 0.8057 0.803 RF 0.9927 0.9844 0.9717 0.9711 0.9709 0.9567 0.9514 GBDT 0.8849 0.8647 0.8061 0.8056 0.7589 0.7533 0.7246 RF 0.9059 0.9061 0.9272 0.9651 0.9751 0.9807 0.9888 GBDT 0.8339 0.8304 0.8289 0.8254 0.8163 0.812 0.8007 RF 0.9208 0.923 0.951 0.9573 0.9698 0.9753 0.9895 GBDT 0.839 0.8238 0.823 0.8198 0.7918 0.7786 0.7711 RF 0.9156 0.941 0.9473 0.953 0.9711 0.9837 0.9916 GBDT 0.8635 0.8375 0.8267 0.7969 0.7952 0.7837 0.7761 K Độ xác thuật toán 1.2 0.8 0.6 0.4 0.2 51 101 151 RF 201 251 300 GBDT Hình 4.3: So sánh độ xác hai thuật tốn lần chạy thứ 24 4.4 Kết luận chương Chương luận văn trình bày mơ hình thực nghiệm TF-DF, liệu thực nghiệm trình xử lý áp dụng liệu vào mơ hình thực đánh giá Việc thực nghiệm liệu cho thấy kết mơ hình đạt độ xác cao, bên cạnh đó, độ đo mát cho thấy cải thiện đáng kể qua định mơ hình 25 KẾT LUẬN Trong khuôn khổ luận văn, sở lý thuyết học máy số thuật toán áp dụng giải lựa chọn thuộc tính tìm hiểu Chúng tơi tập trung nghiên cứu mơ hình Tensorflow-Decision Forest thuật tốn Random Forest Từ tìm hiểu này đề xuất hướng cải tiến cách đánh nhãn cho đặc trưng nhằm tăng hiệu thuật toán phân loại đặc biệt với liệu có số chiều cao Để chứng minh tính hiệu mơ hình cải tiến, thực nghiệm tiến hành liệu lưu lượng mạng Từ kết thực nghiệm đạt liệu lưu lượng mạng thấy độ xác mơ hình Decision Forest sử dụng thuật tốn Random Forest đạt hiệu cao Qua đó, đóng góp thêm chọn lựa cho nhà phát triển ứng dụng phát triển ứng dụng liên quan đến phân loại liệu Với đóng góp luận văn này, chúng tơi hi vọng góp phần giải phần nhỏ liên quan đến toán khai phá liệu nói chung tốn phân loại liệu nói riêng Tơi hi vọng từ đóng góp xây dựng lên hệ thống đánh giá dự đoán áp dụng cách thiết thực vào đời sống xã hội