59 DỰ ĐOÁN KHỐI LƯỢNG LÀM VIỆC CỦA MỘT MẠNG LƯ I CÁC THIẾT BỊ Trịnh Hoàng Lương, Huỳnh Đức Thắng, Nguyễn Thị Kiều Anh, Ngô Trần Ngọc Sơn Khoa Công nghệ Thông tin, Trường Đại học Công nghệ TP Hồ Chí Mi[.]
DỰ ĐOÁN KHỐI LƯỢNG LÀM VIỆC CỦA MỘT MẠNG LƯ I CÁC THIẾT BỊ Trịnh Hoàng Lương, Huỳnh Đức Thắng, Nguyễn Thị Kiều Anh, Ngô Trần Ngọc Sơn Khoa Công nghệ Thông tin, Trường Đại học Công nghệ TP Hồ Chí Minh GVHD: ThS Nguyễn Đơ P ươ TĨM TẮT Dự đoán tần suất làm việc máy chủ nhiệm vụ tương ứng từ dự liệu có sẵn Bộ liệu Cơng ty Phần mềm EMCA bao gồm tệp tin chứa thơng tin thời gian hoạt đơng, trung bình mức sử dụng máy chủ với nhiệm vụ tương ứng Xử lý liệu có sẵn thành tập huấn luyện tập kiểm thử sử dụng mạng nhớ dài-ngắn (LSTM) để học đặc điểm giá trị trung bình cho dự đoán 168 cho cặp máy chủ - nhiệm vụ tương ứng Từ khóa: Dự đốn, LSTM, học máy, tần suất hoạt động, thiết bị GI I THIỆU Ý ƯỞNG Hiện nay, nhiều công ty cung cấp máy chủ thực hoạt động với quy mơ lớn Các máy chủ hoạt động nhiệm vụ khác nhiệm vụ khoảng thời gian khác Việc phân bố khu vực khác với số lượng nhiều máy chủ khiến cho việc hoạt động không hiệu quả, có thời gian nhiều máy khơng làm máy khác lại hoạt động hết công suất Hậu đem đến tổn thương lớn cho phận phần cứng máy chủ Từ vấn đề trên, có tập đồn thành lập cung cấp dịch vụ thông báo mức độ làm việc máy chủ với độ bảo mật cao Nhưng họ có câu hỏi đặt liệu tin tưởng việc dự đoán mức độ làm việc máy chủ dựa liệu có sẵn từ trước NHỮNG CƠNG VIỆC LIÊN QUAN Năm 2016, nhóm nghiên cứu gồm Weishan Zhang; Bo Li; Dehai Zhao; Faming Gong Qinghua Lu cho báo dự đoán mức độ làm việc đám mây mạng thần kinh tái phát (RNN) Xiaoyong Tang (2019) cho độ xác việc nghiên cứu mạng nhớ dài-ngắn cải thiện để dự đoán tần suất làm việc hệ thống máy tính quy mơ lớn 86% Một hướng tiếp cận vấn đề khác quy hoạch tuyến tính Mina Niknafs, Ivan Ukhov, Petru Eles Zebo Peng (2019) việc quản lý thời gian hoạt động nguồn với độ xác cho lần dự đoán khoảng 80 – 95% 59 GI I THIỆU KỸ THUẬT 3.1 Mạng thần kinh tái phát (Recurrent Neural Network – RNN [1]) Mơ hình RNN sử dụng cho liệu dạng chuỗi với ý tưởng sử dụng nhớ để lưu lại thơng tin từ bước tính tốn xử lý trước để dựa vào đưa dự đốn xác cho bước dự đốn Hình 1: Mơ hình RNN: Many to one 3.2 Mạng nhớ dài-ngắn (Long short-term memory – LSTM[2]) LSTM có chế hoạt động dựa RNN có số thay đổi khối LSTM có cổng, trì trạng thái nhớ áp dụng phi tuyến (sigmoid) trước vào cổng Hình 2: Mơ hình LSTM 3.3 Tối ưu hóa Adam (Adam optimization[3]) Adam thuật tốn tối ưu sử dụng để thay đạo hàm hội tụ (Gradient descent) để cập nhật trọng số lặp lặp lại dựa vào liệu học (training data) Đạo hàm hội tụ sử dụng tần suất học (learning rate) cho lần cập nhật trọng số Trong đó, thuật tốn tối ưu Adam cải thiện tần suất học cho trọng số thay đổi suốt trình học 60 Hình 3: Biểu đồ so sánh tốc độ hội tụ thuật tốn tối ưu Có thể thấy, năm thuật tốn tối ưu có lẽ thuật toán tối ưu Adam lựa chọn tốt cho tốn 3.4 Sai số tồn phương trung bình (Mean square error – MSE[4]) MSE hàm sai số sử dụng phổ biến cho toán hồi quy Nó xác định trung bình độ lệch toàn giá trị thật giá trị dự đốn, viết dạng cơng thức: ˆ L(y,y) N (y yˆ i )2 N i 0 đó: y giá trị thực tế, ̂ giá trị dự đoán, y - ̂ sai số giá trị thực tế so với dự đốn, ̂) tổng trung bình sai số giá trị thực tế so với dự đoán QUÁ TRÌNH THỰC HIỆN 4.1 Dữ liệu đầu vào Đầu vào tốn liệu đặc tính công việc chia thực 1000 máy chủ, có 1000 liệu Mỗi liệu có khoảng 1900 dịng (mỗi dịng tương ứng với giờ) với hiệu suất sử dụng trung bình máy chủ 61 Hình 4: Một đoạn liệu ví dụ Trong host tên máy chủ Series đặc tính cơng việc mà máy chủ phải thực hiện, cịn Mean khối lượng cơng việc trung bình máy chủ thực 4.2 Đặt vấn đề Mạng LSTM tốt thực dự đoán vài giá trị tiếp theo, dự đoán nhiều giá trị sai số tuyến tính ngày lớn Để dự đoán 168 cần khắc phục nhược điểm 4.3 Giải vấn đề Với liệu 1900 dòng, 168 (1 tuần) cuối liệu vào tách riêng để làm liêu thực tế (Y_test) dùng để so sánh với liệu dự đoán Số dùng để dự đoán 30 giờ, việc sử dụng nhiều tăng thời gian học lên nhiều, sai số lại cải thiện nên ta chọn 30 để dự đoán 1732 dòng liệu X_train, 30 liên tục có nhãn thứ 31 (Y_train) Sau đưa vào LSTM để học mơ hình Ta thấy khối lượng cơng việc phải thực máy chủ lặp lại có thay đổi định nên ta dùng phần liệu thật để dự đoán tránh tình trạng sai số ngày tăng dự đoán sau Bắt đầu từ dự đoán thứ trở dự đoán 30 với cuối trung bình tất ngày hơm cộng với vừa dự đốn trước chia đơi Để dự đoán 168 tương lai, dự đoán 30 cuối tuần X_test lưu lại dùng để dự đoán Giờ dự đốn 29 trước thứ 30 tính nêu trên, đạt đủ 168 dự đoán 62 KẾT QUẢ Sau thực học dự đốn cách học 1000 mơ hình khác nhau, sai số nhận thấp Hình 5.1 thể 10 sai số thấp tổng số cặp dự đốn Hình 5.1: Sai số giá trị dự đoán so với thực tế Sai số (Loss) tính cơng thức MSE Hình 5.2 biểu diễn đường giá trị dự đoán so với thực tế 168 host0446 với đặc tính cơng việc cpu_1m cho thấy rõ việc mơ hình dự đoán bám sát với xu hướng thực tế host0446 - cpu_1m 15 22 29 36 43 50 57 64 71 78 85 92 99 106 113 120 127 134 141 148 155 162 35 30 25 20 15 10 Dự đốn Thực tế Hình 5.2: Đường biểu diễn giá trị dự đoán so với thực tế KẾT LUẬN VÀ Ư NG PHÁT TRIỂN Mơ hình dự đốn xác, có nhược điểm nhiều thời gian để huấn luyện Chính nên gặp lượng liệu lớn Big Data cần nhiều thời gian Vậy nên để mở rộng mơ hình sang ứng dụng lĩnh vực Big Data, ta cần phải tìm cách giảm thời gian cần để huấn luyện phải giữ độ xác mơ hình thử cách đơn giản tiền xử lý liệu để giảm thời gian đọc liệu 63 TÀI LIỆU THAM KHẢO [1] Mikolov, T., Karafiát, M., Burget, L., Černocký, J., & Khudanpur, S (2010) Recurrent neural network based language model In Eleventh annual conference of the international speech communication association [2] Hochreiter, S., & Schmidhuber, J (1997) Long short-term memory Neural computation, 9(8), 1735-1780 [3] Kingma, D P., & Ba, J (2014) Adam: A method for stochastic optimization arXiv preprint arXiv:1412.6980 [4] Ephraim, Y., & Malah, D (1984) Speech enhancement using a minimum-mean square error short-time spectral amplitude estimator IEEE Transactions on acoustics, speech, and signal processing, 32(6), 1109-1121 64 ... vừa dự đốn trước chia đơi Để dự đoán 168 tương lai, dự đoán 30 cuối tuần X_test lưu lại dùng để dự đoán Giờ dự đốn 29 trước thứ 30 tính nêu trên, đạt đủ 168 dự đoán 62 KẾT QUẢ Sau thực học dự. .. Ta thấy khối lượng cơng việc phải thực máy chủ lặp lại có thay đổi định nên ta dùng phần liệu thật để dự đốn tránh tình trạng sai số ngày tăng dự đoán sau Bắt đầu từ dự đoán thứ trở dự đoán 30... 4: Một đoạn liệu ví dụ Trong host tên máy chủ Series đặc tính cơng việc mà máy chủ phải thực hiện, cịn Mean khối lượng cơng việc trung bình máy chủ thực 4.2 Đặt vấn đề Mạng LSTM tốt thực dự đoán