Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 172 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
172
Dung lượng
10,55 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BÙI THANH KHIẾT GIẢI PHÁP NHẬN DẠNG VÀ XỬ LÝ LỖI TRONG HẠ TẦNG ĐIỆN TOÁN ĐÁM MÂY LUẬN ÁN TIẾN SĨ TP HỒ CHÍ MINH - NĂM 2022 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA BÙI THANH KHIẾT GIẢI PHÁP NHẬN DẠNG VÀ XỬ LÝ LỖI TRONG HẠ TẦNG ĐIỆN TỐN ĐÁM MÂY Chun ngành: Khoa học máy tính Mã số chuyên ngành: 62480101 Phản biện độc lập: Phản biện độc lập: Phản biện: PGS TS Huỳnh Trung Hiếu Phản biện: PGS TS Nguyễn Đình Thuân Phản biện: PGS TS Quản Thành Thơ NGƯỜI HƯỚNG DẪN: PGS.TS Trần Công Hùng PGS.TS Phạm Trần Vũ LỜI CAM ĐOAN Tơi xin cam đoan cơng trình nghiên cứu riêng Các kết viết chung với tác giả khác đồng ý đồng tác giả trước đưa vào luận án Các kết nêu luận án trung thực chưa cơng bố cơng trình khác Người cam đoan Bùi Thanh Khiết i TÓM TẮT LUẬN ÁN Dịch vụ hạ tầng Điện toán đám mây (ĐTĐM) mang lại tiện lợi thiết thực, giúp người dùng triển khai ứng dụng cách linh hoạt, đơn giản hóa q trình th, giải phóng tài ngun chi phí thuê tài nguyên tính dựa phân bổ lần sử dụng (sử-dụng-bao-nhiêu-trả-bấy-nhiêu) Tuy nhiên, lỗi dịch vụ hạ tầng ĐTĐM khó tránh khỏi quy mơ hệ thống mạng khổng lồ trung tâm liệu ĐTĐM với kiến trúc phức tạp gồm hàng ngàn máy chủ vật lý (Physical machine, viết tắt PM) với độ tin cậy khác Với tính mở, linh hoạt cấu trúc phức tạp ĐTĐM dẫn đến nhiều loại lỗi khác từ hệ thống sở hạ tầng, tảng đến ứng dụng Lỗi xảy tầng cụ thể ĐTĐM ảnh hưởng lên tầng Nếu lỗi xảy hệ điều hành tầng dịch vụ tảng dẫn đến ứng dụng dịch vụ phần mềm bị lỗi Trong lỗi xảy ổ cứng máy chủ vật lý, ảnh hưởng lên tầng dịch vụ sở hạ tầng tiếp tục dẫn đến lỗi xảy hệ điều hành tầng dịch vụ tảng tiếp tục ảnh hưởng đến lỗi xảy ứng dụng tầng dịch vụ phần mềm Có thể thấy rằng, lỗi dịch vụ hạ tầng đặc biệt phần cứng ảnh hưởng, gây thiệt hại lớn đến hệ thống Việc phát lỗi phần cứng điển hình phát triển kỹ thuật kháng lỗi tương ứng vấn đề cấp thiết Theo đó, ĐTĐM cần có khả nhận diện hành xử hợp lý để đảm bảo tính thông suốt, chất lượng dịch vụ, tránh mát liệu lỗi xảy Khả xem khả kháng lỗi (Fault Tolerance) hạ tầng ĐTĐM Có hai chiến lược kháng lỗi ĐTĐM gồm kháng lỗi thụ động kháng lỗi chủ động Kháng lỗi thụ động nhằm giảm bớt hậu lỗi gây trình hoạt động, thực thi ứng dụng, dịch vụ hệ thống Mơ hình dựa phản ứng lại có lỗi xảy phản ứng dựa dự báo Ảnh hưởng lỗi thường loại bỏ cách sử dụng hệ thống bảo trì Bên cạnh đó, chiến lược kháng lỗi chủ động nhằm giữ ứng dụng dịch vụ thực thi cách tránh lỗi tiềm ẩn thông qua biện pháp ngăn chặn Từ chủ động ii ngữ cảnh kháng lỗi định nghĩa khả hệ thống trạng thái chuẩn bị kiểm soát trước lỗi xảy Trạng thái hệ thống theo dõi liên tục khả xảy lỗi ước tính phương pháp thống kê, mơ hình tốn học Các hành động cần thiết sau thực để ngăn chặn lỗi xảy Mặc dù phương pháp kháng lỗi thụ động phổ biến giới nghiên cứu nay, nhiên, tiến vượt bậc học máy, trí tuệ nhân tạo, thiết bị ngày trở nên thông minh làm gia tăng phạm vi nghiên cứu khả kháng lỗi chủ động Các khung kháng lỗi ngày mong đợi thông minh để đưa chiến lược khác cho ngữ cảnh khác lỗi hệ thống nhằm kháng dạng lỗi khác Một chế điều phối dịch vụ cách linh hoạt ĐTĐM hướng đến kháng lỗi cần thiết Nói cách khác, cần xây dựng khung kháng lỗi đảm bảo độ sẵn sàng cao hiệu việc quản lý, khai thác tài nguyên Từ đó, luận án tập trung nghiên cứu chiến lược kháng lỗi chủ động nhằm xây dựng khung kháng lỗi cho hạ tầng hệ thống ĐTĐM Theo đó, khung kháng lỗi gồm hai thành phần gồm phát lỗi máy chủ hạ tầng ĐTĐM di trú tài nguyên hiệu Trong đó, phát lỗi dựa bất thường đề xuất đảm bảo cho hệ thống kháng lỗi hoạt động xác tăng khả phản ứng hệ thống tình có lỗi xảy Từ kết thành phần phát lỗi, việc tránh ảnh hưởng lỗi giải thông qua di trú tài nguyên ảo hóa đảm bảo việc sử dụng, khai thác tài nguyên hiệu Để nâng cao khả phản ứng linh hoạt cho chiến lược di trú máy ảo, luận án đề xuất điều khiển di trú máy ảo kháng lỗi có khả học tăng cường Đóng góp luận án bao gồm: Xây dựng khung kháng lỗi chủ động cho hạ tầng ĐTĐM dựa cấu trúc vòng lặp MAPE-K hệ thống tự trị gồm thành phần giám sát, phân tích lỗi PM, xây dựng chiến lược chiến lược di trú VM kháng lỗi có khả học tăng cường, thực thi điều phối tài nguyên PM hạ tầng ĐTĐM Đề xuất mơ hình phát lỗi PM hạ tầng ĐTĐM dựa số vận hành bất thường Chỉ số vận hành bất thường xác định từ giá trị biên iii định mơ hình Fuzzy One Class Support Vector Machine (FOCSVM) – kết hợp logic mờ máy vector hỗ trợ lớp (One Class Support Vector Machine, viết tắt OCSVM) để giảm ảnh hưởng nhiễu xuất tập liệu huấn luyện Logic mờ sử dụng để tính tốn hệ số phạt OCSVM nhằm cải thiện hoạt động linh hoạt thời gian thực thi tận dụng kiến thức chuyên gia Đề xuất phương pháp phát lỗi đựa số vận hành bất thường, có tên EWMA-FOCSVM, dựa theo dõi biến động đột ngột giá trị biên định FOCSVM biểu đồ kiểm sốt trung bình trượt có trọng số hàm mũ (Exponentially Weighted Moving Average, viết tắt EWMA) Các mẫu liệu giám sát dán nhãn bình thường/lỗi cách sử dụng EWMA-FOCSVM thời gian thực để tạo thành liệu huấn luyện có nhãn cho vấn đề phân tích thơng số hiệu máy chủ vật lý liên quan đến lỗi Việc phân tích thơng số hiệu máy chủ vật lý liên quan đến lỗi đưa toán lựa chọn đặc trưng giải cách sử dụng thuật toán RFE-RF – kết hợp thuật tốn loại bỏ thuộc tính hồi quy (Recursive Feature Elimination, viết tắt RFE) thuật toán rừng nẫu nhiên (Random Forest, viết tắt RF) Các thông số đáng ngờ xác định thông qua việc xếp hạng thuộc tính tập liệu Đề xuất mơ hình xây dựng chiến lược di trú máy ảo kháng lỗi dựa điều khiển mờ học tăng cường Fuzzy Q-Learning Việc điều khiển di trú VM để tránh ảnh hưởng từ PM bị lỗi đảm bảo PM sau tiếp nhận VM có số vận hành bất thường thấp mức độ sử dụng tài nguyên PM cân Thêm vào đó, để nâng cao khả thực thi điều khiển di trú VM kháng lỗi, thành phần tập luật cập nhật theo chế học tăng cường bắt đầu hệ thống với tập luật chưa đầy đủ Đề xuất giải thuật V2PFQL cho việc điều khiển di trú VM kháng lỗi dựa Fuzzy Q-Learning Một sức mạnh hệ suy diễn mờ khả chuyển đổi tri thức người thành luật trực quan dạng NẾU-THÌ Tuy nhiên, trình thiết kế hệ suy diễn mờ, người thiết kế gặp vấn đề khó khăn định nghĩa tập luật iv thiết kế tập luật khơng có sẵn tri thức vấn đề, định nghĩa phần tập luật, định nghĩa tập luật không hiệu dư thừa tập luật tập luật không chắn (đúng số trường hợp lại sai số trường hợp khác) Để giải vấn đề này, luận án đề xuất thuật toán huấn luyện tập luật cho vấn đề di trú máy ảo, đặt tên V2PFQL-AS, dựa kết hợp thuật toán V2PFQL Hệ kiến để hoàn thiện tập luật giai đoạn thiết kế hệ suy diễn mờ Luận án đánh giá hiệu V2PFQL sau cập nhật tri thức từ kết q trình huấn luyện theo thuật tốn V2PFQL-AS Giá trị hàm mục tiêu toán di trú VM kháng lỗi thuật toán V2PFQL so sánh với giải thuật RoundRobin (RR), giải thuật tối ưu đàn kiến Inverse Ant System (iAS), giải thuật hệ kiến Ant System (AS), giải thuật Max-Min Ant System (MMAS), giải thuật tối ưu bầy đàn Particle swarm optimization (PSO), giải thuật luyện kim Simulated Annealing (SA) v ABSTRACT Cloud computing infrastructure services bring practical convenience, help users to deploy applications flexibly, simplify the rental process, and release resources while renting resources calculated based on use-pay-as-you-go However, faults on the cloud infrastructure service are unavoidable because of the large scale and network system of the cloud data center along with the complex architecture of thousands of physical servers with different reliability With the openness, flexibility and complex structure of cloud computing, it leads to many different types of faults from the infrastructure system, the platform to the application Faults can occur at any particular layer of the cloud and it will affect above layers If the fault occurs in the operating system of the platform service layer, it can lead to applications on software services to fail If a fault occurs in the hardware of physical servers, it will affect the infrastructure service layer and continues to lead to the failure in the operating system of the platform service layer, continues to affect the infrastructure service layer, and then software service layer application failures It can be seen that faults in infrastructure services, especially hardware, will affect and cause great damage to the system It is imperative to detect typical hardware faults and develop corresponding fault toletrance techniques Accordingly, cloud computing needs to be able to identify and behave appropriately to ensure transparency, quality of service, and avoid data loss even when faults occur This ability is known as fault tolerance on cloud infrastructure Existing fault tolerance (FT) approaches can be classified into two basic categories, viz reactive and proactive approaches The reactive FT approaches handle the faults after their appearance through using system maintenance programs They are built on responsiveness rather than predictability They are also conservative by nature, so there’s no need to inspect the system’s behavior As a result, they not have any unnecessary overhead Proactive FT approaches, on the other hand, are described as the capacity of the system to be in an active state to avoid potential vi faults/errors/failures before they occur Statistics, machine learning, and artificial intelligence approaches are used to continually monitor the system’s health and anticipate the likelihood of a fault occurring The system handles fault occurrence by taking essential actions A FT approach is an incorporated action of fault detection and fault recovery (reactive FT approach) or fault forecasting and fault prevention (proactive FT approach) Although reactive FT frameworks are popular among researchers till now, the scope of research in proactive FT frameworks is increasing because of ongoing advancements in machine learning and artificial intelligence Therefore, this thesis focuses on researching proactive FT strategies to build a FT framework for infrastructure of cloud computing Accordingly, the FT framework consists of two main components including physical server fault detection of the cloud infrastructure and virtual machine migration In particular, the proposed anomaly-based fault detector ensures the FT system to work correctly and increases the system's ability to react when a fault occurs From the results of the fautl detection model, the avoidance of fautl effects will be solved through a virtual machine migration To improve the responsiveness of the virtual machine migration strategy, this study proposes a virtual machine migration controller capable of reinforcement learning The main contributions of the thesis include: Building a proactive FT framework for cloud computing infrastructure based on the MAPE-K loop structure of the autonomous system, including the monitoring component, PM fault analysis, seft-learning VM migration, and resources coordination executing The combination of fuzzy logic and OCSVM (namedFOCSVM) is proposed to improve the abnormal detection when outliers appear in the dataset By using fuzzy logic for calculating penalty factors of OCSVM model, fault detection approach improves flexible operations in real time as well as takes advantage of experts’ knowledge Based on the FOCSVM abnormal detection model, the fault detection and diagnosis approach is proposed including abnormal detection, fault detection, and analysis of suspicious parameters For fault detection problem, the vii exponentially weighted moving average (EWMA) chart is then used to identify abrupt changes if there is any fault to occur, named EWMA-FOCSVM And then, the fault diagnosis problem is abstracted to feature selection problem with the training dataset which are labeled by EWMA-FOCSVM The analysis of physical server performance parameters related to the faults is brought to the feature selection problem and solved using the RFE-RF model - which is a combination of the Recursive Feature Elimination (RFE) model and the Recursive Feature Elimination (RFE) model and Random Forest (RF) Suspicious parameters are identified through the feature ranking of the data set The self-learning VM migration component is designed by applying Fuzzy QLearning algorithm to enhance the performance of fuzzy inference system One of the strengths of fuzzy inference systems is their ability to convert human knowledge into intuitive IF-THE rules VM migration strategies are considered as internal knowledge of the cloud controller which shows capable of learning in the execution environment To implement the self-learning VM migration controller, a rule set is continually explored during execution time through self-learning rule component which shows ability of self-learning to complete the rule set in runtime without prior knowledge The migration controller observes the infrastructure state and manipulates the migration plans The PMs which allocate to cloud-hosted applications are monitored by load balance and abnormal score metrics The V2PQL algorithm is proposed to migrate VM in order to avoid the influence of deteriorating PMs as well as keep load balance and abnormal score for all the safe PMs The analysis results from the migration controller go to the self-learning rule component for updating it Learning mechanism of VM migration rule, named V2PQL-AS, is designed based on a combination of V2PQL algorithm and Ant System algorithm In general, the problem of VM migration is expressed in the form of one n VMs that need to be migrated into m PM After migrating VMs, the system ensures at least the level of load balancing between resources in each PM, ensure a minimum of anomalies for each PM, viii Tên đề tài nội dung phù hợp tập trung vào số vấn đề chính: phân tích phát lỗi giải pháp di trú máy ảo kháng lỗi hệ thống điện toán đám mây, áp dụng kĩ thuật logic mờ cho giải pháp Nội dung đề tài phù họp với chuyên ngành Khoa học máy tính mã số chuyên ngành tương ứng Sự hợp lý độ tin cậy phương pháp nghiên cứu: Mục tiêu đề tài đề xuất khung lỗi chủ động cho hạ tầng điện toán đám mây bao gồm giải pháp phân tích, phát lỗi giải pháp di trú máy ảo kháng lỗi dựa điều khiển mờ học tăng cường Fuzzy Q-Learning Đe tài có mục tiêu nghiên cứu rõ ràng nhiệm vụ cụ thể cho mục tiêu phụ Phương pháp nghiên cứu dựa việc tìm hiểu tảng lí thuyết lĩnh vực, đánh giá so sánh giải pháp sẵn có, từ đề xuất giải pháp, thực công cụ thử nghiệm thực tế cho vấn đề nghiên cứu Đe tài có phương pháp nghiên cứu tin cậy hợp lý Một số nội dung nghiên cứu công bố tạp chí khoa học uy tín minh chứng phần cho vấn đề Những đóng góp mói luận án: Đề tài có số đóng góp thể cơng bố tạp chí bao gồm: (i) giải pháp V2PFQL kháng lỗi chủ động cho ứng dụng điện toán đám mây; (ii) giải pháp phân tích phát lỗi điện tốn đám mây; (iii) giải pháp di trú máy ảo dựa kĩ thuật Q-Learning Ưu nhược điểm nội dung, kết cấu hình thức luận án: Báo cáo luận án gồm chương 136 trang, chương trình bày phát xử lí lỗi hạ tầng điện toán đám mây; chương phân tích lỗi máy chủ vật lí hạ tầng điện tốn đám mây; chương trình bày chiến lược di trú máy ảo kháng lỗi hạ tầng điện toán đám mây; Ưu điểm: Việc trình bày chương theo trình tự mục tiêu đề tài giúp dễ dàng theo dõi kế hoạch thực nội dung Phương pháp nghiên cứu rõ ràng với công bố phù hợp tạo độ tin cậy cao mặt kĩ thuật, đề tài cung cấp đầy đủ vấn đề thách thức, câu hỏi nghiên cứu, tìm hiểu giải pháp sẵn có, đề xuất giải pháp cho vấn đề giải quyết, mặt trình bày, báo cáo luận văn trình bày rõ ràng hợp lí Nhược điểm: Phát xử lý lỗi hạ tầng điện toán đám mây chức quản lí vận hành hệ thống mạng, truyền thơng phân tán Có nhiều nghiên cứu từ vấn đề giám sát, chuẩn đoán, phát hiện, giải lưu trữ đến giải pháp hệ chuyên gia, tập luật, luận lí, máy học, v.v Hai vấn đề tập liệu lỗi (lưu lượng mạng, nhật kí, kiện, v.v.) giao thức chuẩn thu thập liệu lỗi phục vụ giám sát phát không đề cập đề án Chương đề xuất giải pháp đánh giá số bất thường máy chủ vật lí thơng qua số thuộc tính hiệu CPU, RAM, DISK, v.v sử dụng máy hỗ trợ vector lớp (FOCSVM) thử nghiệm môi trường thực nghiệm hệ thống ứng dụng thương mại điện tử TPC-W so sánh với giải pháp RFE-RF Chương chưa thật trình bày tổng quát vấn đề giải pháp phân tích lỗi máy chủ vật lí hạ tầng điện tốn., đám mây Luận văn đề xuất khung lỗi chủ động chương 2, 4, thiêu \ \ tích hợp hệ thống hồn chỉnh nên có thử nghiệm cho hệ thống tích hợp, thay, HỌC) ° ■Jơ’ / , gơm thuật tốn/giải pháp thử nghiệm thuật toán/giải pháp riengM'd/yZ biệt Ngoài ra, tham khảo luận văn từ 2018 trở trước, tức cách đâỵ.;^ 4-5 năm điện toán đám mây phát triển mạnh mẽ thời gian năm trở lại Nhiều nghiên cứu quan trọng liên quan bị bỏ sót, cần cập nhật so sánh kết Các công trình cơng bố có liên quan đến luận án: Đề tài cung cấp kết nghiên cứu công bố tạp chí, hội thảo khoa học ngồi nước có mục, tạp chí mục ISI, SCIE xuất năm 2020, 2022, cơng bố kỉ yếu hội nghị có phản biện cơng bố kỉ yếu khác liên quan Tóm tắt luận án có phán ánh trung thực nội dung CO’ luận án: Tóm tắt luận án phản ảnh trung thực nội dung luận án Kết luận việc luận án có đáp ứng yêu cầu LATS đưa bảo vệ trước hội đồng chấm luận án cấp Trường hay khơng? Đề tài có mục tiêu, phương pháp nghiên cứu nội dung trình bày rõ ràng hợp lý Đề tài xem xét bổ sung phần nhược điểm để tăng thêm độ tin cậy chất lượng báo cáo luận văn Đồng ý nghiên cứu sinh bảo vệ trước hội đồng cấp Trường Xác nhận quan sở đào tạo TL HIỆU TRƯỞNG TPHCM, ngày 22 tháng 12 năm 2022 ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA Xà HỘI CHỦ NGHĨA VỆT NAM Độc lập - Tự - Hạnh phúc - BIÊN BẢN HỌP HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN TIÉN SĨ CẤP TRƯỜNG Vào lúc 14g00 ngày 28/12/2022, Hội đồng đánh giá luận án Tiến sĩ cấp Trường (ban hành theo Quyết định số 5205/QĐ-ĐHBK ngàỵ 30 tháng 11 năm 2022 Hiệu trưởng Trường ĐH Bách Khoa - ĐHQG-HCM) họp để đánh giá luận án Tiến sĩ của: Nghiên cứu sinh: Tên đề tài: Bùi Thanh Khiết Khóa: 2015 Giải pháp nhận dạng xử lý lỗi hạ tầng điện toán đám mây Tập thể hướng dẫn: 2 Thành viên Hội đồng: Khách tham dự: PGS TS Trần Công Hùng PGS TS Phạm Trần Vũ PGS TS.Thoại Nam, ĐH Bách Khoa - ĐHQG TpHCM PGS TS Huỳnh Trung Hiếu, ĐH Cơng Nghiệp TpHCM PGS TS Nguyễn Đình Thn, ĐH Công Nghệ Thông Tin ĐHQG TpHCM PGS TS Quản Thành Thơ, ĐH Bách Khoa - ĐHQG TpHCM TS Nguyễn Đức Dũng, ĐH Bách Khoa - ĐHQG TpHCM TS Nguyễn Văn Vũ, ĐH Khoa học Tự nhiên - ĐHQG TpHQỈ^Ự PGS TS Trần Mạnh Hà, ĐH Ngoại ngữ - Tin học ■ CÁ BÁCH Địa điểm: B6-301, Đại học Bách Khoa - ĐHQG TpHCM Tiến trình buổi bảo vệ: • PGS TS Hồ Đức Duy, Phó Trưởng phịng Đào tạo Sau Đại học, đại diện Trường Đại học Bách Khoa - ĐHQG-HCM đọc định thành lập Hội đồng • Chủ tịch Hội đồng thơng qua chương trình làm việc điều kiện chuẩn bị cho buổi bảo vệ • Thư ký Hội đồng đọc lý lịch khoa học nghiên cứu sinh (NCS) điều kiện cân thiết để NCS bảo vệ • Nghiên cứu sinh trình bày nội dung luận án thời gian 45 phút • PGS Huỳnh Trung Hiếu nhận xét luận án đặt câu hỏi + Cần diễn giải rõ việc sử dụng công thức 3.12, 4.3, 4.36, v.v + Cơ sở sử dụng cơng thức gì? + Các thông số kèm đuợc định nào? + Cần cung cấp diễn giải L H cho công thức 4.3? + NCS trả lời câu hỏi phản biện • PGS TS Nguyễn Đình Thuân đọc nhận xét phản biện đặt câu hỏi cho NCS + Luận án có sử dụng số công cụ mô (chẳng hạn CloudSim) Như triển khai thực tế cần lưu ý điều gì? + Vì phân tích hiệu PM liên quan đến thuật toán RFE-RF, RFE-BDT, RFE-LR? + NCS trả lời câu hỏi phản biện • PGS TS Quản Thành Thơ đọc nhận xét phản biện đặt câu hỏi cho NCS + NCS trả lời câu hỏi phản biện • TS Nguyễn Đức Dũng đọc nhận xét phản biện đặt câu hỏi cho NCS + Chưa làm rõ đóng góp luận án so với nghiên cứu trước + Giải pháp cho việc phân loại lỗi chưa thuyết phục sử dụng one-class SVM vấn đề liệu sử dụng chưa mô tả rõ, việc sử dụng trường thông tin nào, cách phương pháp làm liệu cần đề cập + Chưa làm rõ đóng góp phương pháp học tăng cường so với nghiên cứu trước ([155], [158]) + NCS trả lời câu hỏi thành viên hội đồng Ạ" • PGS TS Trần Mạnh Hà đọc nhận xét phản biện đặt câu hỏi cho NCS + Vấn đề liên quan đến tập liệu lỗi giao thức thu thập liệu lôi phục JQ vụ giám sát chưa đề cập nghiên cúu + Chưa thật hình bày tổng quát vấn đề giải pháp phân tích lỗi máy chủ vật lý 'ỢV hạ tầng điện toán đám mây + Thiếu tích họp hồn chỉnh chưa có thử nghiệm hệ thống thích hợp + Một số tham khảo cũ so với tốc độ phát hiển điện toán đám mây + NCS trả lời câu hỏi phản biện • TS Nguyễn Văn Vũ đọc nhận xét đặt câu hỏi cho NCS + NCS trả lời câu hỏi thành viên hội đồng • PGS TS Thoại Nam đọc nhận xét đặt câu hỏi cho NCS + Nên phân tích thêm thơng số ảnh hưởng đến giải thuật V2PFQL-AS sử dụng huấn luyện cho vân đê di trú sô lượng máy vật lý, sô lượng máy ảo + Khi cần chạy lại để huấn luyện cho việc di trú thông số bị thay đối + NCS trả lời câu hỏi phản biện • Quyết nghị Hội đồng (có biên đính kèm) • Kết kiểm phiếu: + Số phiếu tán thành luận án: + Số phiếu không tán thành: Ket luận Hội đồng: Bản luận án nghiên cứu sinh Bùi Thanh Khiết đáp ứng đầy đủ yêu cầu nội dung hình thức luận án Tiến sĩ, nghiên cứu sinh Bùi Thanh Khiết chứng tỏ đầy đủ trình độ khả nghiên cứu khoa học thân bậc Tiến sĩ, Hội đồng trí đề nghị Hiệu trưởng Trường Đại học Bách Khoa - ĐHQG-HCM công nhận học vị câp băng Tiên sĩ cho nghiên cứu sinh Bùi Thanh Khiêt CHỦ TỊCH HỘI ĐỒNG THƯ KÝ HỘI ĐỒNG PGS TS Thoại Nam TS Nguyễn Đức Dũng TL HIỆU TRƯỞNG KT TRƯỞNG PHÒNG ĐÀO TẠO SĐH HÒNG CỘNG HÒA Xà HỘI CHỦ NGHĨA VIỆT NAM ’ Độc lập - Tự - Hạnh phúc ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA TP.HCM, ngày 28 tháng 12 năm 2022 QUYẾT NGHỊ CỦA HỘI ĐỒNG ĐÁNH GIÁ LUẬN ÁN TIẾN sĩ CẤP TRƯỜNG Đề tài: Giải pháp nhận dạng xử lý lỗi hạ tầng điện toán đám mây Của nghiên cứu sinh: Bùi Thanh Khiết Ngày bảo vệ: 28-12-2022 Sau nghe nghiên cứu sinh trình bày luận.án trả lời câu hỏi, Hội đồng nghị sau: Kết bỏ phiếu đánh giá luận án Hội đồng; - Tổng cộng phiếu, phiếu tán thành, phiếu không tán thành Những kết luận khoa học bản, điểm mói, đóng góp mói luận án; - Đề xuất khung kháng lỗi chủ động cho hạ tầng điện toán đám mây dựa cấu trúc vòng lặp MAPE-K - Đề xuất mơ hình phát lỗi PM hạ tầng điện toán đám mây dựa số vận hành bất thường - Đề xuất mơ hình xây dựng chiến lược di trú máy ảo kháng lỗi dựa điều khiển mờ học tang cường (Fuzzy Q-Learning) - Luận án đánh giá hiệu V2PFQL sau cập nhật tri thức từ kết trình huấn luyện Cơ sở khoa học, độ tin cậy luận điểm kết luận nêu luận án; - Nghiên cứu sinh tiến hành nghiên cứu vói phương pháp nghiên cứu khoa học phù họp NCS thực bước tìm hiểu ỵà cải tiến, đồng thời đánh giá cải tiến đầy đủ cho đề xuất Các số liệu có độ tin cậy phù hợp với phương pháp sử dụng Ý nghĩa lý luận, thực tiễn đề nghị sử dụng kết nghiên cứu luận án; - Luận án đưa giải pháp hiệu cho toán nhận dạng xử lý lỗi hạ tầng điện tốn đám mây - Tính thực tiễn: luận án đưa giải pháp giải toán thực tiễn điện toán đám mây thời điểm thực nghiên cứu Những thiết sót nội dung hình thức luận án - Bổ sung phần giải thích chi tiết cho công thức sử dụng luận án; - Phần phân tích nên làm rổ kích thước tốn, độ phức tạp giải thuật đề xuất; - Bổ sung thông tin chi tiết tập liệu, công cụ đánh giá bình luận kết quả; - Chi tiết việc so sánh kết phưong pháp đề xuất phương pháp khác; Mức độ đáp ứng yệu cầu luận án; Những điểm cần bọ sung, sửa chữa (nếu có) trước nộp luận án cho Thư viện Quốc gia Việt Nam: - Xem xét hiệu chỉnh theo góp ý hội đồng Kiến nghị Hội đồng việc công nhận trình độ cấp tiến sĩ cho nghiên cứu sinh - Luận án nghiên cứu sinh Bùi Thanh Khiết đáp ứng yêu cầu nội dung hình thức lụận án Tiến sĩ Nghiên cứu sinh Bùi Thanh Khiết chứng tỏ đầy đủ trình độ khả nghiên cứu khoa học thẫn bậc Tiến sĩ Hội đồng trí đề nghị Hiệu trưởng Trường Đại học Bách Khoa - Đại học Quốc gia TpHCM công nhận học vị cấp Tiến sĩ cho nghiên cứu sinh Bùi Thanh Khiết CHỦ TỊCH HỘI ĐỒNG THƯ KÝ HỘI ĐÒNG PGS TS Thoại Nam TS Nguyễn Đức Dũng Trần Thiên Phúc ĐẠI HỌC QUỐC GIA CỘNG HÒA Xà HỘI CHỦ NGHĨA VIỆT NAM THÀNH PHỐ HỒ CHÍ MINH Độc lập - Tự - Hạnh phúc TRƯỜNG ĐẠI HỌC BÁCH KHOA BẢN XÁC NHẬN CHỈNH SỬA LUẬN ÁN TIẾN sĩ THEO Ý KIẾN ĐỀ NGHỊ CỦA HỘI ĐỒNG ĐÁNH GIÁ LATS CẤP TRƯỜNG Họ tên NCS: BÙI THANH KHIẾT Đề tài nghiên cứu: GIẢI PHÁP NHẬN DẠNG VÀ xử LÝ LỖI TRONG HẠ TẦNG ĐIỆN TOÁN ĐÁM MÂY Ngành: KHOA HỌC MÁY TÍNH Mã số ngành: 62480101 Tập thể hướng dẫn: PGS.TS Tràn Công Hùng PGS.TS Phạm Trần Vũ Căn Biên họp Hội đồng đánh giá luận án tiến sĩ cấp Trường, Quyết nghị ý kiến nhận xét thành viên Hội đồng, nghiên cứu sinh nghiêm túc sửa chữa, bổ sung nội dung luận án buổi họp Hội đồng đánh giá luận án tiến sĩ cấp Trường vào ngày 28/12/2022 với nội dung chi tiết sau: Mục tiêu tầm vực nghiên cứu Tại mục 1.3 Mục tiêu tầm vực nghiên cứu (trang 11) cập nhật sau: Mục tiêu luận án nghiên cửu giải pháp kháng lỗi chủ động cho hạ tầng ĐTĐM dựa phát lỗi vận hành PM hạ tầng ĐTĐM xây dựng chiến lược di trú VM nhằm tránh ảnh hưởng lỗi chúng xảy với đặc điểm: i Việc phát lỗi vận hành PM dựa vào bất thường đại lượng hiệu PM; ii Giải pháp di trú (các) VM kháng lỗi đảm bảo PM sau tiếp nhận VM có mức độ sử dụng cân tài nguyên PM; iii Đảm bảo VM di trú đến PM Đối tượng nghiên cứu luận án mơ hình hạ tầng đám mây riêng/đám mây công cộng cung cấp tài nguyên dạng VM với cơng nghệ ảo hóa cho phép tạo nhiều VM PM, giải pháp phát bất thường/lỗi trình vận hành PM hạ tầng ĐTĐM dựa đại lượng hiệu năng, thuật toán di trú VM hướng đến mục tiêu đại lượng hiệu PM.Việc di trú VM phụ thuộc vào cơng nghệ ảo hóa kiến trúc mạng, hạ tầng hệ thống Tuy nhiên, khuôn khổ luận, vấn đề hiệu tập trung vào PM xem hạ tầng mạng, hệ thống đường truyền bảo đảm tốt cho trình di trú VM có lỗi đáng ngờ xảy PM Luận án đánh giá mơ hình phát lỗi dựa liệu thực nghiệm thu thập từ đám mây riêng xây dựng mã nguồn mở OpenStack Stein liệu trích xuất từ liệu Google Cluster Trace Các thuật toán di trú VM đánh giá mô phát triển tảng CloudSim Bài toán di trú VM kháng lỗi Tại mục 4.2 Bài toán di trú máy ảo kháng lỗi (trang 100) cập nhật sau: Gọi mức độ cân tải loại tài nguyên PM p Việc cấp phát tài nguyên cho VM phải đảm bảo tính nguyên tố - tài nguyên VM phải cấp phát đầy đủ PM cụ thể Điều dẫn đến khả phân mãnh tài nguyên PM gây lãng phí Trong khn khổ luận án, tài nguyên thời điểm PM xem xét ba khía cạnh CPU, MEMORY, DISK biểu diễn vector ba chiều Ví dụ, PM có tải CPU 90% lượng tải MEMORY có 10% điều dẫn đến cân tải tài nguyên PM gây phân mãnh lãng phí tài nguyên Trong [145] [146], mức độ sử dụng không đồng loại tài nguyên PM thứ p tính tốn sau: v^X-ip tài nguyên sử dụng trung binh PM p, = vi/>xip biểu diễn lượng tài nguyên loại / máy PM thứ p sử dụng Mức độ bất thường PM tính dựa giá trị biên định FOCSVM Công thức (3.2) Gọi mức độ bất thường PM p Trong [147] [148], giá trị mức độ bất thường chia tỷ lệ theo khoảng cách cho điểm nằm biên định có giá trị giá trị lớn giá trị bất thường điểm liệu, tính sau: J£(p) = Fmax~ F(xvì Fmax Fmax giá trị khoảng cách lớn điểm liệu biên định (4.2) Bỏ qua tính chất ngẫu nhiên toán, ma trận tối ưu X giải pháp cho: max (V) ĩ (4.3) £ÍP) + %(p) P=1 thõamãn - C'' xrl = (4.4) (4.5) đó, Cơng thức (4.6) đàm bảo tài ngun loại j máy PM p cung cấp cho VM khơng vượt q khả nó, Cơng thức (4.7) đảm bảo VM di trú đến PM Dữ liệu mô trung tâm liệu Tại mục 4.5.1 Kịch cấu hình hệ thống mô (trang 117) cập nhật sau: Mơ thực máy tính cá nhân với cấu hình 8GB RAM, Core Ĩ5, 256 GB SSD, hệ điều hành Window 10, thiết lập môi trường lập trình Java version 1.8 Mơ phát triển dựa công cụ mô CloudSim[154] Năm 2022, theo khảo sát Tawfeeg cộng 400 cơng trình nghiên cửu cho thấy CloudSim sử dụng rộng rải để triển khai mô ĐTĐM [155] (với 80% cơng trình sử dụng) Trong nghiên cứu [146, 156-158], việc mô trung tâm liệu với quy mô hàng trăm PM hàng ngàn VM sử dụng để đánh giá hiệu lực hiệu thuật toán liên quan đến việc khai thác tài nguyên Từ đó, để đánh giá hiệu thuật tốn đề xuất, kịch mơ trung tâm liệu với 450 PM xây dựng có 150 PM bị lỗi có 1543 VM cần di trú đến 300 PM an tồn Các cấu hình PM tạo ngẫu nhiên theo phân bố Gaussian N(0.12,0.05) [158] với cấu hình tối đa/tối thiểu CPU, RAM, DISK theo Bảng 4.1 cấu hình VM thiết lập Bảng 4.2 Tiếp theo, thơng số phân hoạch tập mờ thuật tốn V2PFQL V2PFQL- AS cho mức độ cân tải tài nguyên mức độ bất thường PM Công thức (4.6) Công thức (4.7) thiết lập Bảng 4.3 Bảng 4.4 Ngoài ra, thơng số liên quan đến hệ kiến thuật tốn V2PFQL-AS cấu Bảng 4.5 Bảng Thơng số cấu hình máy chủ vật lý Cấu hình tối đa CPU Core RAM (GB) Disk (GB) 8192 128 256 Câu hình tơi thiêu 32 64 512 Bảng Thơng sơ câu hình máy ảo Dạng VM CPU Core RAM (GB) Disk (GB) Tiny 1 Small 15 Medium 30 Large 12 60 X Large 24 80 Mức độ Cân bang tải Bảng Các phân hoạch giá trị mức độ cân tải tài nguyên máy chủ vật lý X ■ Biến ngôn Miên xác định Giá trị bắt đầu Giá trị kết thúc ngữ Ò.00 Ổ.50 Good Normal 0.25 0.75 Bad 0.50 1.00 Mức độ bất thường Bảng 4 Các phân hoạch giá trị mức độ bất thường máy chủ vật lý Biến ngôn ngữ Low Medium High X ■ ■■ Miên xác định Giá trị bắt đầu Giá trị kết thúc i.40 1.00 1.20 1.80 1.40 2.00 Bảng Các thông sổ điều khiển thuật tốn V2PFQL-AS Thơng số STT Số lượng kiến Điêu kiện dừng Khởi tạo vệt mùi Khởi tạo giá trị heuristic Giá trị Antssize = 120 úủ = 0.003 = °-1 Qi/ = 0.1 Hệ sô điêu khiên ảnh hưởng giá trị mùi a= Hệ số điều khiển ảnh hưởng giá trị thông tin heuristic 0=5 Diễn giải kết thuật tốn V2PFQL vói thuật tốn meta-heuristic Tại mục 4.5.3.2 So sánh kết hàm mục tiêu toán di trú máy ảo kháng lỗi (trang 126) cập nhật sau: Xét cách tổng quát, toán di trú VM kháng biểu diễn theo dạng có n VM cần di trú vào m PM Theo đó, sau di trú VM hệ thống đảm bảo tối thiểu mức độ cân tải tài nguyên PM, đảm bảo tối thiểu mức độ bất thường PM, tránh tải PM dẫn đến hiệu suất bị giảm sút đảm bảo VM di trú đến PM Trong thuật tốn V2PFQL thuật tốn điều khiển theo thời ủ mà thời điểm có VM di trú đến PM an toàn Do vậy, để đánh giá kết hàm mục tiêu toán di trú VM kháng lỗi thuật toán V2PFQL cần xem xét toàn kết di trú xong n VM vào m PM Hàm mục tiêu toán di trú VM kháng lỗi biểu diễn sau: m utility (4-6) P=1 đó, mức độ cân tải loại tài nguyên PM p, mức độ bất thường PM p, m số lượng PM Trong khuôn khổ luận án, việc so sánh kết hàm mục tiêu toán di trú VM kháng lỗi thuật toán V2PFQL với thuật toán thuộc lớp meta-heuristic gồm thuật toán RR, ĨAS, AS, MMAS, SA, PSO Đổ đánh giá khả khám phá/khai thác thuật toán V2PFQL, hệ số khám phá/khai thác điều chỉnh £ E [0.1,0.9] chọn hệ số học 77 = 0.1, hệ số chiết khấu Y = 0.9 Kết thuật tốn V2PFQL theo cấu hình theo £ ký hiệu từ V2PFQL.e.0.1 đến V2PFQL.e.0.9 Hình 4.11 biểu diễn kết giá trị hàm mục tiêu thuật tốn cho tốn di trí VM kháng lỗi, theo đó, kết thuật tốn V2PFQL.e.0.9 tương ứng với £ = 0.9 cho kết tốt Điều cho thấy khả khám phá dựa hành động thuật toán V2PFQL Đánh giá việc sử dụng Thuật toán V2PFQL V2PFQL-AS Tại mục 4.6 Ket luận chương (trang 128) cập nhật sau: Chương trình bày điều khiển di trú VM kháng lỗi dựa Fuzzy Q-Leamig theo chế MAPE-K Với thiết kế dựa MAPE-K, hệ thống có khả thực thi huấn luyện trực tuyển tập luật di trú VM Thành phần tập luật di trú VM có khả học tăng cường khơng hoàn thiện tập luật giai đoạn thực thi mà cịn huấn luyện thời gian thiết kế hệ thống khơng có sẵn tri thức để xây dựng tập luật Thuật toán điều khiển di trú VM thiết kế dựa Fuzzy Q-Leaming, đặt tên V2PFQL Thuật tốn V2PFQL tích hợp với điều khiển dựa tri thức Theo đó, điều khiển dựa tri thức với yêu cầu rõ ràng khái niệm tri thức cụ thể hóa dạng tập luật sử dụng để suy luận tạo tín hiệu điều khiển V2PFQL tích hợp với điều khiển để khám phá cập nhật sở tri thức thời gian thực thi Hiệu thuật toán V2PFQL đối sánh với thuật toán meta-heuristic RR, ĨAS, AS, MMAS, SA, PSO thông qua giá trị hàm mục tiêu toán di trú VM kháng lỗi Thuật toán huấn luyện tập luật xây dựng dựa kết hợp thuật toán V2PFQL thuật toán Hệ kiến, đặt tên V2PFQL-AS Hiệu thuật toán huấn luyện tập luật thuật toán V2PFQL-AS đánh giá việc điều chỉnh hệ số học, hệ số khấu, hệ số khám phá dựa hội tụ giá trị q-value Tập luật di trú VM huấn luyện từ thuật toán V2PFQL-AS Với độ phức tạp lớn, Thuật toán V2PFQLAS phù họp áp dụng lúc thiết kế, xây dựng hệ thống tri thức khơng có sẵn, có khơng đầy đủ, bị dư thừa, v.v Kết huấn luyện tập luật Thuật toán V2PFQL-AS sử dụng đầu vào cho Thuật tốn V2PFQL Từ đó, tập luật tiếp tục cập nhật thời gian thực thi Thuật tốn V2PFQL Mơ tả đóng góp luận án Tại mục 5.1 Tóm tắt (trang 133) cập nhật nội dung sau: Tóm lại luận án có đóng góp là: • Xây dựng khung kháng lỗi chủ động cho hạ tầng ĐTĐM dựa chu trình MAPE-K, gồm thành phần tương ứng: hệ thống giám sát, phân tích lỗi, xây dựng chiến lược kháng lỗi, điều phối tài nguyên • Đe xuất mơ hình phát lỗi cho PM hạ tầng ĐTĐM dựa số vận hành bất thường Chỉ số giá trị biên mơ hình FOCSVM thông qua kết họp logic mờ thuật tốn máy vector hỗ trợ lóp Luận án sử dụng trung bình trượt trọng số mũ (EWMA) để theo dõi biến động đột ngột giá trị biên mơ hình FOCSVM, từ phát lỗi dựa số vận hành bất thường Ngoài ra, luận án kết họp thuật tốn loại bỏ thuộc tính hồi qui (REF) với thuật toán Rừng ngẫu nhiên (RF) để phân tích hiệu máy chủ vật lý liên quan đến lỗi, cách xếp hạng thuộc tính tập liệu • Đe xuất di trú máy ảo kháng lỗi dựa điều khiển mờ học tăng cường Fuzzy Q-Leaming Luận án đề xuất giải thuật V2PFQL V2PFQL-AS hệ suy diễn mờ gồm luật điểu khiển di trú máy ảo, bao gồm trường hợp tập luật không đầy đủ Cập nhật nội dung - Cập nhật đoạn “Thay người dùng sử dụng nhiều máy chủ vật lý (Physical machine, viết tắt PM), người dùng sử dụng máy ảo (Virtual machine, viết tắt VM) dịch vụ sở hạ tầng từ laaS”, trang - Cập nhật tiêu đề Nội dung nghiên cứu mục 1.4, trang 11 - Cập nhật “lỗi dụng cụ” thành “lỗi thiết bị”, trang 7, 55, 131 Bổ sung nội dung - Bổ sung cách chọn ql, q2 Hình 3.1, trang 59 - Bổ sung trích dẫn để diễn giải cho giá trị Mj, trang 61 - Bổ sung diễn giải độ phức tạp hệ suy diễn mờ, trang 103 - Bổ sung diễn giải độ phức tạp Thuật toán V2PFQL, trang 113 - Bổ sung diễn giải độ phức tạp Thuật toán V2PFQL-AS, trang 117 Bỏ nội dung - Bỏ đoạn “Việc lập kế hoạch xem xét kiện - điều kiện - hành động (ECA - Event Condition Action), dễ thực nhanh chóng tính tốn, có dạng hàm tối ưu số tính định hệ thống quản lý”, trang 10 - Bỏ tiêu đề “định nghĩa” , trang 108, 114 - Bỏ trích dẫn lại kết cơng bố khoa học đồng thời nội dung thực luận án Tp Hồ Chí Minh, ngày ọ thảng Tập thể hướng dẫn Nghiên cứu sinh (Ký, ghi rõ họ tên) (Ký, ghi rõ họ tên) CHỦ TỊCH HỘI ĐỒNG THƯ KÝ HỘI ĐỒNG (Kỷ, ghi rõ họ tên) (Ký, ghi rõ họ tên) năm