Phương hướng phát triển

Luận văn đã trình bày một nghiên cứu dự báo lỗi của các nút, hay máy chủ trong một cụm máy chủ của Google dựa trên một tập nhật kí mà Google đã công bố. Trích xuất tính năng từ dữ liệu gốc được thực hiện bằng BigQuery, nền tảng đám mây dữ liệu lớn từ Google cho phép truy vấn SQL. Một số lượng lớn các tính năng được tạo ra và một trình phân loại toàn bộ đã được huấn luyện về dữ liệu nhật ký trong 10 ngày và được kiểm tra vào ngày tiếp theo. Chiều dài của theo dõi cho phép lặp lại quá trình này 15 lần tạo ra 15 bộ dữ liệu chuẩn, và ngày cuối cùng trong mỗi tập dữ liệu được sử dụng để thử nghiệm. Nền tảng BigQuery rất hữu ích để có được các tính năng từ dữ liệu nhật ký. Mặc dù đã tìm thấy các giới hạn khi JOIN và GROUND BY các tính năng, chúng đã bị phá vỡ bằng cách tạo các bảng trung gian, đôi khi chứa trên 12TB dữ liệu. Mặc dù vậy, các tính năng đã đạt được với thời gian chạy giảm, tổng chi phí cho toàn bộ phân tích xử lý một tháng giá trị các bản ghi. Hiệu suất phân loại thay đổi từ một điểm chuẩn sang điểm khác, với phương pháp đường cong ROC dao động từ 0,76 đến 0,97 trong khi đo đường cong AUROC dao

động từ 0,38 đến 0,87. Điều này tương ứng với tỷ lệ dương tính thật trong khoảng 27% - 88% và chính xác từ 50% đến 72% với tỷ lệ FN 5%. Nói cách khác, điều này có nghĩa là trong trường hợp xấu nhất, chúng ta có thể xác định được 27% lỗi, trong khi nếu một điểm dữ liệu bị phân loại là thất bại, chúng ta có thể có 50% tự tin rằng chúng ta đang nhìn vào một thất bại thực sự. Đối với trường hợp tốt nhất, tôi đã có thể xác định gần 90% lỗi và 72% trường hợp được phân loại là thất bại tương ứng với thất bại thực sự. Tất cả điều này, với chi phí có báo động sai 5% thời gian.

Mặc dù không hoàn hảo, dự đoán này đạt được mức hiệu suất tốt. Kết quả có thể được cải thiện bằng cách thay đổi thủ tục subsampling. Ở đây, chỉ một tập con của dữ liệu SAFE đã được sử dụng do số lượng lớn các điểm dữ liệu trong lớp này, và một mẫu ngẫu nhiên đã được trích xuất từ tập hợp con này khi huấn luyện cho mỗi phân loại trong toàn bộ. Tuy nhiên, mỗi lần có thể lấy mẫu từ toàn bộ. Tuy nhiên, điều này đòi hỏi nhiều tài nguyên tính toán hơn cho việc huấn luyện, vì một máy trạm duy nhất không thể xử lý 300 GB dữ liệu cùng một lúc. Thời gian huấn luyện có thể được giảm thông qua song song, mỗi phân loại trong toàn bộ có thể được huấn luyện độc lập với những người khác. Những cải tiến này sẽ được theo đuổi trong tương lai. Việc giới thiệu các tính năng bổ sung cũng sẽ được khai thác để đưa vào một cách rõ ràng hơn sự tương tác giữa các máy. BigQuery sẽ được sử dụng để tương tác giữa các máy từ dữ liệu. Những thay đổi về tính chất của các mạng này theo thời gian có thể cung cấp thông tin quan trọng về những thất bại trong tương lai. Phương pháp trình bày ở đây rất thích hợp cho việc sử dụng các mô hình server chạy trên mạng. Một mô hình mới có thể được huấn luyện mỗi ngày chạy trực tuyến song song với mới Data Center đang chạy. Từ đó ta có thể dự báo lỗi được các mô hình vận hành này. Đó là hướng phát triển trong tương lai của luận văn.

KẾT LUẬN

Luận văn đã tổng quan được các định nghĩa về lỗi, kiến trúc dịch vụ cơ sở hạ tầng điện toán đám mây. Tổng quát được một số phương pháp nhận dạng lỗi trên cloud computing, nắm được nền tảng để ứng dụng thuật toán khác để giải quyết vấn đề bài toán nhận dạng lỗi trên cloud. Hơn nữa trình bày thuật toán Random Forest: nguồn gốc, ý tưởng và các độ đo đánh giá kỹ thuật phân loại, từ đó đi sâu nghiên cứu ứng dụng thuật toán để giải quyết bài toán. Cuối cùng, luận văn đã trình bày cách xây dựng tập dữ liệu dataset cho phân loại bằng Big Query và quá trình phân loại các máy lỗi dựa trên kỹ thuật Random Forest. Từ đó cho ra được kết quả nhận dạng lỗi với độ chính xác từ 50% - 72%.

Luận văn đã đề xuất ứng dụng thuật toán Random Forest để giải quyết bài toán nhận dạng lỗi cho một hệ thống cloud computing lớn. Mặc dù độ chính xác chưa hoàn hảo nhưng cũng đã đạt được mong muốn để có thể tiếp tục phát triển hướng nghiên cứu ứng dụng một hệ thống nhận dạng lỗi online cho cloud computing.

TÀI LIỆU THAM KHẢO

[1] Sumayah Alrwais, Behind the scenes of IaaS implementations, Indiana University.

[2] Ravi Jhawar, V.P, Marco Santambrogio, (2013), “Fault Tolerance Management in Cloud Computing: A System-Level Perspective”, IEEE. [3] Dawei Sun, G.C., Changsheng Miao, XingweiWang, (2013), “Analyzing, modeling and evaluating dynamic adaptive fault tolerance strategies in cloud computing environments”, Springer Science + Business Media New York. [4] Anju Bala, I.C., (2012), “Fault Tolerance- Challenges, Techniques and Implementation in Cloud Computing”, IJCSI International Journal of Computer Science Issues.

[5] Ths. Đặng Minh Úc, (2015): Xây dựng phương pháp kháng lỗi chủ động trong cloud computing, Học Viện Bưu Chính Viễn Thông.

[6] Arvind Kumar, Rama Shankar Yadav, Ranvijay, Ajali Jain (2011), “Fault Tolerance in Real Time Distributed System” (IJCSE) International Journal of Computer Science and Engineer Vol. 3 No.2.

[7] Anju Bala, Inderveer Chana (2012), “Fault Tolerance -Challenges, Tecnigques and implementation in cloud computing” (IJCSI) International Journal of Computer Science Issue, Vol.9 Issue 1.

[8] J. R. Quinlan, (1993), C4. 5: Programs for Machine Learning, San Mateo, CA: Morgan Kaufmann.

[9] Zeeshan Amin, Nisha Sethi, Harshpreet Singh (Apirl 2015), Review on fault tolerance tecniques in cloud computing, International Journal of computer applications, Volume 116 –No.18.

[10] J. R. Quinlan, (1993), C4.5: Programs for Machine Learning, San Mateo, CA: Morgan Kaufmann.

[11] L. Breiman, (2001), Random forest, Technical report, Statistics Department University of California Berkeley.

[12] https://en.wikipedia.org/wiki/Bootstrap_aggregating, truy cập vào lúc 10:30 am ngày 7/4/2017.

[13] Truy cập https://en.wikipedia.org/wiki/Out-of- bag_error., truy cập vào lúc

[14] J. Wilkes, “More Google cluster data,” Google research blog, Nov. 2011, Posted at http://googleresearch.blogspot. com/2011/11/more-google-cluster- data.html.

[15] Alina Sırbu, Ozalp Babaoglu Department of Computer Science and Engineering, University of Bologna Mura Anteo Zamboni 7, 40126 Bologna, Italy.

[16] L. Rokach, (2010), “Ensemble-based classifiers,” Artificial Intelligence Review, vol. 33, no. 1-2, pp. 1–39.

[17] L. I. Kuncheva, C. J. Whitaker, C. A. Shipp, and R. P. Duin, “Is independence good for combining classifiers?” in Pattern Recognition, 2000. Proceedings. 15th International Conference on, vol. 2. IEEE, 2000, pp. 168–171. [18] C. A. Shipp and L. I. Kuncheva, (2002), “Relationships between combination methods and measures of diversity in combining classifiers,” Information Fusion, vol. 3, no. 2, pp. 135 – 148.

[19] M. Galar, A. Fernandez, E. Barrenechea, H. Bustince, and F. Herrera, (2012), “A review on ensembles for the class imbalance problem: bagging-, boosting-, and hybrid-based approaches”, Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, vol. 42, no. 4, pp. 463– 484.

[20] D. W. Opitz, J. W. Shavlik et al., (1996), “Generating accurate and diverse members of a neural-network ensemble,” Advances in neural information processing systems, pp. 535–541.

Xây dựng tập dữ liệu dataset

Đánh giá dựa theo các độ đo