Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (LV thạc sĩ)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (LV thạc sĩ)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (LV thạc sĩ)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (LV thạc sĩ)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (LV thạc sĩ)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (LV thạc sĩ)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (LV thạc sĩ)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (LV thạc sĩ)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (LV thạc sĩ)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (LV thạc sĩ)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (LV thạc sĩ)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (LV thạc sĩ)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (LV thạc sĩ)
HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN VĂN QUÝ ỨNG DỤNG RANDOM FOREST NHẬN DẠNG LỖI CHO CLOUD COMPUTING IAAS LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) THÀNH PHỐ HỒ CHÍ MINH - 2017 HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN VĂN QUÝ ỨNG DỤNG RANDOM FOREST NHẬN DẠNG LỖI CHO CLOUD COMPUTING IAAS Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS TRẦN CÔNG HÙNG THÀNH PHỐ HỒ CHÍ MINH - 2017 i i LỜI CAM ĐOAN Tơi cam đoan cơng trình nghiên cứu riêng Các số liệu, kết nêu luận văn trung thực chưa cơng bố cơng trình khác Tp Hồ Chí Minh, ngày….tháng….năm 2017 Học viên thực luận văn Nguyễn Văn Qúy ii LỜI CẢM ƠN Tôi xin gửi lời cảm ơn chân thành đến Thầy PGS.TS Trần Cơng Hùng, người tận tình hướng dẫn, hỗ trợ giúp đỡ nhiều nghiên cứu luận văn Thầy đưa định hướng, nhận xét góp ý quý giá để luận văn hoàn thành tốt Cùng với hướng dẫn tận tình, góp ý định hướng luận văn nghiên cứu ThS Bùi Thanh Khiết, anh dõi theo giúp đỡ nhiều q trình thực luận văn Kính gửi lời cảm ơn sâu sắc đến quý Thầy, Cô giảng viên thời gian qua nhiệt tình giảng dạy truyền đạt kiến thức chuyên môn cần thiết q trình tơi học tập Học viện Cơng nghệ Bưu Viễn thơng – Cơ sở II, Thành phố Hồ Chí Minh Xin gửi lời cảm ơn sâu sắc đến Ban giám đốc Học viện Bưu Viễn thơng, Cán Phòng Đào tạo trường nhiệt tình giúp đỡ tạo điều kiện thuận lợi để tơi có mơi trường học tập tốt hồn tất khóa học Xin gửi lời biết ơn vơ hạn đến gia đình khơng ngừng quan tâm, động viên, ủng hộ mặt tinh thần lẫn vật chất suốt thời gian tơi tham gia khóa học thực luận văn Cảm ơn anh chị đồng nghiệp, bè bạn lớp Cao học Hệ thống thông tin khóa 2015-2017 giúp đỡ đồng hành tơi năm tháng học tập nhà trường Tp Hồ Chí Minh, ngày….tháng….năm 2017 Học viên thực luận văn Nguyễn Văn Qúy iii MỤC LỤC LỜI CAM ĐOAN i LỜI CẢM ƠN ii MỤC LỤC iii DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT v DANH MỤC CÁC HÌNH VẼ v DANH SÁCH BẢNG vii MỞ ĐẦU CHƯƠNG - TỔNG QUAN VỀ NHẬN DẠNG LỖI TRONG CLOUD 1.1 Giới thiệu 1.1.1 Dịch vụ sở hạ tầng IaaS 1.1.2 Lỗi cloud IaaS 1.2 Một số phương pháp nhận dạng lỗi điện toán đám mây 1.3 Các tham số đo lường phương pháp nhận dạng lỗi cho cloud computing 1.4 Kết luận Chương CHƯƠNG - THUẬT TOÁN RANDOM FOREST 2.1 Nguồn gốc đời thuật toán 2.2 Thuật toán Random Forest 2.2.1 Giới thiệu thuật toán Random Forest 2.2.2 Lịch sử thuật toán Random Forest 10 2.2.3 Thuật toán Random Forest 10 2.2.4 Đặc tính thuật tốn Random Forest 11 2.2.5 Tóm tắt giải thuật 12 2.2.6 Đặc điểm Random Forest 13 2.2.7 Mơ hình phân lớp với Random Forest 14 2.3 Các độ đo đánh giá thuật toán phân loại: 14 iv 2.3.1 Tiêu chí ROC 14 2.3.2 Tiêu chí CE 15 2.4 Kết luận chương 16 CHƯƠNG - SỬ DỤNG RANDOM FOREST DỰ ĐOÁN LỖI GOOGLE CLUSTER 17 3.1 Tổng quan Google cluster 17 3.1.1 Kỹ thuật cluster 17 3.1.2 Google cluster trace 20 3.2 Xây dựng tập liệu dataset 22 3.3 Kỹ thuật phân lớp 26 3.4 Kết luận chương 30 CHƯƠNG - ĐÁNH GIÁ KẾT QUẢ ĐẠT ĐƯỢC VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN 31 4.1 Các kết đạt được: 31 4.1.1 Môi trường thực nghiệm 31 4.1.2 Đánh giá dựa theo độ đo 32 4.1.3 Kết tổng thể 355 4.2 Phương hướng phát triển 355 KẾT LUẬN……………………………………………………… ………………37 DANH MỤC TÀI LIỆU THAM KHẢO 388 v DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT Viết tắt Tiếng Anh IaaS Infrastructure as a Service Hạ tầng dịch vụ ML Maching learning Kỹ thuật máy học RF Random Forest Rừng ngẫu nhiên CPU Central Processing Unit Bộ xử lý trung tâm HDD RAM Hard Disk Drive Random Access Memory QoS f(z) Quality of Service Logistic Function Ổ cứng Bộ nhớ truy cập ngẫu nhiên Chất lượng dịch vụ Hàm mục tiêu {⊖k} Vectors Tập véctơ TP True Postisive Dương tính thật FN False negatives Âm tính giả TPR True positive rates Tỉ lệ Dương tính thật FPR False positive rates Tỉ lệ Âm tính thật TN ROC True negatives Receiver operating characteristic Cost effectiveness Dương tính giả Đường cong ROC PR The area under a ROC Curve Precision-Recall Khu vực đường ROC Dự đoán- Độ phủ AUPR The area under a PR Khu vực đường PR CSV Comma Separated Values Định dạng tập tin CPI Cycles per instruction Chu kỳ theo hướng dẫn MAI SD Memory access per instruction extracted Standard deviation Truy cập nhớ cho lệnh trích Độ lệch chuẩn CV Coefficient of variation Hệ số biến thể BQ Big Query Truy vấn Cơ Sở Dữ Liệu TTR Time to remove Thời điểm xóa CE AUROC Tiếng Việt Hiệu chi phí vi DANH MỤC CÁC HÌNH VẼ Hình 1.1 Kiến trúc dịch vụ sở hạ tầng Hình 2.1 Mơ hình phân lớp 12 Hình 3.1 Trạng thái dịch chuyển job task 20 Hình 3.2 Biểu đồ CPU kể từ lúc bắt đầu theo dõi 23 Hình 3.3 Phương pháp xác nhận chéo 26 Hình 4.1 AUROC AUPR lần đánh giá 29 Hình 4.2 Biểu đồ đánh giá lần chạy thứ cho kết xấu 31 Hình 4.3 Biểu đồ đánh giá lần chạy thứ 14 cho kết xấu 31 Hình 4.4 Ngưỡng dao động FAIL SAFE 33 vii DANH SÁCH BẢNG Bảng 3.1 Thời gian chạy BigQuery 20 Bảng 3.2 Quy mô tập huấn kiểm tra liệu huấn luyện 30 25 thời gian từ kiện XÓA quan tâm tới kiện THÊM cho máy Nếu "thời gian trễ" lớn, ta giả định kiện XĨA lỗi máy, nhỏ, máy tính gỡ bỏ để thực cập nhật phần mềm Để đảm bảo kiện coi thất bại thực lỗi thực sự, báo sử dụng ngưỡng thời gian "down time" tương đối dài giờ, lớn thời gian cần cho cập nhật phần mềm điển hình Dựa vào ngưỡng này, tổng số 8.957 kiện XÓA, 2.298 coi thất bại mục tiêu nghiên cứu dự báo Đối với kiện lại, ta khơng thể chắn nguyên nhân, điểm liệu cửa sổ 24 trước xóa hồn tồn khỏi liệu Một giải pháp thay coi phần lớp SAFE, nhiên điều khơng số điểm Vì vậy, loại bỏ chúng hồn tồn đảm bảo tất liệu có nhãn SAFE (an tồn) thực tế SAFE Đối với tính dựa chủ yếu vào phép đo tải, ta thêm hai tính mới: thời gian tính thời gian máy (thời gian kể từ lần kết cuối tương ứng) số lần XĨA Vậy cho tồn cụm vòng trước Kết tổng cộng 416 tính cho 104.197.215 điểm liệu (gần 300GB liệu xử lý) Hình 3.2 hiển thị chuỗi thời gian cho tính chọn (và kiện XĨA) máy điển hình Hình 3.2: Biểu đồ CPU kể từ lúc bắt đầu theo dõi [15] 26 Bốn chuỗi thời gian (4 416 tính năng) cho máy hệ thống Các tính hiển thị là: CPU cho cửa sổ thời gian qua, trung bình CPU 12 giờ, hệ số hệ số biến thiên 12 qua tương quan CPU số lượng công việc chạy 12 qua Các đường thẳng màu xám cho biết thời gian f xóa kiện, số khoảng trống máy khơng có sẵn Khoảng trống lớn từ ~ 250 đến ~ 370 ví dụ thời gian chết máy dài, sau loạt lỗi không thành cơng (nhóm đường thẳng màu xám khoảng 250 giờ) Trong trường hợp này, máy cần kiểm tra sửa chữa rộng rãi trước đưa vào liệu luận văn Kết thúc trình ta files safe.24h fail.24h 3.3 Kỹ thuật phân lớp Những tính chứa mục 3.2 sử dụng cho phân loại dùng kĩ thuật phân loại Random Forest Những tính chứa mục trước sử dụng cho phân loại dùng kĩ thuật phân loại RF Các điểm data chia làm lớp: SAFE (phản đối) FAIL (đồng ý) Để làm điều này, điểm liệu (tương ứng với máy thời điểm định) ta tính tốn time_to_remove cho kiện XĨA Sau đó, tất điểm với time_to_remove < 24h ta gán vào class fail khác gán cho class Safe Luận văn trích xuất tất point data FAIL tương ứng với FAIL thật (108,365 điểm liệu) với subset (nhánh con) class (lớp) SAFE, tương ứng 0.5% tổng tạo ngẫu nhiên subsampling (544985 point sau chia nhánh) Sử dụng thủ tục để đối phó với thực tế lớp SAFE lớn nhiều so với lớp FAIL phân loại có khó khăn việc học mẫu từ liệu cân Subsampling (mẫu con) cách để giảm mức độ cân [8] Ngay sau dùng phương pháp subsampling, phản đối khoảng gấp lần số đồng ý Tất 653350 data points (SAFE plus FAIL) sở nghiên cứu dự đoán luận văn Với số lượng lớn tính năng, số hữu ích tính khác, luận văn khám phá hai loại chế lựa chọn tính Một phân tích component chính, sử dụng thuộc tính ban đầu để xây dựng sẻ component chính- Các tính bổ sung chiếm đa số thay đổi liệu Sau 27 đó, người ta sử dụng component để phân loại, component chứa thông tin quan trọng Luận văn huấn luyện phân loại với số lượng ngày tăng component chính, nhiên hiệu suất thu khơng tốt so với sử dụng tính ban đầu Một chế thứ hai lọc tính ban đầu dựa tương quan chúng với thời gian tới cố cố (time_to_remove trước) Các tương quan khoảng [-0.3,0.45], ta sử dụng tính có độ tương quan tuyệt đối lớn ngưỡng Ta thấy hiệu suất tốt thu với ngưỡng null (rỗng), có nghĩa lần sử dụng tất thuộc tính Do đó, nỗ lực để giảm tính khơng cho kết tốt mà RF huấn luyện trực tiếp tính ban đầu Một lý cho điều thực tế RF tự thực lựa chọn tính huấn luyện định Dường chế RF thực tốt trường hợp lọc dựa tương quan phân tích component Để đánh giá hiệu phương pháp tiếp cận, luận văn sử dụng xác nhận chéo Với thủ tục luận văn sử dụng để xác định class, có nhiều data point tương ứng với thất bại tương tự (dữ liệu 24 với độ phân giải phút) Vì số điểm liệu giống nên việc chọn liệu train (huấn luyện) liệu kiểm tra (test) thực cách chọn tập ngẫu nhiên Mặc dù việc lựa chọn ngẫu nhiên cho kết dự đốn tốt, khơng thực tế sử dụng liệu thử nghiệm tương tự liệu huấn luyện Đây lý luận văn chọn để chia tách liệu cặp train/test theo thời gian Luận văn xem xét dựa việc huấn luyện liệu cửa sổ 10 ngày, kiểm tra dựa liệu ngày hôm sau mà không trùng với liệu huấn luyện Do đó, ngày kiểm tra bắt đầu 24 sau điểm liệu huấn luyện cuối Hai ngày bị bỏ qua để làm giảm hiệu ứng tính tổng hợp Theo cách này, có 15 train/test sử dụng làm điểm chuẩn để đánh giá phân tích (xem Hình 3.3) Thủ tục xác nhận chéo để đảm bảo hiệu suất phân loại thực tế giả tạo cấu trúc liệu Ngồi ra, mơ đường dự đốn FAIL áp dụng data center trực tiếp, nơi mà ngày mơ hình huấn luyện liệu khứ để dự đoán FAIL tương lai 28 Do nhiều điểm từ class FAIL giống nhau, trường hợp class SAFE việc lấy mẫu ban đầu, thông tin lớp SAFE chiếm đa số Điều nhắc thêm mẫu subsample class phản đối để có liệu huấn luyện Điều thực cho tỷ số điểm liệu SAFE FAIL tham số fsafe Thay đổi tham số với giá trị {0.25, 0.5, 1, 2, 3,4} sử dụng tất điểm liệu từ lớp đồng ý để không bỏ lỡ thơng tin hữu ích Điều áp dụng cho liệu huấn luyện: để kiểm tra, luận văn sử dụng tất liệu từ lớp phủ định đồng ý (trong số liệu sở 653.350 điểm) Sử dụng RF có kích cỡ khác nhau, với số Cây định thay đổi từ đến 15 với bước (dẫn đến 14 giá trị khác nhau) Hình 3.3: Phương pháp xác nhận chéo: kiểm tra chuyển tiếp thời gian (forward-in-time testing) 10 ngày sử dụng để huấn luyện ngày để testing Một 15 tiêu chuẩn (train/test pairs) thu cách trượt cửa sổ train/test qua 29 ngày theo dõi Hiệu suất phân loại đơn, dù tốt ngẫu nhiên, đánh giá khơng thỏa đáng Đó lý luận văn chọn phương pháp tổng hợp, tạo loạt phân loại sau lựa chọn kết hợp chúng để cung cấp phân loại cuối Ensembles (phân loại tập hợp) tăng cường sức mạnh phân loại cá thể hiệu suất thấp [16], đặc biệt chúng đa dạng [17-18]: họ đưa câu trả lời sai điểm liệu khác (lỗi độc lập), sau kết hợp kiến thức nâng cao độ xác Để tạo phân loại đa dạng, người ta thay đổi tham số mơ hình huấn luyện chúng với liệu khác (được gọi phương pháp tính tốn bagging [16]) Thuật toán Bagging tốt với subsampling để vượt qua vấn đề kiện hoi, thực tế hiển thị có hiệu cho vấn đề cân lớp [19] Do đó, luận văn áp dụng cách tiếp cận tương tự để xây dựng phân loại riêng Mỗi lần 29 phân loại huấn luyện, tập liệu huấn luyện xây dựng cách xem xét tất điểm liệu lớp dương tập ngẫu nhiên lớp phủ định Như mơ tả trên, kích thước tập định nghĩa tham số fsafe Bằng cách thay đổi giá trị khơng an tồn số lượng thuật tốn RF, tơi tạo phân loại khác Các thuật toán sau chi tiết thủ tục sử dụng để xây dựng phân loại cá nhân toàn Luận văn lặp lại thủ tục lần, kết lần phân loại cho lần kết hợp thông số fsafe kích cỡ RF/ Kết tổng 420 RF toàn (5 lần lặp lại × giá trị fsafe × 14 sizes RF) Một có nhóm phân loại, chiến lược kết hợp phải sử dụng Hầu hết phương pháp tiếp cận sử dụng nguyên tắc bỏ phiếu đa số - phân loại bỏ phiếu cho lớp lớp đa số trở thành định cuối [16] Ngoài ra, bỏ phiếu có trọng số sử dụng, luận văn chọn để bỏ phiếu có trọng số xác (precision-weighted voting) Đối với hầu hết phương pháp tại, trọng số tương ứng với độ xác phân loại liệu huấn luyện (training data) [20] Trong trường hợp này, hiệu liệu huấn luyện gần với độ hoàn hảo độ xác nói chung cao, lý luận văn sử dụng độ xác tập liệu thử 30 nghiệm Cụ thể, luận văn chia liệu thử nghiệm thành hai phần: liệu thử nghiệm đơn (individual test dataset) liệu kiểm tra toàn (ensemble test dataset) Cái cũ sử dụng để đánh giá độ xác phân loại riêng lẻ có trọng số cho việc bỏ phiếu phân loại Thứ hai cung cấp đánh giá cuối tất phân loại Tất liệu tương ứng với ngày thử nghiệm sử dụng, khơng có phân nhánh Bảng 3.2 cho thấy số điểm liệu sử dụng cho điểm chuẩn cho việc huấn luyện thử nghiệm Mặc dù thơng số fsafe kiểm sốt tỷ lệ SAFE / FAIL trình huấn luyện, trường hợp FAIL gặp trình kiểm tra, thay đổi từ 13% đến 36% số lần SAFE Bảng 3.2: Quy mô tập huấn kiểm tra liệu huấn luyện, số điểm liệu SAFE số FAIL nhân với tham số fsafe lần chạy 3.4 Kết luận chương Trong chương trình bày cách xây dựng tập liệu dataset cho phân loại Big Query trình phân loại máy lỗi dựa kỹ thuật Random Forest 31 CHƯƠNG - ĐÁNH GIÁ KẾT QUẢ ĐẠT ĐƯỢC VÀ PHƯƠNG HƯỚNG PHÁT TRIỂN 4.1 Các kết đạt 4.1.1 Môi trường thực nghiệm Bộ phân loại chung áp dụng cho tất 15 liệu chuẩn Việc huấn luyện thực Máy tính để bàn (Desktop) với xử lý Intel Core i5 3.5 GHz nhớ RAM DDR3 16GB, 1600MHz chạy Windows 10 Mỗi lần huấn luyện từ đến cho liệu chuẩn 4.1.2 Đánh giá dựa theo độ đo Cho kết việc phân loại hàm số liên tục (Phương trình bậc 2), giá trị riêng biệt, việc đánh giá dựa biểu đồ ROC (ROC) Precision-Recall (PR) Một lớp thu cho điểm liệu j từ điểm sj’ cách sử dụng ngưỡng s * Một điểm liệu coi lớp FAIL sj '≥s * Các s * nhỏ hơn, nhiều trường hợp phân loại thất bại Do đó, cách giảm s * số TP tăng lên làm FP cân đối Tương tự, giá trị ngưỡng khác nhau, độ xác định thu Đường cong ROC tính tỷ lệ Tích cực so với False Positive Rate - FPR phân loại ngưỡng khác Tương tự vậy, đường cong PR hiển thị độ phân giải xác nhận (bằng TPR độ nhạy) Thường xuyên để đánh giá phân loại cách tính diện tích ROC (AUROC) diện tích đường cong PR (AUPR), dao động từ đến Các giá trị AUROC lớn 0,5 tương ứng với phân loại hoạt động tốt phép đoán ngẫu nhiên, AUPR đại diện cho độ xác phân loại trung bình, , Một lần nữa, cao tốt AUROC AUPR không phụ thuộc vào phân bố tương đối hai lớp, chúng đặc biệt phù hợp vấn đề cân cấp lớp trình giải vấn đề 32 Hình 4.1: Các giá trị AUROC AUPR qua lần đánh giá Hình 4.1 cho thấy giá trị AUROC AUPR thu cho tất liệu, đánh giá liệu kiểm tra toàn Đối với tất điểm chuẩn, giá trị AUROC tốt, 0,75 đến 0,97 AUPR dao động từ 0,38 đến 0,87 Hiệu suất dường tăng lên, đặc biệt độ xác, vào cuối dấu vết Hiệu suất thấp quan sát thấy hai tiêu chuẩn số tính tổng hợp (những người ngày) tính tốn với liệu chưa đầy đủ từ đầu.Để đánh giá hiệu thông số khác phương pháp tiếp cận tồn 33 Hình 4.2: Biểu đồ đánh giá lần chạy thứ cho kết xấu Hình 4.3: Biểu đồ đánh giá lần chạy thứ 14 cho kết xấu Hình 4.2 4.3 hiển thị đường cong ROC PR cho đánh giá cho kết tệ tốt 15 lần đánh giá (lần lượt 14) Hiệu suất phân loại riêng biệt toàn thể hiển thị (như điểm không gian ROC) Chúng ta thấy phân loại riêng lẻ dẫn đến FPR thấp, điều quan trọng việc dự báo thất bại Tuy nhiên, nhiều trường hợp, giá trị TPR thấp Điều có nghĩa hầu hết liệu thử nghiệm phân loại SAFE thất bại thực xác định TPR dường tăng lên thông số fsafe giảm, chi phí FPR xác Các điểm chấm cho thấy phụ thuộc rõ ràng ba biện 34 pháp vẽ giá trị bảo vệ Khi lượng liệu huấn luyện SAFE giảm, phân loại trở tốt xác định nhiều thất bại hơn, kết quan trọng cho vấn đề cân Ngồi ra, cho thấy rõ phân loại đơn đạt với giá trị khác cho SAFE đa dạng, điều quan trọng để có hiệu đồng tốt Nhìn chung, điểm tương ứng với phân loại riêng lẻ đường cong ROC PR mô tả hiệu suất tổng thể Điều chứng minh phương pháp tổng thể tốt so với phân loại đơn cho vấn đề này, đa dạng chúng Một số trường hợp ngoại lệ xuất (điểm đường kẻ cố định), nhiên với TPR thấp (dưới 0.2) khu vực ROC / PR không gian mà đáng quan tâm Luận văn quan tâm đến việc tối đa hóa TPR giữ FPR Cụ thể, FPR không vượt q 5%, có nghĩa báo động sai Tại ngưỡng này, hai ví dụ từ Hình 4.1 Hình 4.2 hiển thị giá trị TPR 0,272 (trường hợp xấu nhất) 0,886 (trường hợp tốt nhất), tương ứng với giá trị xác 0,502 0,728 Điều tốt nhiều so với phân loại cá nhân cấp độ này, độ xác TPR Đối với dự đốn thất bại, điều có nghĩa 27,2% 88,6% lỗi xác định vậy, từ tất trường hợp đánh dấu lỗi, khoảng 50,2% đến 72,8% thất bại thực Để phân tích hàm ý kết thu chi tiết hơn, mối quan hệ phân loại thời gian xác kiện XĨA nghiên cứu cho điểm liệu Điều quan trọng ban đầu luận văn gán nhãn SAFE cho tất điểm liệu vượt 24 so với lỗi Theo phân loại này, máy coi trạng thái an tồn cho dù khơng thành cơng tuần ngày Tương tự, coi FAIL cho dù khơng thành công 23 10 phút Rõ ràng tình khác nhau, tác động phân loại sai lệch khác tùy thuộc vào thời gian cho thất bại Hình hiển thị đồ hoạ Khi thời gian để thất bại giảm xuống, điểm liệu SAFE bị phân loại sai FAIL phân loại sai, thất bại thực đến gần Tương tự, điểm FAIL có nhãn SAFE có tác động tiêu cực cao gần với điểm thất bại 35 Hình 4.4: Ngưỡng dao động FAIL SAFE 4.1.3 Kết tổng thể Luận văn mô tả cách phân loại tập hợp xây dựng từ nhiều phân loại Rừng ngẫu nhiên huấn luyện thuộc tính, dự đốn máy tính gặp lỗi sau 24 tương lai Đánh giá luận văn cho thấy hạn chế tỷ lệ FP tới 5%, ta đạt tỷ lệ FPR 27% 88% với độ xác dao động từ 50% đến 72% 4.2 Phương hướng phát triển Luận văn trình bày nghiên cứu dự báo lỗi nút, hay máy chủ cụm máy chủ Google dựa tập nhật kí mà Google cơng bố Trích xuất tính từ liệu gốc thực BigQuery, tảng đám mây liệu lớn từ Google cho phép truy vấn SQL Một số lượng lớn tính tạo trình phân loại tồn huấn luyện liệu nhật ký 10 ngày kiểm tra vào ngày Chiều dài theo dõi cho phép lặp lại trình 15 lần tạo 15 liệu chuẩn, ngày cuối tập liệu sử dụng để thử nghiệm Nền tảng BigQuery hữu ích để có tính từ liệu nhật ký Mặc dù tìm thấy giới hạn JOIN GROUND BY tính năng, chúng bị phá vỡ cách tạo bảng trung gian, chứa 12TB liệu Mặc dù vậy, tính đạt với thời gian chạy giảm, tổng chi phí cho tồn phân tích xử lý tháng giá trị ghi Hiệu suất phân loại thay đổi từ điểm chuẩn sang điểm khác, với phương pháp đường cong ROC dao động từ 0,76 đến 0,97 đo đường cong AUROC dao 36 động từ 0,38 đến 0,87 Điều tương ứng với tỷ lệ dương tính thật khoảng 27% - 88% xác từ 50% đến 72% với tỷ lệ FN 5% Nói cách khác, điều có nghĩa trường hợp xấu nhất, xác định 27% lỗi, điểm liệu bị phân loại thất bại, có 50% tự tin nhìn vào thất bại thực Đối với trường hợp tốt nhất, tơi xác định gần 90% lỗi 72% trường hợp phân loại thất bại tương ứng với thất bại thực Tất điều này, với chi phí có báo động sai 5% thời gian Mặc dù khơng hồn hảo, dự đốn đạt mức hiệu suất tốt Kết cải thiện cách thay đổi thủ tục subsampling Ở đây, tập liệu SAFE sử dụng số lượng lớn điểm liệu lớp này, mẫu ngẫu nhiên trích xuất từ tập hợp huấn luyện cho phân loại toàn Tuy nhiên, lần lấy mẫu từ tồn Tuy nhiên, điều đòi hỏi nhiều tài ngun tính tốn cho việc huấn luyện, máy trạm xử lý 300 GB liệu lúc Thời gian huấn luyện giảm thơng qua song song, phân loại tồn huấn luyện độc lập với người khác Những cải tiến theo đuổi tương lai Việc giới thiệu tính bổ sung khai thác để đưa vào cách rõ ràng tương tác máy BigQuery sử dụng để tương tác máy từ liệu Những thay đổi tính chất mạng theo thời gian cung cấp thơng tin quan trọng thất bại tương lai Phương pháp trình bày thích hợp cho việc sử dụng mơ hình server chạy mạng Một mơ hình huấn luyện ngày chạy trực tuyến song song với Data Center chạy Từ ta dự báo lỗi mơ hình vận hành Đó hướng phát triển tương lai luận văn 37 KẾT LUẬN Luận văn tổng quan định nghĩa lỗi, kiến trúc dịch vụ sở hạ tầng điện toán đám mây Tổng quát số phương pháp nhận dạng lỗi cloud computing, nắm tảng để ứng dụng thuật toán khác để giải vấn đề toán nhận dạng lỗi cloud Hơn trình bày thuật tốn Random Forest: nguồn gốc, ý tưởng độ đo đánh giá kỹ thuật phân loại, từ sâu nghiên cứu ứng dụng thuật toán để giải toán Cuối cùng, luận văn trình bày cách xây dựng tập liệu dataset cho phân loại Big Query trình phân loại máy lỗi dựa kỹ thuật Random Forest Từ cho kết nhận dạng lỗi với độ xác từ 50% - 72% Luận văn đề xuất ứng dụng thuật toán Random Forest để giải toán nhận dạng lỗi cho hệ thống cloud computing lớn Mặc dù độ xác chưa hoàn hảo đạt mong muốn để tiếp tục phát triển hướng nghiên cứu ứng dụng hệ thống nhận dạng lỗi online cho cloud computing 38 TÀI LIỆU THAM KHẢO [1] Sumayah Alrwais, Behind the scenes of IaaS implementations, Indiana University [2] Ravi Jhawar, V.P, Marco Santambrogio, (2013), “Fault Tolerance Management in Cloud Computing: A System-Level Perspective”, IEEE [3] Dawei Sun, G.C., Changsheng Miao, XingweiWang, (2013), “Analyzing, modeling and evaluating dynamic adaptive fault tolerance strategies in cloud computing environments”, Springer Science + Business Media New York [4] Anju Bala, I.C., (2012), “Fault Tolerance- Challenges, Techniques and Implementation in Cloud Computing”, IJCSI International Journal of Computer Science Issues [5] Ths Đặng Minh Úc, (2015): Xây dựng phương pháp kháng lỗi chủ động cloud computing, Học Viện Bưu Chính Viễn Thơng [6] Arvind Kumar, Rama Shankar Yadav, Ranvijay, Ajali Jain (2011), “Fault Tolerance in Real Time Distributed System” (IJCSE) International Journal of Computer Science and Engineer Vol No.2 [7] Anju Bala, Inderveer Chana (2012), “Fault Tolerance -Challenges, Tecnigques and implementation in cloud computing” (IJCSI) International Journal of Computer Science Issue, Vol.9 Issue [8] J R Quinlan, (1993), C4 5: Programs for Machine Learning, San Mateo, CA: Morgan Kaufmann [9] Zeeshan Amin, Nisha Sethi, Harshpreet Singh (Apirl 2015), Review on fault tolerance tecniques in cloud computing, International Journal of computer applications, Volume 116 –No.18 [10] J R Quinlan, (1993), C4.5: Programs for Machine Learning, San Mateo, CA: Morgan Kaufmann [11] L Breiman, (2001), Random forest, Technical report, Statistics Department University of California Berkeley [12] https://en.wikipedia.org/wiki/Bootstrap_aggregating, truy cập vào lúc 10:30 am ngày 7/4/2017 [13] Truy cập https://en.wikipedia.org/wiki/Out-of- bag_error., truy cập vào lúc 01:30 pm ngày 8/4/2017 39 [14] J Wilkes, “More Google cluster data,” Google research blog, Nov 2011, Posted at http://googleresearch.blogspot com/2011/11/more-google-clusterdata.html [15] Alina Sırbu, Ozalp Babaoglu Department of Computer Science and Engineering, University of Bologna Mura Anteo Zamboni 7, 40126 Bologna, Italy [16] L Rokach, (2010), “Ensemble-based classifiers,” Artificial Intelligence Review, vol 33, no 1-2, pp 1–39 [17] L I Kuncheva, C J Whitaker, C A Shipp, and R P Duin, “Is independence good for combining classifiers?” in Pattern Recognition, 2000 Proceedings 15th International Conference on, vol IEEE, 2000, pp 168–171 [18] C A Shipp and L I Kuncheva, (2002), “Relationships between combination methods and measures of diversity in combining classifiers,” Information Fusion, vol 3, no 2, pp 135 – 148 [19] M Galar, A Fernandez, E Barrenechea, H Bustince, and F Herrera, (2012), “A review on ensembles for the class imbalance problem: bagging-, boosting-, and hybrid-based approaches”, Systems, Man, and Cybernetics, Part C: Applications and Reviews, IEEE Transactions on, vol 42, no 4, pp 463– 484 [20] D W Opitz, J W Shavlik et al., (1996), “Generating accurate and diverse members of a neural-network ensemble,” Advances in neural information processing systems, pp 535–541 ... NGUYỄN VĂN QUÝ ỨNG DỤNG RANDOM FOREST NHẬN DẠNG LỖI CHO CLOUD COMPUTING IAAS Chuyên ngành: Hệ thống thông tin Mã số: 60.48.01.04 LUẬN VĂN THẠC SĨ KỸ THUẬT (Theo định hướng ứng dụng) NGƯỜI HƯỚNG... lĩnh vực học máy (maching learning) để ứng dụng nhận dạng lỗi cho điện toán đám mây, cụ thể ứng dụng thuật toán Random Forest 1.2 Một số phương pháp nhận dạng lỗi điện toán đám mây Có số cách tiếp... thống hiệu có ứng dụng bị lỗi không ảnh hưởng đến ứng dụng khác Nhưng chi phí đầu tư cho kiểu cao số lượng node cho ứng dụng nhiều loại Thứ 3: Triển khai ứng dụng cluster, node cài ứng dụng khác