Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)
1 MỞ ĐẦU Trong năm gần đây, Điện toán đám mây phát triển chóng mặt đạt nhiều thành tựu mặt nghiên cứu ứng dụng thực tế Vào năm 2008, Amazon đẩy mạnh nghiên cứu triển khai Điện tốn đám mây Tiếp bước đó, tập đoàn lớn Microsoft, Google, IBM,… thúc đẩy Điện tốn đám mây phát triển nhanh chóng Hiện có nhiều nhà cung cấp dịch vụ cloud IaaS (Infrastructure as a Service) cung cấp cho nhiều khách hàng Một vấn đề quan trọng phải quan tâm xây dựng cung cấp dịch vụ điện tốn đám mây tính sẵn sàng dịch vụ Một dịch vụ Iaas tốt phải có khả nhận diện phản ứng kịp thời để đảm bảo tính thơng suốt chất lượng dịch vụ có cố Từ đặt nhu cầu cần phải xây dựng hệ thống nhận diện lỗi (fault detection) xác để xây dựng hệ thống kháng lỗi (fault tolerance) hiệu Bên cạnh việc tiếp tục dựa vào điều hành trực tiếp từ người để quản lý trung tâm liệu trở ngại lớn quy mơ sở liệu hệ thống ngày lớn Các hệ thống máy tính điện tốn đám mây nói chung trung tâm liệu nói riêng có xu hướng dần quản lý mơ hình tính tốn mơ hình thực thi dự đốn quản lý tự động Sự can thiệp người giới hạn cấp cao đặt mục tiêu quản lý sách cấp cao việc thực thi hệ thống tự động điều khiển định Việc tự động hóa liệu sẻ quản lý kiểm soát liệu dựa mơ hình dự đốn tổng thể, mơ hình xây dựng cập nhật liệu có sẵn trước đó.Điều hỗ trợ lớn việc quản lý hệ thống.Đây thách thức cho nhà nghiên cứu Dựa lĩnh vực nghiên cứu này, mục tiêu phạm vi nghiên cứu luận văn ứng dụng kĩ thuật học máy (maching learning), cụ thể thuật toán Random Forest để xây dựng mơ hình dự đốn lỗi máy cho hệ thống Google Cluster (một Cloud Computing lớn) dựa liệu công bố Google thu thập cụm gồm 12000 máy chủ với mục đích xây dựng đánh giá mơ hình dự báo lỗi máy chủ cụm máy chủ \ Nội dung luận văn gồm chương: - Chương 1: Tổng quan nhận dạng lỗi cloud computing - Chương 2: Thuật toán Random Forest - Chương 3: Sử dụng Random Forest dự báo lỗi cho Google cluster - Chương 4: Đánh giá kết đạt phương hướng phát triển CHƢƠNG 1- TỔNG QUAN VỀ NHẬN DẠNG LỖI TRONG CLOUD 1.1 Giới thiệu 1.1.1 Dịch vụ sở hạ tầng IaaS [1] 1.1.2 Lỗi cloud IaaS 1.2 Một số phƣơng pháp nhận dạng lỗi điện toán đám mây 1.2.1 Phương pháp ứng dụng định [8] Cây định mà nút bên bao gồm việc kiểm tra thuộc tính xác định nút đưa phân lớp mà áp dụng cho tất mẫu đạt đến nút lá, tập phân lớp, xác xuất phân tán qua tất lớp Để phân lớp cho mẫu chưa biết, định tuyến xuống dựa theo giá trị thuộc tính kiểm tra lần luợt theo nút, nút tìm thấy mẫu phân lớp dựa theo lớp mà gán cho nút Cây định phương tiện có tính mơ tả dành cho việc tính tốn xác suất có điều kiện Thuật tốn định thuật toán mà sử dụng rộng rãi thuật toán học máy việc xây dựng mẫu phân lớp từ nguồn liệu 1.2.2 Kỹ thuật hồi quy logistic (logistic regression) Trong thống kê, hồi quy logistic (mơ hình logit) sử dụng cho dự đoán khả xuất lỗi hệ thống hàm logit Kỹ thuật hồi quy logit phát triển năm 1970 mơ hình tuyến tính tổng qt hóa sử dụng cho hồi quy nhị phân (chỉ có giá trị) Giống dạng phân tích hồi quy, hồi quy tuyến tính tạo vài biến dự đốn mà số tên thể loại Hồi quy logit kiểu hồi quy mà biến phụ thuộc nhị phân số.Ví dụ: người bị đau tim khoảng thời gian thời gian cụ thể dự đốn dựa hiểu biết tuổi, giới tính, số thể Thuật toán hồi quy logit sử dụng rộng rãi ngành y tế, xã hội ứng dụng kinh doanh tiếp thị, ví dụ dự đoán xu hướng khách hàng mua sản phẩm không mua sản phẩm năm Hàm logit f(z) có dạng: 1.2.3 Kỹ thuật mạng nơ ron (neural net works) Mạng nơ ron nhân tạo (Artificial neural network – ANN) mô xử lý thông tin, nghiên cứu từ hệ thống thần kinh sinh vật, giống não để xử lý thông tin Nó bao gồm số lượng lớn mối gắn kết cấp cao để xử lý yếu tố làm việc mối liên hệ giải vấn đề rõ ràng Thuật tốn máy tính mơ kiến trúc sinh học thường gọi mạng nơron nhân tạo để phân biệt với phần mềm thể động vật ANNs hoạt động giống não người, học kinh nghiệm, lưu kinh nghiệm hiểu biết sử dụng tình phù hợp Đầu tiên ANN giới thiệu năm 1943 nhà thần kinh học Warren McCulloch nhà logic học Walter Pits Mạng nơron hoạt động dựa nguyên lý học máy Thơng qua mẫu có sẵn tập mục tiêu (với phương pháp học có thầy) để đưa kết luận có mẫu đưa vào Mạng nơron nhân tạo kỹ thuật mô lại não hệ thần kinh người Nó có khả học từ kinh nghiệm khứ, tổng quát hóa kinh nghiệm để đưa nhận định nhờ rút đặc trưng tập mẫu Các việc thực thông qua việc xử lý tín hiệu nơron với trọng số chúng 1.3 Các tham số đo lƣờng phƣơng pháp nhận dạng lỗi cho cloud computing Các phương pháp, thuật tốn nhận dạng lỗi có trước cloud computing thường xem xét tham số khác như: thông lượng (throughput), thời gian phản hồi (response-time), khả mở rộng, hiệu năng, khả sẵn sàng, độ khả dụng, độ tin cậy, độ an toàn, phí tổn kết hợp [9]: Thơng lượng (throughput): định nghĩa số lượng tác vụ hồn thành Hệ thống tốt thơng lượng có giá trị cao 5 Thời gian phản hồi: thời gian phản hồi, đáp ứng thuật toán, giá trị thấp tốt Khả mở rộng: Số lượng node hệ thống mà thuật toán kháng lỗi hoạt động tốt - Hiệu năng: tham số kiểm tra ảnh hưởng hiệu hệ thống áp dụng thuật toán Hiệu hệ thống cần cải thiện với chi phí hợp lý Độ sẵn sàng: độ sẵn sàng hệ thống yếu tố ảnh hưởng đến độ tin cậy Độ khả dụng: khả kết hợp với sản phẩm khác cách hiệu dễ dàng Độ tin cậy: xem xét khả đạt kết xác chấp nhận khoảng thời gian Phí tổn kết hợp: (overhead associated): phí tổn thực thi tác vụ, tiến trình thuật tốn Phí tổn gây tiến trình di chuyển liệu, nội tiến trình nội xử lý Một thuật toán kháng lỗi hiệu phí tổn phải nhỏ 1.4 Kết luận Chƣơng Trong chương tổng quan định nghĩa lỗi, kiến trúc dịch vụ sở hạ tầng điện toán Tổng quát số phương pháp nhận dạng lỗi cloud computing có liên quan đến luận văn Từ để nắm tảng để ứng dụng thuật toán khác để giải vấn đề toán đặt 6 CHƢƠNG - THUẬT TOÁN RANDOM FOREST 2.1 Nguồn gốc đời thuật toán 2.2 Thuật toán Random Forest [10-11] 2.2.1 Giới thiệu thuật toán Random Forest 2.2.2 Lịch sử thuật toán Random Forest 2.2.3 Thuật toán Random Forest Về thuật toán Random Forest (RF) – rừng ngẫu nhiên dựa kỹ thuật định Ý tưởng RF liên tưởng tới việc bầu cử theo nguyên tắc phổ thông đầu phiếu Nếu sử dụng định chẳng khác việc bầu cử mà có người bỏ phiếu Việc sinh định từ mẫu liệu nhằm đa dạng hoá “phiếu bầu” (giống việc thành phần, tầng lớp, giai cấp bỏ phiếu) cho kết luận Việc áp dụng kỹ thuật sinh mẫu liệu hay việc lựa chọn rẽ nhánh ngẫu nhiên tạo “dị tật” rừng (giống việc cho phép công dân không cần phân biệt trình độ học vấn, sức khỏe bầu cử) Càng nhiều loại hình, nhiều phiếu bầu cung cấp cho nhìn đa chiều, chi tiết kết luận có tính xác, gần với thực tế Định nghĩa: Một RF phân loại gồm tập phân loại có câu hình cây{h(x, ⊖k), k=1,…} {⊖k} vecto ngẫu nhiên, độc lập, có phân bố xác suất, bầu cử phiếu cho lớp phổ biến đầu vào x [5] 2.2.4.Đặc tính thuật tốn Random Forest Đối với rừng ngẫu nhiên, cận bắt nguồn cho lỗi phát sinh dạng hai tham số, cách xác định tính xác (Strength - Accuracy) tính tương quan (hay gọi độ nhạy - Correlation) phân loại riêng lẻ có rừng ngẫu nhiên Hàm tương quan sau: Công thức thể dao động mr sau: Hàm tính độ xácnhư sau: Giả sử s ≥0 ta có bất đẳng thức sau: Cơng thức thể dao động mr sau: Nếu Thì: Như vậy: rừng ngẫu nhiên, hai tiêu chí đánh giá phương pháp phân loại là: tính xác tính tương quan rừng tỷ lệ nghịch với Nếu tính tương quan rừng cao độ xác giảm Độ xác độ nhạy đứng tách khơng có ý nghĩa Hai độ đo có tương quan nghịch: độ xác cao độ nhạy thấp ngược lại Khi độ xác độ nhạy đạt giá trị tối thiểu lúc hệ thống khả phân loại Vì người ta phải kết hợp hai độ đo độ đo thống nhất, vấn đề đặt để cân hai tham số thực phân loại để đạt hiệu cao Theo công thức độ xác tỷ lệ phần trăm lớp phân loại lớp phân loại không lỗi: (TP/ (TP + FP)) Độ nhạy tỷ lệ phần trăm lớp phân loại sai lớp phân loại lỗi: (TP/ (TP + FN)) Ta có bảng mơ tả mối tương quan hai tiêu chí Trong đó: TPi số lượng mẫu phân loại đúng, phân vào lớp ci FPi số lượng mẫu bị phân loại sai, phân vào lớp ci FNi số lượng mẫu có nhãn thực ci không phân vào lớp ci TNi số lượng mẫu có nhãn thực khác ci khơng phân vào lớp ci Độ xác (pi) độ nhạy (ri) tính theo phân lớp định nghĩa sau: Độ xác chung là: Độ sai chung là: E = - A 2.2.5 Tóm tắt giải thuật Đầu vào tập liệu xây dựng sau chọn lọc từ Google cluster trace, gọi tập liệu đầu vào dataset Đầu mơ hình Random Forest để phân loại, Random Forest tập hợp nhiều định Ntree Với Cây Ntree xây dựng sử dụng thuật toán sau: Với N số lượng trường hợp liệu huấn luyện, M số lượng biến việc phân loại Lấy m số biến đầu vào sử dụng để xác định việc phân chia 1Nút cây, m < M Chọn tập huấn luyện cho cách chọn n ngẫu nhiên với thay từ tất trường hợp huấn luyện có sẵn N Sử dụng phần lại để ước lượng lỗi cây, cách dự đoán lớp chúng Với nút cây, chọn ngẫu nhiên m sở phân chia nút (độc lập với nút) Tính chia tốt dựa biến m tập huấn luyện n Mỗi trồng hồn tồn khơng tỉa (có thể sử dụng vệ xây dựng phân loại bình thường) Đối với dự dốn đưa vào.Nó gán nhãn mẫu đạo tạo nút cuối để kết thúc Thủ tục lập lại qua tất Ntree, đa số phiếu bình chọn với phân lớp hay trung bình với hồi quy Ntree dự đốn mơ hình 2.2.6 Đặc điểm Random Forest 2.2.7 Mơ hình phân lớp với Random Forest Hình 1.1: Mơ hình phân lớp 2.3 Các độ đo đánh giá thuật toán phân loại: 2.3.1 Tiêu chí ROC (receiver operating characteristic) 2.3.2 Tiêu chí CE (cost effectiveness ) 2.4 Kết luận chƣơng Trong chương trình bày thuật tốn Random Forest: nguồn gốc, ý tưởng độ đo đánh giá kỹ thuật phân loại 10 CHƢƠNG - SỬ DỤNG RANDOM FOREST DỰ ĐOÁN LỖI GOOGLE CLUSTER 3.1 Tổng quan Google cluster 3.1.1 Kỹ thuật cluster 3.1.2 Google cluster trace [14] 3.2 Xây dựng tập liệu dataset (pre- processing) Trong báo [15] sử dụng BigQuery, công cụ liệu lớn từ Google Cloud Platform để truy vấn SQL khối lượng liệu khổng lồ, cụ thể bảng có kích thước lên tới 12TB có hàng tỷ dòng liệu Từ bảng task events thu liệu theo thời gian cách phút Tổng cộng thuộc tính trích xuất, có chung số lượng task chạy, số lượng task bắt đầu phút trước tất kết thúc với trạng thái khác gồm: evicted, failed, fished normally, killed, lost Từ bảng task usage data (dữ liệu nhiệm vụ sử dụng), ta lấy thêm thuộc tính (cứ khoảng phút) tải máy gồm: CPU, memory, disk time, cycles per instruction (CPI) memory access per instruction extracted (MAI) Kết ta có 12 thuộc tính trích Với thuộc tính theo thời gian ta lấy lần mốc cửa sổ (windows) tương ứng với trạng thái máy suốt 30 phút trước 72 thuộc tính (12 thuộc tính ban đầu x mốc thời gian) Với BigQuery thao tác trích xuất từ bảng liệu gốc nhanh Cho việc đếm số lượng task, ta bắt đầu với việc liên kết bảng running task, nơi dòng tương ứng với task có thuộc tính: start time, end time, end status máy chạy task 11 Bảng 3.1: Thời gian chạy BigQuery để có đƣợc tính đƣợc tổng hợp qua cửa sổ thời gian khác cho hai loại kết hợp: tính tốn, độ lệch chuẩn (SD) hệ số biến thể (CV) so với tƣơng quan máy tính Đối với cửa sổ 12 giờ, mức trung bình, SD CV đƣợc tính cho tất tính truy vấn Đối với tất trƣờng hợp khác, độ lệch chuẩn (và độ lệch chuẩn) thời gian yêu cầu cho tính đƣợc hiển thị Mức kết hợp thứ hai có nghĩa xem thuộc tính cửa sổ thời gian dài không phút cuối Tại bước thời gian, thống kê khác - trung bình, độ lệch tiêu chuẩn hệ số biến thiên - tính cho thuộc tính thu bước trước Điều thúc đẩy nghi ngờ không tính giá trị mà sai lệch trung bình quan trọng việc hiểu hành vi hệ thống Sáu cửa sổkhác có kích cỡ 1, 12, 24, 48, 72 96 sử dụng để nắm bắt hành vi độ phân giải thời gian khác Điều dẫn đến 216 tính bổ sung (3 thống kê × 12 tính × kích cỡ cửa sổ) Để tạo tính tổng hợp này, tập hợp bảng trung gian sử dụng Đối với điểm thời gian, bảng bao gồm toàn tập điểm liệu tính trung bình Ví dụ: trung bình giờ, bảng chứa giá trị cho tính cho điểm thời gian, cho thấy tiến triển hệ thống qua Trong tạo bảng không tốn nhiều thời gian (cần khoảng 197 đến 960 giây), kích thước ấn tượng: từ 143 GB (trên tỷ hàng) đến 12,5 TB (trên 100 tỷ hàng) trường hợp Cửa sổ 96 Việc xử lý bảng để có tính tổng hợp quan tâm yêu cầu nguồn tài ngun quan trọng khơng thể có khơng có tảng BigQuery Ngay đó, truy vấn trực tiếp sử dụng thao tác GROUP BY để có tất 216 tính khơng thể, cần tính xử lý thời điểm kết hợp kết vào bảng cuối Bảng 3.1 liệt kê số liệu thống kê theo thời gian cần thiết để có tính cho kích cỡ cửa sổ khác 12 Mặc dù giá trị tính độc lập quan trọng, tiêu chí khác quan trọng cho dự đoán mối quan hệ tồn biện pháp khác Sự tương quan tính biện pháp đó, với giá trị tương quan khác cho biết thay đổi hành vi hệ thống Do đó, báo giới thiệu mức kết tập liệu thứ ba cách tính tương quan cặp đối tượng chọn, lần qua kích cỡ cửa sổ khác (từ đến 96 trước) Bài báo chọn tính để phân tích: số lần chạy, bắt đầu không thành công với CPU, nhớ, thời gian đĩa số CPI Bằng cách tính toán mối tương quan tất kết nối tính năng, luận văn thu tổng cộng 21 giá trị tương quan cho kích thước cửa sổ Điều giới thiệu thêm 126 tính cho liệu.Phân tích BigQuery bảng trung gian trước tính tương quan cho cặp lần Như thấy Bảng 3.1, bước tốn nhiều thời gian hơn, đòi hỏi nhiều thời gian so với bước tổng hợp trước quản lý xem xét kích thước liệu Số lượng liệu xử lý cho truy vấn dao động từ 49.6GB (cho cặp tính cho cửa sổ giờ) đến 4.33TB (mỗi cặp tính cho cửa sổ 96 giờ), dẫn đến chi phí xử lý cao (5 USD cho TB xử lý) Tuy nhiên, phân tích tương tự khơng thể thực khơng có tảng BigQuery Nhật ký theo dõi Google báo cáo kiện máy (machine event) Đây kiện lập lịch trình tương ứng với máy thêm vào loại bỏ khỏi nguồn tài nguyên Đặc biệt ta quan tâm máy có kiện XĨA, hai ngun nhân: lỗi máy cập nhật phần mềm máy Mục tiêu cơng việc để dự đốn kiện XĨA cố, hai ngun nhân phải phân biệt Các nhà xuất tập nhật kí Google kiểm tra cách tốt để thực phân biệt gợi ý xem khoảng thời gian mà máy không hoạt động thời gian từ kiện XÓA quan tâm tới kiện THÊMtiếp theo cho máy Nếu "thời gian trễ" lớn, ta giả định kiện XÓA lỗi máy, nhỏ, máy tính gỡ bỏ để thực cập nhật phần mềm Để đảm bảo kiện coi thất bại thực lỗi thực sự, báo sử dụng ngưỡng thời gian "down time" tương đối dài giờ, lớn thời gian cần cho cập nhật phần mềm điển hình Dựa vào ngưỡng này, 13 tổng số 8.957 kiện XÓA, 2.298 coi thất bại mục tiêu nghiên cứu dự báo Đối với kiện lại, ta chắn nguyên nhân, điểm liệu cửa sổ 24 trước xóa hoàn toàn khỏi liệu Một giải pháp thay coi phần lớp SAFE, nhiên điều khơng số điểm Vì vậy, loại bỏchúng hồn tồn đảm bảo tất liệu có nhãn SAFE (an toàn) thực tế SAFE Đối với tính dựa chủ yếu vào phép đo tải, ta thêm hai tính mới: thời gian tính thời gian máy (thời gian kể từ lần kết cuối tương ứng) số lần XÓA Vậy cho tồn cụm vòng trước Kết tổng cộng 416 tính cho 104.197.215 điểm liệu (gần 300GB liệu xử lý).Hình 3.2 hiển thị chuỗi thời gian cho tính chọn (và kiện XÓA) máy điển hình Hình 3.2: Biểu đồ CPU kể từ lúc bắt đầu theo dõi [15] Bốn chuỗi thời gian (4 416 tính năng) cho máy hệ thống Các tính hiển thị là: CPU cho cửa sổ thời gian qua, trung bình CPU 12 giờ, hệ số hệ số biến thiên 12 qua tương quan CPU số lượng công việc chạy 12 qua Các đường thẳng màu xám cho biết thời gian f xóa kiện, số khoảng trống máy khơng có sẵn Khoảng trống lớn từ ~ 250 đến ~ 370 ví dụ thời gian chết máy dài, sau loạt lỗi không thành cơng (nhóm đường thẳng màu xám 14 khoảng 250 giờ) Trong trường hợp này, máy cần kiểm tra sửa chữa rộng rãi trước đưa vào liệu luận văn Kết thúc trình ta files safe.24h fail.24h 3.3 Kỹ thuật phân lớp Những tính chứa mục 3.2 sử dụng cho phân loại dùng kĩ thuật phân loại Random Forest Những tính chứa mục trước sử dụng cho phân loại dùng kĩ thuật phân loại RF Các điểm data chia làm lớp: SAFE (phản đối) FAIL (đồng ý) Để làm điều này, điểm liệu (tương ứng với máy thời điểm định) ta tính tốn time_to_remove cho kiện XĨA Sau đó, tất điểm với time_to_remove < 24h ta gán vào class fail khác gán cho class Safe Luận văn trích xuất tất point data FAIL tương ứng với FAIL thật (108,365 điểm liệu) với subset (nhánh con) class (lớp) SAFE, tương ứng 0.5% tổng tạo ngẫu nhiên subsampling (544985 point sau chia nhánh) Sử dụng thủ tục để đối phó với thực tế lớp SAFE lớn nhiều so với lớp FAIL phân loại có khó khăn việc học mẫu từ liệu cân Subsampling (mẫu con) cách để giảm mức độ cân [8] Ngay sau dùng phương pháp subsampling, phản đối khoảng gấp lần số đồng ý Tất 653350 data points (SAFE plus FAIL) sở nghiên cứu dự đoán luận văn Với số lượng lớn tính năng, số hữu ích tính khác, luận văn khám phá hai loại chế lựa chọn tính Một phân tích component chính, sử dụng thuộc tính ban đầu để xây dựng sẻ component chính- Các tính bổ sung chiếm đa số thay đổi liệu Sau đó, người ta sử dụng component để phân loại, component chứa thông tin quan trọng Luận văn huấn luyện phân loại với số lượng ngày tăng component chính, nhiên hiệu suất thu khơng tốt so với sử dụng tính ban đầu Một chế thứ hai lọc tính ban đầu dựa tương quan chúng với thời gian tới cố cố (time_to_remove trước) Các tương quan khoảng [-0.3,0.45], ta sử dụng tính có độ tương quan tuyệt đối lớn ngưỡng Ta 15 thấy hiệu suất tốt thu với ngưỡng null (rỗng), có nghĩa lần sử dụng tất thuộc tính Do đó, nỗ lực để giảm tính khơng cho kết tốt mà RF huấn luyện trực tiếp tính ban đầu Một lý cho điều thực tế RF tự thực lựa chọn tính huấn luyện định Dường chế RF thực tốt trường hợp lọc dựa tương quan phân tích component Để đánh giá hiệu phương pháp tiếp cận, luận văn sử dụng xác nhận chéo Với thủ tục luận văn sử dụng để xác định class, có nhiều data point tương ứng với thất bại tương tự (dữ liệu 24 với độ phân giải phút) Vì số điểm liệu giống nên việc chọn liệu train (huấn luyện) liệu kiểm tra (test) thực cách chọn tập ngẫu nhiên Mặc dù việc lựa chọn ngẫu nhiên cho kết dự đốn tốt, khơng thực tế sử dụng liệu thử nghiệm tương tự liệu huấn luyện Đây lý luận văn chọn để chia tách liệu cặp train/test theo thời gian Luận văn xem xét dựa việc huấn luyện liệu cửa sổ 10 ngày, kiểm tra dựa liệu ngày hôm sau mà khơng trùng với liệu huấn luyện Do đó, ngày kiểm tra bắt đầu 24 sau điểm liệu huấn luyện cuối Hai ngày bị bỏ qua để làm giảm hiệu ứng tính tổng hợp Theo cách này, có 15 train/test sử dụng làm điểm chuẩn để đánh giá phân tích (xem Hình 3.3) Thủ tục xác nhận chéo để đảm bảo hiệu suất phân loại thực tế giả tạo cấu trúc liệu Ngồi ra, mơ đường dự đoán FAIL áp dụng data center trực tiếp, nơi mà ngày mơ hình huấn luyện liệu khứ để dự đoán FAIL tương lai Do nhiều điểm từ class FAIL giống nhau, trường hợp class SAFE việc lấy mẫu ban đầu, thông tin lớp SAFE chiếm đa số Điều nhắc tơi thêm mẫu subsample class phản đối để có liệu huấn luyện Điều thực cho tỷ số điểm liệu SAFE FAIL tham số fsafe Thay đổi tham số với giá trị {0.25,0.5,1,2,3,4} sử dụng tất điểm liệu từ lớp đồng ý để không bỏ lỡ thông tin hữu ích Điều áp dụng cho liệu huấn luyện: để kiểm tra, luận văn sử dụng tất liệu từ lớp phủ định đồng ý (trong số liệu sở 653.350 16 điểm) Sử dụng RF có kích cỡ khác nhau, với số Cây định thay đổi từ đến 15 với bước (dẫn đến 14 giá trị khác nhau) Hình 3.3: Phƣơng pháp xác nhận chéo: kiểm tra chuyển tiếp thời gian (forward-in-time testing) 10 ngày đƣợc sử dụng để huấn luyện ngày để testing Một 15 tiêu chuẩn (train/test pairs) thu đƣợc cách trƣợt cửa sổ train/test qua 29 ngày theo dõi Hiệu suất phân loại đơn, dù tốt ngẫu nhiên, đánh giá khơng thỏa đáng Đó lý luận văn chọn phương pháp tổng hợp, tạo loạt phân loại sau lựa chọn kết hợp chúng để cung cấp phân loại cuối Ensembles (phân loại tập hợp) tăng cường sức mạnh phân loại cá thể hiệu suất thấp [16], đặc biệt chúng đa dạng [17-18]: họ đưa câu trả lời sai điểm liệu khác (lỗi độc lập), sau kết hợp kiến thức nâng cao độ xác Để tạo phân loại đa dạng, người ta thay đổi tham số mơ hình huấn luyện chúng với liệu khác (được gọi phương pháp tính tốn bagging [16]) Thuật tốn Bagging tốt với subsampling để vượt qua vấn đề kiện hoi, thực tế hiển thị có hiệu cho vấn đề cân lớp [19] Do đó, luận văn áp dụng cách tiếp cận tương tự để xây dựng phân loại riêng Mỗi lần phân loại huấn luyện, tập liệu huấn luyện xây dựng cách xem xét tất điểm liệu lớp dương tập ngẫu nhiên lớp phủ định Như mô tả trên, kích thước tập định nghĩa tham số fsafe Bằng cách thay đổi giá trị không an tồn số lượng thuật tốn RF, tạo phân loại khác Các thuật toán sau chi tiết thủ tục sử dụng để xây dựng phân loại cá nhân toàn 17 Luận văn lặp lại thủ tục lần, kết lần phân loại cho lần kết hợp thơng số fsafe kích cỡ RF/ Kết tổng 420 RF tồn (5 lần lặp lại × giá trị fsafe × 14 sizes RF) Một có nhóm phân loại, chiến lược kết hợp phải sử dụng Hầu hết phương pháp tiếp cận sử dụng nguyên tắc bỏ phiếu đa số - phân loại bỏ phiếu cho lớp lớp đa số trở thành định cuối [16] Ngồi ra, bỏ phiếu có trọng số sử dụng, luận văn chọn để bỏ phiếu có trọng số xác (precision-weighted voting) Đối với hầu hết phương pháp tại, trọng số tương ứng với độ xác phân loại liệu huấn luyện (training data)[20] Trong trường hợp này, hiệu liệu huấn luyện gần với độ hồn hảo độ xác nói chung cao, lý luận văn sử dụng độ xác tập liệu thử nghiệm Cụ thể, luận văn chia liệu thử nghiệm thành hai phần: liệu thử nghiệm đơn (individual test dataset) liệu kiểm tra toàn bộ(ensemble test dataset) Cái cũ sử dụng để đánh giá độ xác phân loại riêng lẻ có trọng số cho việc bỏ phiếu phân loại Thứ hai cung cấp đánh giá cuối tất phân loại Tất liệu tương ứng với ngày thử nghiệm sử dụng, khơng có phân nhánh Bảng 3.2 cho thấy số điểm liệu 18 sử dụng cho điểm chuẩn cho việc huấn luyện thử nghiệm Mặc dù thơng số fsafe kiểm sốt tỷ lệ SAFE / FAIL trình huấn luyện, trường hợp FAIL gặp q trình kiểm tra, thay đổi từ 13% đến 36% số lần SAFE Bảng 3.2: Quy mô tập huấn kiểm tra liệu huấn luyện, số điểmdữ liệu SAFE số FAIL nhân với tham số fsafe lần chạy 3.4 Kết luận chƣơng Trong chương trình bày cách xây dựng tập liệu dataset cho phân loại Big Query trình phân loại máy lỗi dựa kỹ thuật Random Forest 19 CHƢƠNG - ĐÁNH GIÁ KẾT QUẢ ĐẠT ĐƢỢC VÀ PHƢƠNG HƢỚNG PHÁT TRIỂN 4.1 Các kết đạt đƣợc 4.1.1 Môi trường thực nghiệm 4.1.2 Đánh giá dựa theo độ đo Cho kết việc phân loại hàm số liên tục (Phương trình bậc 2), giá trị riêng biệt, việc đánh giá dựa biểu đồ ROC (ROC) Precision-Recall (PR) Một lớp thu cho điểm liệu j từ điểm sj’ cách sử dụng ngưỡng s * Một điểm liệu coi lớpFAIL sj '≥s * Các s * nhỏ hơn, nhiều trường hợp phân loại thất bại Do đó, cách giảm s * số TPtăng lên làm FP cân đối Tương tự, giá trị ngưỡng khác nhau, độ xác định thu Đường cong ROC tính tỷ lệ Tích cực so với False Positive Rate - FPR phân loại ngưỡng khác Tương tự vậy, đường cong PR hiển thị độ phân giải xác nhận (bằng TPR độ nhạy) Thường xuyên để đánh giá phân loại cách tính diện tích ROC (AUROC) diện tích đường cong PR (AUPR), dao động từ đến Các giá trị AUROC lớn 0,5 tương ứng với phân loại hoạt động tốt phép đoán ngẫu nhiên, AUPR đại diện cho độ xác phân loại trung bình, , Một lần nữa, cao tốt AUROC AUPR không phụ thuộc vào phân bố tương đối hai lớp, chúng đặc biệt phù hợp vấn đề cân cấp lớp trình giải vấn đề 20 Hình 4.1:Các giá trị AUROC AUPR qua lần đánh giá Hình 4.1 cho thấy giá trị AUROC AUPR thu cho tất liệu, đánh giá liệu kiểm tra toàn Đối với tất điểm chuẩn, giá trị AUROC tốt, 0,75 đến 0,97 AUPR dao động từ 0,38 đến 0,87 Hiệu suất dường tăng lên, đặc biệt độ xác, vào cuối dấu vết Hiệu suất thấp quan sát thấy hai tiêu chuẩn số tính tổng hợp (những người ngày) tính tốn với liệu chưa đầy đủ từ đầu.Để đánh giá hiệu thông số khác phương pháp tiếp cận toàn 21 Hình 4.2: Biểu đồ đánh giá lần chạy thứ cho kết xấu Hình 4.3: Biểu đồ đánh giá lần chạy thứ 14 cho kết xấu Hình 4.2 4.3 hiển thị đường cong ROC PR cho đánh giá cho kết tệ tốt 15 lần đánh giá (lần lượt 14) Hiệu suất phân loại riêng biệt toàn thể hiển thị (như điểm khơng gian ROC) Chúng ta thấy phân loại riêng lẻ dẫn đến FPR thấp, điều quan trọng việc dự báo thất bại Tuy nhiên, nhiều trường hợp, giá trị TPR thấp Điều có nghĩa hầu hết liệu thử nghiệm phân loại SAFE thất bại thực xác định TPR dường tăng lên thơng sốfsafe giảm, chi phí FPR xác Các điểm chấm cho thấy phụ thuộc rõ ràng ba biện pháp vẽ giá trị bảo vệ Khi lượng liệu huấn luyện SAFE giảm, 22 phân loại trở tốt xác định nhiều thất bại hơn, kết quan trọng cho vấn đề cân Ngồi ra, cho thấy rõ phân loại đơn đạt với giá trị khác cho SAFE đa dạng, điều quan trọng để có hiệu đồng tốt Nhìn chung, điểm tương ứng với phân loại riêng lẻdưới đường cong ROC PR mô tả hiệu suất tổng thể Điều chứng minh phương pháp tổng thể tốt so với phân loại đơn cho vấn đề này, đa dạng chúng Một số trường hợp ngoại lệ xuất (điểm đường kẻ cố định), nhiên với TPR thấp (dưới 0.2) khu vực ROC / PR không gian mà đáng quan tâm Luận văn quan tâm đến việc tối đa hóa TPR giữ FPR Cụ thể, FPR khơng vượt q 5%, có nghĩa báo động sai Tại ngưỡng này, hai ví dụ từ Hình 4.1 Hình 4.2 hiển thị giá trị TPR 0,272 (trường hợp xấu nhất) 0,886 (trường hợp tốt nhất), tương ứng với giá trị xác 0,502 0,728 Điều tốt nhiều so với phân loại cá nhân cấp độ này, độ xác TPR Đối với dự đốn thất bại, điều có nghĩa 27,2% 88,6% lỗi xác định vậy, từ tất trường hợp đánh dấu lỗi, khoảng 50,2% đến 72,8% thất bại thực Để phân tích hàm ý kết thu chi tiết hơn, mối quan hệ phân loại thời gian xác kiện XÓA nghiên cứu cho điểm liệu Điều quan trọng ban đầu luận văn gán nhãn SAFE cho tất điểm liệu vượt 24 so với lỗi Theo phân loại này, máy coi trạng thái an tồn cho dù không thành công tuần ngày Tương tự, coi FAIL cho dù khơng thành cơng 23 10 phút Rõ ràng tình khác nhau, tác động phân loại sai lệch khác tùy thuộc vào thời gian cho thất bại Hình hiển thị đồ hoạ Khi thời gian để thất bại giảm xuống, điểm liệu SAFE bị phân loại sai FAIL phân loại sai, thất bại thực đến gần Tương tự, điểm FAILcó nhãn SAFE có tác động tiêu cực cao gần với điểm thất bại 23 Hình 4.4: Ngƣỡng dao động FAIL SAFE 4.1.3 Kết tổng thể Luận văn mô tả cách phân loại tập hợp xây dựng từ nhiều phân loại Rừng ngẫu nhiên huấn luyện thuộc tính, dự đốn máy tính gặp lỗi sau 24 tương lai Đánh giá luận văn cho thấy hạn chế tỷ lệ FP tới 5%, ta đạt tỷ lệ FPR 27% 88% với độ xác dao động từ 50% đến 72% 4.2 Phƣơng hƣớng phát triển Luận văn trình bày nghiên cứu dự báo lỗi nút, hay máy chủ cụm máy chủ Google dựa tập nhật kí mà Google cơng bố Trích xuất tính từ liệu gốc thực BigQuery, tảng đám mây liệu lớn từ Google cho phép truy vấn SQL Một số lượng lớn tính tạo trình phân loại tồn huấn luyện liệu nhật ký 10 ngày kiểm tra vào ngày Chiều dài theo dõi cho phép lặp lại trình 15 lần tạo 15 liệu chuẩn, ngày cuối tập liệu sử dụng để thử nghiệm Nền tảng BigQuery hữu ích để có tính từ liệu nhật ký Mặc dù tìm thấy giới hạn JOIN GROUND BY tính năng, chúng bị phá vỡ cách tạo bảng trung gian, chứa 12TB liệu Mặc dù vậy, tính đạt với thời gian chạy giảm, tổng chi phí cho tồn phân tích xử lý tháng giá trị ghi Hiệu suất phân loại thay đổi từ điểm chuẩn sang điểm khác, với phương pháp đường cong ROC dao động từ 0,76 đến 0,97 đo đường cong AUROC dao 24 động từ 0,38 đến 0,87 Điều tương ứng với tỷ lệ dương tính thật khoảng 27% -88% xác từ 50% đến 72% với tỷ lệ FN 5% Nói cách khác, điều có nghĩa trường hợp xấu nhất, xác định 27% lỗi, điểm liệu bị phân loại thất bại, có 50% tự tin nhìn vào thất bại thực Đối với trường hợp tốt nhất, tơi xác định gần 90% lỗi 72% trường hợp phân loại thất bại tương ứng với thất bại thực Tất điều này, với chi phí có báo động sai 5% thời gian Mặc dù khơng hồn hảo, dự đốn đạt mức hiệu suất tốt Kết cải thiện cách thay đổi thủ tục subsampling Ở đây, tập liệu SAFE sử dụng số lượng lớn điểm liệu lớp này, mẫu ngẫu nhiên trích xuất từ tập hợp huấn luyện cho phân loại toàn Tuy nhiên, lần lấy mẫu từ tồn bộ.Tuy nhiên, điều đòi hỏi nhiều tài ngun tính tốn cho việc huấn luyện, máy trạm khơng thể xử lý 300 GB liệu lúc Thời gian huấn luyện giảm thơng qua song song, phân loại tồn huấn luyện độc lập với người khác Những cải tiến theo đuổi tương lai Việc giới thiệu tính bổ sung khai thác để đưa vào cách rõ ràng tương tác máy BigQuery sử dụng để tương tác máy từ liệu Những thay đổi tính chất mạng theo thời gian cung cấp thơng tin quan trọng thất bại tương lai.Phương pháp trình bày thích hợp cho việc sử dụng mơ hình server chạy mạng Một mơ hình huấn luyện ngày chạy trực tuyến song song với Data Center chạy Từ ta dự báo lỗi mơ hình vận hành này.Đó hướng phát triển tương lai luận văn 25 KẾT LUẬN Luận văn tổng quan định nghĩa lỗi, kiến trúc dịch vụ sở hạ tầng điện toán đám mây Tổng quát số phương pháp nhận dạng lỗi cloud computing,nắm tảng để ứng dụng thuật toán khác để giải vấn đề toán nhận dạng lỗi cloud.Hơn trình bày thuật tốn Random Forest: nguồn gốc, ý tưởng độ đo đánh giá kỹ thuật phân loại, từ sâu nghiên cứu ứng dụng thuật toán để giải tốn Cuối cùng, luận văn trình bày cách xây dựng tập liệu dataset cho phân loại Big Query trình phân loại máy lỗi dựa kỹ thuật Random Forest Từ cho kết nhận dạng lỗi với độ xác từ 50% - 72% Luận văn đề xuất ứng dụng thuật toán Random Forest để giải toán nhận dạng lỗi cho hệ thống cloud computing lớn Mặc dù độ xác chưa hồn hảo đạt mong muốn để tiếp tục phát triển hướng nghiên cứu ứng dụng hệ thống nhận dạng lỗi online cho cloud computing ... TỔNG QUAN VỀ NHẬN DẠNG LỖI TRONG CLOUD 1.1 Giới thiệu 1.1.1 Dịch vụ sở hạ tầng IaaS [1] 1.1.2 Lỗi cloud IaaS 1.2 Một số phƣơng pháp nhận dạng lỗi điện toán đám mây 1.2.1 Phương pháp ứng dụng định...2 - Chương 1: Tổng quan nhận dạng lỗi cloud computing - Chương 2: Thuật toán Random Forest - Chương 3: Sử dụng Random Forest dự báo lỗi cho Google cluster - Chương 4: Đánh giá... đề xuất ứng dụng thuật toán Random Forest để giải toán nhận dạng lỗi cho hệ thống cloud computing lớn Mặc dù độ xác chưa hồn hảo đạt mong muốn để tiếp tục phát triển hướng nghiên cứu ứng dụng hệ