Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)Ứng Dụng Random Forest Nhận Dạng Lỗi Cho Cloud Computing Iaas (tt)
Trang 1MỞ ĐẦU
Trong những năm gần đây, Điện toán đám mây đã đang phát triển chóng mặt đạt được nhiều thành tựu về mặt nghiên cứu và ứng dụng thực tế Vào năm 2008, Amazon đẩy mạnh nghiên cứu và triển khai Điện toán đám mây Tiếp bước đó, các tập đoàn lớn như Microsoft, Google, IBM,… thúc đẩy Điện toán đám mây phát triển nhanh chóng Hiện nay đã có rất nhiều nhà cung cấp dịch vụ cloud IaaS (Infrastructure as a Service) cung cấp cho rất nhiều khách hàng Một trong những vấn đề quan trọng phải quan tâm khi xây dựng cũng như cung cấp dịch vụ điện toán đám mây là tính sẵn sàng của dịch vụ Một dịch vụ Iaas tốt phải có khả năng nhận diện và phản ứng kịp thời để đảm bảo tính thông suốt cũng như chất lượng dịch vụ khi có sự cố Từ đó đặt ra nhu cầu cần phải xây dựng một hệ thống nhận diện lỗi (fault detection) chính xác để xây dựng một hệ thống kháng lỗi (fault tolerance) hiệu quả
Bên cạnh đó việc tiếp tục dựa vào sự điều hành trực tiếp từ con người để quản lý các trung tâm dữ liệu là một trở ngại lớn vì quy mô cơ sở dữ liệu của các hệ thống ngày càng lớn Các hệ thống máy tính trên điện toán đám mây nói chung và các trung tâm dữ liệu nói riêng có xu hướng dần được quản lý bởi các mô hình tính toán và mô hình thực thi dự đoán và quản lý tự động Sự can thiệp của con người sẽ được giới hạn ở cấp cao như đặt mục tiêu và quản lý các chính sách cấp cao hơn và việc thực thi ở dưới sẽ do hệ thống tự động điều khiển quyết định Việc tự động hóa
dữ liệu sẻ quản lý và kiểm soát dữ liệu dựa trên các mô hình dự đoán tổng thể, các
mô hình này được xây dựng và cập nhật bằng các dữ liệu có sẵn trước đó.Điều này
sẽ hỗ trợ rất lớn trong việc quản lý hệ thống.Đây sẽ là thách thức mới cho các nhà nghiên cứu
Dựa trên lĩnh vực nghiên cứu này, mục tiêu và phạm vi nghiên cứu của luận
văn là ứng dụng kĩ thuật học máy (maching learning), cụ thể là thuật toán Random Forest để xây dựng mô hình dự đoán lỗi máy cho hệ thống Google Cluster (một Cloud Computing lớn) dựa trên bộ dữ liệu công bố của Google được thu thập trong một cụm gồm hơn 12000 máy chủ với mục đích xây dựng và đánh giá mô hình dự báo lỗi của các máy chủ trong cụm máy chủ
\
Nội dung luận văn gồm 4 chương:
Trang 2- Chương 1: Tổng quan về nhận dạng lỗi trên cloud computing
- Chương 2: Thuật toán Random Forest
- Chương 3: Sử dụng Random Forest dự báo lỗi cho Google cluster
- Chương 4: Đánh giá kết quả đạt được và phương hướng phát triển
Trang 3CHƯƠNG 1- TỔNG QUAN VỀ NHẬN DẠNG LỖI TRONG
CLOUD
1.1 Giới thiệu
1.1.1 Dịch vụ cơ sở hạ tầng IaaS [1]
1.1.2 Lỗi trong cloud IaaS
1.2 Một số phương pháp nhận dạng lỗi trên điện toán đám mây
1.2.1 Phương pháp ứng dụng cây quyết định [8]
Cây quyết định là cây mà những nút bên trong của nó bao gồm việc kiểm tra một thuộc tính xác định và những nút lá của nó đưa ra sự phân lớp mà được áp dụng cho tất cả các mẫu đạt đến nút lá, hoặc một tập của sự phân lớp, hoặc một xác xuất phân tán qua tất cả các lớp có thể Để phân lớp cho một mẫu chưa biết, nó được định tuyến xuống dưới cây dựa theo giá trị của thuộc tính được kiểm tra lần luợt theo các nút, và khi một nút lá được tìm thấy một mẫu được phân lớp dựa theo lớp mà được gán cho nút lá Cây quyết định cũng là một phương tiện có tính mô tả dành cho việc tính toán các xác suất có điều kiện Thuật toán cây quyết định là một trong các thuật toán mà được sử dụng rộng rãi nhất trong các thuật toán học máy trong việc xây dựng các mẫu phân lớp từ các nguồn dữ liệu
1.2.2 Kỹ thuật hồi quy logistic (logistic regression)
Trong thống kê, hồi quy logistic (mô hình logit) được sử dụng cho dự đoán khả năng xuất hiện lỗi của một hệ thống bằng một hàm logit Kỹ thuật hồi quy logit được phát triển trong những năm 1970 mô hình tuyến tính tổng quát hóa sử dụng cho hồi quy nhị phân (chỉ có 2 giá trị) Giống như các dạng của phân tích hồi quy, hồi quy tuyến tính tạo ra vài biến dự đoán mà có thể là số hoặc tên thể loại Hồi quy logit là một kiểu hồi quy mà các biến phụ thuộc là nhị phân hoặc số.Ví dụ: một người bị đau tim trong một khoảng thời gian thời gian cụ thể có thể được dự đoán dựa trên những hiểu biết về tuổi, giới tính, chỉ số cơ thể Thuật toán hồi quy logit được sử dụng rộng rãi trong các ngành y tế, xã hội hoặc các ứng dụng kinh
Trang 4doanh tiếp thị, ví dụ như dự đoán xu hướng khách hàng sẽ mua sản phẩm nào hoặc không mua sản phẩm nào trong năm Hàm logit f(z) có dạng:
1.2.3 Kỹ thuật mạng nơ ron (neural net works)
Mạng nơ ron nhân tạo (Artificial neural network – ANN) là một mô phỏng xử lý thông tin, được nghiên cứu ra từ hệ thống thần kinh của sinh vật, giống như bộ não để xử lý thông tin Nó bao gồm số lượng lớn các mối gắn kết cấp cao để
xử lý các yếu tố làm việc trong mối liên hệ giải quyết vấn đề rõ ràng Thuật toán máy tính mô phỏng các kiến trúc sinh học này thường được gọi là mạng nơron nhân tạo
để phân biệt với các phần mềm trong cơ thể động vật ANNs hoạt động giống như bộ não con người, được học bởi kinh nghiệm, lưu những kinh nghiệm hiểu biết và sử dụng trong những tình huống phù hợp Đầu tiên ANN được giới thiệu năm 1943 bởi nhà thần kinh học Warren McCulloch và nhà logic học Walter Pits Mạng nơron hoạt động dựa trên nguyên lý học máy Thông qua các mẫu có sẵn và tập mục tiêu (với phương pháp học có thầy) để đưa ra kết luận khi có một mẫu mới được đưa vào Mạng nơron nhân tạo là một kỹ thuật mô phỏng lại bộ não và hệ thần kinh của con người Nó cũng có khả năng học từ các kinh nghiệm trong quá khứ, tổng quát hóa các kinh nghiệm này để đưa ra một nhận định mới nhờ rút ra được các đặc trưng cơ bản của tập mẫu Các việc này được thực hiện thông qua việc xử lý tín hiệu giữa các nơron cùng với các trọng số của chúng
1.3 Các tham số đo lường các phương pháp nhận dạng lỗi cho cloud computing
Các phương pháp, thuật toán nhận dạng lỗi đã có trước đây trong cloud computing thường xem xét các tham số khác nhau như: thông lượng (throughput), thời gian phản hồi (response-time), khả năng mở rộng, hiệu năng, khả năng sẵn sàng,
độ khả dụng, độ tin cậy, độ an toàn, và phí tổn kết hợp [9]:
Thông lượng (throughput): nó định nghĩa số lượng tác vụ đã được hoàn thành
Hệ thống tốt thì thông lượng càng có giá trị cao
Trang 5 Thời gian phản hồi: thời gian phản hồi, đáp ứng của thuật toán, giá trị này càng thấp càng tốt
Khả năng mở rộng: Số lượng node trong hệ thống mà thuật toán kháng lỗi còn
có thể hoạt động tốt - Hiệu năng: tham số này kiểm tra sự ảnh hưởng về hiệu năng của hệ thống khi áp dụng thuật toán Hiệu năng của hệ thống cần được cải thiện với một chi phí hợp lý
Độ sẵn sàng: độ sẵn sàng của hệ thống là một yếu tố ảnh hưởng đến độ tin cậy
Độ khả dụng: khả năng kết hợp với các sản phẩm khác một cách hiệu quả và
dễ dàng
Độ tin cậy: xem xét khả năng đạt được kết quả chính xác hoặc chấp nhận được trong một khoảng thời gian
Phí tổn kết hợp: (overhead associated): là phí tổn trong khi thực thi những tác
vụ, tiến trình trong thuật toán Phí tổn có thể được gây ra bởi các tiến trình di chuyển dữ liệu, trong nội tại tiến trình và trong nội tại bộ xử lý Một thuật toán kháng lỗi hiệu quả thì phí tổn phải nhỏ
1.4 Kết luận Chương 1
Trong chương này đã tổng quan được các định nghĩa về lỗi, kiến trúc dịch
vụ cơ sở hạ tầng điện toán Tổng quát được một số phương pháp nhận dạng lỗi trên cloud computing có liên quan đến luận văn Từ đó để nắm được nền tảng để ứng dụng thuật toán khác để giải quyết vấn đề bài toán đặt ra
Trang 6CHƯƠNG 2 - THUẬT TOÁN RANDOM FOREST
2.1 Nguồn gốc ra đời của thuật toán
2.2 Thuật toán Random Forest [10-11]
2.2.1 Giới thiệu thuật toán Random Forest
2.2.2 Lịch sử của thuật toán Random Forest
2.2.3 Thuật toán Random Forest
Về cơ bản thuật toán Random Forest (RF) – rừng ngẫu nhiên dựa trên kỹ thuật cây quyết định Ý tưởng của RF chúng ta có thể liên tưởng tới việc bầu cử theo nguyên tắc phổ thông đầu phiếu Nếu sử dụng một cây quyết định chẳng khác nào việc bầu cử mà chỉ có 1 người bỏ phiếu Việc sinh các cây quyết định từ một mẫu dữ liệu nhằm đa dạng hoá các “phiếu bầu” (giống như việc mọi thành phần, tầng lớp, giai cấp đều được đi bỏ phiếu) cho kết luận Việc áp dụng các kỹ thuật sinh ra các mẫu dữ liệu hay việc lựa chọn rẽ nhánh ngẫu nhiên sẽ tạo ra các cây “dị tật” trong rừng (giống việc cho phép công dân không cần phân biệt trình độ học vấn, sức khỏe đi bầu cử) Càng nhiều loại hình, càng nhiều phiếu bầu sẽ cung cấp cho chúng ta cái nhìn đa chiều, chi tiết hơn và do đó kết luận sẽ có tính chính xác, gần với thực tế hơn
Định nghĩa: Một RF là một bộ phân loại gồm một tập các bộ phân loại có câu hình
cây{h(x, ⊖k), k=1,…} trong đó {⊖k} là các vecto ngẫu nhiên, độc lập, có cùng phân bố xác suất, mỗi cây bầu cử một phiếu cho lớp phổ biến nhất tại đầu vào x [5]
2.2.4.Đặc tính của thuật toán Random Forest
Đối với rừng ngẫu nhiên, cận trên sẽ bắt nguồn cho các lỗi phát sinh dưới dạng hai tham số, là cách xác định tính chính xác (Strength - Accuracy) và tính tương quan (hay còn gọi là độ nhạy - Correlation) của các bộ phân loại riêng lẻ có trong rừng ngẫu nhiên
Hàm tương quan như sau:
Công thức thể hiện sự dao động của mr như sau:
Hàm tính độ chính xácnhư sau:
Trang 7độ đo này có sự tương quan nghịch: độ chính xác càng cao thì độ nhạy càng thấp và ngược lại Khi độ chính xác hoặc độ nhạy đạt giá trị tối thiểu thì cũng là lúc hệ thống mất khả năng phân loại Vì vậy người ta phải kết hợp hai độ đo trên trong một
độ đo thống nhất, vấn đề đặt ra là làm sao để có thể cân bằng hai tham số này khi thực hiện phân loại để đạt hiệu quả cao nhất Theo công thức độ chính xác là tỷ lệ phần trăm các lớp phân loại đúng hoặc các lớp phân loại không lỗi: (TP/ (TP + FP))
Độ nhạy là tỷ lệ phần trăm các lớp phân loại sai hoặc các lớp phân loại lỗi: (TP/ (TP + FN)) Ta có bảng mô tả mối tương quan hai tiêu chí này như ở dưới
Trong đó:
TPi là số lượng mẫu được phân loại đúng, và được phân vào lớp ci
FPi là số lượng mẫu bị phân loại sai, và được phân vào lớp ci
FNi là số lượng mẫu có nhãn thực là ci nhưng không được phân vào lớp ci
TNi là số lượng mẫu có nhãn thực khác ci và không được phân vào lớp ci
Độ chính xác (p i) và độ nhạy (ri) tính theo từng phân lớp được định nghĩa như sau:
Trang 8Với mỗi Cây Ntree được xây dựng bằng các sử dụng thuật toán sau:
Với N là số lượng các trường hợp của dữ liệu huấn luyện, M là số lượng các biến trong việc phân loại
Lấy m là số các biến đầu vào được sử dụng để xác định việc phân chia tại 1Nút của cây, m < M
Chọn 1 tập huấn luyện cho cây bằng cách chọn n ngẫu nhiên với sự thay thế từ tất cả các trường hợp huấn luyện có sẵn N Sử dụng các phần còn lại để ước lượng các lỗi của cây, bằng cách dự đoán các lớp của chúng
Với mỗi nút của cây, chọn ngẫu nhiên m là cơ sở phân chia tại nút đó (độc lập với mỗi nút) Tính chia tốt nhất dựa trên các biến m trong tập huấn luyện n
Mỗi cây được trồng hoàn toàn và không tỉa (có thể được sử dụng trong vệ xây dựng một bộ phân loại như các cây bình thường)
Đối với mỗi dự doán mới được đưa vào.Nó được gán nhãn của mẫu đạo tạo trong các nút cuối để kết thúc Thủ tục sẽ được lập lại qua tất cả các cây
Trang 9Ntree, và đa số phiếu bình chọn với phân lớp hay trung bình với hồi quy của các cây Ntree là dự đoán mô hình
2.2.6 Đặc điểm của Random Forest
2.2.7 Mô hình phân lớp với Random Forest
Hình 1.1: Mô hình phân lớp
2.3 Các độ đo đánh giá thuật toán phân loại:
2.3.1 Tiêu chí ROC (receiver operating characteristic)
2.3.2 Tiêu chí CE (cost effectiveness )
2.4 Kết luận chương 2
Trong chương 2 đã trình bày thuật toán Random Forest: nguồn gốc, ý tưởng
và các độ đo đánh giá kỹ thuật phân loại
Trang 10CHƯƠNG 3 - SỬ DỤNG RANDOM FOREST DỰ ĐOÁN LỖI
GOOGLE CLUSTER
3.1 Tổng quan về Google cluster
3.1.1 Kỹ thuật cluster
3.1.2 Google cluster trace [14]
3.2 Xây dựng tập dữ liệu dataset (pre- processing)
Trong bài báo [15] đã sử dụng BigQuery, công cụ dữ liệu lớn từ Google Cloud Platform để truy vấn SQL trên một khối lượng dữ liệu khổng lồ, cụ thể ở đây
là các bảng có kích thước lên tới 12TB có trên hàng tỷ dòng dữ liệu
Từ bảng task events thu được các dữ liệu theo thời gian cách nhau 5 phút Tổng cộng 7 thuộc tính được trích xuất, có chung số lượng task hiện đang chạy, số lượng task đã bắt đầu trong 5 phút trước đó và tất cả đã kết thúc với cái trạng thái khác nhau gồm: evicted, failed, fished normally, killed, lost Từ bảng task usage data (dữ liệu nhiệm vụ sử dụng), ta lấy thêm 5 thuộc tính (cứ khoảng 5 phút) tải trên máy gồm: CPU, memory, disk time, cycles per instruction (CPI) và memory access per instruction extracted (MAI) Kết quả ta có 12 thuộc tính được trích ra Với mỗi
bộ thuộc tính như vậy căn cứ theo thời gian ta lấy 6 lần mốc cửa sổ (windows) tương ứng với trạng thái của máy trong suốt 30 phút trước đó được 72 thuộc tính (12 thuộc tính ban đầu x 6 mốc thời gian)
Với BigQuery thì thao tác trích xuất từ bảng dữ liệu gốc rất nhanh Cho việc đếm số lượng task, ta bắt đầu với việc liên kết bảng running task, nơi mỗi dòng tương ứng với một task có các thuộc tính: start time, end time, end status và máy đang chạy task đó
Trang 11Bảng 3.1: Thời gian chạy của BigQuery để có được các tính năng được tổng hợp qua các cửa sổ thời gian khác nhau cho hai loại kết hợp: tính toán, độ lệch chuẩn (SD) và hệ số biến thể (CV) so với các tương quan máy tính Đối với các cửa sổ 1 giờ và 12 giờ, mức trung bình, SD và CV được tính cho tất cả các tính năng trong một truy vấn Đối với tất cả các trường hợp khác, độ lệch chuẩn (và độ lệch chuẩn) của thời gian yêu cầu cho mỗi tính năng được hiển thị
Mức kết hợp thứ hai có nghĩa là xem các thuộc tính trong các cửa sổ thời gian dài hơn không chỉ là 5 phút cuối Tại mỗi bước thời gian, 3 thống kê khác nhau
- trung bình, độ lệch tiêu chuẩn và hệ số biến thiên - được tính cho từng thuộc tính
cơ bản thu được ở bước trước Điều này đã được thúc đẩy bởi sự nghi ngờ rằng không chỉ tính giá trị mà còn sai lệch của trung bình có thể là quan trọng trong việc hiểu hành vi của hệ thống Sáu cửa sổkhác nhau có kích cỡ 1, 12, 24, 48, 72 và 96 giờ được sử dụng để nắm bắt hành vi ở các độ phân giải thời gian khác nhau Điều này dẫn đến 216 tính năng bổ sung (3 thống kê × 12 tính năng × 6 kích cỡ cửa sổ)
Để tạo ra các tính năng tổng hợp này, một tập hợp các bảng trung gian đã được sử dụng Đối với mỗi điểm thời gian, các bảng này bao gồm toàn bộ tập các điểm dữ liệu được tính trung bình Ví dụ: đối với trung bình 1 giờ, bảng sẽ chứa 6 giá trị cho mỗi tính năng và cho mỗi điểm thời gian, cho thấy sự tiến triển của hệ thống trong một giờ qua Trong khi tạo ra các bảng này không tốn nhiều thời gian (cần khoảng 197 đến 960 giây), kích thước khá ấn tượng: từ 143 GB (trên 1 tỷ hàng) trong 1 giờ đến 12,5 TB (trên 100 tỷ hàng) trong trường hợp Cửa sổ 96 giờ Việc xử lý các bảng này để có được các tính năng tổng hợp quan tâm yêu cầu nguồn tài nguyên quan trọng và sẽ không thể có nếu không có nền tảng BigQuery Ngay cả khi đó, các truy vấn trực tiếp sử dụng một thao tác GROUP BY duy nhất để có được tất cả 216 tính năng là không thể, chỉ cần một tính năng cơ bản được xử lý tại một thời điểm và kết hợp các kết quả vào một bảng duy nhất ở cuối Bảng 3.1 liệt kê số liệu thống kê theo thời gian cần thiết để có được một tính năng cho các kích cỡ cửa
sổ khác nhau
Trang 12Mặc dù các giá trị tính độc lập rất quan trọng, nhưng một tiêu chí khác có thể là quan trọng cho dự đoán là các mối quan hệ tồn tại giữa các biện pháp khác nhau Sự tương quan giữa các tính năng là một trong những biện pháp đó, với các giá trị tương quan khác nhau cho biết những thay đổi trong hành vi của hệ thống
Do đó, bài báo này đã giới thiệu mức kết tập dữ liệu thứ ba bằng cách tính các tương quan giữa một cặp đối tượng được chọn, một lần nữa qua các kích cỡ cửa sổ khác nhau (từ 1 đến 96 giờ như trước) Bài báo đã chọn 7 tính năng để phân tích: số lần chạy, bắt đầu và không thành công cùng với CPU, bộ nhớ, thời gian đĩa và chỉ
số CPI Bằng cách tính toán các mối tương quan giữa tất cả các kết nối có thể của 7 tính năng, luận văn đã thu được tổng cộng 21 giá trị tương quan cho mỗi kích thước cửa sổ Điều này giới thiệu thêm 126 tính năng cho bộ dữ liệu.Phân tích BigQuery bắt đầu từ cùng các bảng trung gian như trước và tính tương quan cho một cặp trong một lần Như có thể thấy trong Bảng 3.1, bước này tốn nhiều thời gian hơn, đòi hỏi nhiều thời gian hơn so với bước tổng hợp trước đó nhưng vẫn có thể quản lý được khi xem xét kích thước của dữ liệu Số lượng dữ liệu được xử lý cho các truy vấn này dao động từ 49.6GB (cho mỗi cặp tính năng cho cửa sổ 1 giờ) đến 4.33TB (mỗi cặp tính năng cho cửa sổ 96 giờ), dẫn đến chi phí xử lý cao hơn (5 USD cho mỗi TB được xử lý) Tuy nhiên, một phân tích tương tự sẽ không thể thực hiện nếu không
có nền tảng BigQuery
Nhật ký theo dõi của Google cũng báo cáo sự kiện máy (machine event) Đây là các sự kiện lập lịch trình tương ứng với các máy được thêm vào hoặc loại bỏ khỏi các nguồn tài nguyên Đặc biệt ta quan tâm là các máy có sự kiện XÓA, có thể
là do hai nguyên nhân: lỗi máy hoặc cập nhật phần mềm máy Mục tiêu của công việc này là để dự đoán các sự kiện XÓA do sự cố, do đó hai nguyên nhân phải được phân biệt Các nhà xuất bản tập nhật kí của Google đã kiểm tra cách tốt nhất để thực hiện sự phân biệt này và gợi ý xem khoảng thời gian mà máy vẫn không hoạt động - thời gian từ sự kiện XÓA quan tâm tới sự kiện THÊMtiếp theo cho cùng một máy Nếu "thời gian trễ" này lớn, thì ta có thể giả định rằng sự kiện XÓA là do lỗi máy, trong khi nếu nhỏ, máy tính này hầu như được gỡ bỏ để thực hiện cập nhật phần mềm Để đảm bảo rằng một sự kiện được coi là thất bại thực sự là một lỗi thực sự, bài báo đã sử dụng một ngưỡng thời gian "down time" tương đối dài là 2 giờ, lớn hơn thời gian cần cho một bản cập nhật phần mềm điển hình Dựa vào ngưỡng này,