Hệ thống sử dụng một mô hình dữ liệu lỗi để thu thập các báo cáo lỗi, xây dựng một tính năng và phương pháp lọc ngữ nghĩa để tương quan các sự kiện và phương pháp học máy để đánh giá māc
Khái ni ệ m v ề phân l ớ p d ữ li ệ u và bài toán phân l ớ p d ữ li ệ u
Khai phá dā liáu: Khai phá dữ liệu nói chung có nghĩa là khai thác hoặc đào sâu vào dữ liệu á các dạng khác nhau để có được các mẫu và để có được kiến thāc v mẫu đó Trong quá trình khai thác dữ liệu, các tập dữ liệu lớn trước tiên được sắp xếp, sau đó các mẫu được xác định và các mối quan hệ được thiết lập để thực hiện phân tích dữ liệu và giải quyết vấn đ [28]
Phõn lòp dā liỏu: Đõy là một nhiệm vụ phõn tớch dữ liệu, tāc là quỏ trỡnh tìm kiếm một mô hình mô tả và phân biệt các lớp và khái niệm dữ liệu Phân loại là vấn đ xác định một tập hợp các danh mục (quần thể con), một dữ liệu mới thuộc v loại nào, trên cơ sá một tập dữ liệu huấn luyện chāa các dữ liệu và các lớp cÿa chúng đ愃̀được biết đến [28]
Phân lớp dữ liệu có thể chia làm các bước sau:
Quá trình học tập của mô hình phân loại bao gồm xây dựng mô hình Các thuật toán khác nhau được sử dụng để xây dựng mô hình này bằng cách đào tạo mô hình sử dụng tập dữ liệu đào tạo Mô hình sau đó được đào tạo để đưa ra các dự đoán chính xác Dữ liệu kiểm tra được sử dụng để đánh giá độ chính xác của mô hình phân loại.
B°òc phõn lo¿i: Mụ hỡnh được sử dụng để dự đoỏn và thử nghiệm mụ hỡnh đ愃̀ xây dựng trên dữ liệu thử nghiệm và sau đó ước tính độ chính xác cÿa các quy tắc phân loại Dữ liệu kiểm tra được sử dụng để ước tính độ chính xác cÿa quy tắc phân loại
Ta có thể phát biểu bài toán phân lớp dữ liệu như sau: ĐÁu vào cÿa bài toỏn phõn lòp dā liỏu: Cho tập dữ liệu ban đầu D = {(xi, yi) | i = 1, 2, …, n}, trong đó, xi = (xi1, xi2, , xik) R k là dữ liệu gồm k thuộc tính āng với tập thuộc tính A = {A1, A2, …, Ak} và yi C = {c1, c2, …, cm} là tập nhãn cÿacác lớp dữ liệu ban đầu ĐÁu ra cÿa bài toỏn phõn lòp dā liỏu: Một mô hình phân lớp F: R k → C, tương āng mỗi phần tử x R k là một nh愃̀n lớp F(x) C, sao cho đối với tập mẫu đầu vào D là phù hợp nhất theo nghĩa sau đây:
||F(xi) – yi|| 0, với mọi (xi, yi) D và || || là một độ đo nào đó
1.1.2 Các bước giải quyết bài toán phân lớp dữ liệu Để giải quyết bài toán phân lớp dữ liệu ta tiến hành hai gian đoạn: giai đoạn đầu tiên ta xây dựng mô hình phân lớp (còn hay được gọi là giai đoạn Huấn luyện) và giai đoạnthā hai làkiểm tra đánh giá mô hình phân lớp(còn được gọi là giai đoạn
Quá trình này nhằm mục đích xây dựng ra một mô hình phân lớp dữ liệu dựa trên việc mô tả tập các lớp dữ liệu hoặc các khái niệm đ愃̀ được xác định trước Trong giai đoạn này, thuật toán phân lớp được sử dụng để xây dựng mô hình phân lớp bằng cách phân tích hay