Ứng dụng thuật toán k-nearest neighbor trong phân tích dữ liệu chuỗi thời gian

MỤC LỤC

CƠ SỞ LÝ THUYẾT

Chuỗi thời gian là gì?

Dự báo chuỗi thời gian cũng là một lĩnh vực quan trọng của học máy và có thể được coi là một vấn đề học tập có giám sát. Các phương pháp học máy như Regression, Neural Networks, Support Vector Machines, Random Forests và XGBoost có thể được áp dụng trong trường hợp này. Phân tích chuỗi thời gian liên quan đến việc phát triển các mô hình tìm kiếm tri thức trong dữ liệu.

Dự báo chuỗi thời gian thực hiện bước tiếp theo với kiến thức vừa tìm được. Nó đòi hỏi phải phát triển các mô hình dựa trên dữ liệu trước đó và áp dụng chúng để thực hiện các quan sát và hướng dẫn các quyết định chiến lược trong tương lai.

Các phương pháp dự báo chuỗi thời gian Mô hình phân tách

Đây là một kỹ thuật phân tích chuỗi thời gian quan trọng, đặc biệt là để điều chỉnh theo mùa vụ. Nó tìm cách xây dựng một số chuỗi thành phần từ một chuỗi thời gian gốc (sau đó có thể tái tạo lại chuỗi gốc bằng phép cộng hoặc phép nhân) trong đó mỗi chuỗi này có một đặc điểm hoặc kiểu hành vi nhất định. Tính toán dưới dạng chuỗi giảm dần trung bình St Yt−Tt cho mỗi mùa (ví dụ: cho mỗi tháng).

Trong một chuỗi thời gian cộng (additive time series), các thành phần cộng lại với nhau để tạo thành chuỗi thời gian. Trong một chuỗi thời gian nhân (multiplicative time series), các thành phần nhân với nhau để tạo thành chuỗi thời gian. Một mô hình cộng được sử dụng khi các biến thể xung quanh xu hướng không thay đổi theo cấp độ của chuỗi thời gian.

Để làm rừ vai trũ của cỏc thành phần trong chuỗi thời gian, chỳng ta xem qua một cách phân tách chuỗi thời gian viết bằng ngôn ngữ Python. Chúng ta sẽ xây dựng tính xu hướng, tính thời vụ và các thành phần còn lại bằng những dữ liệu hư cấu. Chúng ta giả định thời gian, xu hướng và trước hết bỏ qua các đơn vị tính để mọi thứ đơn giản.

Một chuỗi thời gian được gọi là có tính dừng nếu các thuộc tính có ý nghĩa thống kê của nó (ví dụ như là trung bình, độ lệch chuẩn) không đổi theo thời gian. Vì thế, mỗi chuỗi thời gian là một giai đoạn riêng biệt, nên chúng ta không thể khái quát hóa kết quả phân tích cho các giai đoạn khác. Ở ví dụ hình trên, nếu chúng ta vẽ giá trị trung bình của chuỗi, thì giá trị này sẽ luôn là giá trị trung bình trong mọi thời điểm.

Tự tương quan đơn giản có nghĩa là phép đo chuỗi thời gian hiện tại tương quan với phép đo trong quá khứ. Một ví dụ cụ thể là chúng ta sẽ muốn biết liệu giá cổ phiếu ngày hôm nay tương quan tốt hơn với giá của ngày hôm qua hay giá của hai ngày trước để đưa ra được những dự báo tốt hơn cho các ngày tiếp theo. Hầu hết các mô hình về chuỗi thời gian hiện tại được xây dựng trên một giả định tính dừng.

Có nghĩa là nếu chuỗi thời gian ở trong quá khứ có một hành vi nào đó, thì khả năng cao là nó sẽ lặp lại trong tương lai. Ngoài ra, các lý thuyết liên quan đến tính dừng đã được các nhà nghiên cứu khai thác một cách triệt để và dễ ràng thực hiện hơn là các lý thuyết về tính không dừng.

THUẬT TOÁN KNEAREST NEIGHBOR

Ta dễ dàng nhìn thấy có hai loại: hình vuông màu xanh biểu diễn cho những người là fan của Kpop, tam giác màu đỏ biểu diễn cho những người không là fan của Kpop, hình tròn màu xanh là người bạn mình muốn biết có phải là fan Kpop hay không, khoảng cách giữa chấm tròn và các điểm còn lại biểu diễn độ thân thiết của bạn đó với những người bạn. Phương pháp đơn giản nhất để kiểm tra xem bạn đó chơi thân với người bạn nào nhất, tức là tìm xem điểm gần chấm xanh thuộc class nào (hình vuông hay tam giác). Từ hình trên ta dễ dàng nhận thấy điểm gần chấm xanh nhất là hình tam giác màu đỏ, do đó nó sẽ được phân vào lớp tam giác màu đỏ.

Có một vấn đề trong phương pháp trên, xung quanh cấm xanh xuất hiện rất nhiều hình vuông màu xanh nên việc xét điểm gần nhất là chưa khả thi. Giả sử, ta lấy K=3, dựa theo hình trên ta dễ dàng nhận ra có hai hình tam giác đỏ và một hình vuông xanh có khoảng cách gần chấm xanh nhất, do đó chấm xanh. Trường hợp lấy K=4, ta nhận thấy sẽ có hai hình vuông xanh và hai hình tam giác đỏ, đây là trường hợp có điểm bằng nhau, với trường hợp này KNN sẽ xử lý bằng cách so sánh tổng khoảng cách của các hình gần nhất với điểm ta đang xét.

Tập dữ liệu hoa Iris hoặc tập dữ liệu Iris của Fisher là tập dữ liệu đa biến được giới thiệu bởi nhà thống kê và nhà sinh vật học người Anh Ronald Fisher trong bài báo năm 1936 Việc sử dụng nhiều phép đo trong các vấn đề phân loại như một ví dụ về phân tích phân biệt tuyến tính. Đôi khi nó được gọi là tập dữ liệu Iris của Anderson vì Edgar Anderson đã thu thập dữ liệu để định lượng sự biến đổi hình thái của hoa Iris của ba loài liên quan. Dựa trên sự kết hợp của bốn tính năng này, Fisher đã phát triển một mô hình phân biệt tuyến tính để phân biệt các loài với nhau.

Dựa trên mô hình phân biệt tuyến tính của Fisher, bộ dữ liệu này đã trở thành trường hợp thử nghiệm điển hình cho nhiều kỹ thuật phân loại thống kê trong học máy như máy vector hỗ trợ. Tuy nhiên, việc sử dụng tập dữ liệu này trong phân tích cụm không phổ biến, vỡ tập dữ liệu chỉ chứa hai cụm cú sự phõn tỏch khỏ rừ ràng. Một trong những cụm chứa Iris setosa, trong khi cụm còn lại chứa cả Iris virginica và Iris Versolor và không thể tách rời nếu không có thông tin về loài mà Fisher sử dụng.

Điều này làm cho dữ liệu trở thành một ví dụ tốt để giải thích sự khác biệt giữa các kỹ thuật được giám sát và không giám sát trong khai thác dữ liệu: Mô hình phân biệt tuyến tính của Fisher chỉ có thể thu được khi biết các loài đối tượng: nhãn lớp và cụm không nhất thiết giống nhau. Do đó, ba loài Iris (Iris setosa, Iris virginica và Iris Verscolor) có thể được phân tách bằng các thủ tục không giám sát trong phân tích thành phần chính phi tuyến. Xét trường hớp K=1, tức là với mỗi điểm dữ liệu test ta chỉ xét 1 điểm dữ liệu training gần nhất và lấy nhãn cả điểm đó để dự đoán cho điểm dữ liệu test.

Kết quả cho thấy nhãn dự đoán gần giống với label thật của dữ liệu test, chỉ có 2 trong số 20 điểm được hiển thị có kết quả sai lệch. Bộ dữ liệu chứa một bộ dữ liệu bản ghi bao gồm các thuộc tính – chiều dài và chiều rộng của đài hoa, chiều dài và chiều rộng của cánh hoa.