HIỆN THỰC VÀ THỬ NGHIỆM

Mục tiêu của đề tài này là xây dựng hệ thống phân lớp cho dữ liệu chuỗi thời gian dựa trên giải thuật phân lớp có thời gian thực thi tùy chọn và giảm thời gian tính toán bằng cách sử dụng thông tin motif của các chuỗi dữ liệu thời gian. Chương này sẽ trình bày hướng giải quyết vấn đề của đề tài, các giải pháp kỹ thuật để hiện thực và kết quả thực nghiệm.

4.1. Giải quyết vấn đề 4.1.1. Đặt vấn đề 4.1.1. Đặt vấn đề

Hệ thống phân lớp dữ liệu chuỗi thời gian được xây dựng nhằm mục đích: “Dựa trên một tập huấn luyện, dự đoán lớp cho mẫu mục tiêu O”.

4.1.2. Hướng giải quyết vấn đề

Các nghiên cứu trước đây đã đề xuất nhiều giải thuật phân lớp cho dữ liệu chuỗi thời gian. Nhưng nhiều công trình đã chứng tỏ rằng giải thuật phân lớp k-Nearest- Neighbor cho kết quả chính xác hơn các giải thuật học “chăm chỉ” khác như giải thuật học Bayes hay cây quyết định. Kỹ thuật phân lớp dựa trên cây chỉ mục thì có hạn chế là phải tốn thời gian ít nhất là O(log2m) để tìm được mẫu láng giềng gần nhất của O, tuy nhiên độ phức tạp O(log2m) này thường đi kèm với một hệ số rất lớn (phụ thuộc vào số chiều của dữ liệu).

Vì vậy, đề tài này sẽ sử dụng giải thuật phân lớp láng giềng gần nhất với thời gian thực thi tùy chọn sử dụng thông tin motif. Hệ thống phải trải qua hai giai đoạn: giai đoạn huấn luyện và giai đoạn phân lớp.

Giai đoạn huấn luyện sẽ thực hiện việc sắp xếp tập huấn luyện này bằng chiến lược Simple Rank dựa trên motif của các thể hiện trong tập huấn luyện.

Tiêu chí sắp xếp cũng dựa trên công thức rank và priority được đề xuất bởi Ueno và các cộng sự [7].

( ) = ( ) =

− (4. 1)

Trong đó xj là mẫu nhận x là mẫu láng giềng gần nhất. Nếu có nhiều mẫu có cùng thứ hạng, thứ tự của chúng sẽ được xác định bằng độ ưu tiên với công thức:

( ) =

, (4. 2)

Trong đó xj là mẫu nhận x là láng giềng gần nhất và d(x, xj) là khoảng cách giữa x

và xj.

Rank của một chuỗi x phản ánh tính chất các chuỗi lân cận gần nhất của x thuộc cùng lớp với nó. Còn priority của một chuỗi x phản ánh mật độ xuất hiện của các chuỗi xung quanh x. Nếu các chuỗi xuất hiện càng dày đặc quanh x thì priority của x càng cao.

Ý tưởng chính của tiêu chí sắp xếp này là chuỗi nào mang nhiều đặc trưng của lớp nó thuộc sẽ được kiểm tra trước.

Ví dụ: ta có tập huấn luyện với 3 lớp. Tập huấn luyện được sắp xếp bằng

SimpleRank có thứ tự như trong Hình 4-1

Object A1 B1 C1 A2 A3 A4 C2 C3 B2 C4 B3

Rank 10 5 7 9 8 7 6 5 4 3 2

Vì độ đo khoảng cách Euclid không tốt trong trường hợp hai mẫu có hình dạng giống nhau nhưng lệch nhau về mặt thời gian, nên đề tài này sẽ sử dụng độ đo khoảng cách xoắn thời gian động.

Bước sắp xếp cần phải tìm được mẫu láng giềng gần nhất của mỗi mẫu (leaving- one-out 1-Nearest-Neighbor). Để cải thiện thời gian thực thi cho bước này, đề tài sử dụng kỹ thuật tính chặn dưới LB_Keogh trong việc tính khoảng cách.

Trong bước phân lớp, để tính khoảng các DTW giữa mẫu cần phân lớp O với các

mẫu trong tập huấn luyện, đề tài cũng sẽ sử dụng kỹ thuật tính chặn dưới nói trên.

4.1.3. Giai đoạn huấn luyện

Việc phân lớp được thực hiện dựa trên một tập huấn luyện mà người dùng cung cấp cho hệ thống. Giai đoạn huấn luyện sẽ thực hiện việc sắp xếp tập huấn luyện này bằng chiến lược Simple Rank sử dụng thông tin motif.

Gọi tập huấn luyện là TrainingSet gồm m mẫu dữ liệu. Tập huấn luyện này gồm K

lớp dữ liệu. Hệ thống trước tiên cần tìm motif đại diện của mỗi mẫu huấn luyện bằng cách sử dụng giải thuât tìm kiếm motif dựa vào điểm cực trị quan trọng, sau đó hệ thống thực hiện sắp xếp các mẫu dữ liệu dựa vào các motif đại diện thay vì dựa trên các mẫu dữ liệu gốc.

Để thực hiện được việc sắp xếp này, hệ thống phải tìm được mẫu láng giềng gần nhất của mỗi mẫu (Leave-one-out 1-Nearest-Neighbor). Đề tài áp dụng kỹ thuật tính chặn dưới LB_Keogh, vì vậy cần có giải thuật tìm mẫu láng giềng gần nhất của mỗi mẫu kỹ thuật tính chặn dưới.

4.1.3.1. Giải thuật NN_LBKeogh

Giải thuật tìm mẫu láng giềng gần nhất ứng với kỹ thuật tính chặn dưới

Sắp xếp tập huấn luyện

Thực nghiệm giai đoạn phân lớp