Luận văn thạc sĩ Khoa học máy tính: Phân lớp dữ liệu chuỗi thời gian dựa trên thông tin Motif (Time Series Classification Based on Motifs)

NHIEM VU VA NOI DUNG - Nghiên cứu về phân lớp dữ liệu và dữ liệu chuỗi thời gian.- Nghiên cứu giải thuật tìm kiếm motif EP-C và EP-MK.- Nghiên cứu các độ đo được sử dụng trong quá trình

Trang 1

ĐẠI HỌC QUÓC GIA TP HỎ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYEN VĂN KIÊN

PHAN LỚP DU LIEU CHUOI THỜI GIAN

DỰA TREN THONG TIN MOTIF(TIME SERIES CLASSIFICATION

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOA - ĐHQG -HCM

Cán bộ hướng dẫn khoa học: PGS.TS Dương Tuấn Anh

Cán bộ chấm nhận xét 1: TS Võ Thị Ngọc Châu

Cán bộ chấm nhận xét 2: TS Lê Văn Quốc Anh

Luận văn thạc sĩ được bảo vệ tại Trường Dai học Bách Khoa, DHQG Tp.HCM ngày 28 tháng 12 năm 2017

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:(Ghi rõ ho, tên, học hàm, học vi của Hội đồng cham bảo vệ luận văn thạc sĩ)

5 TS Phạm Văn Chung Ủy viên

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lýchuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐÔNG TRƯỞNG KHOA KH&KTMT

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAMTRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨHọ tên học viên: Nguyễn Văn Kiên MSHV: 1570214

Ngày, tháng, năm sinh: 14/12/1992 Nơi sinh: Phú Yên

Ngành: Khoa học máy tính Mã số: 60480101I TÊN DE TAI

PHAN LOP DU LIEU CHUOI THOI GIAN DU'A TREN THONG TIN MOTIFIl NHIEM VU VA NOI DUNG

- Nghiên cứu về phân lớp dữ liệu và dữ liệu chuỗi thời gian.- Nghiên cứu giải thuật tìm kiếm motif EP-C và EP-MK.- Nghiên cứu các độ đo được sử dụng trong quá trình tìm kiém motif và phân lớpdữ liệu chuỗi thời gian

- Nghiên cứu về van dé phân lớp dữ liệu chuỗi thời gian dựa trên thông tin motif.- Hiện thực hệ thống phân lớp dữ liệu chuỗi thời gian dựa trên thông tin motif sử

dụng giải thuật phân lớp k-NN.

- Thực nghiệm hệ thống phân lớp với các bộ dữ liệu mẫu và so sánh kết quả vớihướng tiếp cận phân lớp bằng giải thuật &-NN va độ do Euclid trên dữ liệu ban dau.IH NGÀY GIAO NHIỆM VU: 10/07/2017

IV NGÀY HOÀN THÀNH NHIỆM VU: 03/12/2017V CÁN BO HUONG DAN : PGS.TS Dương Tuấn Anh

Trang 4

LỜI CÁM ƠNĐề hoàn thành luận văn này, tôi xin chân thành gửi lời cảm ơn đến PGS TS.Dương Tuấn Anh, người đã tận tình hướng dẫn, giúp đỡ tôi trong quá trình thực hiệnluận văn này Những sự chỉ dẫn của Thay đã giúp tôi hoàn thành luận văn tốt nghiệpđúng thời gian dự kiến.

Tôi xin gửi lời cảm ơn chân thành đến Quý Thầy/Cô khoa Khoa học & Kỹ thuậtmáy tính cũng như các Thây/Cô trường Đại học Bách khoa, Đại học Quốc giaTP.HCM Sự tận tinh trong quá trình giảng dạy của Quý Thay/Cé đã trang bị nhữngkiến thức quý báu và tạo mọi điều kiện thuận lợi cho tôi trong suốt quá trình học tập

tại Trường.

Cuối cùng, tôi xin chân thành cảm ơn đến gia đình và bạn bè, đồng nghiệp đã hỗtrợ, giúp đỡ để tôi hoàn thành khóa học

Trang 5

TOM TAT LUẬN VĂN

Phân lớp dữ liệu chuỗi thời gian là một tác vụ khai phá dữ liệu quan trọng được

ứng dụng trong nhiều lĩnh vực thực tế như: nhận diện chuyển động cơ thể, xác thựcchữ ký, chuẩn đoán bệnh, xử lý dữ liệu cảm biến Trong dữ liệu chuỗi thời gian,motif là những chuỗi con lặp lại thường xuyên và tìm kiém motif là một bai toán đangđược quan tâm Nhiều nghiên cứu thực nghiệm cho thấy motif có thể giúp cải thiệnđộ chính xác cho kết quả phân lớp dữ liệu chuỗi thời gian

Nhiều hướng tiếp cận đã được đề xuất dé giải bài toán phân lớp dữ liệu chuỗi thờigian dựa trên thông tin motif Tuy nhiên những hướng tiếp cận nảy đều có thời gianthực thi chậm và khá phức tạp về mặt giải thuật Trong luận văn này, chúng tôi sẽ đưara một hướng tiếp cận để giải quyết bài toán phân lớp dữ liệu chuỗi thời gian dựa trênmotif nhằm mục dich cải thiện độ chính xác của kết quả va giảm thời gian xử lý

Giải thuật EP-C (Extreme Point Clustering) và EP-MK (Extreme Point Mueen

Keogh) được sử dung dé tim kiếm motif trên chuỗi thời gian Giải thuật EP-C vaEP-MK giúp tăng tốc độ quá trình tìm kiếm motif bang các kỹ thuật thu giảm thờigian tính toán và dựa vào các điểm cực trị quan trọng để phân đoạn

Dữ liệu chuỗi thời gian được biến đồi thành các vector đặc trưng dựa trên sự xuất

hiện của các motif trên mỗi chuỗi thời gian Giải thuật A-NN với giá trị k = 1 va các

độ đo trên dữ liệu rời rạc đã được sử dụng trong quá trình phân lớp dữ liệu chuỗi thời

gian.

li

Trang 6

Time series data classification is an important data mining task which is used inmany applications such as human motion recognition, signature verification,diagnosis in medicine, sensor data analysis In time series data, motifs arefrequently repeated subsequences and finding motif is an interesting problem Manyresearch works show that motif can improve the accuracy of classification results intime series data.

Many approaches are proposed to solve the time series data classification basedon motif However, these approaches are complicated and still slow to calculate Inthis thesis, we propose an approach to solve time series data classification based onmotif information in order to improve accuracy and reduce computation time.

EP-C (Extreme Point Clustering) and EP-MK (Extreme Point Mueen Keogh)algorithms are used to find motif in time series EP-C and EP-MK help to speed upin finding time series motif based on the techniques for reducing computation timeand applying significant extreme points to segment time series.

Time series data are represented as feature vectors based on occurrence of motifsin each time series The A-NN algorithm with & = 1 and similarity measures forcategorical data are used to classify time series data.

1H

Trang 7

LỜI CAM ĐOAN

Tôi cam đoan răng, ngoại trừ các kết quả tham khảo từ các công trình khác nhưđã ghi rõ trong luận văn, các công việc trình bày trong luận văn này do chính tôi thựchiện và chưa có phân nội dung nào của luận văn này được nộp đê lây một băng câp ởtrường này hoặc trường khác.

Ngày 04 tháng I2 năm 2017

Nguyễn Văn Kiên

IV

Trang 8

MỤC LỤC

LOL CAM ON 0107 iTOM TAT LUẬN VAN - 55c 2t 2 2 2 2221.2122.221 ii

"Ha 00 ae 4 52.1.1 Giới 0 000 (1) QQ HT TH TH HH ngu 52.1.2 Giai thuật phân lớp &-NN LH TH TH ng kg gu 6

2.1.3 Máy vector hỗ trợ (Support Vector Machines — SVM§) 7

2.1.4 Mạng no ron nhân tao (Artificial Neural Network - ANN) 72.1.5 Phân lớp dit liệu chuỗi thời Gian eee esecccssecscsceseseevscseseeseeees 82.2 Chuỗi thời gian và các khái niệm liên quan ¿2-2 + se +s£+£+E+xze+ecxz 92.3 Độ đo khoảng cách -c << 1100111111111 1111 vn ng vớ 112.3.1 Độ do EUCÏId - G1 131133 101113 11199 111 11g 1H vn vn ket 11

2.3.2 Độ do xoăn thời gian động (Dynamic Time Warping - DTW) 11

2.3.3 Cac độ đo trên dữ liệu rời rac - - 5< c1 ccceeeess 13

2.4 Chuẩn hóa dit HOU ec eeseesseesseeseeseeesecesnecsneesnecsncesneesncesnesnseenseeneesneennseenes 152.4.1 Chuẩn hóa min - max.iecccccccccsscsesscssssssesssacscscsesssacsvsssesecavecsvevsessens 152.4.2 Chuẩn hóa Z-SCOT© - +52 SE SEEEEE51311111151511 11111111 ck 162.5 Phương pháp thu giảm số chiễU - - - - k+E+E£E£E+EeEeEeEeEeEevereeerereeed 162.5.1 Phương pháp xấp xỉ gộp từng đoạn (PA A) ccscsrsrrrsrerrees 16

Trang 9

2.5.2 Phương pháp điểm cực tri quan frỌng -¿- - s+s+esesEstsesesrerererees 17

2.6 Phương pháp rời rac hóa SAX (Symbol Aggregate Approximation) 182.7 GOM CUM đữ LGU ooo eee ceecccccccceesssecccceseesssccccsseeesseeccesseeesccssseeeesesesesseees 202.7.1 Giai thuật gom cụm K-MEANS cccceessscceesccceeecceeeeeeessssneeeeeeeeeeeeeees 20

2.7.2 _ Giải thuật gom cụm gộp phân cấp ¿-¿- - sx+x+k+k#EeEeEsesrerererees 212.8 Các độ đo đánh giá chất lượng của sự phân lớp 5-5 s2 sx+x+xsxd 23CHƯƠNG 3 CÁC CÔNG TRINH LIEN QUAN ¿55ccecscseseseseseeesed 263.1 Tim on 26

3.1.1 Giải thuật Brute FOFCG - ccc Ăn ret 26

3.1.2 _ Giải thuật chiếu ngẫu nhiên (Random Projection) sss-: 27

3.1.3 Giải thuật phát hiện motif dựa vào phan đoạn và gom cụm (EP-C) 283.1.4 Giải thuật MÍK - Q Ăn ng ng ket 30

3.1.5 Kết hợp giải thuật EP-C và IMK - - - xxx EEEEeEeEsrerrererees 33

3.2 Phân lớp chuỗi thời gian dựa trên thông tin motif ¿5-2 2 2 s5: 34

3.2.1 Phan lớp chuỗi thời gian băng giải thuật SVM và mạng Bayes 343.2.2 Phân lớp chuỗi thời gian băng giải thuật k-NN va cây quyết định 35CHƯƠNG 4 PHƯƠNG PHÁP GIẢI QUYET VAN ĐỀ sc-ccscsesesesed 37

4.5 Phan lớp dựa trên thông tin mmOfI - - << << << 1111 eeeeeesesssssss 45

CHƯƠNG 5 THỰC NGHIIỆM - G2 SG S122 3S v2 1 1x vn ngờ 46

5.1 Môi trường thực nghiỆm (0101010111 111111 1111115885558 1xx4 46

5.2 Ước lượng tham SỐ - - - E999 SE 9111111111111 1151111 46

“nà ` he o 465.2.2 DO dài của các Motif Ứng VIÊN -cc S11 111131119 33335511 sx2 46

5.2.3 _ Giá trị ngưỡng trong tác vụ so trùng chuỗi con ¿5s sc+scsc: 47

vi

Trang 10

5.2.4 Tham số của giải thuật gom cụm được sử dụng trong giải thuật EP-Cvà số điểm tham chiếu của giải thuật EP-MMK - - 5 + s+x+esEsesrsrererees 48

5.3 Dữ liệu thực nghiỆm 5 2 2 2113031011011 1111111111111 1 1188823551511 xx4 485.3.1 BeetleFÏy HH SH ng 00 T00 06 kg 48

5.3.3 FOP 503.3.4 Ham cọ 515.3.5 HandOutÏines - cọ 51“` nh -cngcetttdddtt Ô 525.3.7 OSUUeaf, LH 535.3.8 RefrlgeratlonÏÖ€VIC€S HH 0023155111 ke 545.3.9 WOTIS Q0 54

5.4 Kết quả thực nghiệm - - kESESES St SScvv S1 E1E11 11111151 1x xe 565.4.1 _ Thực nghiệm phân lớp bang #-NN truyền thống và &-NN có sử dụng

PHU LUC A -¿- <5 SE2E2EE*EEEEE15E1E15111152111151111111111 1111111111111 T111 1x AI

BANG DOI CHIẾU THUAT NGU ANH VIỆTT 5- + 2 2+2 s+E+E+EsEerered AI

vil

Trang 11

DANH MỤC HÌNH ANH

Hình 2.1 Vi dụ về bài toán phân lớp dit liệu [7] -¿- - - 5 x+E+x+E+EsEsEererererees 5

Hình 2.2 Giải thuật k-NN [ Í 3 | - 2c c1 1221111311111 11111 111 18v ng ngu 7

Hình 2.3 Mang no ron truyền thang da tầng [7] - 5-5-5 2S SeSE+E‡E+EeErrkeesreee 8

Hình 2.4 Chuỗi thời gian GDP, PDI, PCE của Hoa Ky theo quý từ năm 1970-1991

¬" 4 ẼäẼäa 9

Hình 2.5 Các chuỗi con trùng khớp tầm thường [ 10] - - 2c £+cs£s£erezee: 10

Hình 2.6 Motif của chuỗi thời gian [10] 5 6s 2 +E+E+E£#E+E+EeEee+Eseeeeeeereree 11

Hình 2.7 Độ do Euclid và độ đo xoắn thời gian dng eeeeeeeseeeeeseeeeeeee 12Hình 2.8 Ma trận tính độ đo DTW va đường xoắn - 5c se kexeEsesrsrererees 13Hình 2.9 Điểm cực tiêu quan trọng và điểm cực đại quan trọng |6 |]' 17

Hình 2.10 Rời rac hóa chuỗi thời gian sử dụng phương pháp SAX [9Ị 19

Hình 2.11 Gom cụm phân cấp gOp [7 ] - - «<< <6 SE +k+k+k£E£E£EeEeEereEerererees 21Hình 2.12 Khoảng cách tối thiểu giữa hai CUM eee esse esecseseecessesesscesetetsseees 22Hình 2.13 Khoảng cách tối đa giữa hai cụm + se +x‡E+EeEeEkrkrkerererered 22

Hình 2.14 Khoảng cách trung tâm giữa hai cụm . - << << << << <ssssss+++s 23Hình 2.15 Khoảng cách trung bình giữa hai Cụm - 555555 SS++S<sssseesseses 23

Hình 3.1 Các chuỗi con trong chuỗi thời gian T có kích thước 1000 được rời rạchóa băng phương pháp SAX và đặt vào ma trận S [Š] - - + ccsesesrererees 27

Hình 3.2 Quá trình so trùng tại mỗi bước lặp [Š] 5-5 2 +s+s+£s£+E+xzezecxz 28

Hình 3.3 Điểm cực trị quan trọng trên chuỗi thời gian - - 55s ++s+x+e+scxz 29Hình 3.4 Phân đoạn chuỗi thời gian dựa trên các điểm cực trị quan trọng 29

Hình 3.5 Loại bỏ sớm việc tính khoảng cách Euclid [12] -<<+++s- 30

Hình 3.6 Khoảng cách từ điểm tham chiếu O¡ đến các đối tượng chuỗi thời giantrong không gian một chiều [2] - + + SE +E‡E‡E‡E‡E£E£E£EeEeEeEeterererererees 31Hình 3.7 Cập nhật khoảng cách tốt nhất giữa cặp đối tượng liền kề nhau [12] 31Hình 3.8 Thông tin motif va các đặc trưng của chuỗi thời gian Tì và Ta được biểudiễn dưới dạng vector [ Ï Í] ¿-¿- <- EE+sEs SE SE 3E S vkvg nvgvrtrrryg 35

Hình 4.1 Mô hình phân lớp dữ liệu chuỗi thời gian dựa trên thông tin motif 37

Hình 4.2 Tìm kiếm cực trị không chính xác khi giá tri nằm trong khoảng (0 1) 38Hình 4.3 Kết qua tim kiém cac diém cuc tri quan trong sau khi chuẩn hóa lai 39

Vill

Trang 12

Hình 4.4 Phép vị tự [16] cccscccsescsseccssecssecsssecsuecsssecssecssecsssesssecssvessucsssessuesssvessuessseessees 40

Hình 4.5 Áp dụng phép vi tự biến đối một chuỗi thời gian - - 2 555552 40Hình 4.6 Mô hình tìm kiếm motif bang giải thuật E.P-C - << sec: 41Hình 4.7 Rút trích các motif ứng viên từ các điểm cực trị quan trong 42Hình 4.8 Mô hình tìm kiếm motif bang giải thuật EP-MK << s5: 42Hình 4.9 Các chuỗi thời gian được biểu diễn dưới dạng các chuỗi bit [3] 43Hình 4.10 Kỹ thuật cửa $6 tFƯỢT - <6 ST E111 1111111111 xe 43

Hình 4.11 Thực hiện phân đoạn chuỗi thời gian thành các chuỗi con 44Hình 4.12 Thực hiện so trùng motif với từng chuỗi con . - 5-5 2 55s cs¿ 44Hình 5.1.Hinh anh các loại bọ cảnh cứng và côn trùng [4] . - 49Hình 5.2 Chuỗi thời gian BeetleF Ìy - + + xxx SE kề vvcvgnrrtrereg 49

Hình 5.3 Chuỗi thời gian Earthquakes với 100 giá trị đầu tiên -¿ 50

Hình 5.4 Chuỗi thời gian FOrdAA ¿- ¿2656 SSE2ESESESESEEEEEEEEEEEEEEEEErkrererrree 50

Hình 5.5 Chuỗi thời gian Haim - - E + SE EềEEE về cv re reg 51Hình 5.6 Anh chụp X-quang bàn tay [4] -¿- + 2 +E+E+E+E+E+EeEerkrkreererrered 52

Hình 5.7 Chuỗi thời gian HandOutlines - ¿2 sk+s£E+E+E£E+E+EsEeEeeeereree 52

Hình 5.8 Chuỗi thời gian HaptiCs 5-2-2 6S *E2E2ESESESEEEEEEEEEEEEEEEEEEErererrree 53Hình 5.9 Chuỗi thời gian OSULLeaf ¿<5 S2E2ESESESEEEEEEEEEEEEEEEEErkrrrrrrree 53Hình 5.10 Chuỗi thời gian RefrigerationDevices với 200 giá trị đầu tiên 54

Hình 5.11 Chuỗi thời gian WWOTImS <1 3 SE E 1v 1g nh reg 55

IX

Trang 13

DANH MỤC BANG

Bang 2.1 Các độ đo tương tự trên dữ liệu rời rac [ Ï | - << «<< <<ssssss+++s 15

Bảng 2.2 Bảng điểm ngắt với giá trị a từ 3 đến 10 [Ø] -cc+cecsesrsrererees 19Bảng 2.3 Ma trận nhầm lẫn - - - E999 5E E911 11 1181111111511 24Bảng 5.1 Bang tóm tắt các thông tin của các bộ dữ liệu - << sex: 55Bảng 5.2 Các tham số ước lượng trong quá trình phân lớp bằng giải thuật k-NN có

SU dung thong tin MOtif cece 7= 56Bang 5.3 Tỉ lệ lỗi phân lớp các bộ dữ liệu chuỗi thời gian sử dung giải thuật k-NN

truyền thống và k-NN có sử dung ImoOtiỂ - « <sSxSxSxSStSkk SE EEEEeEeEerererees 57Bảng 5.4 Thời gian tìm kiém motif của giải thuật EP-C và EP-MK 58Bảng 5.5 Các tham số ước lượng trong qua trình phân lớp bang giải thuật k-NN,

SVMs, ANN có sử dụng thong tin ImOfIf, << << 5 << 55511 +ssssssssssssesssa 59

Bảng 5.6 Tỉ lệ lỗi phân lớp các bộ dữ liệu chuỗi thời gian bang giai thuat k-NN,

SVMs, ANN có su dụng thong tin ImOfIf, << << 5 << 55511 +ssssssssssssesssa 60

Trang 14

CHƯƠNG 1 GIỚI THIEU VAN DE

1.1 Tổng quan về đề tài

Phan lớp dit liệu (data classification) là một tác vu quan trọng lĩnh vực khai pha

dữ liệu được ứng dụng trong nhiều lĩnh vực của cuộc sống Một trong những loại dữliệu xuất hiện trong nhiều lĩnh vực ứng dụng là đữ liéu chuỗi thời gian (time series

data).Phân lớp dữ liệu chuỗi thời gian được sử dụng thường xuyên va sâu rộng trong

các nghiên cứu thực nghiệm để giải quyết nhiều bài toán thực tế như nhận dạngchuyển động cơ thể, xác thực chữ ký, phân tích tín hiệu sóng não, chuẩn đoán trongy té, Hiện nay, phân lớp dữ liệu chuỗi thời gian vẫn đang là một van dé đangđược nghiên cứu nhằm mục đích nâng cao tính hiệu quả trong quá trình phân lớp

Trong lĩnh vực phân tích dữ liệu chuỗi thời gian, tìm kiếm motif là một bai toánđang được quan tam Motif là một chuỗi con được lặp lại nhiều lần trong một chuỗithời gian, thông tin motif có thé sử dụng kết hợp với các tác vụ khai phá dữ liệu nhưphân lớp, gom cụm, khai phá luật kết hợp Trong nhiều nghiên cứu thực nghiệm chothay răng thông tin motif có thé giúp cải thiện chất lượng kết quả quá trình phân lớpliên quan đến các lĩnh vực như y té, robot, khi tượng hoc Tuy nhiên, dữ liệu chuỗithời gian trong thực tế thường có kích thước lớn với hàng chục ngàn tỉ quan sát và cóthể nhiều hơn nữa, lượng dữ liệu lớn không chỉ cung cấp nhiều thông tin hữu ích màcòn tạo ra nhiều thử thách về dư thừa dữ liệu, dữ liệu nhiễu làm giảm độ chính xáccủa kết quả và tăng chi phí xử lý, lưu trữ trong quá trình tìm kiếm motif và phân lớp.Vi vậy các hướng tiếp cận dé giải quyết bai toán tìm kiếm motif và phân lớp trên dữliệu lớn là vô cùng can thiết

Dé tài luận văn nay sẽ đưa ra một cách tiếp cận dé giải quyết bài toán phân lớpdựa trên thông tin motif nhằm mục đích cải thiện độ chính xác của kết quả và giảm

thời gian xử lý.

Hai vẫn đề chính cần quan tâm trong luận văn này là tìm kiếm motif và sử dụngmotif kết hợp với tác vụ phân lớp để phân lớp dữ liệu chuỗi thời gian Nhiều hướngtiếp cận dựa trên giải thuật chiếu ngdu nhiên (random projection algorithm) và kỹthuật khai phá mẫu thường xuyên đã được đề xuất dé tìm kiếm motif trong quá trình

Trang 15

phân lớp Tuy nhiên những hướng tiếp cận này có thời gian thực thi chậm Trong détài này, hai giải thuật EP-C và EP-MK sẽ được sử dụng để tìm kiếm motif, dựa trênnhững điểm cực trị quan trọng dé phân đoạn chuỗi thời gian thành các chuỗi con, giảithuật EP-C và EP-MK sẽ giúp cải thiện thời gian tìm kiếm motif Các motif sẽ đượcsử dụng trong quá trình biến đổi các chuỗi thời gian thành các vector đặc trưng dựavào sự xuất hiện của các motif trên mỗi chuỗi thời gian, các chuỗi con của mỗi chuỗithời gian lần lượt được so trùng với các motif để kiểm tra sự xuất hiện của motif Kỹthuật cửa số írượi (sliding window) có thé được sử dung trong bài toán so trùng chuỗicon với ưu điểm là không tìm sót chuỗi con nhưng nhược điểm của phương pháp nàylà có chi phí tính toán cao, vi vậy các điểm cực trị quan trọng tiếp tục được sử dụngđể phân đoạn chuỗi thời gian thành các chuỗi con trong công tác so trùng.

Giải thuật phân lớp k-NN với & = 7 được su dụng trong tac vu phân lớp, vì các

vector đặc trưng chỉ gồm hai giá trị 0 và 1 nên độ đo trên dữ liệu rời rạc sẽ được sửdụng trong quá trình tính toán Ngoài ra, máy vector hỗ trợ và mạng nơ ron nhân tạocũng được sử dung trong tác vụ phân lớp dé cho thay lợi ích của việc biến đôi chuỗithời gian thành các vector đặc trưng Kết quả phân lớp dựa trên motif sẽ được so sánhvới cách phân lớp truyền thống băng giải thuật #-NN và độ do Euclid

1.2 Mục tiêu và giới hạn đề tàiMục tiêu của dé tài xây dựng một hệ thông phân lớp dữ liệu chuỗi thời gian dựatrên thông tin motif nhằm mục đích cải thiện độ chính xác và giảm thời gian xử lý

Trong luận văn này, motif được sử dụng cho quá trình phân lớp được giới hạn là

motif bậc nhất — những chuỗi con có sự lặp lại thường xuyên nhất.1.3 Nhiệm vụ của đề tài

Trong dé tài này, các van dé chính được tập trung nghiên cứu như sau:= Nghiên cứu về van dé phân lớp dữ liệu, dữ liệu chuỗi thời gian và các khái

niệm liên quan.

= Nghiên cứu giải thuật tìm kiếm motif EP-C và EP-MK và các van dé liênquan trong quá trình tìm kiếm motif

= Nghiên cứu các độ đo được sử dụng trong quá trình tìm kiếm motif và phânlớp dữ liệu chuỗi thời gian

= Nghién cứu về van dé phân lớp dé liệu chuỗi thời gian dựa trên thông tin

motif

Trang 16

= Hiện thực hệ thống phân lớp dé liệu chuỗi thời gian dựa trên thông tin motif

sử dụng giải thuật phân lớp &-NN.

= Thực nghiệm hệ thong phân lớp với các bộ dữ liệu mẫu và đánh giá kết quả.1.4 Những kết quả đạt được

Với hướng tiếp cận dựa trên việc tìm kiếm motif bằng giải thuật EP-C vàEP-MK, dé tài đã xây dựng hoàn thiện một hệ thống phân lớp dữ liệu chuỗi thời gian

dựa trên thông tin motIf.

Phân đoạn chuỗi thời gian thành các chuỗi con dựa trên các điểm cực trị quantrọng trong các giải thuật tìm kiếm motif cũng như trong quá trình so trùng chuỗi congiúp cải thiện đáng ké thời gian xử lý cũng như có thé loại bỏ được dữ liệu nhiễu

Việc lựa chọn các tham số cho các giải thuật sử dụng trong quá trình phân lớp cóảnh hưởng lớn đến kết quả phân lớp Các tham số quan trọng cần ước lượng là tỉ lệnén R dé tìm kiếm các điểm cực trị, gia trị ngưỡng tương tự #£ trong công tác so trùngchuỗi con, số lượng cụm trong quá trình gom cụm tìm kiếm motif của giải thuật EP-C, Việc ước lượng các tham số này cũng được chúng tôi dé xuất trong luận văn.Qua thực nghiệm cho thay các cách ước lượng là phù hợp với mô hình phân lớp đượcdé xuất

Về kết qua phân lớp, phân lớp dữ liệu chuỗi thời gian sử dụng thông tin motifcho độ chính xác cao hơn so với phân lớp bằng giải thuật k-NN và độ do Euclid trêntất cả các bộ dữ liệu thực nghiệm

Về chất lượng motif và thời gian tìm kiếm motif bằng hai giải thuật EP-C vàEP-MK, kết quả phân lớp dựa trên motif tìm kiếm được bằng giải thuật EP-C vàEP-MK đều có độ chính xác gần tương đương nhau, thời gian tìm kiếm motif của EP-

C chậm hơn so với EP-MK.

1.5 Cau trúc luận vănLuận văn có cấu trúc gồm 6 chương, cụ thể như sau:Chương 1 Giới thiệu van dé

Giới thiệu sơ lược về bài toán phân lớp dữ liệu chuỗi thời gian dựa trên thôngtin motif, mục tiêu, nhiệm vu, giới hạn của đề tài, những kết quả luận văn đã đạtđược, cấu trúc và tong quan từng chương của luận văn

Chương 2 Cơ sở lý thuyết

Trang 17

Trình bày về các khái niệm và các vẫn đề có liên quan đến dữ liệu chuỗi thời

gian, phân lớp, gom cụm dir liệu, các độ đo khoảng cách được sử dung trong

các chương sau của đề tài luận văn

Chương 3 Các công trình liên quan

Trình bày về các công trình khoa học liên quan đến bài toán tìm kiếm motifvà phân lớp dữ liệu dựa trên thông tin motif đồng thời đánh giá về những ưu điểmvà hạn chế của những công trình này

Chương 4 Phương pháp giải quyết van déTừ những đánh giá về các công trình khoa học liên quan, chương 4 sẽ đưa rahướng tiếp cận dé giải quyết bai toán phân lớp dựa trên thông tin motif của dé tàiluận văn đồng thời chi tiết về cách áp dụng các giải thuật liên quan trong qua

trình phân lớp dữ liệu.Chương 5 Thực nghiệm

Đề xuất cách ước lượng các tham số sử dụng trong giải thuật tìm kiếm điểmcực trị quan trọng, so trùng chuỗi con, gom cụm và trình bày những kết qua phanlớp trên các bộ dữ liệu mau với các motif tim kiếm bang giải thuật EP-C, EP-MKđồng thời so sánh kết quả phân lớp với cách tiếp cận truyền thống phân lớp banggiải thuật #-NN và độ do Euclid cũng như so sánh kết quả phân lớp giữa motiftìm kiếm băng giải thuật EP-C và EP-MK

Chương 6 Kết luậnTrình bày tóm lược lại những van dé chính của luận văn, những kết quả đãđạt được và hướng phát triển đề tài

Tài liệu tham khảoPhụ lục

Trang 18

CHƯƠNG 2 CƠ SỞ LÝ THUYET

Chương nay sẽ trình bay các khái niệm va van dé có liên quan về phân lớp dữliệu, chuỗi thời gian, gom cụm, các phương pháp thu giảm số chiều, rời rạc hóa chuỗithời gian, các độ đo và cách đánh giá chất lượng của sự phân lớp

2.1 Phân lớp dữ liệu2.1.1 Giới thiệu

Phân lớp (classification) là dang phân tích dữ liệu nhằm rút trích các mô hình mô

tả các lớp dữ liệu hoặc dự đoán xu hướng dữ liệu từ các mô hình đó Quá trình phan

lớp gồm hai bước chính là hudn luyện (training) va phân lớp.Tại bước huẫn luyện sẽ tiến hành xây dựng Đô phân lớp (classifier) bang việcphân tích tập dữ liệu huấn luyện với các mẫu và nhãn lớp (class label) tương ứng.Một mẫu dữ liệu X được biểu diễn bởi một vecfor thuộc tính (attribute vector)X = (x1, X2, , Xn) VỚI m là số lượng thuộc tính của tập dữ liệu huấn luyện Bước huấnluyện có thé xem như là quá trình học của một ham ánh xạ: y = ƒ#{#) với y là nhãn lớpđược dự đoán của mẫu X Thông thường ham ánh xạ được biểu diễn dưới dạng luậtphân lớp, cây quyết định hoặc các công thức toán học

Tại bước phân lớp, bộ phân lớp được sử dụng dé thực hiện gan nhãn lớp cho cácmau trong tap dit liệu kiểm thử (test set) Nếu độ chính xác của bộ phân lớp chấp nhậnđược thì bộ phân lớp có thể sử dụng để gán nhãn cho những mẫu chưa biết nhãn lớp.Trong lĩnh vực khai phá dữ liệu, phân lớp là một kỹ thuật rất phố biến, quan trọng vàđược áp dụng trong nhiều lĩnh vực như kinh tế, tài chính, y tế, an ninh,

| name age income loan_decision

Sandy Jones youth low risky

Bill Lee youth low risky '

Caroline Fox middle_aged high safe —————

Rick Field middle aged low risky ——————

Susan Lake senior low safe Classification rules

Claire Phips senior medium safe xui == Joe Smith middle_aged high safe ¬ *

IF ave = youth THEN loan_decision = risky

IF income = high THEN loan decision = safe

IF age = middle_aged AND income = low

THEN loan_ decision = risky

Hình 2.1 Vi dụ về bai toán phân lớp dit liệu [7]

5

Trang 19

Hình 2.1 là ví dụ về ứng dung bai toán phân lớp trong van dé cho vay Từ tập dữliệu về khách hàng cho vay trong quá khứ, giải thuật phân lớp sẽ thực hiện huấn luyện.Kết quả của quá trình huấn luyện là các luật phân lớp.

Đối với phân lớp dữ liệu cũng như tác vụ khai phá dữ liệu khác, công việc xử lýdữ liệu trước khi đưa vào các mô hình là rất cần thiết, bước tiền xử lý giúp cho dữliệu gốc có được qua thu thập có thể áp dụng được với các mô hình khai phá dữ liệucụ thé Tiền xử lý dữ liệu có thé giúp cải thiện kết qua phân lớp, một số kỹ thuật tiềnxử lý thường được sử dụng gồm:

= Làm sạch dữ liệu: các dữ liệu thu thập trong thực tế thường có xu hướng khôngday du, tồn tại dữ liệu nhiễu va dữ liệu không đồng nhất Làm sạch dit liệu có thébồ sung những dữ liệu bị thiếu, loại bỏ nhiễu và khắc phục sự không đồng nhất.“ Tích hợp dữ liệu: dữ liệu có thé lẫy từ nhiều nguồn khác nhau Tích hợp dữ liệu

giúp giảm thiểu và hạn chế dư thừa dữ liệu

# Thu giảm dữ liệu: trường hop dữ liệu có kích thước lớn sẽ tăng độ phức tạp cho

việc phân tích, tính toán Thu giảm dữ liệu giúp giảm kích thước dữ liệu bằng cácloại bỏ những phan dư thừa va gift lai những đặc điểm chính của đữ liệu

= Biến đổi và rời rac hóa dữ liệu: giúp cho việc khai pha dữ liệu trở nên hiệu quả,và các mô hình trở nên dễ hiểu hơn, tăng độ tổng quát thông tin, giúp cho việcđơn giản hóa việc biểu diễn cũng như xử lý trên dữ liệu số

2.1.2 Giải thuật phan lớp k-NN

Giải thuật &-NN (k-Nearest Neighbor) được sử dụng rat phố biến trong lĩnh vực

khai phá dữ liệu nói chung và trong bài toán phân lớp nói riêng Đây là phương pháp

để phân lớp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần gán nhãnlớp và tất cả các đối tượng khác trong tập huấn luyện

Với giải thuật #-NN thì một đối tượng sẽ được phân lớp theo lớp chiếm đa sốtrong & lân cận của nó, trong đó k là số nguyên dương được chọn khi thực hiện thuậttoán Việc chon giá tri k rat quan trong vi néu chon k qua nho thi két qua sé dé bi anhhưởng bởi nhiễu còn nếu chọn k quá lớn thì nhiều phan tử lân cận chọn được có théđến từ các lớp khác

Trang 20

Hình 2.2 Giải thuật k-NN [13]

Trong hình 2.2.a với k = 1, mẫu ? sẽ thuộc lớp của lân cận gan nhất là lớp hìnhvuông Trong hình 2.2.b với k = 4, mẫu ? sẽ thuộc lớp chiếm da số trong 4 lân cậngân nhất 4 lân cận gần nhất của mẫu ? gồm 3 mẫu thuộc lớp hình vuông và 1 mẫuthuộc lớp tam giác, vì vậy mẫu ? thuộc lớp hình vuông

2.1.3 Máy vector hỗ trợ (Support Vector Machines — SVMs)SVMs là một phương pháp có thé phân lớp cho cả dir liệu tuyến tinh va dữ liệuphi tuyến SVMs sử dụng một ham ánh xa phi tuyến dé ánh xạ dữ liệu gốc trongkhông gian ban đầu thành vào một không gian mới với số chiều nhiều hơn bằng cáchsử dung các ham kernel phù hợp Trong không gian mới SVMs sẽ tìm kiếm một siêuphang (hyperplane) dé phân tách tập dữ liệu thành hai lớp Ngoài sử dụng cho mụcđích phân lớp, SVMs còn có thé sử dụng trong các tác vụ khai phá dữ liệu khác nhưhồi quy, gom cum,

Mac dù có thời gian huẫn luyện chậm nhưng phân lớp sử dung SVMs cho kết quảcó độ chính xác cao và có khả năng phân lớp với những mô hình có đường biên quyếtđịnh (decision boundaries) phi tuyến phức tạp Ngoài ra SVMs ít bị tình trạng gud

khớp (overfitting) so với các phương pháp khác SVMs được áp dụng trong một vai

lĩnh vực thực tế như nhận dạng chữ số viết tay, nhận dạng giọng nói, nhận dạng đối

tượng .

2.1.4 Mang nơ ron nhân tao (Artificial Neural Network - ANN).

ANN là mô hình xử lý thông tin được mô phỏng dựa trên hoạt động của hệ thốngthần kinh của sinh vật, bao gồm số lượng lớn các nơ ron được gan kết dé xử lý thôngtin ANN giống như bộ não con người, được học bởi kinh nghiệm thông qua huấn

Trang 21

luyện, có khả năng lưu giữ những tri thức và sử dụng những tri thức đó trong việcphân lớp dữ liệu.

ANN gồm tập hợp các nút được liên kết với nhau, mỗi liên kết giữa hai nút cómột trọng số tương ứng Thông qua quá trình huấn luyện, ANN sẽ điều chỉnh cáctrọng số sao cho có thé dự đoán đúng nhãn lớp của các mẫu dữ liệu

Một trong những loại mạng no ron thông dung là mang nơ ron truyền thang datang (Multilayer Feed-Forward Neural Network) (Hình 2.3)

Input Hidden Outputlayer layer layer

C

: fey 1 K

Hình 2.3 Mạng nơ ron truyền thăng đa tầng [7]Mạng nơ ron truyền thang đa tang gồm một fdng nhập (input layer), một hoặcnhiều fang ẩn (hidden layer) và một tang xuất (output layer) Đối với bài toán phânlớp dữ liệu, số nút tại tầng nhập bang số lượng thuộc tính của mẫu dữ liệu huấn luyện,số nút tại tầng xuất tương ứng với số lượng lớp của bộ dữ liệu huấn luyện số nút vàsố tầng của tầng ân được định nghĩa bởi người dùng

Mạng nơ ron có khả năng chịu đựng được đữ /iệu nhiễu (noisy data), có thể sửdụng trong trường hợp các thuộc tính của dit liệu có ít mối liên hệ và thích hợp vớicác dữ liệu có giá tri liên tuc (continuous-valued) Tuy nhiên nhược điểm của mạng

nơ ron là khả năng diễn dịch kém

2.1.5 Phân lớp dữ liệu chuỗi thời gianKhác với hầu hết các loại dữ liệu thông thường, dữ liệu chuỗi thời gian có ba đặc

điêm đặc biệt như sau: dữ liệu chuỗi thời gian có sô chiêu lớn, các diém dir liệu trên

Trang 22

chuỗi thời gian có sự tương quan cao và dir liệu có thé bị nhiễu Chính ba đặc điểmnày khiến cho việc phân lớp dữ liệu chuỗi thời gian băng các giải thuật phân lớp thôngdụng như: SVMs, ANN, cây quyết định (Decision Tree) trở nên khó khăn và thườngcho kết quả không tốt Vi vậy để có thé dé dang áp dụng các giải thuật phân lớp trêndữ liệu thông thường, dữ liệu chuỗi thời gian cần phải biến đồi thành các vector đặc

trưng trước khi thực hiện tác vụ phân lớp.

Trong luận văn này, các chuỗi thời gian sẽ được biểu diễn thành các vector đặctrưng trước khi thực hiện phân lớp Việc biến đổi chuỗi thời gian thành vector đặctrưng giúp cho việc áp dụng các giải thuật phân lớp như: SVMs, ANN được dễ dàngvới dữ liệu chuỗi thời gian

2.2 Chuỗi thời gian và các khái niệm liên quanChuỗi thời gian T=, f›„ , tm là một tập thứ tự m giá tri được đo trong nhữngkhoảng thời gian băng nhau

Hình 2.4 gồm 3 chuỗi thời gian thé hiện giá trị GDP (tong sản phẩm xã hội), PDI(tổng thu nhập khả dụng cá nhân), PCE (chi phí tiêu dùng cá nhân) của Hoa Kỳ từquý 1/1970 đến quý IV/1991

Trang 23

Chuỗi thời gian có thé rất lớn với hàng tỉ các giá trị Tuy nhiên trong các tác vụkhai phá dữ liệu thường không quan tâm đến toàn bộ chuỗi thời gian mà chỉ quan tâmđến những đoạn nhỏ trong chuỗi thời gian gọi là chudi con (subsequence).

Chuỗi con C của chuỗi thời gian 7 có độ dài m là một mẫu có độ dài n < m cácgiá trị liền ké nhau trong 7:

Công tác liên quan đến xác định sự tương tự của một chuỗi con với một chuỗicon khác gọi là so trimg (matching) Cho một số thực dương R và một chuỗi thời gianT gồm một chuỗi con O bắt đầu tại vị trí p và một chuỗi con M bắt đầu tại vị trí qd; néu

D(O, M) < R thì M được gọi là một chuỗi con trùng của O D(O, M) được gọi khoảng

cách giữa hai chuỗi con Ó và M Ó được gọi là rùng khép tâm thưởng (trivial match)với M nếu p=q hoặc không tồn tại một chuỗi con Ä⁄' của 7 bắt đầu tai vị tri q' sao

cho D(C, Ä⁄) > R và q<q'<p hoặc p<q<q.

Trivial

Match Ma

Trivial >yMatch

_— - — +L 1 A L 4 i L L L +1

0 50 100 1530 20 290 309 35929 400 490 500

Hình 2.5 Các chuỗi con trùng khớp tầm thường [10]Hình 2.5 là ví dụ về các chuỗi con trùng khớp tầm thường, các điểm trong cácchuỗi con nay phan lớn trùng lắp với nhau

Các chuỗi con lặp lại thường xuyên trong một chuỗi thời gian được gọi là motif.Hai định nghĩa về motif thường được sử dụng là:

Định nghĩa 1: Cho chuỗi thời gian 7, chuỗi con kích thước ø và giá trị ngưỡngtương tự R, motif bậc nhất của 7 là chuỗi con C¡ có số lượng chuỗi con tring khớpkhông tâm thường (non-trivial match) nhiều nhất Motif bậc k (&>1) là motif có sốlượng chuỗi con tring khớp không tâm thưởng nhiều nhất và thỏa điều kiện

&(Cy,C;)>2R, với 1 <i<k.

Định nghĩa 2: Motif bậc k là cặp chuỗi con có độ tương tự nhau thứ & trong tấtcả các cặp chuỗi con của chuỗi thời gian 7: Cặp ƒ7¡, 7/} là motif thứ & nếu tôn tạimột tập hop S có kích thước k - 1 gồm các cặp chuỗi con sao cho V7 € 7, {T;, Tat

S, (1, Tay € S, V{1y, Ty} ES, (Ta, Tr ES, A Tx, Ty) < ATi, Tj) < đ(1a, Th).

10

Trang 24

Hình 2.6 là ví dụ về motif của chuỗi thời gian có 3 thé hiện (instance) A, B, C.

i A B C

0 500 1000 1500 2000 2500

Hình 2.6 Motif của chuỗi thời gian [10]

Kỹ thuật cửa số truot (sliding window) có thé được dùng dé lay ra tất cả chuỗicon của một chuỗi thời gian Chuỗi thời gian 7 = ti, b, ., tn, tất cả các chuỗi concủa 7 có được khi sử dụng cửa số trượt là (1, f›„ , tn), (2, f3 bre)» (tis f1 f„:¡-1)„ 1<i<m-n+1,n là kích thước của cửa s6 trượt hay độ dài của các chuỗi con

2.3 Độ đo khoảng cach

Độ đo khoảng cách dùng để xác định sự tương đồng giữa các chuỗi thời gian, tùyvào đặc điểm của dữ liệu chuỗi thời gian và miền ứng dụng mà có độ đo phù hợp.Một số độ đo thường được sử dụng:

khoảng cách này có nhược điểm là nhạy cảm với nhiễu, và không thích hợp khi dữ

liệu có sự co dãn biên độ khác nhau.

2.3.2 Độ đo xoắn thời gian động (Dynamic Time Warping - DTW)Trong trường hợp hai chuỗi thời gian có hình dạng rất giỗng nhau nhưng bị lệchnhau một khoảng thời gian thì việc so trùng hai chuỗi thời gian băng cách sử dụng độdo Euclid dé tính khoảng cách sẽ không đem lại kết quả như mong muốn Dé khắcphục van dé nay có thé sử dụng độ đo xoăn thời gian động Với độ đo xoắn thời gian

11

Trang 25

động, một diém của chuôi thời gian nay có thê ánh xạ với nhiêu diém của chuôi thời

gian khác và các ánh xạ này không thăng hàng (Hình 2.7)

Euclidean Dynamic Time Warping

Hình 2.7 Độ do Euclid và độ do xoắn thời gian độngĐộ đo xoắn thời gian động có nhược điểm so với độ đo Euclid là thời gian tínhtoán chậm hơn rất nhiều

Cho hai chuỗi thời gian: O = đi, đ› đ¡, đa VAC = C1, 2 Cj, ; Cm

Dé tính khoảng cách DTW giữa O và C, cần tính ma trận xoăn A của O và C, mỗiphan tử của ma trận A là khoảng cách giữa hai điểm trong chuỗi thời gian Ó và C, matrận A có kích n x m Đường xoắn ƒ trong hình 2.7 gồm tập hợp các giá trị khoảngcách giữa hai điểm trên O và C thé hiện một ánh xạ giữa O và C Giả sử đường xoắnW có K giá tri, khi đó độ đo DTW giữa O và C là đường xoăn có chi phí nhỏ nhất va

min | Bs "

K

Đường xoăn có chi phí nhỏ nhất có thé tính bằng phương pháp quy hoạch động

được tính theo công thức sau:

DTW(Q,C) =

với công thức truy hôi như sau:

Trong đó 7 7) là tong khoảng cách tích lũy tại 6 (i, 7) của ma trận A

12

Trang 26

3 | Đường xoăn W

Hình 2.8 Ma trận tính độ đo DTW và đường xoắnHình 2.8 là ma trận xoăn giữa hai chuỗi thời gian O, C và vi dụ về một đườngxoắn của ma trận xoăn

2.3.3 Các độ đo trên dir liệu rời rac

Đối với các loại đữ liệu rời rac (categorical data), độ đo Euclid và xoăn thời gianđộng không thể sử dụng để đo độ tương tự vì không có sự định lượng rõ ràng giữa

gia trị các thuộc tính của dữ liệu rời rac.

Độ đo Hamming là một trong những độ do dé tính khoảng cách đối với các loạidữ liệu rời rac như chuỗi ký tự hoặc chuỗi bit Độ đo Hamming cho biết số vị trí khácnhau của hai chuỗi dữ liệu có kích thước bằng nhau Độ đo Hamming của hai chuỗi

dữ liệu càng nhỏ thì hai chuỗi dữ liệu có độ tương tự càng cao.Vi dụ: - Khoảng cách Hamming giữa 1011101 va 1001001 là 2.

- Khoảng cách Hamming giữa "toned" va "roses" là 3.

Ngoài độ đo Hamming, một số độ đo trên dữ liệu rời rạc dựa trên xác suất vàtrọng số của từng thuộc tính Cho tập dữ liệu D gồm N mẫu, mỗi mẫu có d thuộc tinh,Ax là thuộc tính thứ k của một mau, nz là số lượng giá tri mà thuộc tính thứ & có thénhận được và một số định nghĩa:

fi(x): Số lần thuộc tính A, có giá trị x trong tập dir liệu D Nếu x ¢ Ax thì fi) = 0Db, (x): Xác suất dé thuộc tính A; có giá trị x trong tập dữ liệu D

fx)

N

pe(x): Xác suất ước lượng thuộc tính 44; có giá tri x trong tập dữ liệu D

[1]D(x) =

13

Trang 27

fr OG) — 1)

N(N—1)

Di = [1]Khi đó độ tương tự giữa hai mau X, Y của tập dữ liệu D được tính như sau:

d

S(XY) =) weSe(Xe Yi)

k=1

[1]Trong đó: S„(X„, W„) là độ tương tự giữa hai giá trị thuộc tinh thứ & của mau_X,Y, Xx, Ye € Ac; we là trọng số của thuộc tinh Az

Các tham số được thé hiện cụ thé trong các độ đo được trình bày trong bảng 2.]

Measure S;(Xk, Vr) w„, & =1 d1 Overlap 1 if X,= Ye 1

— N : vy otherwise

111900 XD x loge Y+

5 Lin R , 1

=| 2logPx (Xx) if Ấy = Yq YA, logô¡(Xj)+log8¡(j)

2log(„(X„) + ôy(Y„)) otherwise

6 Linl R 1

_ 3;aeo logôy (q) if Ấy = Yr s1 ®_-logô,(q)

2log Yigeq logôy(q) otherwise ¡=1 S5ạcQ “900i

7 Goodall] ; 1

_ 1— }«4eoĐ£(q) if Xe = Ve 7

0 otherwise8 Goodall2 ; 1

_ 1— }4coĐ£(q) if Xe = Ve 3

0 otherwise9 Goodall3 ; 1

Trang 28

Xcuskexu=r0[E-iD]) Ty(0uy +1) tẦkeusksaxueY0(SprTx,JBYDJnpinen

Bang 2.1 Các độ đo tương tự trên dữ liệu rời rac [1]

Đối với độ đo Lini:QC 4, Vạ € QO, 0y(Xo) < 0k4) S Pe), giả sử 0X) < 00)Đối với độ đo Goodalli: ÓC Ax, ôy(đ) <ôyŒ)

Đối với độ đo Goodalls: Ó C An, ôy(g) > By (Xe)2.4 Chuẩn hóa dữ liệu

Đơn vị đo có thể ảnh hưởng đến việc phân tích dữ liệu Các độ đo khác nhau cóthể dẫn đến kết quả khác nhau Dé tránh sự phụ thuộc vào việc lựa chọn độ đo, dữliệu nên được chuẩn hóa Chuẩn hóa dữ liệu liên quan đến việc biến đối các giá trịcủa dữ liệu nam trong khoảng giá trị chung Chuẩn hóa dữ liệu rất hữu dung trong các

giải thuật phân lớp như mạng nơ ron, k-NN cũng như các giải thuật gom cụm Ngoài

ra chuẩn hóa dit liệu có thé hạn chế và loại bỏ dữ liệu nhiễu Một số phương phápchuẩn hóa dữ liệu phô biến là: chuẩn hoa min-max, chuẩn hóa z-score [7]

2.4.1 Chuẩn hóa min - maxChuan hóa min - max thực hiện phép biến đổi tuyến tính trên dữ liệu ban đâu.Giả sử ming va max, lần lượt là giá trị nhỏ nhất và giá trị lớn nhất của thuộc tính A.Chuẩn hóa min - max sẽ ánh xạ một giá trị ¡ của A thành một giá trị ¿ nằm trong

đoạn [new_ mina, new_ maxa] theo công thức:

Vv; — Min,

Uị = max, — min, * (New_max, — new_min,) + new_min, [7]

Ví dụ: Một chuỗi thời gian 7= (-1, 0, -2, 1, 3, -1, 2) 7; là chuỗi thời gian có đượcsau khi ánh xạ 7 về miễn giá trị [1.4] Giá trị của 7; là:

T; = (1.6, 2.2, 1, 2.8, 4, 1.6, 3.4).

Chuan hóa min-max giữ được mối liên hệ giữa các giá tri trong dữ liệu bandau.Trong trường hợp giá trị của dữ liệu đầu vào trong tương lai không năm trong

15

Trang 29

khoảng của thuộc tính 4 thì chuẩn hóa min-max sẽ gặp phải lỗi “gud giới hạn”

(out-of-bounds).

2.4.2 Chuan hóa z-scoreChuẩn hóa z-score thực hiện phép biến đôi giá tri của thuộc tính 4 dựa trên giatrị trung bình và độ lệch chuẩn Giá trị v; được chuẩn hóa thành giá tri v; theo công

thức sau:

[7]

Trong đó: A là giá trị trung bình của thuộc tính 44;

Øa là độ lệch chuẩn của thuộc tính 4.Thuộc tính A sau khi được chuẩn hóa sẽ có trung bình các giá trị bang 0 và độlệch chuẩn bang 1

Ví dụ: Cho một chuỗi thời gian T= (-1, 0, -2, 1, 3, -1, 2) Sau khi thực hiện chuẩnhóa z-score 7 sẽ được chuỗi thời gian 7ì có giá trị:

gian X có kích thước n thành một vector X = #¡ ã; Xy có kích thước N < n,

trong đó mỗi phan tử của X được tính như sau:

,[ =1,2, ,N [8]

Trong trường hợp N = n, đữ liệu sau khi biểu diễn sẽ giống như dữ liệu ban dau.Trường hợp N = 1, kết quả sẽ là giá trị trung bình của chuỗi thời gian ban đầu.Phương pháp PAA có thời gian tính toán nhanh và có thể hỗ trợ cho nhiều độ đo

khoảng cách khác nhau.

16

Trang 30

2.5.2 Phương pháp điểm cực trị quan trọngPhương pháp điểm cực trị quan trọng được đề xuất bởi Pratt và Fink [15] Phươngpháp này thu giảm chiều đữ liệu bang cách lựa chon các điểm cực trị quan trọng vàloại bỏ các điểm còn lại.

Một điểm tn của một chuỗi thời gian 7: /;, t2, , tv la một điểm cực tiếu quantrong (significant minimum point) nếu có ¿ và j, i<m<j, sao cho

- tm là điểm nhỏ nhất giữa &, 4

nghĩa R càng lớn thì các điểm quan trọng cảng ít

amplitude amplitude

i

Hình 2.9 Điểm cực tiêu quan trọng và điểm cực đại quan trọng [6|Hình 2.9 là ví dụ điểm cực tiểu quan trong và điểm cực dai quan trong trong dữ

liệu chuỗi thời gian

Giải thuật tìm kiém điểm cực trị quan trọng với chuỗi thời gian 7 và tỉ lệ nén R

có mã giả như sau:

i = FIND-FIRST-TWOifi<nand Tfi] > T[1] theni = FIND-MIN(i)while i < n do

i = FIND-MAX(i)i = FIND-MIN(i)FIND-FIRST-TWO: Finding the first and second significant extreme pointsiMin = 1; iMax = 1; i = 2

17

Trang 31

while ¡ < and Tfi] /T[iMin] < R and TfiMax]/ T[i] < R doif Tfi] < TỊ]IMin] then iMin = i

if Tfi] > TfiMax] then iMax = iif iMin < iMax then

output(T[iMin], iMin); output(T[iMax/, iMax)else

output(T[iMax], iMax); output(T[iMin], iMin)

output(T[iMax], iMax)

return 1

Phuong phap nhan dang diém cuc tri quan trong kha hữu hiệu vì chi duyệt quadữ liệu một lần và có độ phức tạp tuyến tính Phương pháp điểm cực trị quan trọngđược sử dụng trong giải thuật EP-C dé phát hiện motif trên dữ liệu chuỗi thời gian

2.6 Phương pháp rời rac hóa SAX (Symbol Aggregate Approximation)

Phương pháp rời rac hóa SAX dé xuất bởi Lin va các cộng sự [9] SAX biểu diễn

một chuỗi thời gian có kích thước ø thành một chuỗi ky tự có kích thước w (w<n)

Kích thước của bang ký tw (alphabet) là một số nguyên a bất kỳ, a > 2 Chuỗi thờigian 7 có kích thước ø sẽ được thu giảm thành một chuỗi w chiều bằng phương pháp

18

Trang 32

PAA, chuỗi thời gian 7 cần được chuẩn hóa sao cho có giá trị trung bình bằng 0 vàđộ lệch chuẩn băng 1 trước khi thu giảm chiều bằng phương pháp PAA Chuỗi thờigian sau khi được thu giảm chiều sẽ được mã hóa thành một chuỗi ký tự rời rạc, quátrình này gọi là ký hiệu hóa Dé ký hiệu hóa một chuỗi thời gian cần phải xác định

.» ai, VỚI Bi < a< điêm ngặt Ø phải dựa vào bảng xác suât cua phân bô Gauss đê có xác suât băng l/a

các điểm ngắt (breakpoint): 1, Øa, < Baa Việc chọn các

cho mỗi ký tự Bảng 2.2 thé hiện giá trị của các điểm ngắt với giá trị a từ 3 đến 10

“| 3 4 5 6 7 8 9 10

Bi

B | -0.43| -067| -0.84] -0.97| -1.07| -115| -1.22] -1.28Bo 0.43 0| -0.25| -0.43| -0.57| -0.67| -0.76| -0.84Ba 0.67| 0.25 0| -0.18| -0.32| -0.43[ -0.52Ba 084| 0.43] 0.18 0| -0.14| -0.25

Bs 097| 0.57| 0432| 0.14 0Bo 1.07| 0.67] 0.43] 0.25By 1.15| 0.76] 0.52Bs 122| 0.84Bo 1.28

Bang 2.2 Bảng điểm ngắt với giá tri a từ 3 đến 10 [9]

ce

Sau khi đã xác định được các điểm ngắt, một chuỗi thời gian T=E,, &, , E, sđược ký hiệu hóa thành một chuỗi ky tự C=cic2 cw như mô tả trong hình 2.10 Mỗi

giá tri t; sẽ được ánh xạ thành một ký tự c, i =1,2, , w theo công thức:

c =alpnha; nêu 8y¡<; < B (Bo = -œ, Ba = +),

alpha; là ky tự ở vi trí 7 trong bang ký tự

1.5

=—— Bt0.5

-0.5 F-1

Trang 33

Trong hình 2.10, chuỗi thời gian ban đầu được rời rạc hóa thành chuỗi ký tựbaabccbc bang phương pháp SAX.

2.7.Gom cụm đữ liệu

Gom cum dé liệu 1a quá trình gom nhóm các đối tượng vào các cụm sao cho cácđối tượng trong cùng một cụm có sự tương tự với nhau hơn so với các đối tượng trongcác cụm khác Sự tương tự giữa các đối tượng được đánh giá dựa trên các giá trị thuộctính của đối tượng và thường liên quan đến các độ đo khoảng cách Gom cụm là mộttác vụ khai phá dữ liệu được sử dụng trong nhiều lĩnh vực như: sinh hoc, an ninh,kinh doanh, tìm kiếm trên web,

2.7.1 Giải thuật gom cụm K-means

K-means thực hiện gom cụm theo hướng tiếp cận phân hoạch dựa trên phần tử

trung tam (centroid) của một cum Trung tâm của một cụm là giá tri trung bình của

các đối tượng thuộc cụm đó Giải thuật K-means được thực hiện như sau:Đầu tiên, chọn ngẫu nhiên k đối tượng trong tập dữ liệu dé biểu diễn phan tử trungtâm cho k cụm Thực hiện bước lặp, tại mỗi lần lặp các đối tượng còn lại được gomvào cụm có sự tương tự nhau nhất Độ tương tự được tính dựa trên khoảng cách Euclidgiữa đối tượng và trung tâm cụm Sau khi tất cả các đối tượng được gán vào cụm,trung tâm mỗi cụm sẽ được tính toán lại Quá trình lặp tiếp tục cho đến khi trong hailần lặp liên tiếp các đối tượng trong các cụm không có sự thay đối hoặc lặp n lần với

n do người dùng định nghĩa.Giải thuật K-means với tap dữ liệu D và & cụm.

(1) Chọn ngdu nhiên k đối tượng từ tập dữ liệu D dé khởi tao các cụm, mỗidoi tượng được xem nhu là trung tam cum

(5) Dừng khi trung tâm cụm không có sự thay đổi hoặc số lan lap bằng giá

tri cho truoc

Nhược điểm của giải thuật gọm cụm K-means là khó khăn trong việc khởi tạotrung tâm cụm và lựa chọn số lượng cụm Thông thường trung tâm cụm được khởi

20

Trang 34

tạo ngẫu nhiên vì vậy sẽ ảnh hưởng đến kết quả gom cụm, một số phương pháp đượcđưa ra để giải quyết vẫn đề khởi tạo trung tâm cụm như cho giải thuật chạy nhiều vàchọn lần chạy có sai số nhỏ nhất hoặc lựa chọn trung tâm cụm là đối tượng có khoảngcách xa nhất so với các đối tượng còn lại Ngoài ra K-means có hạn chế trong việc

gom cụm các dữ liệu có kích thước, mật độ khác nhau và cụm có hình dạng không

phải hình cầu.2.7.2 Giải thuật gom cụm gộp phân cấp

Giải thuật gom cum gộp phân cấp (Hierarchical Agglomerative Clustering - HAC)thực hiện gom cụm theo hướng tiếp cận phân cấp Khởi đầu, mỗi đối tượng được xemnhư là một cụm Thực hiện bước lặp để gom các cụm có độ tương tự nhau nhất Quátrình lặp kết thúc khi tất cả các đối tượng thuộc về một cụm duy nhất hoặc số lượngcụm bang một thông số do người dùng định nghĩa

Step 0 Step | Step 2 Step 3 Step 4

| I

Agglomerative l

(AGNES)

| ị

Hình 2.11 mô ta quá trình thực hiện của giải thuật gom cụm phan cấp gop, tai các

cụm sé được gop lại thành cụm lớn hơn.

Giải thuật gom cụm gộp phân cấp được thực hiện như sau:(1) Tinh toán ma trận khoảng cách giữa các đối tượng(2) Mỗi đối tượng được xem như là mot cum

Trang 35

Đề thực hiện gom cụm gộp phân cấp, cần xây dựng một ma trận khoảng cáchgiữa các cụm Khoảng cách giữa các cụm có thể được tính bởi một trong các công

thức sau:

Khoảng cách tối thiểu (minimum distance):

distmin(C;, Œ;) = min{[p — p°|},p € C,, p® € ŒKhoảng cách tối đa (maximum distance):

thuộc hai cụm khác nhau (Hình 2.12)

Hình 2.12 Khoảng cách tối thiểu giữa hai cụm.Ngược lại, khoảng cách tôi đa giữa hai cum là khoảng cách lớn nhất giữa các đối

tượng thuộc hai cụm khác nhau (Hình 2.13)

Hình 2.13 Khoảng cách tối đa giữa hai cụm.Khoảng cách trung tâm giữa hai cụm là khoảng cách giữa hai phần tử trung tâm,trung tâm cụm có giá trị bằng giá trị trung bình của các phân tử trong cụm (Hình 2.14)

22

Trang 36

Hình 2.14 Khoảng cách trung tâm giữa hai cụm.

Khoảng cách trung bình giữa hai cụm được tính như sau: lần lượt tính khoảng cáchcủa mỗi đối tượng thuộc cụm thứ nhất với tất cả các đối tượng thuộc cụm thứ hai valay giá trị trung bình (Hình 2.15)

Hình 2.15 Khoảng cách trung bình giữa hai cụm

Nhược điểm của giải thuật gom cụm gộp phân cấp là có độ phức tạp cao, sau khiquyết định thực hiện gộp hai cụm sẽ không thể quay lại các trạng thái trước đó Ngoảira việc lựa chọn các độ đo khoảng cách cũng ảnh hưởng đến kết quả gom cụm

2.8 Các độ đo đánh giá chất lượng của sự phân lớpĐề đánh giá chất lượng của sự phân lớp, các độ đo để kiểm tra độ chính xác củabộ phân lớp trong việc dự đoán các nhãn lớp của các mẩu thir (test tuple) là một trongnhững tiêu chí thường được quan tâm Các độ đo để đánh giá chất lượng phân lớpthường sử dụng một số thuật ngữ sau:

Mau positive (Positive tuples): những mẫu thuộc lớp được quan tâm nhất trong

matrix).

23

Trang 37

TM (FP) (TN)

Bang 2.3 Ma trận nhầm lẫnBảng 2.3 là ví dụ về cau trúc của một ma trận nhằm lẫn.Cho z lớp và ma trận nhằm lẫn M, phần tử Mj; của ma trận nhằm lẫn là số mẫu

thuộc lớp i và được gan nhãn là lớp 7 bởi bộ phân lớp, 7 <i, 7 < m.

Các độ đo thường được sử dụng để đánh giá chất lượng phân lớp:Độ chính xác (accuracy) là tỉ lệ các mẫu được phân lớp đúng nhãn lớp, được tính

bởi công thức:

TP+TNP+N

error rate =

Trong trường hợp tỉ lệ mẫu positve va negative trong tap dữ liệu phân bố khôngđều Ví dụ như mẫu negative chiếm đa số, trong khi mẫu positive chỉ chiếm một phầnnhỏ thì độ đo độ chính xác có thể không thé đánh giá được chất lượng cua sự phanlớp Vì vậy cần phải có độ đo riêng biệt để đánh giá độ tốt trong việc phân lớp mẫu

positive va negative Độ do sensitivity va specificity được su dụng trong việc đánh

giá chat lượng phân lớp cu thé với mau positive, negative Sensitivity hay recall là tỉlệ phân lớp đúng đối với các mau positive Ngược lai, specificity là tỉ lệ phân lớp đúngđối với các mẫu negative

« « « TP

sesitivity (recall) = = [7]

TN

specificity = N [7]Một độ do cũng thường được su dụng là precision, precision là tỉ lệ các mâupositive thực sự trong tông sô các mâu được gan nhãn là positive, tính bởi công thức:

24

Trang 38

TPTP+FP [7|

precision =

Ngoài ra, con có thê kêt hop giữa độ do precision va recall như cách tiêp cận cuađộ đo # và Fs Độ đo F và Fg được định nghĩa như sau:

_ 2 xprecision xrecall (7]preciston+ recall

= Khả năng thích nghỉ với qui mô dữ liệu (Scalability): đề cập đến khả năng

xây dựng hiệu quả bộ phân lớp trên dữ liệu có kích thước lớn.

= Khả năng dién địch (Interpretability): đề cập đến khả năng giải thích về kếtquả có được từ các bộ phân lớp Cây quyết định và các luật phân lớp có thểdễ dàng diễn dịch, trong khi đó mạng nơ ron nhân tạo có khả năng diễn dịch

kém.

25

Trang 39

CHƯƠNG 3 CÁC CÔNG TRÌNH LIÊN QUAN

Tìm kiếm motif và phân lớp dữ liệu dựa trên thông tin motif vẫn đang là nhữngvan dé dang được quan tâm nghiên cứu hiện nay Chương 3 sẽ trình bày các côngtrình liên quan đến bai toán tìm kiếm motif và phân lớp dữ liệu chuỗi thời gian theothông tin motif cũng như các ưu, nhược điểm của các công trình nảy

3.1 Tìm kiếm motif

3.1.1 Giải thuật Brute Force

Trong lĩnh vực chuỗi thời gian, bai toán tìm kiếm motif luôn là van dé được quantâm nghiên cứu với nhiều hướng tiếp cận được đưa ra Giải thuật đơn giản để có thểgiải quyết bai toán tìm kiếm motif có thé kế đến giải thuật Brute Force Giải thuậtBrute Force dé tìm kiếm motif trên chuỗi thời gian được giới thiệu bởi Lin và cáccộng sự [10] Brute Force sử dụng hai vòng lặp để tìm ra số lần lặp lại của tất cả cácchuỗi con bang cách so trùng mỗi chuỗi con với các chuỗi con còn lai, motif là chuỗicon có số lần lặp lại nhiều nhất

Giải thuật Brute Force tìm kiếm 1-motif có chiều dài ø của chuỗi thời gian 7 có

mã giả như sau:

best motif count so ƒar = 0; best motif location so ƒar = null;fori=1 to length(T)-n + 1

count =0; pointers = null;for j = 1 to length(T)-n + 1

ifnon_trival_match(C[i-i+n-1],C[jzj+n-1],R)count = count + 1; pointers = append(pointers, j);end;

end;if count > best motif count so_far

best motif count_so_far = count,best motif location so ƒqr = i;motif matches = pointers;end;

end;

26

Trang 40

Độ phức tạp của giải thuật Brute Force là O(n’) Dựa vào tính đối xứng củakhoảng cách Euclid có thé giảm thời gian tính toán của CPU bang cách lưu trữ giá trịkhoảng cách D(A, B) của hai chuỗi con A, B và sử dụng lại khi tính khoảng cáchD(B,A) Tuy nhiên, việc lưu trữ các giá trị khoảng cách dé sử dụng lại không phù hợpđối với các cơ sở đữ liệu lớn Giải thuật Brute Force có nhược điểm là thời gian thực

thi chậm và dễ nhạy cảm với nhiễu vì phải thực hiện tính toán trên toàn bộ chuỗi con

của chuỗi thời gian.3.1.2 Giải thuật chiếu ngẫu nhiên (Random Projection)

Chiu và các cộng sự [5] đề xuất một hướng tiếp cận tìm kiém motif có độ phứctạp tuyến tính, phát triển dựa trên giải thuật chiếu ngẫu nhiên được đề xuất bởi Buhlerand Tompa [2] Giải thuật này tiếp cận theo hướng lặp, tất cả các chuỗi con của chuỗithời gian được rời rạc hóa theo phương pháp SAX Sau khi rời rạc hóa, các chuỗi conđược vào một ma trận Š với mỗi dòng là một chuỗi con như hình 3.1 Các chuỗi concủa chuỗi thời gian được lay băng cách sử dụng phương pháp cửa số trượt

T (m= 1000)

0 \ 500 1000

§ a

¡|al|lcl|bla2 b|clalb

x a= 3 {a,b,c}

H = l6

w= 4va ~

blclclc

‘oO œ5 Ww

Hình 3.1 Các chuỗi con trong chuỗi thời gian 7 có kích thước 1000 được rời rac

hóa băng phương pháp SAX và đặt vào ma trận Ê [5]Thực hiện bước lặp sau khi có được ma trận Š chứa các chuỗi con đã rời rac hóa,tại mỗi bước lặp chọn ngẫu nhiên một số cột trong ma trận 5, lần lượt duyệt tất cả các

chuôi con tại các hang trong ma trận S, môi chudi con sẽ được so trùng với các chuôi

27

Tiêu đề	Phân lớp dữ liệu chuỗi thời gian dựa trên thông tin Motif
Tác giả	Nguyễn Văn Kiên
Người hướng dẫn	PGS.TS. Dương Tuấn Anh
Trường học	Trường Đại học Bách Khoa, Đại học Quốc gia TP.HCM
Chuyên ngành	Khoa học máy tính
Thể loại	Luận văn thạc sĩ
Năm xuất bản	2017
Thành phố	TP.HCM

Định dạng
Số trang	81
Dung lượng	25,26 MB