1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân lớp dữ liệu chuỗi thời gian dựa vào tổ hợp bộ phân lớp 1 NN với độ đo khoảng cách khác nhau

133 45 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 133
Dung lượng 11,96 MB

Nội dung

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCM TRUONG DAI HOC BACH KHOA

PHAM MINH TRI

PHAN LOP DU LIEU CHUOI THOI GIAN DUA VAO TO HOP BO PHAN LOP 1-NN VOI DO DO KHOANG

CACH KHAC NHAU

Chuyén nganh: Khoa hoc may tinh

Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ

Trang 2

CƠNG TRÌNH ĐƯỢC HỒN THÀNH TẠI TRUONG DAI HOC BACH KHOA -DHQG -HCM Cán bộ hướng dan khoa hoc :PGS.TS Duong Tuan Anh

Cán bộ chấm nhận xét 1 :TS Võ Thị Ngọc Châu Cán bộ chấm nhận xét 2 : TS Phạm Văn Chung

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 24 tháng 08 năm 2020

Thanh phan Hội đơng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chầm bảo vệ luận văn thạc s1) 1 PGS.TS Quản Thành Thơ - Chủ tịch

2 TS.Nguyễn Tiến Thịnh - Thư ký

3 TS Võ Thị Ngọc Châu - Phan biện 1 4 TS Phạm Văn Chung - Phản biện 2

5 PGS.TS Nguyễn Thanh Hiên - Uỷ viên

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nêu cĩ)

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT TRƯỜNG ĐẠI HỌC BÁCH KHOA NAM Độc lập - Tự do - Hạnh phúc

I NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: PHẠM MINH TRÍ . s5 x£ MSHV: 1670698

Ngày, tháng, năm sinh: 08/04/1987 cS <5 x53 Noi sinh: Quang Ngai Chuyên ngành: Khoa học máy tính - - «s2 Mã số : 60.48.01.01

I TEN DE TAT:

PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO TƠ HỢP BỘ PHÂN LỚP 1- NN VỚI ĐỘ ĐO KHOẢNG CÁCH KHÁC NHAU

H NHIỆM VỤ VÀ NỘI DUNG:

Đề xuất, nghiên cứu, hiện thực, đánh giá “Phân lớp dữ liệu chuỗi thời gian dựa vào tổ

hợp bộ phân lớp 1-NN với độ đo khoảng cách khác nhau”

HI NGÀY GIAO NHIỆM VỤ : 24/02/2020

IV NGÀY HỒN THÀNH NHIỆM VỤ: 21/06/2020

V CÁN BỘ HƯỚNG DẪN : PGS TS Dương Tuan Anh

Tp HCM, ngày tháng năm 20

CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MƠN ĐÀO TẠO

(Họ tên và chữ ký) (Họ tên và chữ ký)

PGS.TS Dương Tuấn Anh

TRƯỞNG KHOA KH&KTMT

(Họ tên và chữ ký)

Trang 4

LỜI CẢM ƠN

Lời đầu tiên, tơi muốn gửi lời cảm ơn chân thành đến PGS.TS Dương Tuần Anh, người đã định hướng, hỗ trợ, hướng dẫn tơi trong suốt quá trình hồn thiện luận văn này và cũng là người truyền lửa để cho tơi cĩ rất nhiều cảm hứng trong con đường học tập và nghiên cứu hiện tại

Tơi cũng xin gửi lời cảm ơn đến tất cả các giảng viên bộ mơn khoa học máy tính

đã luơn sẵn lịng giúp đỡ và hỗ trợ tơi, cũng như đảm bảo mơi trường học tập và nghiên

cuu trong suốt thời gian học thạc sĩ

Ngồi ra, tơi xin gửi lời cảm ơn đến Viện Khoa học và Cơng nghệ Tính tốn đã hỗ trợ hệ thống tính tốn hiệu năng cao trong quá trình thực nghiệm kết quả luận văn

của mình

Cuỗi cùng, tơi bày tỏ lịng biết ơn sâu sắc đên gia đình và bạn bè đã hỗ trợ, cơ vũ tơi trong suốt quá trình học tập và thực hiện luận văn này

Xin chan thành cảm ơn

Trang 5

TĨM TẮT

Việc nghiên cứu và ứng dụng kỹ thuật phân lớp dữ liệu chuỗi thời gian hiện nay đang được thu hút nhiều sự chú ý của các nhà nghiên cứu đữ liệu Với sự phát triển

nhanh về cơng nghệ, dữ liệu chuỗi thời gian được thu thập bởi rất nhiều thiết bị Việc khai phá dữ liệu chuỗi thời gian mang lại lợi ích hữu hiệu trải dài nhiều lĩnh vực từ y té

đến dự báo thời tiết

Cĩ nhiều phương pháp phân lớp dữ liệu chuỗi thời gian, chúng tơi chọn cách tiếp cận phương pháp phân lớp đữ liệu chuỗi thời gian dựa vào độ đo khoảng cách Nhiều đánh giá được thực hiện cho thấy rằng bộ phân lớp một lang giéng gan nhat(1-NN) 1a một trong những bộ phân lớp tốt nhất được sử dụng cho dữ liệu chuỗi thời gian Với mục tiêu là tăng độ chính xác phân lớp, chúng tơi đề xuất một cách tiếp cận là xây dựng một bộ tổ hợp phân lớp 1-NN với các độ đo khoảng cách khác nhau

Chúng tơi đã tiến hành thực nghiệm 28 tập dữ liệu mẫu từ website UCR cho để

xuất này và kết quả cho thấy độ chính xác phân lớp tốt hơn so với kỹ thuật phân lớp 1-

NN với từng độ đo khoảng cách riêng rẻ Trong quá trình thực nghiệm, chúng tơi cũng đã đề xuất tiếp cận kỹ thuật xử lý song song đa luơng trên nên tảng CPU để cải thiện

thời gian phân lớp Kết quả thu được là thời gian phân lớp nhanh gấp 2, 3 lần so với khi

Trang 6

ABSTRACT

The research and application of time series data classification techniques have been attracting the attention of data researchers With the rapid development of technology, time series data has been collected by many devices Times series data mining will benefit to many areas, from health to weather forecast

There are many methods of time series data classification We choose the approach to time series data with classification method based on distance measures Many evaluations have been made showed that the one nearest neighbor (1-NN) is one of the best classifiers used for time series data With the goal of increasing classification accuracy, we propose an approach to build a 1-NN classification ensemble with

different distance measures

We experimented on 28 sample data sets from the UCR website for this proposal and the results showed that the classification accuracy was better than the 1-NN classification technique with individual distance measures During studying, we also propose with technical approach parallel base on CPU with the aim of improving

Trang 7

LỜI CAM ĐOAN

Trong luận văn này, bất kỳ cơng thức, ý tưởng, nghiên cứu hay phân tích nào đã mượn bên thứ ba được chú thích nguồn dẫn trong mục tài liệu tham khảo theo quyền của tác giả

Tơi cam đoan rằng, ngồi các tài liệu tham khảo được trích dẫn, tồn bộ nội dung khác (bao gồm lý luận, cơng thức, hình ảnh, ) là thành quả nghiên cứu của tơi dưới sự

hướng dẫn của PGS.TS Dương Tuần Anh

Tơi khẳng định rằng, tồn bộ các nội dung tìm hiểu đều được chứng thực từ các nguồn tin cậy Các số liệu dẫn chứng và đánh giá hồn tồn trung thực, tuyệt đối khơng gian lận hoặc phĩng đại

Nêu cĩ bât ky sự gian lận nào, tơi xin hồn tồn chịu trách nghiệm về luận văn này

Trang 8

MỤC LỤC

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI ¿+ 5652 S+£S+2E£E2EtEeEEverterrrxerrrered 1

1.1 GiGi thiGu VAI GE t:t:ađai 1

L.2 MUC tO cc cc ceeccccseesccccssccceescccecsscsccsscscesccseesesccussecssesesseunseseescssessesseusescusecscens 3 1.3 Phạm vi nghiÊn CỨU - 0000811101011 101 10 v0 1 11111111 1 re 3 1.4 Tĩm lược kết Qua dat 001 ƠƯỐƠỐƯƯ 3 1.5 Câu trúc của luận văn G t HH ng 1113818 5115113818111 155 18 1111115111 He E11 gen re 4

CHƯƠNG 2: CƠ SỞ LÝ THUYT 22 2t 2 222 1221221221271211221211111 21c xe 6

2.1 Chuỗi thời gian - (LG 12113 E1 5 E5 111 11 1 1113 113K TH HT HT HT HH 6 2.2 Các thành phân đữ liệu chuỗi thời gian - - G s9 E83 vvrsrsrsed 7

2.2.1 Thanh phan xu hu6ng no ccccccscscsescscscssscscscscscsssssscsescscssssscscscscsessssssessssssseanes 7

2.2.2 Thanh phan Chu ky .ccecccccscccsccssscscsescscscssscscscscsesssssscsescscsessscscscacsessssssessssscseanes 8

2.2.3 Thành phần theo mmùủia - - 5 SE E5 9 511111118 ngư 8 2.2.4 Thanh phan bat Quy taC cc.cccccscscsescscscssscscscscscssessscsessscsvevscscscacscessesseseatacseaves 8 "3o 0000 1 8 2.3.1 Khải niệm phân lớp dữ liệu ee esssscsresrccccecceceecceceeceeeeeeeeeeeeseseseeseeseeseeees 8 2.3.2 Giải thuật phân lớp k-NN . G0000 9011 H11 g0 1 11 nhờ 10 "10 vi Nào na 11 2.4.1 Độ đo EucÌ1d - - - - ccc 2n ng ng nụ 11 2.4.2 Độ đo xoắn thời gian động (Dynamic Time Warping - DTW) 12 2.4.3 Complexity-invariant Distance (CII) 222331 3331155155185555555555555 16

2.5 Chuẩn hố dit liGu c ceccscessessesssssssessecsecsesnesessessecuesuesssecsecsesueseesecsecseaneseeseeseeneens 17

2.6 Tiêu chí đáng giá độ chính xác phân lớp . S3 61111 11xxsssssrses 18

CHƯƠNG 3: CÁC CƠNG TRÌNH LIÊN QUAN .- 5 6s + + £sEekce£seeesee 22

Trang 9

3.2 Phân lớp dữ liệu chuỗi thời gian dựa vào t6 hợp bộ phân lớp - 22 3.3 Một độ đo xoắn thời gian động cải tién: DD TW ccececcccescescesessescescsseseeseesesseseens 23 3.4 Phương pháp tính chặn dưới - - - - c9 1111111111 11v kg 24 3.4.1 Phương pháp tính chặn dưới K1m - - - - - (<< 1111111111111 1111555511152 24 3.4.2 Phương pháp tính chặn dưới của Ÿ1 - - - - - << << S911 11111 11111111111 se 25 3.4.3 KỸ thuật tính chặn dưới của Keogh - - - - << << S111 vn vờ 26

CHƯƠNG 4: PHƯƠNG PHÁP PHÂN LỚP ĐỄ XUẤTT -¿©ccccccsccs2 29

4.1 Sơ đỗ tổng quát của hệ thống - (+ E111 5 5111111111 cx che 29

4.2 Giải thích sơ đồ trình tự của hệ thỐng - - - + tư SE E11 ve, 30

4.3 Quy trình tơng quát của hệ thống - - -EkkSưSưSxS SE 5 5151111111, 3] 4.4 Phân lớp dữ liệu với tổ hợp bộ phân lớp 1-NN với độ đo khoảng cách 32

CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ . - + 5+ 5c+cc+cvrcsrsrverxee 37 0ý) 37 5.2 Các giải thuật và các bộ dữ liệu thực nghiệm - 55-5 << << {+ ++<++sssesss 37 5.2.1 BO it liGU Fish 40 5.2.2 Bộ dữ liệu TÏrace - - cc SH SH HH HH HH ng nh nh ven 41 5.2.3 580015080) a 42 5.2.4 Bộ dữ liệu HaptICS - 5G - c G1991 1 1111111111111 1111358 8 se 43 5.3 Kết quả thực nghiệm - G + SE ST 5 511111111 rờg 44 3.3.1 Kết quả thực nghiệm phân lớp với loại dữ liệu hình ảnh - 44 3.3.2 Kết quả thực nghiệm phân lớp với loại dữ liệu quang phổ trong thực phẩm

46

5.3.3 Kết quả thực nghiệm với loại đữ liệu tổng hợp - ¿5 scscscsssxssd 47

Trang 10

CHƯƠNG 6: KẾT LUẬN - -G c1 Sn S28 858 8385389813818 8 18 9885558 53 5155158 8 Eesererd 60

6.1 Những kết luận của luận văn - - S 11311 51511111111, 60

6.2 Huong phat triÊn trong tương lai eee eseesecscscscscsssescsessssscssssseseseseseens 61

Trang 11

MỤC LỤC HÌNH

Hình 1 Minh hoạ dữ liệu chuỗi thời gian[ 5] 52 2 S2 +1 E2 E£2E+k£zE+E£zEzxesce2 7

Hình 2 Số lượng sales từ 1993 đến 2013[6] ¿+ + + + 1E Ererererred 7 Hình 3 Tính thời vụ biểu thị sự biến động định kỳ trong lĩnh vực kinh doanh{6 | 8 Hinh 4 Vi du bai toan phan 16p cee eseesssnsessncccccecceceeceeseeseeseeeeeeeeeeeeesseseesseestees 9 Hình 5 Quá trình phân lớp dữ liệu G0001 999 09 030 111 1g ng vớ 9 Hình 6 Một lân cận gần nhất của mẫu thử XX - se E33 ES3 SE SE E8 SE sex reeree 10 Hình 7 Biên độ hai chuỗi thời gian với độ đo Euclid ¿5 + s55 cscsczszse: 12 Hình § So sánh độ đo DTW với Euclid[ 1Ơ ], - S313 1 ve 13 Hình 9 Ma trận xoắn của chuỗi thời gian A và BỊ 1 1] . - 2 - - <<: 14 Hình 10 Độ đo xoắn thời gian động với ràng buộc dải Sakoe-Chiba[ 12] 15 Hình 11 Ràng buộc tồn cục của độ đo xoăn thời ø1an động «s2 16 Hình 12 mơ tả kỹ thuật chặn dưới của Kim|[ 19 ] ccccccccceeceecceeeseseseeseeeeees 25 Hình 13 mơ tả kỹ thuật chặn dưới của Y 1| 19 ] 212311 3111111185185155155355555 25

Hình 14 mơ tả đường bao U và L của chuỗi Q[19] 5-5 2 5s £+s+s££+ezxcsz 27

Hình 15 mơ tả kỹ thuật chặn dưới của Keogh[ 19] 5 5S S55 S 5S xss2 28 Hình 16 Sơ đồ tơng quát hệ thống . - - - E3 5 5 51511111111, 30 Hình 17 Quy trình tổng quan hệ thống .- - - - + k+tSESxSxE#ESESEeESEEEEEeEeErkcvreei 31 Hinh 18 So dé giai thuat phân lớp dữ liệu dựa vào tổ hợp độ đo khoảng cách 33 Hình 19 hinh chụp của một con cá[ 2] .- - 222223333 3313335515185185155555555555 41

Hình 20 Ví dụ về bốn nhĩm lớp của bộ dữ liệu Trace -.- - << xxx: 42

Hình 21 biêu diễn ba lớp của dữ liệu CBE - E3 1 1xx, 43

Hình 22 Hình ảnh mơ hình thu thập của bộ dữ liệu Haptics - - - - - 43 Hình 23 tỉ lệ lỗi của bộ phân lớp trên bộ đữ liệu A diac - 5 2 5s <+s£+s<s2 44 Hình 24 thời gian phân lớp trên bộ dữ liệu Adiac S555 45

Hình 25 tỉ lệ lỗi của bộ phân lớp trên bộ đữ liệu Beef 5-2 2 55 c<c+<ssc<2 46

Hình 26 thời gian phân lớp trên bộ dữ liệu Beef - - c1 ve 47

Trang 12

Hình 30 thời gian phân lớp trên bộ dữ liệu Haptics << <5 5S 5S SSs++sssesss 20

Hình 31 tỉ lệ lỗi của bộ phân lớp trên bộ đữ liệu Trace -. - 55s c+<cscs2 51

Trang 13

MUC LUC BANG

Bang 1 Ma trận nhầm lẫn . - << S333 E31 EEE115E1515 115151111 rk ri 19

Bang 2 Ki higu cac bO dit 16.0 38

Bang 3 Ki hiéu cdc bé dit liu (ti€p theo) woo cscescssesesssescsesescssevesseseseseeeens 39 Bang 4 thơng tin các bộ dữ liệu được sử dụng thực nghiệm - «<< «+ 39 Bảng 5 thơng tin các bộ dữ liệu được sử dụng thực nghiệm (tiếp theo) 40

Bảng 6 tổng hợp tỉ lệ lỗi phân lớp của các bộ đữ liệu thực nghiệm 55

Bang 7 tong hgp tỉ lệ lỗi phân lớp của các bộ đữ liệu thực nghiệm(tiễp theo) 55

Bang 8 tổng hợp thời gian phân lớp của các bộ dữ liệu thực nghiệm 55

Bảng 9 tổng hợp thời gian phân lớp của các bộ dữ liệu thực nghiệm (tiếp theo) .56

Trang 14

CHƯƠNG 1: GIỚI THIỆU ĐÈ TÀI

Trong chương này, chúng tơi sẽ trình bày các vân đê mà đê tài tập trung nghiên cứu, các động cơ đê thực hiện, mục tiêu cụ thê của đê tài Ngồi ra, chúng tơi sẽ mơ tả các kêt quả đạt được trong quá trình nghiên cứu, khảo sát nội dung của đề tài

1.1 Giới thiệu van đề

Việc nghiên cứu và ứng dụng kỹ thuật phân lớp chuỗi dữ liệu thời gian hiện nay đang được thu hút nhiều sự chú ý của các nhà nghiên cứu đữ liệu Với sự phát triển nhanh

về cơng nghệ, dữ liệu chuỗi thời gian được thu thập bởi rất nhiều thiết bị Việc khai phá dữ liệu của dữ liệu chuỗi thời gian mang lại lợi ích hữu hiệu trải dài nhiều lĩnh vực từ y tế đến

dự báo thời tiết

Đối với đữ liệu chuỗi thời gian, vẫn đề đặt ra là chúng ta cần thực hiện phân lớp

(classification) chúng để cĩ thể sử dụng hiệu quả cho các mục đích khác nhau: phân tích dữ liệu, dự báo Phân lớp dữ liệu chuỗi thời gian là xây dựng một bộ phân lớp (classifier) dựa trên các chuỗi thời gian đã được gắn nhãn lớp để xác định nhãn lớp cho các chuỗi thời gian chưa được phân lớp Một số phương pháp truyền thống đề thực hiện bài tốn phân lớp như: k-lan can gan nhất, mang no ron, cay quyét định,

Mặc dù cĩ khá nhiều cơng trình nghiên cứu về bài tốn phân lớp đữ liệu thơng

Trang 15

Phương pháp phân lớp chuỗi dữ liệu thời gian cĩ thê chia làm ba loại chính: phương pháp dựa vào đặc trưng, phương pháp dựa vào mơ hình, phương pháp dựa vào khoảng cách Thứ nhất, trong phương pháp phân lớp dựa vào đặc trưng, dữ liệu chuỗi thời gian

được chuyên đối thành các vector đặc trưng và sau đĩ phân lớp bởi các bộ phân lớp thơng dụng như mạng neutron nhân tạo hoặc cây quyết định, Một số phương pháp trích xuất đặc trưng bao gồm các phương pháp phổ như: biển đổi chuối Fourier rời rạc(Discrete Fourier transform - DFT) hoặc bién déi wavelet roi rac (Discrete Wavelet transform - DWT), Shapelet[1|, Thứ hai, phương pháp dựa vào mơ hình, mơ hình phân lớp được giả định rằng tất cả chuỗi thời gian trong một lớp được tạo ra bởi cùng mơ hình cơ bản và do đĩ một chuỗi thời gian mới được gán với lớp của mơ hình hợp hợp nhất với nĩ Một vài tiếp cận dựa vào mơ hình như: f hồi quy(auto-regressive) , Markov dn( hidden Markov), Cuối cùng, phương pháp dựa vào khoảng cách, sử dụng các đo độ tương tự hoặc khơng tương tự để đo khoảng cách giữa các chuỗi thời gian và sau đĩ các khoảng cách này được sử dụng trong các mơ hinh phân lớp như: &-nearest neighbor(k-NN) và SVM(Support Vector Machines ), Trong luận văn này, chúng tơi chọn cách tiếp cận ở phương pháp cuối cùng, phương pháp phân lớp dựa vào khoảng cách

Đối với phương pháp phân lớp chuỗi thời gian dựa trên khoảng cách, các độ đo khoảng cách được sử dụng và sau đĩ khai thác chúng trong bộ phân lớp &-NN Nhiều đánh

giá đã được thực hiện Ding và các cộng sự năm 2008 [2] cho thấy rằng bộ phân lớp 7-NN

là một trong những bộ phân lớp tốt nhất trong các phương pháp phân lớp đữ liệu chuỗi thời gian

Trong các độ do khodng cach (distance measures) dugc str dung trong dir liéu chudi

thời gian Mỗi loại dữ liệu chuỗi thích ứng với một số độ đo nhất định Nhằm mục tiêu tăng

độ chính xác độ phân lớp của dữ liệu chuỗi thời gian Câu hỏi đặt ra rằng liệu rằng chúng ta xây dựng một /ố hơp(ensemble) các độ đo này sau đĩ sử dụng chúng vào kỹ thuật phân lớp 1-NN Vi vay, dé tài luận văn này sẽ đưa ra một cách tiếp cận để giải quyết bài tốn

tăng độ chính xác phân lớp bằng cách kết hợp các độ đo khoảng cách dữ liệu chuỗi thành

Trang 16

1.2 Mục tiêu

Chúng tơi thực hiện đề tài này nhằm đánh giá hiệu năng của giải thuật 1-NN với tơ hợp các độ đo khoảng cách: Euclid, DTW, DTW với kỹ thuật tính chặn dưới LB_Keogh, DDTW, CID với tiêu chí: (1) độ chính xác phan lớp và (2) đánh giá thời gian thực thi trong việc phân lớp chuỗi thời gian cho bài tốn phân lớp chuỗi đữ liệu thời gian, với các vẫn đề

chính như sau:

o Nghiên cứu tính tốn độ đo xoắn thời gian động DTW với kỹ thuật tính chặn dưới LB_Keogh

o_ Nghiên cứu độ đo DDTW, biến thể của độ đo DTW o_ Nghiên cứu độ đo bất biến với độ phức tạp CID

o_ Nghiên cứu hiện thực giải thuật 7-NN với các độ đo khoảng cách: ED, DTW, DTW với kỹ thuật tính chặn dưới LB_ Keogh, CID

©o Nghiên cứu hiện thực giải thuật 7-NN với tổ hợp các độ đo khoảng cách: ED, DTW, DTW voi ky thuat tinh chan du6i LB_Keogh, DDTW, CID

o_ So sánh độ chính xác(ti lệ lỗi phân lớp càng nhỏ, đo chính xác càng cao) giữa giải thuật

1-NN với các độ đo tương ứng và 1-NN với tơ hợp các độ đo trên một số dữ liệu mẫu

lây từ website [3] 1.3 Phạm vỉ nghiên cứu

Phạm vi của đề tài này là đề xuất, nghiên cứu, hiện thực, đánh giá” Phân lớp dữ liệu chuỗi thời gian dựa vào tổ hợp bộ phân lớp 7-NN với các độ đo khoảng cách khác nhau”

Kết quả này là tiền đề cho việc nghiên cứu tăng độ chính xác phân lớp đối với dữ liệu chuỗi

thời gian

1.4 Tĩm lược kết qua đạt được

Sau thời gian nghiên cứu và hiện thức, chúng tơi đạt được các kết quả như sau:

- Hiểu rõ độ đo xoăn thời gian động DTW thuần tuý và DTW với kỹ thuật tính

chặn dưới LB_ Keogh

Trang 17

-_ Hiểu rõ độ đo bất biến với độ phức tạp CID

-_ Nắm được giải thuật k- lân cận gần nhất (#-NN) dùng cho bài tốn phân lớp dữ

liệu chuỗi thời gian

- Hiện thực thành cơng giải thuật 7-NN với các độ đo: ED, DTW, DTW với kỹ thuật tính chặn dưới LB_ Keogh, DDTW, CID

-_ Hiện thực thành cơng giải thuật 7-NN với bộ tổ hợp các độ đo khoảng cách: ED, DTW, DIW với kỹ thuật tính chặn dưới LB_ Keogh, DDTW, CID

- So sánh độ chính xác của giải thuật 7-NN các độ đo: ED, DTW, DTW với kỹ thuật tính chặn dưới LB_ Keogh, DD TW, CID và giải thuật 7-NN với bộ tơ hợp các độ đo khoảng cách trên Kết quả thực hiện cho thấy giải thuật 7-NN với bộ tổ hợp các độ đo cĩ độ chính xác cao hơn giải thuật 7-NN với các đo đo khoảng cách riêng rẻ Nhưng đổi lại thời gian chạy giải thuật 7-NN với bộ tơ hợp các độ đo rất lâu so

với giải thuật 7-NN với độ đo khoảng cách riêng rẻ

- _ So sánh độ chính xác và thời gian xử lý của giải thuật 7-NN với các độ đo thành

phân Kết quả cho thấy độ đo CID cĩ độ chính xác và thời gian chạy nhanh hơn so

với các độ đo cịn lại

-_ Qua thực nghiệm, chúng tơi cũng đề xuất cải tiến thuật tốn song song đa luơng và kết quá thu được là thời gian phân lớp nhanh hơn 2, 3 lần so với thời gian phân

lớp 7-NN với bộ tơ hợp các độ đo

Như vậy, về cơ bản chúng tơi đã đáp ứng được yêu cầu của đề tài đặt ra Chúng tơi

sẽ trình bày chỉ tiết trong các phân sau

Ẩ vr - A ww

1.5 Câu trúc của luận văn

Tơ chức các thành phân cịn lại của luận văn gơm các phần như sau:

Chương 2 là các cơ sở lý thuyết mà chúng tơi sử dụng trong luận văn này Bao gồm

các lý thuyết cơ bản về chuỗi thời gian, lý thuyết về các độ đo khoảng cách của chuỗi thời

Trang 18

Chương 3 của đề tài sẽ giới thiệu các cơng trình nghiên cứu liên quan Các cơng trình này trình bày về các kỹ thuật phân lớp, các độ đo khoảng cách trong dữ liệu chuỗi

thời gian, từ cơ sở này đề xuất giải thuật nhằm tăng độ chính xác phân lớp trong việc phân

lớp dữ liệu chuỗi thời gian

Chương 4 bao gồm các nội dung chỉ tiết cho việc thiết kế và hiện thực kỹ thuật phân lớp 7-NN với bộ tổ hợp các độ đo khoảng cách khác nhau

Chương 5 cua dé tai này sẽ trình bày các kết quả thực nghiệm đạt được trong quá trình nghiên cứu, qua đĩ đánh giá được độ chính xác của kỹ thuật phân lớp, so sánh độ chính xác giữa kỹ thuật phân lớp 7-NN với độ đo khoảng cách: ED, DTW, DTW với kỹ thuật tính chặn dưới LB_ Keopgh, CID và kỹ thuật phân lớp 7-NN với bộ tổ hợp các độ đo khoảng cách Đồng thời, qua việc thực nghiệm, đánh giá được độ chính xác và thời gian thực thi của các độ đo khoảng cách khi được sử dụng trong kỹ thuật phân lớp 7-NN

Chương 6 là một số kết luận, đĩng gĩp của đề tài và hướng phát triển trong tương

Trang 19

CHUONG 2: CO SO LY THUYET

Chương này trình bày cơ sở lý thuyết về chuỗi thời gian, các thành phân của chuỗi thời gian, các độ đo khoảng cách sử dụng cho đữ liệu chuỗi thời gian, các kỹ thuật ràng

buộc, các phương pháp phân lớp chuỗi dữ liệu chuỗi thời gian, các tiêu chí đánh giá độ

chính xác trong kỹ thuật phân lớp

2.1 Chuỗi thời gian

Một chuỗi thời gian (time series), ký hiệu tốn học là 7, là chuỗi giá trị số thực,

trong đĩ mỗi trị biêu diễn một giá trị tại những thời điểm cách đều nhau: 7 = £¿, to, ., th

Phân tích chuỗi thời gian cĩ mục đích là nhận dạng và tập hợp các yếu tố, những biến đơi

theo thời gian mà nĩ ảnh hưởng đến giá trị của biến quan sát Dữ liệu chuỗi thời gian cĩ

Trang 20

Hình 1 Minh hoạ dữ liệu chuỗi thời gian|[5]

Dữ liệu chuỗi thời gian được chia ra thành hai loại chính Thứ nhất, loại chuối thời gian thơng thường(regular time series), loại này được gọi là số liệu Loại cịn lai 1a chudi

thời gian bất thường (events), loại này được gọi là các sự kiện

Trong các ứng dụng thực tế, khi chúng ta quan sát chuỗi thời gian, chúng ta nhận

thấy rằng ở dữ liệu chuỗi thời gian cĩ bốn thành phan ảnh hưởng lên mỗi giá trị đĩ là xu hướng (trend), chu kỳ ( cyclical), mùa (seaconal) và bất quy tắc (irregular)

2.2 Cac thành phần dữ liệu chuỗi thời gian

2.2.1 Thành phan xu hướng

Trang 21

2.2.2 Thành phân chu kỳ

Là thành phân cĩ chuỗi biến đổi dạng sĩng quanh một xu hướng nào đĩ Trong thực tế, thành phần này rất khĩ xác định và người ta thường xem nĩ như một phần của thành phần xu hướng

2.2.3 Thành phần theo mùa

Là thành phân thê hiện sự biến đối lặp đi lặp lại tại từng thời điểm cơ định theo một khoảng thời gian nào đĩ Hình 3, minh hoạ tính thời vụ biểu thị sự biến động định kỳ trong các lĩnh vực kinh doanh xảy ra thường xuyên dựa trên một mùa cụ thể 6000 - 4000 - 2000 - , 1820 1840 1860 1880 1900 1920 Year Hinh 3 Tinh thoi vu biéu thi su bién động định kỳ trong lĩnh vực kinh doanh| 6] 2.2.4 Thành phan bắt quy tắc

Là thành phần thẻ hiện sự biến đổi ngẫu nhiên, bất thường khơng thể đốn được của

chuỗi thời gian

2.3 Phân lớp dữ liệu

2.3.1 Khái niệm phân lớp dữ liệu

Phân lớp dữ liệu là kỹ thuật phân tích dữ liệu nhằm rút trích các mơ hình mơ tả các

lớp đữ liệu từ các mơ hình đĩ Quá trình này bao gồm các bước chính như: huấn luyện

Trang 22

bs A AAAAAA

A oa — sabdbbba

A Oa*a OOOO

Hình 4 Ví dụ bài tốn phán lớp

Hình 4 là một ví dụ về bải tốn phân lớp, với một tập dữ liệu gom các mẫu là hình trịn, hình tam giác, nhiệm vụ là phải phân lớp được hai lớp gồm lớp hình trịn và lớp hình vuơng

Trong bước huấn luyện, chúng ta tiễn hành xây dựng bé phan Iép (classifier) bang

cách phân tích đữ liệu huấn luyện với các mẩu(sample) và nhấn(label) tương ứng Mỗi mẫu dữ liệu được biểu diễn bởi một vector thuộc tính Một mẫu dữ liệu X được biểu diễn X =

⁄q, Xa, .,„ với n là số lượng thuộc tính của dữ liệu Bước này xem như là quá trình học

của một hàm anh xa: y = ƒ(X) với y là nhãn của lớp được dự đốn cia mau X

Tại bước phân lớp, bộ phân lớp sẽ được sử dụng đề thực hiện gán nhãn lớp cho các

mẫu trong tập kiểm fh{test)

Trong lĩnh vực khai phá dữ liệu, phân lớp là một kỹ thuật rất phố biến và cĩ tầm quan trọng, nĩ thường là bước cuối cùng trong một tiễn trình khai phá Hình 5 cho chúng

Trang 23

Việc phân lớp dữ liệu chuỗi thời gian cĩ thể được thực hiện trên các g1ả1 thuật phan

lớp truyền thống khá phố biến như: phân lớp với k-ân cận gần nhất (k-Nearest Neighbor), phân lớp với máy véc tơ hỗ trợ (Support Vector Machine), phân lớp với cây quyết định

(DescIsion Tree), phân lớp với mạng nơ-ron(Neunal Network),

2.3.2 Giải thuật phân lớp k-NN

Giải thuật k-NN (k-Nearest Neighbor) được sử dụng nhiều trong các lĩnh vực khai

phá đữ liệu Đây là kỹ thuật để phân lớp đối tượng dựa vào khoảng cách gân nhất giữa đối

tượng cần gán nhãn lớp với tất cả các đối tượng khác trong tập huấn luyện

Đối với giải thuật &-NN thì một đối tượng sẽ được phân lớp theo lớp chiếm đa số

trong & lân cận gần với nĩ nhất, trong đĩ & là một số nguyên dương chọn trước khi thực

hiện giải thuật Việc chọn giá trị & này liên quan đến kết quả phân lớp, nếu k quá nhỏ thì kết quả cĩ khả năng ảnh hưởng bởi nhiễu, nếu k lớn thì nhiều phân tử lân cận sẽ cĩ thê từ

các lớp khác

k-NN là một trong những thuật tốn học giám sáí( superv1sed-learning) đơn giản nhất trong máy học Khi huấn luyện, thuật tốn này khơng học được điều øì từ dữ liệu huấn luyện, mọi tính tốn được thực hiện khi nĩ cần dự đốn kêt quả của dữ liệu mới

ti T

Trang 24

Hình 6 ví dụ rằng chúng ta cĩ hai lớp dấu (+) và dấu (-), một mẫu thử X sẽ thuộc về

lớp (+) hoặc (-) nếu khoảng cách từ mẫu thử X đến lớp đĩ là gần nhất Giải thuật &-NN tim

thấy một lân cận gần nhất của mẫu thử X là lớp (-) nằm trong vịng trịn Như vậy mẫu thử

X thuộc về lớp (-)

Giải thuật &-NN được thực hiện qua một số bước như sau: 1 Xác định giá trị tham số k (số láng giềng gần nhất)

2 Tính tốn khoảng cách giữa chuỗi dữ liệu thời gian Q = {q¡,q›, ,q„ } trong tập kiểm tra (test set) đến tất cả các chuỗi dữ liệu thời gian trong /ập huấn luyện T (training set) sử dụng độ đo khoảng cách

3 Sắp xếp theo thứ tự tăng dân và xác định & lân cận gần nhất với chuỗi thời gian Q

4 Lay tat cả các lớp của k láng giềng gần nhất đã xác định

5 Dựa vào lớp đa số của các láng giềng gần nhất đề xác định lớp cho chuỗi thời gian

Q

Giải thuật &-NN sẽ cĩ chỉ phí tính tốn cao khi số mẫu của tập dữ liệu lớn 2.4 Các độ đo tương tự

Các độ ẩo khoảng cách (Distance Measure) được sử dụng để tính khoảng cách và dùng để xác định độ khác biệt giữa các chuỗi thời gian, tuỳ vào đặc điểm của chuỗi thời gian và miền ứng dụng mà cĩ độ đo tương ứng phù hợp Một số độ đo như sau:

2.4.1 Độ đo Euclid

Giả sử cĩ hai chuỗi thời gian A = à¿, dạ, ,d„ và B = bị, bạ, , b„ Khoảng cách Euclid giữa hai chuỗi 4 và B được tính theo cơng thức như sau:

ED ap) = IZ" a b)2 — (1

Trang 25

TM

PARED Euclidean Distance

Hình 7 Biên độ hai chuỗi thời gian với do do Euclid

Hinh 7 1a mét vi du vé bién d6 cua hai dir liéu chudi thdi gian khi 4p dung độ đo khoang cach Euclid

D6 do Euclid chi co thé tinh néu n = m No don giản, hiệu quả và vì vậy độ đo khoảng cách Euclid trở thành phơ biến trong nhiều tác vụ khai phá đữ liệu Tuy nhiên, bên cạnh việc yêu câu rằng hai chuỗi thời gian cĩ độ dài bằng nhau, độ đo Euclid cịn cĩ nhược

điểm khác là rất nhạy với nhiễu , khơng thích hợp với dữ liệu cĩ độ co giãn biên độ khác

nhau

2.4.2 Độ đo xoắn thời gian động (Dynamic Time Warping - DTW)

Hai chuỗi thời gian cĩ hình dạng giống nhau nhưng bị lệch pha một khoảng thời gian nào đĩ thì việc tính khoảng cách hai chuỗi thời gian này bằng cách sử dụng Euclid để tính khoảng cách thì khoảng cách Euclid giữa chúng lớn một cách vơ lý Vì vậy nhược điểm này được khắc phục một cách tương đối bằng độ đo DTW Độ đo DTW được cộng đồng xử lý giọng nĩi giới thiệu bởi Itakura[7] vào năm 1975 và được Sakoe — Chiba[8] cải tiên năm 1978, sau đĩ được đưa vào ứng dụng trong xử lý chuỗi thời gian do nhĩm tác giả Berndt, Donald Clifford, James [9] gidi thiéu vao nam 1994

Điểm khác biệt giữa độ đo khoảng cách Euclid và độ đo xoắn thời gian động là với độ đo khoảng cách Euclid chỉ cĩ thê tính khoảng cách giữa hai chuỗi thời gian cĩ độ dài

Trang 26

so với chuỗi thứ hai) thì độ đo xoắn thời gian động cĩ thê đo được khoảng cách giữa hai chuỗi thời gian cĩ độ dài khác nhau( hay cĩ biên độ dao động khác nhau)

Với độ đo DTW, một điểm dữ liệu của chuỗi thời gian này cĩ thể ánh xạ với nhiều

điểm của chuỗi thời gian khác, các ánh xạ này khơng thắng hàng Euclidian mm TT TF I |

Hinh 8 So sanh dé do DTW voi Euclid[10]

Độ đo xoắn thời ø1an cĩ nhược điểm so với độ đo Euclid là thời gian tính tốn chậm hơn rất nhiều

Cho hai chuỗi thời gian A= đ,d;, ,d„ và B = bị,b;, , b„, để tính khoảng cách DTW giữa 4 và B, chúng ta cần xây dựng một ma trận xoắn Q(4,B) của 4 và B, cĩ kích thước ø x mị, với phân tử Q; ¡ = Q(¡, b,) là khoảng cách giữa hai diém a; va bị

Q(a;,b;) = (a;- bj)? = (2)

Đường xoắn ƒ là tập hợp các giá trị của ma trận thê hiện khoảng cách giữa hai điểm

A và B thể hiện ánh xạ giữa 4 và B Giả sử rằng đường xoắn ƒW cĩ & giá trị, khi đĩ độ đo

DTW giữa 4 và B là đường xoắn cĩ chỉ phí nhỏ nhất và được tính tốn theo cơng thức:

min{ | Ye Wet

DTW ap) = ——— kè (3)

Chi phí đường xoắn nhỏ nhất cĩ thể tính bằng phương pháp quy hoạch động với cơng thức truy hồi:

Trang 27

Œ,j) =d(a;, b,) + min{ð( — 1,j — 1),ơŒ — 1,j),ðŒ,j — 1)} — 4

Trong đĩ ổ(,j) là tổng khoảng cách tích luỹ tại ơ thit (i, 7) ca ma tran OQ

| i "

mt ®

Sequence B | Ì

Hình 9 Ma trận xoắn của chuỗi thời gian A và B[11] Đường đi xoăn ƒƒ cân thoả mãn các điêu kiện như sau:

-_ Điều kiện biên: w; = (1,1) và wy = (n,rn) đảm bảo rằng đường xoắn bắt đầu từ điểm đầu tiên và kết thúc ở điểm cuối cùng của hai chuỗi đang được tính khoảng cách

- Tinh lién tuc: cho wy = (a,b) và wy_„ = (a’, b’) thi (a — a’) va (b — b’) phai bé

hơn hoặc bằng 1 Điều nay đảm bảo rằng các bước trong được đi J là từ một phần tử trong ma trận Ĩ đến một phần tử liền kể với phần tử này

- Tinh don diéu tang: cho w, = (a,b) va Wg_1 = (a',b’) thi (a — a’) va (b — b’)

luơn lớn hơn hoặc bằng 0 Điều này đảm bảo rằng chỉ mục của cặp điểm trong bước sau chỉ cĩ thê băng hoặc lớn hơn chỉ mục của cặp điêm trong bước trước

Trang 28

trường hợp đặc biệt của độ đo DTW khi đường đi xoắn Jƒ thoả mãn điều kiện là phần tử

thứ & trong đường đi xoắn wy = (¡,j) thì ¡ = j = k và hai chuỗi cần tính tốn khoảng cách cĩ độ dài băng nhau

Dé dam bảo đường xoăn khơng đi chệch hướng quá xa so với đường chéo của ma trận Ĩ thì người ta đã đưa ra một số ràng buộc mang ý nghĩa tồn cục Ràng buộc này được định nghĩa một tập con của 7a frận xoắn ( warping matrix) cho phép đường xoăn di chuyển mở rộng và được gọi lại một cửa số xoăn (warping window) Mục đích của các ràng buộc này nhằm tăng tốc tính tốn khoảng cách DTW vì làm giảm khơng gian tìm kiếm đường xoắn và ngăn trường hợp một phân nhỏ của chuỗi này ánh xạ vào phần lớn hơn tương ứng

của chuối khác

- Ràng buộc dải Sakoe- Chiba: Ràng buộc Sakoe-Chiba [8] được đề xuất bởi Sakoe

và Chiba năm 1978 định nghĩa đường xoắn hợp lệ như sau:

W = W\,W;, , W, ., Wy VỚI max(n,n) S K < m + nđT— Ï vàwy # (,j)y là

tập các phần từ liền kề xác định ánh xạ giữa hai chuỗi thời gian với điều kiện

Trang 29

- Ràng buộc hình bình hành ltakura: Ràng buộc này được đề xuất bởi Itakura năm 1975 cũng định nghĩa đường xoắn hợp lệ được ràng buộc trong một tập con của ma

trận xoăn của hai chuỗi thời gian theo dạng hình bình hành Cho điểm i“" và điểm

j?" tương ứng của hai chuỗi 4, Ư thì ràng buộc Itakura phát biêu rằng điểm j** phải

được định nghĩa bởi một hàm biến thiên thời gian theo i?": ith = w(ith) (5) Với một sơ điều kiện biên: w(1) = 1,w(n) = m va điêu kiện liên tục: œ( + 1)— @œ() = 0,1,2 (@() # @( — 1)) =1,2(@Œ)= @(—1)) (6

Hình 11 Ràng buộc tồn cục của độ đo xoắn thời gian động

Hình 11 là một ví dụ về rảng buộc hình bình hành Itakura của độ đo xoăn thời gian dong

2.4.3 Complexity-invariant Distance (CID)

Batista va cong su [13] da dé xuat d6 do CID(Complexity-invariant Distance) bat biến với độ phức tạp sử dụng sự khác nhau về độ phức tạp giữa hai chuỗi thời gian như một hệ số điều chỉnh và áp dụng lên độ đo khoảng cách hiện tại Nĩ phụ thuộc vào /h bat biến(invariance) được yêu cầu của từng lĩnh vực Trong nhiều năm qua, đã cĩ nhiều nghiên cứu để xuất các phương pháp và độ đo khoảng cách nhằm tìm ra sự tương tự giữa các chuỗi

Trang 30

dữ liệu thời gian, tuy nhiên cộng đồng khoa học cịn chưa quan tâm đến độ đo bát biển phức tạp (complex invariane)

Vân đê năm ở chỗ, đơi với các lĩnh vực khác nhau, các lớp cĩ sự phức tạp khác nhau và cặp hai phân tử phức tạp trơng cĩ vẻ giơng nhau dưới con mắt nhìn của con người nhưng chúng lại năm ở lớp khác nhau Tiêu biêu là ngành sinh học, ví dụ như loại dơi thuộc lớp thu cĩ vú chứ khơng phải là thuộc họ chim dù nĩ cĩ thể bay

Cho hai chuỗi thời gian Ĩ và C, độ do CID được tính theo cơng thức sau: CID(Q,C) = ED(Q,C) x CF(Q,C) (7) Với : ED(Q,C) 1a d6 do Euclid CF(Q,C€) là hệ số điều chỉnh độ bất biễn phức tạp được định nghĩa: max (CE(Q),CE(C)) CF(Q,C) = min (CE(Q),CE(C)) (8)

Và CE(T) là ước lượng độ phức tạp của chuỗi thời gian 7, diễn tả sự khác biệt về độ phức tạp của các chuỗi thời gian được so sánh và được tính theo cơng thức:

CE(Q) = VUETG — qis1)? (9)

Hệ số điều chỉnh độ bất biến phức tạp của một chuỗi thời gian cĩ cách tính khá đơn

giản, dễ dàng với độ phức tạp Ĩ/) và dễ dàng áp dụng vào các độ đo khoảng cách

2.5 Chuẩn hố dữ liệu

Việc quan trọng trước khi tiễn hành phân lớp dữ liệu là quá trình chuẩn hố dữ liệu, tức là việc chúng ta đưa thuộc tính về một trọng số bằng nhau và ngăn chặn những thuộc tính với miền giá trị lớn khỏi ảnh hưởng tới những thuộc tính với miễn giá trị nhỏ Ở đây, hai kỹ thuật chuẩn hố dữ liệu như sau:

Trang 31

Chuẩn hố lớn nhất — nhỏ nhất (min-max normalization): phương pháp này dựa

trên giá trị lớn nhất và nhỏ nhất của chuỗi thời gian để ánh xạ những giá trị của chuỗi này

sang chuỗi năm trong một miền xác định lớn nhất — nhỏ nhất mới Chúng ta sẽ quy ước

miễn giá trị mới là /0,77 Với phương pháp này vẫn bảo tồn được mỗi quan hệ của những

giá trị ban đầu

Giả sử chúng ta cĩ dữ liệu chuỗi thời gian 4 Cơng thức chuẩn hố như sau: A[il- Amin

A'= — (Anew max ~~ Anew min) + Anew min (1 0)

Amax— Amin

Chuẩn hố trung bình zero (z-score normalization): phương pháp này dựa trên gid trị trung bình (mean) và độ lệch chuẩn (standard deviation)

Giả sử chúng ta cĩ chuỗi A = ø,g;, ,đ„ cĩ chiều dài ø được biến đổi thành

nhimg gia tri cua chudi A’ = (aj, a}, ,a!, ) cũng cĩ chiều dài z dựa trên giá rị trung bình

(mean) và giá trị độ lệch chuẩn của chuỗi 4 Phương pháp này cĩ lợi khi giá trị lớn nhất và

nhỏ nhất là khơng biết hoặc khi những phân tử cĩ nhiễu làm cho phương pháp min-max khơng áp được được

7 AW-A eZ aj ` _ Yih (aj— A)?

A’[i] = z0) voi A = == vaa(A) = Pree (11)

Chuan hoa z-score thường được sử dụng trong khai phá dữ liệu chuỗi thời gian Chuẩn hố z-score giúp cho các chuỗi đữ liệu cĩ hình dạng giống nhau nhưng khác nhau về biên đơ sẽ tương tự nhau hơn

2.6 Tiêu chí đáng giá độ chính xác phân lớp

Trang 32

fhiử (test) là một trong những tiêu chí được quan tâm Các độ đo đánh giá chất lượng phân lớp thường được sử dụng một số thuật ngữ sau:

Mau positive (Positive tuples): là những mẫu thuộc lớp được quan tâm nhất trong quá trình phân lớp

Mau negative (Negative tuples): là những mẫu cịn lại khơng thuộc mẫu positive

True positives (TP): các mẫu positive được phân lớp đúng nhãn

True negatives (TN): các mẫu negative được phân lớp đúng nhãn

False positives(FP): các mẫu negative nhưng được phân lớp là positive False negatives(FN): các mẫu positve nhưng được phân lớp là negative

Những thuật ngữ này thường được mơ tả trong za trận nhầm lân (confusion matrix) Predicted C, CG Class Actual Class Cy True Positives False Negetives P=TP+FN (TP) (FN) C1 False Positives True Negatives N =FP+TN (FP) (TN)

Bang 1 Ma tran nham lan

Bảng 1 là ví dụ vê cầu trúc của một ma trận nhầm bao gơm thuộc tính các mâu Gia su cho m lớp và ma trận nhầm lần Ä⁄, phần tử M;; của ma trận nhâm lần là sơ

mẫu thuộc lớp i và được gán nhãn là lớp 7 bởi bộ phân lớp, 1 < i,j < m

Các độ đo thường được sử dụng để đánh giá chất lượng phân lớp:

Trang 33

D6 chinh xac (accuracy) là tỉ lệ các mẫu được phân lớp đúng nhãn lớp, được tính bởi cơng thức: TP+TN P+N accuracy = (12)

Tỉ lệ lỗi (error rate) hay tỉ lệ phân lớp sai (misclassification) bằng 1 — accuracy, cũng cĩ thê được tính bằng cơng thức:

FP+ FN P+N

error rate = (13)

Trong trường hợp tỉ lệ mẫu positive và negative trong tập dữ liệu phân bố khơng đều Ví dụ như trong trường hợp negative chiếm đa số, trong khi mẫu positive chỉ chiếm

một phan nhỏ thì độ đo độ chính xác cĩ thê khơng thê đánh giá được chất lượng của sự

phân lớp Vì thế chúng ta cần cĩ độ đo riêng biệt để đánh giá độ tốt trong việc phân lớp

mau positive va negative D6 do sensitivity va specificity dugc stt dung cho viéc danh gia chat luong phan ldp cu thé d6i voi mau positive va negative Sensitivity hay recall là tỉ lệ phân lép dung cho cdc mau possitive Nguoc lai, specificity 1a ti 16 phan lé6p đúng cho các

mau negative

sesitivity (recall) = — (14)

specificify = ~ (15)

Một độ đo cũng thường được sử dụng là precision, precision là tỉ lỆ mầu possItive thực sự trong tơng sơ các mầu được gán nhãn là possitive, được tính như sau: F= 2x precision X recall — (19) precision+ recall _ (4+ 82) x precision x recall Fg B2 x precision x recall (17)

Trang 34

- Toc a6 (speed): đề cập đến chỉ phi tinh tốn trong quá trình khởi tạo và sử dụng các bộ phân lớp

- Sự vững chắc (Robusiness): đề cập đến khả năng phân lớp với dữ liệu nhiễu hoặc

thiếu dữ liệu

- Khả năng thích nghỉ với qui mơ đữ liệu (Scalability) : đề cập đến khả năng xây dựng hiệu quả bộ phân lớp trên dữ liệu cĩ kích thước lớn

-_ Khả năng diễn dịch ( Inerpretability): đề cập đến khả năng giải thích về kết quả

cĩ được từ bộ phân lớp Cây quyết định và các luật phân lớp cĩ thể được dễ dàng diễn giải, trong khi đĩ mạng nơ-ron nhân tạo cĩ khả năng diễn giải mơ hình kém

Trang 35

CHƯƠNG 3: CÁC CƠNG TRÌNH LIÊN QUAN

Ở chương này, chúng tơi trình bày các cơng trình về các kỹ thuật phân lớp, các độ đo khoảng cách trong dữ liệu chuỗi thời gian, từ cơ sở này đề xuất giải thuật nhằm tăng độ

chính xác phân lớp trong việc phân lớp đữ liệu chuỗi thời gian 3.1 Phân loại các phương pháp phân lớp dữ liệu chuỗi thời gian

Bài tốn phân lớp chuỗi thời gian (Time-series classification - TSC) vẫn đang là một trong những vẫn đề được các nhà khoa học đữ liệu quan tâm Theo nhĩm tác giả Abanda và cộng sự năm 2019 trong bài báo khảo sát tổng quan [14], phân lớp chuỗi thời gian đang là chủ đề nghiên cứu ngày càng tăng do lượng dữ liệu chuỗi thời gian đang được tạo ra ngày càng lớn trên nhiều lĩnh vực Loại đữ liệu này cĩ rất nhiều trong cuộc sống và

bao phủ rất nhiêu lĩnh vực, vì vậy nĩ trở thành một nhiệm vụ đây thách thức và nhiều cách tiếp cận khác nhau đã được thực hiện, bao gom cach tiép cận dựa trên khoảng cách 7-NN là phương pháp phân lớp được sử dụng rộng rãi trong phân lớp dữ liệu chuỗi thời gian dựa trên khoảng cách do tính đơn giản nhưng hiệu suất vẫn tốt Tuy nhiên, hiệu suất của nĩ được cho là việc sử dụng các thước đo khoảng cách cụ thể trong quá trình phân lớp và khơng phải chính bộ phân lớp

3.2 Phân lớp dữ liệu chuỗi thời gian dựa vào tơ hợp bộ phân lớp

Jason Lines và cộng sự [15], nhĩm tác giả đã đề xuất phương pháp phân lớp dữ liệu chuỗi thời gian dựa vào tơ hợp bộ phân lớp với độ đo khoảng cách khác nhau đã tiễn hành

kiêm chứng, đánh giá hai giải thuyết: (1) Kiém chứng giải thuyết rằng cĩ sự khác nhau về độ chính xác khi bộ phân lớp láng giềng gần sử dụng các độ đo khác nhau (2) Kiểm chứng

giải thuyết rằng việc kết hợp các độ đo với tơ hợp các bộ phân lớp sẽ đạt được độ chính

xác tốt nhất Tác giả đã tiễn hành các kiểm chứng và rút ra các kết luận như sau: Thứ nhất,

khơng cĩ sự khác biệt đáng kế về độ chính xác giữa bộ phân lớp sử dụng thước đo khoảng

Trang 36

độ chính xác của bộ phân lớp thì chúng ta cĩ thể kết hợp nhiều bộ phân lớp yếu đề tạo một

bộ phân lớp mạnh hơn

Tác giả Pawlovsky và cộng sự [16] đã giới thiệu bộ tổ hợp dựa trên độ đo khoảng cách sử dụng phương pháp phân lớp láng giềng gân nhất (&-NN) và ứng dụng của phương pháp này vào bộ đữ liệu thơng thường chuẩn đốn bệnh tim Tác giả đã đề xuất việc sử dụng tơ hợp nhiều độ đo khoảng cách khác nhau như: Euclid, Manhattan, Chebyshev, Sorensen, Canberra và Mahalanobis cho phương pháp phân loại &-NN để tăng độ chính

xác phân lớp đối với đữ liệu thơng thường heart disease (chuẩn đốn về bệnh tim mạch) Tác giả đã tiến hành thực nghiệm trên hai câu hình: (1) sử dụng tổ hợp ba độ đo khoảng

cách là Euclid, Manhattan, Mahalanobis và (2) sử dụng tố hợp năm độ đo khoảng cách là Euclid, Manhattan, Chebyshev, Sorensen, Canberra va Mahalanobis Két qua cho thay độ chính xác trung bình gần 85% đối với bất cứ câu hình nào trên tập dữ liệu nhịp tim UCI

Cleveland [17]

3.3 Một độ đo xoắn thời gian động cải tiền: DDTW

Tác giả Keogh và Pazzani[18] năm 2001 đã đề xuất một cải tiến của độ đo xoăn thời

gian động (DTW) được gọi là Derivative Dynamic Time Warping(DDTW) Voi do do này,

đầu tiên sẽ biến đổi chuỗi thời gian thành một chuỗi cĩ khác biệt thứ tự Mục tiêu của

DDTW là giới thiệu một biện pháp tránh các điểm ky di, trong do mot điểm trên một chuỗi cĩ thê ánh xạ vào một phân lớn của chuỗi thời gian khác tạo nên kết quả sai lệch

Cho một chuỗi thời gian A = a¡,dạ, ,„, được biên đối thành chuỗi thời gian

A' = (a,dq;, , đ„ _ + ) khi a; được định nghĩa là trung bình của các giá trị độ dơc đ;_,

Trang 37

Độ đo DDTW được thiết kế để giảm nhiễu cĩ thể ảnh hưởng xấu đến độ đo xoắn

thời gian động (DTW) và cũng được sử dụng cùng với DTW để tính tốn độ tương tự giữa

các chuối

3.4 Phương pháp tính chặn dưới

Việc tính tốn DTW cho kết quả tính tốn chính xác hơn so với độ đo Euelid nhưng địi hỏi thời gian thực thi khá lớn Vì vậy, cộng động nghiên cứu đã phát triển kỹ thuật tính

chặn dưới hiệu quả để cĩ thể giảm tải bớt khơng gian tìm kiếm bằng cách loại bỏ những chuỗi khơng phù hợp càng sớm càng tốt Mục tiêu của kỹ thuật này là để tăng tốc độ tính

tốn và để tạo một ràng buộc chặn dưới tương đối, tức là một phương pháp cĩ thê xấp xỉ

khoảng cách DTW một cách gần nhất Đề làm rõ kỹ thuật chặn dưới này, chúng tơi trình bày ba loại kỹ thuật chặn dưới hiện nay được sử dụng pho biến là của Kim và cộng sự năm 2001, Y1 và cộng sự năm 1998 va Keogh năm 2002 [19]

3.4.1 Phương phúp tính chặn dưới Kim

Mục đích cơ bản của Kim là phát triển một kỹ thuật mà tăng cường hiệu suất tìm

kiếm trong một cơ sở dữ liệu lớn mà khơng cho phép xảy ra lỗi tìm sĩt Để thực hiện kỹ thuật này Km và cộng sự đã đưa ra một hàm tính khoảng cách mới mà xap xỉ cận dưới đối với khoảng cách xoăn thời gian động và thoải mãn điêu kiện của bât đăng thức tam giác

Trang 38

Hình 12 mơ tả kỹ thuật chặn dưới của Kim| 19]

Hình 12 mơ tả kỹ thuật tính chặn dưới của Kim với điểm 4 và D là điểm đầu và

điểm cuơi, B và C là điểm nhỏ nhất và điểm lớn nhât của chuỗi

Ưu điểm của kỹ thuật này là sử dụng giải thuật lập chỉ mục chính xác dùng khoảng

cách DTW để cải thiện hiệu suất tìm kiếm trong tập dữ liệu lớn

Khuyết điểm: kỹ thuật tính chặn dưới của Kim giới thiệu hàm chặn dưới với bốn

đặc trưng đảm bảo việc khơng xảy ra sự miễn sai so với các kỹ thuật lập chỉ mục thơng thường nên khơng khả thi với việc đánh giá chỉ mục đa chiêu

3.4.2 Phương phúp tính chặn dưới của Y¡

Yi đã phát triển một kỹ thuật đánh chỉ mục xấp xỉ đưới khoảng cach DTW ding

phương pháp FastMap Phương pháp này là ánh xạ một chuỗi cĩ chiều dài ø sang một điểm k chiều bằng một hàm rút trích đặc trưng và xây dựng một cấu trúc chỉ mục đa chiều trên

Trang 39

Hình 13 mơ tả kỹ thuật tính chặn dưới của Y7 với phần gạch mờ và dọc biểu diễn

phan tối thiếu của những điểm tương ứng đĩng gĩp vào khoảng cách DTW và được xem như là giá trị chặn dưới

Ưu điểm: cĩ thê áp dụng kỹ thuật này để đánh chỉ mục đa chiều với khoảng cách DTW va tiết kiệm được nhiều chi phí CPU và thời gian truy xuất đĩa cứng

Khuyết điểm: kỹ thuật cho phép xảy ra sự miễn sai và độ phức tạp thực tế của nĩ là 0(Mn?) với M là kích thước của tập dữ liệu nên khơng thể áp dụng cho các tập dữ liệu

lớn và những chuỗi dài

3.4.3 Kỹ thuật tinh chan duci cia Keogh

Hai phương pháp tính chặn dưới của Kim và Yi đã cho thấy những cải tiến so với

trước nhưng vẫn cĩ nhược điểm là tính chặn dưới của chúng vẫn chưa được chặt Vì vậy,

Keogh va cac cộng sự đã phát triển một kỹ thuật tính chặn dưới dựa trên ý tưởng của ràng buộc tồn cục mà tiêu biểu là hai trường hợp ràng buộc dải Saikoe-Chiba và hình bình hành Itakura Ràng buộc tồn cục mà Keogh sử dụng cho đường xoắn wy = (i,j), sao cho j — r Si < j+r với r được định nghĩa là phạm vi xoắn cho phép của một điểm trong chuỗi thời gian Trong trường hợp dải Sakoe-Chiba thì z độc lập với ¡ nhưng đỗi với hình

bình hành Itakura thì z là một hàm theo biến ï

Keogh định nghĩa hai chuỗi và 7 tương ứng là chặn trên và chặn dưới mới như

sau:

U; = max (Gi-r:qi+r) (19) L; = min (Qi-r: qi+r) (20)

Trang 40

trong trường hợp dải Sakoe-Chiba chỉ rộng hơn khi chuỗi Ĩ cĩ sự thay đổi nhanh, hẹp khi chuỗi Q càng phẳng

0 5 10 15 20 25 30 35 40

Hình 14 mơ tả đường bao D và L của chuối O[19]

Hình 14 mơ tả đường bao Ù và L tương ứng với chuỗi Ĩ trong hai trường hợp ràng buộc toản cục dải Sakoe-Chiba (A) và hình bình hành Itakura (B)

Ngày đăng: 18/10/2020, 19:14

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN