Y Neghién cứu lý thuyết: thu thập các thông tin thông qua nghiên cứu cáctài liệu về đữ liệu chuỗi thời gian và hướng tiếp cận bitmap trong kỹthuật gom cụm theo xu hướng dit liệu chuỗi th
Trang 1opthanh dạ đạt ạt Uy giggly gly sil platy rgpryhtrhryrrglcrgtrdrnrrin-rynrgnrrh le rgarrkrgtrT-dgnrnrkcpgarrrcpgtrd tren rdyErgtrdrn-rgtdrr ren gt erp gE eG ao i.aif ey
aA
C QUOC GIA THANH PHO HO CHI MINH_3 ` <ĐẠI HO
SO 122414542 E12.SayPepe dạt rạn yy pip gig gly dị drh ràrahEEkh yy nh rịyh gig dịh địt Íyh Loy dạt JCTTLE ae ee ET20122116
Trang 2TRUONG ĐẠI HOC BACH KHOA — ĐHQG — HCM
Cán bộ hướng dẫn khoa học : PGS.TS Dương Tuấn Anh
Cán bộ cham nhận xét 2 : TS Huỳnh Tường Nguyên
Luận văn thạc sĩ được bảo vệ tại Trường Dai học Bách Khoa, DHQG Tp HCM
vào ngày 27 tháng [2 năm 2013.
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:(Ghi rõ họ, tên, học ham, học vi của Hội đồng cham bảo vệ luận văn thạc sĩ)
1 Chútịch : PGS.TS Thoại Nam
2 Thư ký : TS Nguyễn Thanh Bình
3 Phản biện 1: TS Nguyễn Đức Cường
4 Phản biện 2: TS Huynh Tường Nguyên
5 Ủyviên : PGS.TS Dương Tuan Anh
Xác nhận của Chủ tịch Hội dồng danh gia LV và Trưởng Khoa quan lý chuyên
ngành sau khi luận văn đã được sửa chữa (nêu có).
CHỦ TỊCH HỘI ĐÒNG TRƯỚNG KHOA KH&KTMT
Trang 3TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc
NHIEM VỤ LUẬN VĂN THAC SĨ
Họ tên học viên: HUỲNH DO BAO CHAU MSHV: 11320952
Ngày tháng, năm sinh: 24/11/1987 Nơi sinh: Tp.HCM
Chuyên ngành: Hệ thống thông tin quan lý Mã số : 60340405I TÊN DE TÀI: Gom cụm dựa vao xu hướng đữ liệu chuỗi thời gian giá chứng khoán
II NHIEM VU VA NỘI DUNG:- Nghién cứu giải thuật gom cum theo xu hướng đữ liệu chuỗi thời gian theo hướng
tiếp cận bitmap, dé nghị giải thuật gom cụm phù hợp
- Xây dựng hệ thống gom cụm theo xu hướng dữ liệu chuỗi thời gian giá chứngkhoán, áp dụng các kỹ thuật dã dé nghị
- _ Hiện thực và thực nghiệm để đánh giá hiệu quả của giải thuật, chất lượng kết qua
gom cụm, tính hữu dụng của giải thuật trong lĩnh vực chứng khoán.
II NGÀY GIAO NHIỆM VỤ: 19/08/2013
IV NGÀY HOÀN THÀNH NHIEM VU: 22/11/2013Vv CÁN BỘ HƯỚNG DAN : PGS.TS Dương Tuấn Anh
Tp HCM, ngày 22 tháng 11 năm 2013
CAN BO HƯỚNG DAN
(Họ tên va chữ ky)
PGS.TS Dương Tuấn Anh
TRƯỚNG KHOA KHOA HỌC & KỸ THUẬT MÁY TÍNH
(Họ tên và chữ ký)
Trang 4LOI CAM ON
Tôi xin gởi lời cảm ơn chân thành và sâu sắc đến PGS.TS.Dương Tuấn Anh,Thay đã tận tình hướng dẫn, định hướng cho tôi từ cách đặt van dé, phương phápnghiên cứu khoa học đến những công việc cụ thể trong luận văn này
Xin chân thành cảm ơn tất cả quý Thầy Cô trong Khoa Khoa học và Kỹ ThuậtMáy Tính đã tận tình truyền đạt kiến thức cho tôi trong suốt quá trình học tập
Tôi cũng xin cảm ơn gia đình, bạn bè đã động viên va tạo mọi điều Kiện tốt nhất
đề tôi có thê hoàn thành luận văn này.
Trang 5Dữ liệu chuéi thời gian tổn tại trong nhiều lĩnh vực y hoc, kế toán, chứngkhoán, môi trường, [rong môi trường kinh doanh cạnh tranh khốc liệt như hiệnnay, nhu cầu khai phá thông tin từ những dữ liệu này là rất lớn Các phương pháp phân
tích tương quan su dung mô hình toán học như Moving Average (MA), Autoregressive
(AR) còn hạn chế trong việc tìm ra tính tương quan, quan hệ giữa các chuỗi thời
gian trong tập dữ liệu, trong khi do các kỹ thuật gom cụm thi tỏ ra hiệu qua hơn Gom
cụm đữ liệu chuỗi thời gian là một quá trình học không giám sát, là một công cụ độclập dé xem xét phân bó dữ liệu và là bước tiền xử lý cho các thuật toán khác như phânlớp, dự đoán, hỗ trợ ra quyết định, Dé tai đề nghị ứng dụng gom cụm trong khaiphá dữ liệu chuỗi thời gian giá chứng khoán, băng cách chuyển đổi các chuỗi dữ liệu
thời gian sang chuỗi xu hướng và thực hiện gom cụm trên các chuỗi xu hướng này
Việc chuyển đối từ chuỗi dit liệu số sang chuỗi xu hướng sẽ cho thấy rõ nét hơn hướngdi chuyển của chuỗi dữ liệu ban dau, giảm lượng dit liệu cần xử lý cho quá trình gomcụm và đem lại hiệu quả gom cụm chính xác hon Đề tài trình bày van dé chuyến đốichuỗi dit liệu sang chuỗi xu hướng mà biểu diễn các xu hướng dưới dạng chuỗi bit, từđó tiến hành gom cụm theo hướng tiếp cận phân hoạch băng giải thuật k-Means vàgom cụm phân cấp bằng giải thuật HAC, từ đó đánh giá khả năng ứng dụng của giải
pháp vào khai phá dữ liệu giá chứng khoán tại Việt Nam Thực nghiệm chứng minh
giải thuật HAC tạo ra kết quả gom cụm có xu hướng đặc trưng sát với biến động thực
của giá chứng khoản hơn giải thuật k-Means.
Trang 6Time series exist in many areas of medicine, accounting, securities,environmental , Currently, the business environment is very fierce competition, thedemand for mining information from the data is very large The correlation analysis
method using mathematical models such as the Moving Average (MA),
Autoregressive (AR) is limited in finding the correlation, the relationship betweenthe time series in the data set, while the clustering techniques proved more effective.Clustering time series is an unsupervised learning process, as a stand-alone tool toexamine the distribution of data and preprocessing step for other algorithms such asclassification, prediction, support the decisions From the above problem, wepropose for apply clustering in data mining of stock price time series, by converting
the time series to the trend sequence and clustering on the trend sequence Convertingfrom data sequence to trend sequence will clearly moving towards the initial data
sequence, reducing the amount of data to be processed for the clustering process andeffective clustering more exactly The thesis deals with the problems: converting datasequence to trend sequence that represent it to bitmap index, applying the partitionalclustering approach (using k-Means algorithm) and hierarchical clustering approach(using HAC algorithm), and evaluating the utility of the solutions to data mining inVietnam stock market The experiment demonstrated that HAC algorithm can generate
clustering results with the changing trend features similar to the real stock price than
k-Means algorithm.
Trang 7LỜI CAM ĐOAN
Tôi cam đoan răng, ngoại trừ các kêt quả tham khảo từ các công trình khác nhưđã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôithực hiện và chưa có phân nội dung nào của luận văn này được nộp dê lây một băng
cap ở trường này hoặc trường khác.
Ngày 22 tháng 11 năm 2013Huynh Đồ Bảo Châu
Trang 8CHUONG 1: PHÁT BIEU VAN DE w eesccssesssssssssesssesesssesnessecnecsnsonssnscuecaesneeusenecanenecanenneenes |
1.1 Giới thiệu vấn đề - cv tt th ng HH TH ng ghe |1.2 Bài toán gom cụm dựa vào xu hướng dữ liệu chuỗi thời gian 21.3 Mục tiêu nghiên cứu của dé tài 5: ¿5S +2 SE ExeEvEkckekererersrsrkrrrrrrrrrrree 3
¿oi in 3
I.5 Phương pháp nghién CỨU - 6 - 7< G Ă S1 nọ nh 3
1.6 Ý nghĩa nghiên cỨu -¿- 225% St St SE +EEEEEEEEEEeEEEEErkererersrsrrrrrrrrrrrrree 4L.7 Tóm tắt kết quả đã dat ẨƯỢC 5-5 E3 v.v va +1.8 _ Câu trúc luận Van eee eceeeeeeceeeseeeseecseessscsnseeneesneesneesueeseecseeeecerseenresneceneeeneesneenneeenee 5CHUONG 2: CÁC CONG TRÌNH CÓ LIEN QUAN 26-5 csterrerrrrrerrieo 62.1 Các hướng tiếp cận chính trong gom cụm đữ liệu chuỗi thời gian 62.2 Gom cụm dựa trên hình dạng của chuỗi thời QIAN QQQQ Qui Km 72.3 Gom cụm dựa trên hướng tiếp cận bitimap 25 2 5+2 Sex ezeczeszezcscxcees S2.4 Các nghiên cứu gom cum dữ liệu chuỗi thời gian trong lĩnh vực tài chính 10
3.1 Dữ liệu chuỗi thời gian (Time series data) - sáp 14
3.2 _ Phương pháp tính đường trung bình trượt (Moving Average — MA) L5
3.2.2 Đường trung binh trượt hàm mũ (EMA) Ăn ve, 16
3.2.3 Duong trung bình trượt gia quyền (WMA) eeeececesscscsseseeseesesessssesseseesesteseeessee 16
Trang 93.3 Độ đo khoảng cách Hamming << << 3x vn 17
3.4 Cac phương pháp tiếp cận trong gom cụm dit liệu ¿- 2-5-5 52 <2 25s 5s << 5z L7
3.4.1 Gom cụm phân hoạch (Partitioning clustering methods) ‹- 18
3.4.2 Gom cụm phân cap (Hierarchical clustering methods) c.cccscssesesesseeeeseseseeees 183.43 Gom cụm dựa trên mật độ (Densitybased clustering methods) 22
3.44 — Gom cụm dựa trên mô hình (Model-based clustering methods) 23
3.4.5 Gom cụm dựa trên lưới (Gird-based clustering methods) - 24
3⁄46 Gom cụm có dit liệu ràng buộc (binding data clustering methods) |4| 25
3.5 _ Gom cụm dữ liệu chuỗi thời ÔN Q0 Go Họ nọ nh nếp 253.6 — Giải thuật k-Means ccc nọ ng cọ cu net vết 273.7 _ Giải thuật HAC (Hierarchical Agglomerative C usf€rIn8) -««« «>> «+ 293.8 Phuong pháp chọn giá trị số cụm k tối ưu trong øom cụ 5-s 55s: 303.9 _ Dánh giá chất lượng giải thuật gom cum dit liệu chuỗi thời gian 3]
CHUONG 4: PHƯƠNG PHAP GIẢI QUYET VAN DE ceeseeceseeseeseeeteesreneeneeeneenrenes 344.1 Đặt vẫn đỀ cà HH ren 344.2 Phuong pháp giải quyết vẫn dé ¿+ 5% s25 x v.v Sex xe rrrvrrrre 354.2.1 Tiền xử lý dữ liệu - (6% 2 22333 Sư HS St ng cưng gen 3542.2 Chuyển đổi sang chuỗi xu hướng và chỉ mục bitmap [8] - -s- 5-5: 364.2.3 Gom cụm chuỗi xu hƯớng ¿-¿- ¿2 ¿S258 S8 S8 S4 S2 S2 S8 SE ESE2EeEExeevxxvx xen 404.2.4 — Đánh giá giải thuật øOIm CỤIH S7 G5 3201010108331 6110 9 9n nu vn re 434.3 Mô hình kiến trúc hệ thống ¿- ¿2 5+ 2+2 ++x2SE+E+EE£EEEk£EvEke xe rkersrkerecea 454.3.1 Kiến trúc tổng quát hệ thông - ¿+ 2+2 +2 +Sk£S£EE£EE£E#E£EeEtkererkerkrrered 454.3.2 — Kiến trúc chi tiết và hiện thực hệ thông ¬— 46CHƯƠNG 5: HIỆN THỰC VÀ THỰC NGHIỆM ecccccsreexeerreeec 2Õ5.1 Thue nghiệm trên tập dữ liệu đã được phân lớp <5 «5+5< «<< ess<s 575.2 Thực nghiệm trên tap dữ liệu chưa phân lớp - «5+ 5< «3 +s<<z<szsse2 60“cối nh 64
CHƯƠNG 6: KẾT LUẬN 5à St tì TH TH HH HH hà hàn nh ng 65
6.1 Téng kết các kết quả dat đưỢC 5+5 5SS+Sx‡EE+xeEEsrxrkekxerrsrrrrrsrsrreis 656.2 Hướng phát triên của để tài ¿©5256 s St SE EEErEktkekrrkrkrrrrkrrererkrreie 66
Trang 1015/08060.0 5 A AI0009: 12 BlPHU LUC Corsescscscsssscscssesescssssescscscssesssssussesescsssesssssvssesesescsvessssssseseasscseesssssavaeseaesesesesees ClPHU LUC D (5c S6 S3 SE S311 1 T31 1111111111 1111111111111 111111 1111111 ren DI
LÝ LICH TRÍCH NGANG G- <1 1S E 11 111 1 1E HS TT TH nh cm cướp E
Trang 11CSDL
CSMEMAFMGB
HACHoSE
MANMISMA
TSDB
WMA
Central Processing Unit
Cơ sở dữ liệu
Hệ số đo độ tương tự của các cụm
Exponential Moving Average
Hệ số Folkes và Mallow
Gigabyte
Hierarchical Agglomerative Clustering
San giao dịch chứng khoán Thanh phố Hồ Chí Minh
Moving AverageNormal Mutual InformationSimple Moving Average
Time series database
Weighted Moving Average
Trang 12Hình 2.1 - Ba cách tiếp cận gom cụm dit liệu chuỗi thời gian -. 2- + 55255552: 6
Hình 2.2 - Các cụm dữ liệu chuỗi thời gian là tương tự theo thời gian -‹: 8
Hình 2.3 - Các cụm dữ liệu chuỗi thời gian là tương tự theo hình dạng -. - 8
Hình 3.1 - Minh họa dit liệu chuỗi thời gian gid 1 mã chứng khoán - 14
Hình 3.2 - Mô tả quá trình gom cum phân cấpp - - 5< 2z ExEeevrererxrererererevee 19Hình 3.3 — Vi du minh hoa gom cum dựa trên mật độ . - 7+ s<2<+< «xxx xxx 22Hình 3.4— Ví dụ minh họa gom cụm dựa trên mô hình 2+ + xxx xxx 23Hình 3.5 - Cầu trúc gom cụm dựa trÊn ÏưỚI 5+ + + vs sex s2 24Hình 3.6 - Minh họa quá trình #Oi CỤIm1 7c << + 2 xxx 8 9 7 x 26Hình 3.7 - Hình dạng cụm dữ liệu được khám pha bởi thuật toán k-Means 29
Hình 3.8 - Minh họa quá trình gom cụm bằng giải thuật HAC 55-5255 55+ 30Hình 4.1 - Các giai đoạn của một quá trình gom cụm tổng quát cscs s-s- 2 <2 5s <2 35Hình 4.2 - Bốn dạng so trùng chuỗi xu hướng ¿- + ¿5£ 252552 +22 S2 S££s££vsxexzxzczcss 4]Hình 4.3 - Vi dụ về cum dữ liệu chuỗi thời 5P 42
Hình 4.4 - Kiến trúc tông quát của hệ thông + - ¿52 522 e£+E+E£Ezxrerrvrrrreree 45Hình 4.5 - Kiên trúc chi tiệt hệ thông gom cụm theo xu hướng dữ liệu chuỗi thời gian 46
Hình 4.6 - Minh họa hệ thống Module tiền xứ lý đữ liệu 47
Hình 4.7 - Minh họa hệ thống Module làm trơn và mã hóa dữ liệu 48
Hình 4.8 - Minh họa hệ thống Module gom cụm — giải thuật k-Means _ 5
Hình 4.9 - Minh họa hệ thống Module gom cụm — giai thuật [LAC 52
Hình 4.10 - Trực quan hóa kết quả băng d6 thị + 2< 22s +E+E£EzEzEzEzezererererererxe 53Hình 4.11 - Trực quan hóa kết quả gom cụm băng sơ đồ cây Dendrogram - 53
Hình 5.1 - Mô hình quá trình thực nghiệm so sánh giữa giải thuật k-Means va HAC 56
Hình 5.2 - Tập dữ liệu Heteroge'n€OUs «<< << si SH KH KH Ki KH Hà 37Hình 5.3 - So sánh chỉ số đánh giá mức độ tương tự tại các điểm dữ liệu tiếp theo của kếtquá gom cụm (1000 điểm dữ liệu HeterogeneoUS) 5-5-5552 +sssesszszszxeseesssescscc. 9
Hình 5.4 - Kết quả đánh giá dựa trên hàm mục tiêu (tap dữ liệu Heterogeneous) 60Hình 5.5 - Chuỗi xu hướng đặc trưng của các cụm hình thành sau gom cụm bằng giải
Trang 13thuật k-Means-EMA và HAC-EEMA - QQ QC HH Họ TK TK k3, 62
Hình 5.7 - So sánh chỉ số đánh giá mức độ tương tự tại các điểm dữ liệu tiếp theo của kếtquả gom cụm (1150 điểm dữ liệu Chứng khoán VN.HOSE;) - 25-5 2555255 55+ 63Bang 4.1 - Chuỗi xu hướng biểu diễn bằng chỉ mục bitmap mã hóa 3Ø
Bảng 4.2 — Minh họa các tính tỷ lệ K (2%) của 1 cụm Ă Ăn 45
Bang 5.1 - Kết quả đánh giá chất lượng gom cụm (1000 mẫu dit liệu Heterogeneous) 58Bảng 5.2 - Kết quả danh giá dựa trên hàm mục tiêu (tập dữ liệu Heterogeneous) 59Bảng 5.3 - Kết quá đánh giá chất lượng gom cum (1150 mẫu dữ liệu Chứng khoán) 60
Trang 14Phan này sẽ giới thiệu yêu cầu, mục tiêu và nội dung so lược của dé tài Đồng
thời cũng nêu lên sự cần thiết dé thực hiện dé tài này
11 Giới thiệu van dé
Hoạt động đầu tư trên thị trường chứng khoán hiện nay đã trở thành một hoạtđộng phô biến va thu hút số lượng đông đảo nhà đầu tư, từ doanh nghiệp đến cáckhách hàng cá nhân, với đủ mọi thành phần trong xã hội Vấn đề về lợi nhuận thu
được từ hoạt động đầu tư chứng khoán là mối quan tâm hàng đầu của mọi nhà đầu tư,
trong đó xu hướng biến động của giá cổ phiếu trên thị trường là một dấu hiệu mà hầunhư nhà đầu tư nào khi tham gia vào thị trường đều quan tâm
Nhiều nhà nghiên cứu lý thuyết thuần túy về chứng khoán cho rang, giá là ngẫunhiên do đó người ta không thể kiếm lời từ việc nghiên cứu sự vận động của giá Sựlập luận nay dựa trên lý thuyết cho rang thị trường là hiệu quả khi thông tin thắmthấu vào giá ngay lập tức Tuy nhiên, bên cạnh nhiều thị trường hiệu quả (đặc biệt làkhi xem xét trong ngắn han) thì vẫn tồn tại nhiều thị trường nơi mà giá không phản
ứng tức thời với thông tin.
Những ai đã từng có kinh nghiệm thực tế trên thị trường đều biết răng tất cả thị
trường sẽ biến động theo xu hướng ít nhất tại một vài thời diễm Nhiều xu hướng thị
trường sẽ hình thành các dạng đồ thị, có thể là xu hướng ôn định hoặc đột biến Tuynhiên, thông thường thì giá sẽ được điều chỉnh một cách từ từ Chỉ có trên những thịtrường rất hiệu quả, nơi ma cùng lúc nhiều người đều theo dõi thông tin phát ra và
phản ứng lại thì giá mới biến động nhanh
Chính vì giá biến động theo xu hướng nên xác định sớm một xu hướng là rấtquan trọng nhằm tối đa hóa lợi nhuận thông qua giao dịch theo xu hướng đã được xac
dịnh Ngoài ra, việc xác dịnh sớm sự dối chiều của một xu hướng là tối quan trọng
nham thoát khỏi giao dịch với lợi nhuận tối đa hoặc trước khi có thé bị lỗ, hoặc vượtquá tỷ lệ rủi ro chấp nhận được
Chính vì tầm quan trọng của việc nhìn ra được xu hướng giá trên thị trường, các
câu hoi đặt ra xoay quanh quá trình xem xét xu hướng giá như là: (1) Xu hướng gia
được thê hiện như thê nào ? (2) Làm sao dé nhìn ra được xu hướng này 2 (3) Trên thị
Trang 15dầu tư có thé có được công cụ nao dé hỗ trợ họ phân loại xu hướng biến động của các
mã cô phiếu đang giao dịch ?
Những câu hỏi được đặt ra dều xoay quanh việc chúng ta phải xem xét sự thay
déi của giá cỗ phiếu qua từng ngày giao dịch Tập hợp dữ liệu lich sử giá của các cổ
phiếu này sẽ hình thành nên cơ sở đữ liệu chuối thời gian (TSDB - Time seriesdatabase) Tuy nhiên, dữ liệu thô ban đầu của TSDB thường tổn tại nhiễu , khôngđầy đủ và không gian dữ liệu cần phân tích là rất lớn, do đó đối với TSDB các biện
pháp phân tích dữ liệu truyền thống đôi khi không có hiệu quả trong việc tìm ra đượccác thông tin có ích (vi dụ phân tích dữ liệu dé tìm ra xu hướng biến déi của chỉ số
chứng khoán, sự thay đổi về sở thích, nhu cầu của các nhóm khách hàng ) Vì vậy
phương pháp hiệu quả hơn trong quá trình phân tích dữ liệu dang này được áp dụng do
là các phương pháp của khai phá đữ liệu (Data mining) Từ đó, chúng tôi đề xuấtnghiên cứu “Gom cum dựa vào xu hướng dữ liệu chuỗi thời gian gid chứng khoán”nhăm giúp các nhà đầu tư có thể gom các cô phiếu trên thị trường thành từng cụm có
chung dau hiệu biến động về xu hướng gia, từ đó việc ra quyết định mua/bán của nhàdầu tư cũng sẽ hiệu quả hơn
1.2 Bài toán gom cụm dựa vào xu hướng dữ liệu chuỗi thời gian
Bài toán gom cụm dựa vào xu hướng là một trong những kỳ thuật khai phá dữ
liệu chuỗi thời gian rất phố biến hiện nay Ý tưởng của phương pháp này là sắp xếpcác giá trị của những chuỗi dữ liệu thời gian có xu hướng biến động tương tự nhauthuộc về cùng một nhóm, nhóm nay sẽ có chiều hướng biến đồi giá tri dir liệu qua các
điểm thời gian là tương tự nhau, từ kết quả gom cụm đó có thể phục vụ cho công tácdự báo xu hướng biến dồi tiếp tục của các chuỗi dữ liệu thời gian nay Các kỹ thuật
gom cum dit liệu phố biến có thé dùng trong tình huống này là giải thuật k-Means, giải
thuật HAC
Ung dung trong hoạt động kinh tế, co rất nhiều nhu cầu gom cum dé đưa ra
những đánh giá dữ liệu và phát hiện ra những thông tin được ấn dấu trong dữ liệu Vídụ như: gom cụm để tìm ra những mã chứng khoán có sự tương tự trong xu hướng
biến động giá giao dịch, hay tương tự trong xu hướng biến động khối lượng giao dịch;gom cụm để tim ra những sản phẩm hàng hóa có sức tiêu thụ giống nhau trong một
khu vực .
Trang 16gom cụm tương ứng yêu cau cần khai thác Tuy nhiên, khi áp dụng trực tiếp các giải
thuật gom cụm trên dữ liệu chuỗi thời gian thường sẽ gặp phải khó khăn, vì đặc điểmkhối lượng dit liệu của dit liệu chuỗi thời gian thường rất lớn, do đó việc gom cụm trực
tiếp chúng bằng các giải thuật trên sẽ rất tốn chi phí thời gian va tài nguyên hệ thống
Đề đối phó với thách thức trên khi gom cụm dit liệu chuỗi thời gian, tiếp cậnvới ý tưởng của Yoon [8] dé chuyên đổi các chuỗi dữ liệu thời gian từ giá trị thô sanggiá tri xu hướng, từ đó tạo ra các chuỗi xu hướng đặc trưng đại diện cho các chuỗi dữliệu thời gian, việc thực hiện giải thuật gom cụm lúc này sẽ tiến hành trên các chuỗi xu
hướng này.
1.3 Mục tiêu nghiên cứu của đề tài
Y Nghiên cứu giải thuật gom cụm theo xu hướng dữ liệu chuỗi thời gian
theo hướng tiếp cận bitmap, vận dụng cho thị trường chứng khoán tạiViệt Nam, cải tiễn giải thuật (nếu cần thiết)
Y Thu thập và làm sạch dir liệu giá cô phiếu dé mô phỏng xu hướng giá
của các cô phiếu giao dịch trên san giao dịch Thành phố (HoSE)
¥Y Xây dựng chương trình ứng dụng dé gom cụm theo xu hướng biến dộnggiá của cỗ phiếu áp dụng kỹ thuật đã đề nghị
Y Đánh giá giải thuật và dé xuất cách sử dụng gom cum sao cho kết quả làchính xác nhất
1.4 Pham vi nghiên cứu
Y Giải thuật gom cum theo xu hướng chuỗi thời gian theo hướng tiếp cận
bitmap.
Y Dữ liệu phân tích : giá các mã cổ phiếu niêm yết trên sàn HoSE (côphiếu nghiên cứu phải có từ 1000 điểm giá giao dịch trở lên)
1.5 Phương pháp nghiên cứu
Sử dụng kết hợp giữa nghiên cứu lý thuyết và nghiên cứu thực tiễn
Y Neghién cứu lý thuyết: thu thập các thông tin thông qua nghiên cứu cáctài liệu về đữ liệu chuỗi thời gian và hướng tiếp cận bitmap trong kỹthuật gom cụm theo xu hướng dit liệu chuỗi thời gian; qua đó rút ra cácnguyên tac phân tích cũng như giải thuật phù hợp dé gom cụm dữ liệu
chuôi thời gian chứng khoán theo xu hướng giá.
Trang 17trình nghiên cứu lý thuyết để áp dụng vào thực tế thị trường chứng
khoán Việt Nam nhăm tìm ra sự liên quan trong quy luật vận động giá
của các cô phiếu trên thị trường Quá trình nghiên cứu thực tiễn sẽ thực
hiện các công việc:
o Thu thập và sàng lọc dữ liệu giá cỗ phiếu niêm yết trên thị trường.o Mô hình hóa sự biến động giá cỗ phiếu đưới dạng đồ thị
o Phân tích quy luật biến động giá và gom cụm các mã cổ phiếutheo nhóm có cùng xu hướng biến động giá
o Kiểm chứng kết quả xu hướng của các nhóm cổ phiếu dã gom
cụm bang cách theo dõi tiếp diễn biến giá trên thị trường
o Diều chỉnh lại giải thuật dé dạt kết quả có dộ chính xác cao
1.6 Y nghĩa nghiên cứu
Y Kết quả nghiên cứu sẽ cung cấp thông tin hỗ trợ cho các nhà đầu tư khi
tham gia mua/ban trên san giao dịch chứng khoán Tp.HCM (HoSE) Với
những thông tin về các nhóm cổ phiếu có chung xu hướng bién động vềgid, thì khi một cổ phiếu trong nhóm tang/giam thì những cô phiếuchung nhóm cũng có khả năng sẽ biến động tương tự từ đó nhà đầu tư
có thé chủ dộng hơn trong việc ra quyết định mua/bán
Y Kết quả nghiên cứu có thể được ứng dung dé phân tích và cung cấpthông tin xu hướng biến động giá cỗ phiếu trên sàn giao dịch Ha Nội, cáccô phiếu chưa niêm yết trên thị trường, hoặc xu hướng của tỷ giá
Y Kết quả nghiên cứu có thé được tiếp tục mở rộng theo hướng khai thác
dữ liệu chuỗi thời gian chứng khoán theo xu hướng biến động khối
lượng giao dịch Hoặc vận dụng để đưa vào các nghiên cứu về hệ thông
quản lý danh mục dầu tư cổ phiếu, hệ thống hỗ trợ cảnh báo mua/bán cô
phiếu dự báo xu hướng giá trong ngắn hạn.1.7 Tom tắt kết qua đã đạt được
Luận văn đã trình bày cách thức chuyển đổi các tập dir liệu chuỗi thời gian từgiá trị số sang giá trị xu hướng và thực hiện gom cụm dựa trên các chuỗi xu hướng
duoc tạo ra sau chuyên dôi Xây dựng hệ thông gom cụm dựa vào xu hướng dữ liệu
Trang 18chuỗi thời gian, thích hợp cho đữ liệu có tính thời gian thực, người dùng có thé theodõi quá trình gom cụm và khảo sát kết qua từng vòng lặp.
Quá trình xử lý dữ liệu và gom cụm được hiện thực với nhiều tùy chọn khácnhau, tùy thuộc nhu cầu của người phân tích, giới hạn của tài nguyên tính toán (CPU,
thời gian) Người dùng có thể lặp lại quá trình gom cụm với những thông số k (giải
thuật k-Means), bán kính tối đa sáp nhập cụm (giải thuật HAC) khác nhau, từ đó sosánh để lựa chọn thông số tối ưu nhất Đồng thời người dùng có thể quyết định thờigian gom cụm, chất lượng gom cụm bang cách điều chỉnh các thông số của hệ thống
Hệ thống được thử nghiệm trên các tập dữ liệu (có phân lớp sẵn và chưa phânlớp), dánh giá chất lượng gom cụm của giải thuật ở nhiều khía cạnh
1.8 Cau trúc luận văn
Tổ chức các phan trong cấu trúc luận văn được trình bày như sau:Chương I : Giới thiệu về ý tưởng dé tài, mục tiêu, phạm vi nghiên cứu và tómtắt vé các kết quả đã đạt được của luận văn
Chương II : Trình bảy về các công trình nghiên cứu có liên quan Các côngtrình nay trình bay những giải thuật gom cụm dữ liệu chuỗi thời gian, và những nghiên
cứu dé ứng dụng các giải thuật gom cum ứng dung trong phân tích dữ liệu kinh doanh,
tài chính và dữ liệu thị trường chứng khoán.
Chương TIT : Giới thiệu một số cơ sở lý thuyết về dữ liệu chuỗi thời gian, các
phương pháp tính trung bình trượt, độ tương tự, các phương pháp gom cụm, và đánhgiá giải thuật gom cụm
Chương IV : Trình bày cách thức tiếp cận chỉ mục bitmap trong kỹ thuật gom
cụm và dự đoán xu hướng của dữ liệu chuỗi thời gian Dé xuất áp dụng các tiếp cận
nay dé phân tích dữ liệu thị trường chứng khoán tại Việt Nam va dé xuất kỹ thuật gomcụm theo xu hướng biến động giá của chuỗi đữ liệu thời gian giá chứng khoán
Chương V : Trình bay một số kết quả thực nghiệm và danh giá.Chương VI : Trình bày các kết luận của nghiên cứu và hướng phát triển mở
rộng của đê tài.
Trang 19Chương 2 sẽ tóm lược các công trình nghiên cứu về các phương pháp tiếp cận
dữ liệu chuỗi thời gian, các phương pháp gom cụm và các nghiên cứu ứng dụng gom
cụm dé khai phá dữ liệu chuỗi thời gian trong lĩnh vực tài chính.2.1 Các hướng tiếp cận chính trong gom cum dữ liệu chuỗi thời gian
Theo Liao (2005) [14] đối với dữ liệu chuỗi thời gian, thường có 3 hướng tiếp
cận chính là (1) dựa trên dtr liệu thô, (2) dựa trên đặc trưng (3) dựa trên mô hình.
(xem hình 2.1)
Dữ liệu Dữ liệuchuôi thời gian chuôi thời gian
Rut trích Rời rạc hóa | |Mô hình hóa
đặc trưng (discretization) (modeling)(feature extraction)
Gom cụm Gom cụm Gom cụm
(clustering) (clustering) (clustering)
| |
Các cụm Các thông sốvà có thé là của mô hình
Hình 2.1 - Ba cách tiếp cận gom cụm dữ liệu chuối thời gian
- (1) Dựa trên dữ liệu thô (Raw-data-based approaches)
Dữ liệu chuỗi thời gian sẽ được sử dụng trực tiếp trong giải thuật gom cụm Lúcnày hai chuỗi dữ liệu thời gian được so sánh thường lay mẫu tại các khoảng thời giannhư nhau, nhưng chiều dài (số thời điểm) có thé giống hoặc khác nhau
Hướng tiếp cận trên dit liệu thô chủ yếu cải tiến các độ đo trên dit liệu thườngthành độ đo hữu hiệu cho đữ liệu chuỗi thời gian Có nhiều giải thuật gom cụm trên dữliệu chuỗi thời gian thô nhưng chủ yếu chỉ áp dung cho các dữ liệu ít chiều, khôi lượng
dữ liệu nhỏ.
Trang 20Dữ liệu chuỗi thời gian sẽ qua giai đoạn r trich đặc trưng (feature axtraction)
nhằm thu giảm số chiều trước khi đưa vào quá trình gom cụm nhăm loại bé những đặctrưng của chuỗi không cần thiết cho mục tiêu gom cụm, giảm kích thước chuỗi giúpquá trình gom cụm hiệu quả hơn Có nhiều giải thuật được đề nghị áp dụng cho gomcụm dựa trên đặc trưng tuy nhiên đa số các phương pháp rút trích đặc trưng thì có đặcđiểm tự nhiên, các đặc trưng được rút trích thường phụ thuộc vào yêu cầu của ứngdụng (nghĩa là một tập đặc trưng làm việc tốt cho ứng dụng này có thể không thích
hợp cho ứng dụng khác)- (3) Dựa trên mô hình (Model-based approaches)
Dữ liệu sẽ đưa qua tiến trình nhận dạng và xác định các thông số mô hình trướckhi thực hiện mô hình hóa Hướng tiếp cận dựa trên mô hình sẽ xem mỗi chuỗi thờigian dược tao ra bởi một số mô hình hay bởi sự pha trộn của phân bố xác suất cơ bản.Các chuỗi thời gian được xem là tương tự khi các mồ hình biểu thị đặc điểm cho mỗichuỗi tương tự
Có nhiều cách tiếp cận gom cum dựa trên mô hình như ARIMA, ARMA,HISMOOTII, Markov Chain, ARMA mixture, Gaussian nixture, trong đó các tiépcận dùng mô hình ARIMA là phé biến nhất
Tổng hợp các giải thuật gom cụm và ứng dụng theo từng hướng tiếp cận xem
thêm tại phụ lục A.
2.2_ Gom cụm dựa trên hình dạng của chuỗi thời gianXiaohang Zhang (2011) [16] đã dé xuất thuật toán dé gom cụm dựa trên hìnhdạng của chuỗi thời gian Hướng tiếp cận này có thé làm giảm kích thước của dữ liệu.cải thiện hiệu quả và không làm giảm tác dụng bằng cách sử dụng các nguyên tắc
mạng lưới phúc tap (principle of complex network).
Theo nghiên cứu, dit liệu chuỗi thời gian có thé tương tự theo các dang: /ương fir
theo thời gian (similarity in time) (hình 2.2) — ví dụ như gom cụm dữ liệu giá cố phiếudé tìm ra sự quan hệ qua lại của chúng trong thay dỗi gid, (ương tu theo hình dang
(similarity in shape) (hình 2.3) — ví dụ như gom cụm những cô phiếu thé hiện theo
những mẫu tương tự nhau và tìm ra sự phụ thuộc hay độc lập giữa chúng trong bién
Trang 21phiếu có xu hướng tăng giá trong ngày hôm sau.(1) Một mạng lưới láng giềng gần nhất được xây dựng dựa trên sự giống nhaugiữa bất kỳ cặp chuỗi thời gian nào Trong bước này, tam giác khoảng cách được sửdụng để do lường sự giống nhau, mỗi nút dại diện cho một chuỗi thời gian và mỗi liênkết biểu thị mỗi quan hệ láng giềng gần nhất giữa các nút (2) Các nút với số lượngláng giéng nhiều được chọn làm đối tượng có thé sử dụng để gom cụm Irong quátrình gom cum, ham khoảng cách xoắn thời gian động (dynamic time warping distancefunction) và thudt toán gom cum phân cap (hierarchical clustering algorithm) được ápdụng với từng dối tượng dược lựa chọn.
vali se [vette
0 LO 20 30 10 50 60 70 0 10 20 30 t0 90 60 70
Hình 2.2 - Các cụm dữ liệu chuỗi thời gian là trơng tự theo thời gian
10 ¬ Cylinder 10 + Bell 10 + Funel
Hình 2.3 - Các cụm dữ liệu chuỗi thời gian là tương tw theo hình dang
2.3 Gom cụm dựa trên hướng tiếp cận bitmap
Jong P Yoon, Yixin Luo và Junghyun Nam (2001) [8] đã nghiên cứu cach thức
tiến hành chuyển đổi giá tri đữ liệu của chuỗi thời gian sang dạng nhị phân dé thực
hiện gom cụm và dự doán xu hướng:
Nghiên cứu thực hiện gom cụm và dự đoán xu hướng dựa trên các mẫu xuhướng tương tự được rút trích ra từ co sở dit liệu chuỗi thời gian, chứ không dựa trên
các mau dữ liệu tương tự
- _ Giải quyết vẫn đề gom cụm, Yoon xem xét 4 cách thức so trùng là: (1) So tring
Chính xác (exact match), (2) So trùng tương tir (similarity match), (3) So frùng
Trang 22chính xác có tịnh tiễn (exact match by shift), (4) So ràng tương tự có tinh tiễn
(similarity match by shift) Yoon sử dụng các khát niệm: (1) Dé /ương tie (sim)
dé xác định các cặp dữ liệu chuỗi thời gian là tương tự nhau hay không : (2)Trung tâm (center): nhằm cải thiện hiệu suất của quá trình gom cụm ; (3) Bán
kính (radius): dễ xác dịnh xem một dữ liệu chuỗi thời gian đã cho là thuộc về
cụm đó Ngoài ra, Yoon đề nghị một khái niệm mới là độ khác biệt (disim) đểlàm cho kết quả gom cụm chính xác hơn Các khái niệm này sẽ được trình bàycụ thể ở phần sau
- Gilải quyết vấn đề dự đoán, Yoon đề xuất một phương pháp mới để dự đoán xuhướng tiếp theo của chuỗi xu hướng, phương pháp này gồm 2 dạng: (1) Du
đoán xu hướng trong cum (Intra-cluster Trend Prediction), và (2) Du đoán xu
hướng liên cum (Inter-cluster Trend Prediction)
Với nhận định, van dé tìm kiếm tương tự chuỗi thời gian (chuỗi con) là mộttrình tự nhất định dé có thé tìm thay tất cả các cặp chuỗi tương tự, Yoon đã khảo sát và
dánh giá 3 phương pháp tiếp cận để tìm kiếm tương tự chuỗi thời gian bao gồm:
- Phuong pháp tiếp cận trong miễn thời gian (Time-domain approach) : Cáchtiếp cận này xử lý dữ liệu chuỗi thời gian trong miễn thời gian bằng các kỹthuật như tinh tién (shifting), co giãn biên độ (scaling), làm tron (smoothing),
xoắn trục thời gian (time warping), Sử dung các kỹ thuật này, các mautương tự có thé được rút trích hoặc gom cụm Phương pháp này phức tạp và kết
người sử dụng hoặc gom cụm chuỗi dữ liệu chuỗi thời gian
- Phương pháp tiếp cận định tính (Qualitative approach): Để giải quyết những
hạn chê đã nêu trong hai cách tiếp cận trên, đây cũng là một cách tiép cận trong
Trang 23miền thời gian, nhưng phương pháp sẽ tập trung vào các điểm dữ liệu có ýnghĩa thay vi xem xét tat cả các điểm dữ liệu.
Với những cơ sở như trên, Yoon đã chọn sử dụng phương pháp tiếp cận địnhtính này trong gom cụm chuỗi theo xu hướng và dự báo xu hướng tiếp theo Bằng cáchsử dụng phương pháp nay, Yoon dé xuất khái niệm xu #ướng (trend) của các chuỗi dữ
liệu chuỗi thời gian
Xuhướng của chuỗi dữ liệu chuỗi thời gian: mô tả mức độ cao hơn về hướngdi chuyên của chuỗi dữ liệu chuỗi thời gian ban dau
Ví dụ: một chuỗi dit liệu giá theo thời gian của 1 loại chứng khoán, cho thấy xuhướng của chuỗi có thé là ø lần tăng và z lần giảm giá trong một thời ky
Đối với các dữ liệu chuỗi thời gian, các công việc cần được tiễn hành trước khithực hiện quá trình gom cum: (1) áp dụng kỹ thuật làm trơn bằng trung binh trượt(trong khoảng thời gian / ) ; (2) sử dụng 6 chi số xu hudng (trend indicators) tại một sốđiểm nhất định trong chuỗi, (3) sử dụng các chi mục bitmap (bitmap indexing) dé tìmcác chuỗi tương tự nhau Chuỗi dữ liệu (Data sequence): là chuỗi của đữ liệu chuỗi
thời gian ; Chudi xu hướng (Trend sequence): là chuỗi của các xu hướng Yoon đã
chứng minh việc dùng 5 bit dé mã hóa xu hướng sang chỉ mục bitmap là hiệu quả hơn
”
ˆ
dùng 6 bit và độ tương tự đo được sau khi chuyên các chuỗi sang chỉ mục bitmap (5
bit) cũng chính xác hơn.
Chi tiết về nghiên cứu này sẽ được trình bày tiếp theo trong các chương sau
2.4 Các nghiên cứu gom cụm dữ liệu chuỗi thời gian trong lĩnh vực tài chính
Đến nay, đã có nhiều nhà nghiên cứu đưa ra những cách thức khác nhau dé ứngdụng các thuật toán gom cụm trong khai phá dữ liệu của lĩnh vực kinh tế, tài chính.Trong đó, ứng dụng khai phá đữ liệu chứng khoán cũng nhận được nhiều quan tâm vànghiên cứu Một số nghiên cứu gần đây trên thế giới đưa ra các khung nhìn khác nhau
trong gom cụm dữ liệu chuỗi thời gian trong lĩnh vực tài chính, chứng khoán như:
Năm 2007, Chi Xie; Hua Tan; Xiang Yu [2] công bố nghiên cứu áp dụng thuậttoán logic mở (fuzzy logic) trong quá trình khai phá dữ liệu để tạo ra cây quyết định từcơ sở dữ liệu lịch sử chứng khoán Nghiên cứu dựa trên mé hình cây quyết định mo(fuzzy decision tree model) để xác định các thuộc tính dự đoán quan trọng nhất, và từ
dé dẫn xuất ra tập hợp các nguyên tắc quyết định mở (fuzzy decision rules) dé sử dụng
dự đoán hành vi của chuôi thời gian trong tương lai Tac gia đã chứng minh hiệu quả
Trang 24của mô hình băng cách thử nghiệm so sánh với các phương pháp tiếp cận khác trên dữliệu 500 chỉ số của Standard & Poor và một số cô phiếu trong đó.
Tak-chung Fu và các cộng sự (2008) [15] đã trình bày một khung tong quat déhình dung đữ liệu chuỗi thời gian dựa trên những điểm dữ liệu quan trọng bên cạnh đótác giả dã chỉ ra việc ứng dụng mô hình nay trong lĩnh vực tài chính là rất hiệu quả.Các phương pháp được dé xuất dựa trên một phiên bản sửa đổi của VizTree (hệ thốngtrực quan hóa và khai phá mẫu chuỗi thời gian dựa trên sự gia tăng cây hậu tố)
Theo nghiên cứu [15], chuỗi thời gian được xây dựng bởi một chuỗi các điểmdữ liệu và biên độ của mỗi điểm dữ liệu có mức độ ảnh hưởng khác nhau đến hìnhdạng của các chuỗi thời gian, mỗi diém dữ liệu có tầm quan trọng riêng Những diémdữ liệu quan trọng hơn những điểm khác được gọi là PIPs (perceptually important
points) Tak-chung Fu cũng chỉ ra trong nghiên cứu trước do của Chung và cộng sự
(2001) đã đề xuất việc xác định PIPs và sử dụng nó cho mồ hình kỹ thuật phù hợp để
ứng dụng trong chứng khoán.
Xueyan WU, Daoping Huang (2010) [18] đưa ra một phương pháp gom cụm
luồng đữ diệu để áp dụng trong phân tích dữ liệu chứng khoán Phương pháp này
hướng tới mục tiêu giữ lại hình thái của dòng dữ liệu và đặc trưng xu hướng trong qua
trình thực hiện gom cum Dong dữ liệu ban đầu được chia thành k đoạn dit liệu theophương thức giữ lại 2 diém dữ liệu dầu và cuối dòng là diém tham chiếu, phân chiathành các đoạn dữ liệu nhỏ hơn tại điểm dữ liệu có khoảng cách đến điểm tham chiếulà xa nhất Sau đó khai thác dữ liệu dựa trên các điểm đặc trưng Mục đích của phươngpháp là duy trì hình đạng và đặc điểm xu hướng của các dòng dữ liệu Phương phápnày có thé theo dõi và hién thị các quá trình phát triển của các mô hình dòng dữ liệu
Qua thực nghiệm trên tập dữ liệu của 14 mã chứng khoán trên thị trường chứng khoán
Thượng Hải, tác giả đã chứng minh kết quả gom cum dựa trên hình thái có thé đạt độ
chính xác lên dến 95% khi thiết lập các thông số phù hợp
Cũng trong năm 2010, Xiao-Wei Ai nghiên cứu đề xuất mô hình RTV
(Realized Trading Volatility) để tự động theo dõi biến động bất thường trong giao dịchchứng khoán và rút trích ra các chuỗi giao dịch bất thường này |17| Mô hình này
được két hợp với kỹ thuật gom cụm k-Means đê khai phá dữ liệu của các cô phiêu
P.L.Chung, T.C.Fu, R.Luk, ct al , 2001, Flexible time series pattern matching based on perceptually important points,Jniernational Joint Conference on Artificial Intelligence Workshop on Learning from lemporal and Spatial Data, pp 1-7.
Trang 25khác từ đó hỗ trợ tìm ra mối liên hệ với các giao dich bién động bất thường nay Kếtquả của nghiên cứu có thé mở rộng để hỗ trợ các nhà kinh doanh khám phá ra các bat
thường trong hoạt động kinh doanh của doanh nghiệp.
Ruizhong Wang (2011) [12] da áp dụng kỹ thuật khai pha dữ liệu theo phương
pháp gom cụm dé phân tích dữ liệu tài chính và dữ liệu giao dịch chứng khoán nhằm
phục vụ mục tiêu phân loại cô phiếu, hỗ trợ ra quyết định, và hỗ trợ lựa chọn cô phiếu
cho nhà đầu tư Quá trình nghiên cứu đã tiến hành các công việc: thu thập, xử lý dữliệu tài chính và dữ liệu giao dịch chứng khoán, áp dụng kỹ thuật k-Means để gomcụm dir liệu, trên kết quả cô phiếu đã gom cụm tác gia thực hiện kiểm chứng kết quảvới thực tế và cải tiễn giải thuật Dé nâng cao hiệu suất của quá trình gom cum, tác giảđã đưa ra các khía cạnh cần cải thiện: (1) tăng chỉ số các biến trong gom cum để làm
cho sự khác biệt trong cùng | cụm nhỏ hơn, và khác biệt giữa các cụm lớn hơn; (2) ap
dụng hệ thống phân tích DuPont vào quá trình gom cum; (3) áp dụng phân tích gomcum mo (fuzzy clustering) cho dit liệu chứng khoán dé gia tăng tốc độ và độ chính xác
của kỹ thuật.
D.V.S.Shalini, M.Shashi, A.M.Sowjanya (2011) [13] đề xuất một thuật toán dékhai phá dữ liệu rất lớn về hàng tồn kho nham dự doán các yếu tố ảnh hưởng dến hoạtđộng bán hàng, từ đó doanh nghiệp có thể dự đoán được xu hướng thị trường, dự báovà lập kế hoạch dai han, hoặc hỗ trợ ra quyết dịnh Quá trình phân tích gồm 2 giai
đoạn: (1) gom cum ban dau thực hiện trên cơ sở dữ liệu bang cách sử dung | thuật
loán gom cụm; (2) với những mẫu thường xảy ra nhất, sử dụng thuật toán MFP (MostFrequent Pattern) để tìm giá trị tối đa của từng thuộc tính trong mỗi déi tượng của tậpdữ liệu Tác giả đã dé xuất áp dụng gom cum bang 3 thuật toán k-Means, PAM(Partition Around Medoids), và BLRCH so sánh đánh giá kết quả gom cụm băng thời
gian thực hiện.
Nguyễn Doãn Cường (2008) [11] đã trình bày kỹ thuật khai phá dữ liệu chuỗi
thời gian áp dụng cho dữ liệu thị trường chứng khoán Nghiên cứu đã đưa ra một
phương pháp mới cho việc loc dit liệu chuỗi thời gian áp dụng phương pháp trung bìnhtrượt hàm số mii, dùng cặp chỉ số xu hướng dé phân loại trạng thái của hệ thống nhiềuloạn trên cơ sở đó thực hiện việc hệ thống hóa quá trình tích lũy thông tin thống kê.Ngoài ra tác giả đã xây dựng bài toán ngược để dự báo sự phát triển của đối (tượngquan sát trong những khoảng thời gian tiếp theo
Trang 26Kết luận: Trong chương này đã trình bay tổng quát về các nghiên cứu trên thégiới và Việt Nam có cùng lĩnh vực với đề tài.
Trong đó có nghiên cứu của Yoon [8] cho thay phương pháp tiếp cận định tính
để tìm kiếm tương tự là hiệu quả trong gom cụm di liệu chuỗi thời gian, nhờ tập trung
vào các diễm ý nghĩa thay vì xem xét tất cả các diém, quá trình tìm kiếm và gom cụmsẽ được nhanh hơn Tiến trình xử lý dữ liệu theo phương pháp làm tron bằng trungbình trượt giúp loại bỏ được những biến động bat thường trong ngắn hạn, thê hiện rõhơn xu hướng của chuỗi thời gian, nhờ đó kết quả gom cụm cũng sẽ hiệu quả hơn Chỉtiết nghiên cứu này sẽ được trình bày thêm ở các chương sau để từ đó ứng dụng các ý
tưởng trong công trình này vào hệ thống gom cụm theo xu hướng dữ liệu chuỗi thời
gian giá chứng khoán Việt Nam.
Tổng hợp những nghiên cứu da dược trình bay ở trên, chúng tôi cũng nhận thấynhiều nhà nghiên cứu chọn sử dụng thuật toán k-Means để gom cụm df liệu chuỗi thời
gian, và ứng dụng trong lĩnh vực tài chính, chứng khoán.
Trang 27CHƯƠNG 3: CƠ SỞ LÝ THUYET
Trong chương này sẽ trình bày một số co sở lý thuyết sẽ được sử dụng trong dé
tài như các phương pháp tính trung bình trượt, độ do khoảng cách Hamming, các
phương pháp tiếp cận trong gom cụm dữ liệu và giải thuật k-Means, giải thuật HAC,phương pháp xác định số k tối ưu nhất trong giải thuật k-Means và các phương phápđánh giá kết quả gom cụm
3.1 Dữ liệu chuỗi thời gian (Time series data)
Dữ liệu chuỗi thời gian là dit liệu được quan sát và ghi nhận theo thời gian xuấthiện Dữ liệu này có thé là đơn biến hay đa biến, nhưng trong đó phải có 1 chiều làthời gian Loại dữ liệu dạng này thường rất lớn, và tổn tại trong nhiều lĩnh vực tàichính, y tế, môi trường, giao thông chứng khoán (hình 3.1),
50 745 4 2000
198140 4
xã 1929
30 “
2s 3 19 —
23.520 ˆ
15 410 -
Trang 28dùng và tap dữ liệu Do đó khó có thé đánh giá kết quả thực nghiệm mộtcách tuyệt đối.
- Dit liệu không đồng nhất: khác định dạng, tần suất lây mẫu khác nhau .- Di liệu có thé bị nhiễu, bị thiếu, hoặc không sạch
3.2 Phương pháp tính dường trung bình trượt (Moving Average — MA)
MA được sử dụng rộng rãi trong phân tích dữ liệu chứng khoán MA là thước
đo khách quan về xu hướng thị trường qua dữ liệu giá và thời gian, thông thường đượctính theo giá đóng cửa và đôi khi có thé được điều chỉnh sử dung theo giá cao nhất,hoặc giá thấp nhất, hoặc giá trung bình, hoặc giá đóng của gia quyền
MA được sử dụng chủ yếu dé làm trơn loại bỏ các biến động trong ngắn han vàmiêu tả xu hướng co bản của cổ phiếu
Các khung thời gian sử dụng MA phô biến:
- Cac đường MA ngắn hạn thường nhạy cảm, có thé giúp người phân tích nhận
diện xu hướng sớm, song cũng có lúc cho ra những cảnh báo gia Các đườngMA dài hạn hơn thì độ tin cậy cao hơn, nhưng chỉ áp dụng cho xu hướng lớn.
- _ Thông thường nên sử dụng dường MA là 1⁄2 chiều dài của chu kỳ quan sát (nếuchiều dài chu kỳ là 30 ngày thì nên sử dụng đường MA 15 ngày) Tuy nhiênmột số kinh nghiệm thực té của những nhà đầu tư cho thay đường MA 14 vaMA 9 cũng sẽ giúp quan sát được tín hiệu xu hướng giao dịch tốt hơn
Đường trung bình trượt có nhiều loại song có 3 loại thông dụng nhất ?à rung
bình trượt gian don (Simple Moving Average - SMA) và frung bình trượt ham mĩ
(Exponential Moving Average - EMA) và trung bình trượt gia quyền (Weighted
Moving Average - WMA) Sự khác biệt giữa 3 loại trung bình trượt này chính là trọng
số toán học của mỗi mức giá khi tính giá trị trung bình
SMA có trọng số băng nhau cho tất cả các mức giá trong một khoảng thời giannhất định EMA và WMA có trọng số lớn hơn cho các mức giá gan hiện tại hon trongmột khoảng thoi gian nhất định Mặc dù EMA và WMA có công thức tính toán khácnhau nhưng khái niệm và triết lý của chúng là tương tự nhau EMA và WMA nhạycảm với hành động giá gần hiện tại hơn so với SMA Tuy nhiên, trên thị trường tàichính hiện nay SMA vẫn đang tiếp tục được sử dụng phố biến do sự đơn giản của nó
Giả sử một chuỗi dược biểu diễn là s, = (vụ @ fz, 0¿ạ @ ty, « , vụ @ ty) : với vụ
là giá tri tại thời diém fz
Trang 29giá tri tại (z-l) thời điểm trước đó, sau đó chia cho ø Giá trị thu được là giá tri trung
bình trượt trong ø thời điểm tại 7 Với ø là khung thời gian của trung bình trượt
Trung bình trượt hàm mii được tính băng cách áp dụng tỷ lệ phần trăm của giátrị thời điểm „ cho giá trị trung bình của thời điểm z„.;,
EMA,,, = (Vix EMA%) + |vign_ay X (1 — EMAW)|
lin tạ | Cio | Gz | tia | Gs | hé | fiz | Gg | Cio
Viz 16 | 17 | 17] 10 | 17 | 18 | 17 | a7 |
EMA (n=5) 163 | 16.5 | 144] 15.22 | 162 | 164] 16.6 | 16.8
3.2.3 Đường trung bình trượt gia quyền (WMA)
Đường trung bình trượt gia quyền được tính băng cách kèm thêm trọng số chogiá trị dữ liệu gần nhất
- _ Trọng số băng số ngày đang quan sát chia cho tong số ngày quan sát
- _ Giá trị gia quyền bang giá trị „ nhân cho trọng số tai tix
- Trung bình trượt gia quyền được tính băng cách cộng tat cả các giá trị gia
quyên trong sô ngày quan sát.
Trang 30Cik Ciy Cin Fịa Cia Cis
Vix 16 17 17 10 17
Trọng số 1/15 | 2/15 | 3/15 | 4/15 | 5/15Giá trị gia quyền | 1.07 | 227 | 340 | 267 | 5.67
WMA (n=5) 15.07
3.3 Độ do khoảng cách Hamming
Trong lý thuyết thông tin, khoảng cách Hamming (Hamming distance) giữa haidãy ký tự (strings) có chiều dài băng nhau là số các ký hiệu ở vị trí tương đương có giátri khác nhau Nói một cách khác, khoảng cách Hamming do số lượng thay thế cầnphải có để đối giá trị của một dãy ký tự này sang một dãy ký tự khác, hay số lượng lỗixảy ra biến đổi một day ký tự sang một day ký tự khác
Định nghĩa 3.1: Khoảng cách Hamming là số thay thế nhỏ nhất các thành phan,phan tử thuộc đối tượng, hệ thống, dữ liệu A dé có thé trở thành 8 Khi đó nó gọi là
khoảng cách Hamming giữa A và Ö L
Cũng có thé hiểu khái niệm này như một dạng của phép do lỗi (error) hay khác
biệt (difference) giữa 2 trạng thai, 2 đối tượng khác nhau
Ví dụ:
- - Khoảng cách Hamming giữa 1011101 và 1001001 là 2.
- - Khoảng cách Hamming giữa 2143896 và 2233796 là 3.
- Khoảng cách Hamming giữa "toned” va "roses" là 3.
Đối với hai dãy ký tự nhị phân (binary strings) ø và b, phép toán này tương
đương với phép toán [a XOR ô|.
3.4 Các phương pháp tiếp cận trong gom cụm dữ liệu
Gom cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm
dữ liệu sao cho các đối tượng trong một cụm là /ương tte (similar) với nhau, và các đốitượng trong các cụm khác nhau sẽ khác biệt (dissimilar) Số lượng các cụm dữ liệu
được phân loại cuỗi cùng có thê được xác định trước theo kinh nghiệm hoặc có thể tự
động xác định.
Han và Kamber [5] đã phân các giải thuật gom cụm ra thành 5 loại: ương
pháp phân hoạch (partitioning methods), phương pháp phân cấp (hierarchical
Trang 31phương pháp có dit liệu rang buộc (binding data clustering methods) [4].3.4.1 5 Gom cụm phân hoạch (Partitioning clustering methods)
Kỹ thuật này phân hoạch một tập dữ liệu ø phan tử thành & cụm cho dén khixác định số các các cụm được thiết lập Đặc điểm:
- _ Số lượng các cụm được thiết lập là các đặc trưng được lựa chọn trước
- Gom cụm phân hoạch phụ thuộc vào khoảng cách cơ bản giữa các điểm délựa chọn các điểm dữ liệu nào có quan hệ là gần nhau, và các điểm dữ liệunào không có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác
Các thuật toán theo hướng tiếp cận gom cụm phân hoạch điển hình như:
k-Means, k-Medoids, CLARA (Clustering Large Application), CLARANS (ClusteringLarge Aplication based on Randomized Search),
3.4.2, Gom cum phan cap (Hierarchical clustering methods)
Một trong các giải thuật gom cum được sử dụng phố biến là gom cum phân cấpvì khả năng trực quan cao của nó Giải thuật sẽ cung cấp một kiến trúc có thứ bậc chứkhông cung cấp một phân hoạch các cụm Giải thuật sử dụng ma trận khoảng cách
(Distance Matrix) làm tiêu chuân gom cụm.
Trang 32Gom cụm theo phương pháp phan cap không cân phải xác định sô cụm cân gom
ngay từ ban dau Sô cụm được gom sẽ do khoảng cách giữa các cụm hoặc diéu kiện
dừng quyết định Câu trúc phân cầp cụm thường được biêu diễn dưới dạng một cây các
cụm gọi la dendrogram, các lá biêu diên các mâu, các nút trong biêu diên các cụm.
Step 0 ai I Step 2 Step 3 Step 4agglomerative
>
a b C d :
Co i SG | oo | S| S2
Step4 Step3 Step2 Step! Step0 divisive
Hình 3.2 - Mô ta quá trình gom cum phan cấpCó 2 cách tiếp cận phổ biến của gom cụm phân cấp là: hòa nhập nhóm (thường
gọi la Bottom-up), va phân chia nhóm (thường gọi là Top-down) (hình 3.2)
Giải thuật gom cụm theo hướng tiếp cận Bottom-up (sử dụng chiến lược tham
ăn) như sau:
(a) Bat đầu mỗi phần tử là một cụm, như vậy với NV phần tử ta có cụm.Ta có ma trận khoảng cách N*N, với đ,; là khoảng cách giữa 2 phần tử
iva J.
(b) Tìm cặp cụm gần nhau nhất và trộn chúng thành 1 cụm Lúc này chúngta có số cụm là N-1
(c) Tính toán lại khoảng cách (độ tương tự) giữa cụm mới và các cụm cũ.
(d) Lap lại bước (b) và (c) cho đến khi tất cả các cụm năm trong 1 cụm cókích thước N, hoặc thỏa một điều kiện dừng nao do
Giải thuật gom cụm theo hướng tiếp cận Top-down (sử dụng chiến lược chia dé
tri) như sau:
(a) Bat đầu từ một cụm duy nhất là toàn bộ không gian có N điểm.(b) Chọn cụm có độ khác biệt lớn nhất (ma trận khoảng cách có phần tử
lớn nhất hoặc trị trung bình lớn nhất) đề tách đôi
Trang 33(c) Tính toán lại khoảng cách (độ tương tự) trong các cụm mới.
(d) Lap lại bước (b) và (c) cho đến khi mỗi điểm là một cụm hoặc đạt dénđiều kiện dừng của giải thuật
Ở bước (c) có thé tính khoảng cách theo các cách sau:
Khoảng cách nhỏ nhất — khoảng cách liên kết đơn (Single-link): là khoảng cáchgiữa 2 cụm là khoảng cách ngắn nhất giữa 2 thành viên bat kỳ trong mỗi cum
Cluster K
Dự¡, = minzecx ,yec, {a y)}
Gom cụm dựa vào khoảng cách nhỏ nhất còn được gọi là gơm cụm láng
giêng gân nhất (nearest neighbor clustering) Băng cách không hạn chế về hình
dạng của cụm, chúng ta bỏ qua mục tiêu thu được kết quả là các cụm nhỏ gọndé đôi lẫy khả năng phát hiện các cụm kéo dài và bat thường
Khoảng cách lớn nhất — khoảng cách liên kết đây du (Complete-link): làkhoảng cách giữa 2 cụm là khoảng cách xa nhất giữa 2 thành viên bất kỳ trong
Khoảng cách trung bình có xu hướng tạo ra các cụm với chênh lệch nhỏ,
bởi vì nó xem xét tất cả các phần tử trong cụm chứ không phải chỉ là một phầntử duy nhất, nhưng khoảng cách trung bình thường ít bị ảnh hưởng bởi các giá
trị cực đoan hơn các phương pháp khác.
Trang 34Cluster K
Dxz = AVExXECK yec {a y)}
Khoảng cách trọng tâm (Center-link): là khoảng cách giữa 2 trọng tâm của 2
cụm, được chọn làm khoảng cách giữa 2 cụm đó, thông thường sử dụng khoảng
cách Euclidean Cách tính này có tốc độ tính toán nhanh do chỉ cần quan tâm
đền trọng tâm cụm nên giảm khôi lượng tính toán.
Cluster K
Dez = || — y|l
Bởi vì khoảng cách trọng tâm là kỹ thuật so sánh trung tâm cụm, do đó
giá trị ngoại lai ảnh hưởng đến nó ít hơn hầu hết các phương pháp gom cụmphân cấp khác
Tuy nhiên xét ở khía cạnh khác, nó có thể không tốt bằng khoảng cáchtrung bình (Milligan 1980) Kích thước của 2 cụm càng lớn hoặc không dều thì
việc sử dụng khoảng cach trọng tâm sẽ có xu hướng chủ đạo là sáp nhập các
cụm.
Đánh giá:
Uu điềm của phương pháp gom cụm phân cấp là có tính tổng quát, người dùng
không cần cung cấp thông số về số cụm trước cho việc gom cụm.Nhược diém là phương pháp này chỉ thích hợp với khối lượng dữ liệu nhỏ do
độ phức tạp của thuật toán là O(n’)
Việc lựa chon phương pháp nào sẽ ảnh hưởng đến độ phúc tap và hiệu năng cuaviệc gom cụm Single linkage và Complete linkage yêu cầu tính toán ít hơn
Single linkage thường tạo ra các cụm trải dài Center linkage và Averagelinkage tạo ra những ket quả gom cum mà các cụm được tạo ra và biêu diễn cầu
Trang 35trúc của dữ liệu phù hợp hơn, nhưng 2 cách này lại yêu cầu tính toán phức tạphơn Tổng hợp theo các kinh nghiệm của những nghiên cứu đi trước, 2 phương
pháp Complete linkage và Average linkage là được ưu chuộng hon cả trong
khai phá gom cụm đữ liệu.
Điển hình trong phương pháp gom cụm phân cấp là các thuật toán: HAC
(Hierarchical Agglomerative Clustering), DIANA (DIvisive ANAlysis), BIRCH(1996), CURE (1998), CHAMELEON (1999),
3.4.3 Gom cum dựa trên mat độ (Densitybased clustering methods)
Phương pháp nay nhóm các đối tượng dit liệu dựa trên hàm mật độ xác định(mật độ là số các dối tượng lân cận của một dối tượng dit liệu theo một dịnh nghĩa nảođó) Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó sẽ tiếp tục được pháttriển thêm các dỗi tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn
một ngưỡng đã dược xác định trước (xem ví dụ minh họa hình 3.3).
- Phuong pháp này có thé phát hiện ra các cụm dữ liệu có hình dạng bắt kỳ
- (6 thể khắc phục được các phần tử ngoại lai, hoặc giá trỊ nhiễu rất tốt
- Tuy nhiên, xác định các tham số mật độ cho thuật toán là một khó khăn †rong
khi các tham sô này có ảnh hưởng rat lớn đên chat lượng của két quả gom cụm.* 1.Han, M.Kamber, 2007, Data Minin g: Concepts and Techniques, 3th edition, Chapter 8, Morgan Kaufmann, US.
Trang 36Điền hình trong phương pháp tiếp cận gom cụm dựa trên mật độ là các thuật
toán như: DBSCAN(KDD 96), DENCLUE (KDD 98), CLIQUE (SIGMOD 98),
OPTICS (SIGMOD 99)
3.4.4 Gom cụm dựa trên mô hình (Model-based clustering methods)
Phương pháp này cố gắng tìm ra các phép xấp xỉ tốt của các tham số mô hìnhsao cho khớp với dữ liệu một cách tôi ưu nhất Có thé sử dụng chiến lược gom cụmphân cấp hoặc gom cụm phân hoạch, dựa trên cau trúc hoặc mô hình mà chúng ta giảđịnh về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận ra các phân
hoạch (xem ví dụ minh họa hình 3.4).
Layer 3Inhibitory
clusters
Layer 2Inhibitory
clusters
Layer 1Input units
Input pattern
Hình 3.4 — Ví dụ minh hoa gom cụm dựa trên mô hinh?
Ý tưởng của phương pháp này là dữ liệu phát sinh từ một sự kết hợp nào đó của
các phân phôi xác suất ấn Có 2 phương pháp tiếp cận chính:
- Tiếp cận thống kê (thuật toán COBWEB, CLASSIT, AutoClass)- Tiép can mang noron (hoc canh tranh, ban đồ tự câu trúc SOM)Phương pháp này gần giống phương pháp gom cụm dựa trên mật độ, do chúngphát triển các cụm riêng biệt nhằm cải tiến các mô hình đã được xác định trước đó, tuynhiên có những trường hợp nó không bat dầu với một số cụm cố dinh và không sử
dụng cùng mot khái niệm mật độ cho các cum.* 1.Han, M.Kamber, 2007, Data Minin g: Concepts and Techniques, 3th edition, Chapter 8, Morgan Kaufmann, US.
Trang 37Gom cụm dựa trên lưới là kỹ thuật thích hợp với dữ liệu da chiều, dựa trên cấu
trúc dữ liệu lưới để gom cu, phương pháp này chủ yếu tập trung áp dụng cho lớp dữliệu không gian Cách tiếp cận dựa trên lưới này không di chuyển các đối tượng trongcác ô mà xây dựng nhiều mức phân cấp của nhóm các dối tượng trong một ô Điều nàygần giống với gom cụm phân cấp, nhưng chúng không trộn các 6, đồng thời nó có théđáp ứng yêu cầu gom cụm đối với dit liệu đa chiều mà phương pháp dựa trên mật độ
không làm được.
Mục tiêu của phương pháp là lượng hóa dữ liệu thành các ô tạo thành cấu trúcdữ liệu lưới Sau do, quá trình gom cụm sé làm việc với các đối tượng trong từng 6trên lưới chứ không phải các đối tượng dữ liệu (hình 3.5)
- Déc lập với số déi tượng dữ liệu trong tập dữ liệu ban dau, tuy nhiên sẽcó sự phụ thuộc vào số ô trong mỗi chiều của không gian lưới
Một số thuật toán điển hình của phương pháp này như: STING (a Statistical
Information Gird approach) (1997), WAVECLUSTER (1998), CLIQUE (Clustering In
QUE'st) (1998),
* J.Han, M.Kamber, 2007, Data Minin g: Concepts and Techniques, 3th edition, Chapter 8, Morgan Kaufmann, US.
Trang 383.4.6 Gom cụm có dữ liệu ràng buộc (binding data clustering methods) [4]
Sự phát triển của gom cum dit liệu không gian trên CSDL lớn đã cung cấp
nhiều công cụ tiện lợi cho việc phân tích thông tin địa lý, tuy nhiên hầu hết các thuậttoán này cung cấp rất ít cách thức cho người dùng để xác dịnh các ràng buộc trong thếgiới thực cần phải dược thỏa mãn trong quá trình gom cụm Dé gom cum dit liệukhông gian hiệu quả hon, các nghiên cứu bổ sung cần được thực hiện dé cung cấp chongười dùng khả năng kết hợp các ràng buộc trong thuật toán gom cụm
Một số nhánh nghiên cứu được phát triển dựa trên cơ sở các phương pháp đã
có, được áp dụng nhiều trong các lĩnh vực khác nhau như:
- Gom cụm thống kê: các thuật toán theo hướng này sử dung các phép dođộ tương tự dé phân hoạch các đối tượng nhưng chúng chỉ áp dụng chocác dữ liệu có thuộc tính sô
- Gom cụm khái niệm: kỹ thuật này được phát triển dé gom cụm cho dữliệu hạng mục, gom cụm các đối tượng theo các khái niệm mà thuật toán
|= » rn
3.5 Gom cum dữ liệu chuỗi thời gian
Phân tích nghiên cứu về dit liệu chuỗi thời gian dã được nghiên cứu và sử dụng
trong một thời gian dài Một trong những mục tiêu chính của việc phan tích dữ liệu
chuỗi thời gian là nhăm dự đoán phản ứng trong tương lai của tín hiệu dựa trên cácquan sát trong quá khứ; nghĩa là xác định (forecast) giá tri tương lai dựa trên chuỗithời gian đã có cho đến thời điểm hiện tại Trong thống kê các mô hình toán học nhưMoving Average (MA), Autoregressive (AR), được dùng để phân tích sự tươngquan về dự đoán, đây là các kỹ thuật xử lý trên chuỗi thời gian tập trung vào tính tổngquát, quan tâm đến xu hướng trên toàn chuỗi thời gian Các nghiên cứu gần đây
thường khám phá các mẫu mang tính cục bộ trên chuỗi thời gian, do đó vấn đề gom
cụm bat đầu được quan tâm nhiêu hơn Tuy thời gian gom cụm được nghiên cứu trên
Trang 39dữ liệu chuỗi thời chưa phải là dài nhưng các nhà nghiên cứu cũng đã nhận thấy kỹthuật gom cụm quan trọng hơn phân tích tương quan trong việc tìm ra các quan hệ bênvững trên dữ liệu chuỗi thời gian
Gom cụm các chuỗi thời gian thành từng nhóm sao cho độ tương tự của cácchuỗi thời gian trong cùng nhóm là cao nhất và các chuỗi thời gian trong các nhóm
khác nhau thì độ tương tự thấp Mục tiêu cuối cùng của gom cụm dữ liệu là thực hiện
một quá trình phân loại trên cơ sở dữ liệu chuỗi thời gian sao cho mỗi chuỗi thời gianchỉ thuộc về một nhóm duy nhất (hình 3.6)
Quá trình gom cum tập dữ liệu chuỗi thời gian phải thỏa được các yêu cau sau:- Cho N là tập các chuỗi thời gian và C,, Co, , C„ là các cụm thu được sau quá
trình gom cụm, các cụm này phải thỏa các tính chat:
©_Ví,j € [1,k] vac;nG = Ø
o ULC, =T
ce Set7e th,tite+335 *
Hình 3.6 - Minh họa quá trình gom cụm
Giải thuật cần duyệt qua toàn bộ cơ sở dữ liệu và sử dụng mot độ đo tương tựthích hợp gom cụm các đối tượng Có nhiều phương pháp gom cụm có thể thực hiệntrên cơ sở dữ liệu chuỗi thời gian cho ra kết quả tốt Các chuỗi thời gian trong cùngmột cụm thé hiện cùng một kiểu biến thiên, mỗi cụm có một phan tử đại diện mà gọi là
mẫu đặc trưng Kết quả của giai đoạn gom cụm là cơ sở dữ liệu ban đầu chuyến về cơ
sở dữ liệu các mau dặc trưng cho từng nhóm
Luận văn này tập trung vào phương pháp gom cụm dữ liệu chuỗi thời gian theo
xu hướng dựa trên độ tương tự Mỗi chuỗi thời gian được xem là một điểm trongkhông gian ø chiều Theo phương pháp gom cụm dựa trên độ tương tự, cần xác định
một phương pháp đo khoảng cách hay đo độ tương tự giữa môi cặp mâu dữ liệu và sau
Trang 40đó sẽ sử dụng các kỹ thuật gom cụm truyền thống Đối với chuỗi thời gian phép đo độtương tự được sử dụng nhiều nhất là khoảng cách Euclid (Euclid Distance) (trên các
vector đặc trưng rút trích ra từ chuỗi thời gian), hệ số tương quan và khoảng cách dựatrên các kỹ thuật lập trình động Có nhiều thuật toán gom cụm có thể sử dụng tuy
nhiên trong phạm vi luận văn sẽ nghiên cứu so sánh 2 thuật toán là k-Means, và HAC.
3.6 Giái thuật k-Means
Thuật toán k-Means do MacQueen đề xuất trong lĩnh vực thong ké nam 1967,là thuật toán gom cụm phan hoạch, trong đó các cụm được định nghĩa bởi phần tửtrune tâm Thuật toán này dựa trên độ đo khoảng cách của các đối tượng dữ liệu dếnphần tử trung tâm của cụm
Định nghĩa 3.2: Phần tử trung tâm của một cụm là phần tử có giá trị các thamsố là trung bình các giá trị tham số của tất cả các phần tử trong cụm Phần tử trung tâmnày có thé xem là phần tử đại diện cho cụm O
Định nghĩa 3.3: Hàm mục tiêu của giải thuật được xem là cách thức để đánhgiá chất lượng kết quả gom cụm là tối ưu hay chưa o
Có thé do được hàm mục tiêu này theo 2 cách:
a Phương pháp !:
- Tinh tông bình phương các khoảng cách từ mỗi phan tử trong cụm dén
phần tử trung tâm của cụm: Ec, = Xếp, Dˆ(x,r,)
với r; là phan tử trung tâm của cụm C;
- Ham mục tiêu £ cua kêt quả gom cụm là tông các kết qua Eg,
E -S ky, = SY ven
i=1 i=1 x€€,
b Phương pháp 2: Ham mục tiêu được tính thông qua khoảng cách giữa các
điểm trung tâm của các cụm với nhau theo công thúc: