Vßi să phát trißn dßch vă di đáng nhanh, các nhà cung c¿p vián thông cÁn áp dăng công că khoa hác kỹ thuÁt nh° mô hình máy hác đß thång kê và dă đoán t°¢ng đåi chính xác să tng tr°ãng, d
Trang 1HàC VIâN CÔNG NGHâ B¯U CHÍNH VIàN THÔNG
-
Nguyán Xuân Quốc
NGHIÊN CĀU MÔ HÌNH HàC MÁY CHO DĂ BÁO L¯U L¯þNG TRONG
M¾NG DI ĐàNG
LUÂN VN TH¾C Sþ Kþ THUÂT (Theo đßnh h°ãng āng dāng)
TP HCM 3 NM 2022
Trang 2HàC VIâN CÔNG NGHâ B¯U CHÍNH VIàN THÔNG
-
Nguyán Xuân Quốc
NGHIÊN CĀU MÔ HÌNH HàC MÁY CHO DĂ BÁO L¯U L¯þNG TRONG
Trang 3LäI CAM ĐOAN
Tôi cam đoan rằng luÁn vn <Nghiên cứu mô hình học máy cho dự báo lưu lượng trong mạng di động= là công trình nghiên cāu cÿa chính tôi
Tôi cam đoan các så liãu, kÃt quÁ nêu trong luÁn vn là trung thăc và ch°a từng đ°āc ai công bå trong b¿t kỳ công trình nào khác
Không có sÁn phẩm/nghiên cāu nào cÿa ng°ái khác đ°āc sÿ dăng trong luÁn vn này mà không đ°āc trích d¿n theo đúng quy đßnh
Trang 4LäI CÀM ¡N
Trong suåt quá trình hác tÁp và nghiên cāu thăc hiãn luÁn vn, ngoài nß lăc cÿa bÁn thân, tôi đã nhÁn đ°āc să h°ßng d¿n nhiãt tình quý báu cÿa quý ThÁy Cô, cùng vßi să đáng viên và ÿng há cÿa gia đình, b¿n bè và đßng nghiãp Vßi lòng kính tráng và biÃt ¢n sâu sÃc, tôi xin gÿi lái cÁm ¢n chân thành tßi:
Ban Giám Đåc, Phòng đào t¿o sau đ¿i hác và quý ThÁy Cô đã t¿o mái điÅu kiãn thuÁn lāi giúp tôi hoàn thành luÁn vn
Tôi xin chân thành cÁm ¢n ThÁy TS Nguyán Xuân Sâm, ng°ái thÁy kính yêu
đã hÃt lòng giúp đÿ, h°ßng d¿n, đáng viên, t¿o điÅu kiãn cho tôi trong suåt quá trình thăc hiãn và hoàn thành luÁn vn
Tôi xin chân thành cÁm ¢n gia đình, b¿n bè, đßng nghiãp trong c¢ quan đã đáng viên, hß trā tôi trong lúc khó khn đß tôi có thß hác tÁp và hoàn thành luÁn vn
Mặc dù đã có nhiÅu cå gÃng, nß lăc, nh°ng do thái gian và kinh nghiãm nghiên cāu khoa hác còn h¿n chà nên không thß tránh khãi nhāng thiÃu sót Tôi r¿t mong nhÁn đ°āc să góp ý cÿa quý ThÁy Cô cùng b¿n bè đßng nghiãp đß kiÃn thāc cÿa tôi ngày mát hoàn thiãn h¢n
Xin chân thành cÁm ¢n!
TP Hß Chí Minh, ngày 25 tháng 01 nm 2022
Hác viên thăc hiãn luÃn vn
Nguyán Xuân Quốc
Trang 5DANH SÁCH HÌNH VẼ
Hình 1.1 KiÃn trúc mô hình phân tích dā liãu lßn cÿa m¿ng vô tuyÃn [5] 5
Hình 2.1 S¢ đß bißu dián thuÁt toán RF 16
Hình 2.2 S¢ đß bißu dián ý t°ãng thuÁt toán K-means 17
Hình 2.3 Các thành phÁn chußi thái gian 22
Hình 2.4 Dă báo chußi thái gian không có yÃu tå bên ngoài 25
Hình 2.5 Dă báo chußi thái gian vßi các yÃu tå bên ngoài 27
Hình 3.1 Mô-đun lặp l¿i trong mát LSTM chāa bån lßp t°¢ng tác 39
Hình 3.2 KiÃn trúc cÿa mát khåi LSTM vani đißn hình 40
Hình 3.3 Các b°ßc thăc nghiãm cho mô hình 42
Hình 4.1 Khung thái gian 48h vßi offset là 24 46
Hình 4.2: Khung thái gian 6h vßi offset là 1 46
Hình 4.3 Mô hình tÁp dā liãu nhãn A vßi đá đo MAE 47
Hình 4.4: Mô hình tÁp dā liãu nhãn A vßi đá đo MSLE 48
Hình 4.5 Bißu đß so sánh đá đo m¿t mát tÁp dā liãu A 49
Hình 4.6 Mô hình tÁp dā liãu nhãn B vßi đá đo MSLE 49
Hình 4.7 Mô hình tÁp dā liãu nhãn C vßi đá đo MSLE 50
Trang 6DANH SÁCH BÀNG
BÁng 4.1 So sánh các đá đo m¿t mát cÿa tÁp A 48
Trang 7DANH MĀC CÁC THUÂT NGĀ, CHĀ VI¾T TÄT
Communications
Trang 8DANH MĂC CÁC THUÀT NGĀ, CHĀ VIÂT TÂT v
MĂC LĂC vi
Mâ ĐÀU 1
1 Tính c¿p thiÃt cÿa đÅ tài 1
2 Táng quan vÅ v¿n đÅ nghiên cāu 1
3 Măc đích nghiên cāu 2
4 Đåi t°āng và ph¿m vi nghiên cāu 2
1.1.1 Ch¿t l°āng dßch vă (Quality of Service 3 QoS) 3
1.1.2 Dung l°āng l°u l°āng và kích th°ßc cell 3
1.1.3 Dung l°āng l°u l°āng so vßi vùng phÿ sóng 4
1.1.4 Thái gian giā kênh 4
1.2 Āng dăng hác máy trong phân tích l°u l°āng 5
Trang 92.1.1.1 Hác có giám sát (Supervised learning) 7
2.1.1.2 Hác không giám sát (Unsupervised learning) 9
2.1.1.3 Hác bán giám sát (Semi-supervised learning) 9
2.1.1.4 Hác tng c°áng (Reinforcement learning) 9
2.1.2 Các thuÁt toán hác máy 9
2.1.2.1 Hßi quy (Linear Regression) 9
2.1.2.2 Cây quyÃt đßnh (Decision Tree) 15
2.1.2.3 Rừng ng¿u nhiên (Random Forest) 16
2.1.2.4 Support Vector Machine (SVM) 16
2.1.2.5 KNN (k nearest neighbors) 17
2.1.2.6 K-Means 17
2.1.2.7 M¿ng thÁn kinh nhân t¿o (Neural Networks) 18
2.2 Kỹ thuÁt phân tích và dă báo theo chußi thái gian 18
2.2.1 Phân lo¿i các lo¿i chußi thái gian 19
2.2.2 Măc tiêu cÿa Phân tích Chußi thái gian 20
2.2.3 Các thành phÁn chußi thái gian 20
2.2.4 Dă báo chußi thái gian 22
2.2.5 Các tr°áng hāp sÿ dăng phân tích chußi thái gian 27
2.3 Các tiêu chuẩn đánh giá 28
2.4 Mát så công trình nghiên cāu liên quan 30
Trang 103.4 KÃt luÁn ch°¢ng 42
CH¯¡NG 4 MÔ PHâNG CH¯¡NG TRÌNH VÀ ĐÁNH GIÁ KÂT QUÀ 44
4.1 Môi tr°áng và bá dā liãu thăc nghiãm 44
4.1.1 Môi tr°áng thăc nghiãm 44
4.1.2 Dā liãu thăc nghiãm 44
4.2 Thăc nghiãm và kÃt quÁ thăc nghiãm cÿa mô hình 45
KÂT LUÀN 51
1 KÃt quÁ nghiên cāu cÿa đÅ tài 51
2 H¿n chà cÿa luÁn vn 51
3 H°ßng phát trißn cÿa luÁn vn 51
TÀI LIâU THAM KHÀO 52
BÀNG CAM ĐOAN 54
Trang 11Mæ ĐÀU
1 Tính c¿p thi¿t cÿa đÁ tài
Tên đÅ tài: Nghiên cāu mô hình hác máy cho dă báo l°u l°āng trong m¿ng di đáng
Viãt Nam đã và đang nß lăc hÃt sāc đß hiãn đ¿i hóa và mã ráng m¿ng l°ßi vián thông Trong n°ßc, viãc liên l¿c giāa các tỉnh thành đÅu đ°āc så hóa và kÃt nåi vßi 63/63 tỉnh thành, 705/705 quÁn/huyãn/thß xã, 10.599/10.599 xã/ph°áng/thß tr¿n thông qua m¿ng cáp quang hoặc sóng vô tuyÃn chuyßn tiÃp Các đ°áng dây chính đ°āc tng lên đáng kß và viãc sÿ dăng điãn tho¿i di đáng đang phát trißn nhanh chóng Tính đÃn tháng 6 nm 2020, Viãt Nam có 126,95 triãu thuê bao điãn tho¿i di đáng, xÃp h¿ng 6 trên toàn thà gißi
T¿i Tây Ninh, 3 nhà cung c¿p dßch vă vián thông lßn là Viettel, mobifone, vinaphone đã phát sóng trên 1154 tr¿m LTE, phÿ sóng đÃn 9/9 thành phå/thß xã/huyãn, 95/95 xã/ph°áng/thß tr¿n góp phÁn thúc đẩy kÃt nåi và chia s¿ dā liãu, phát trißn xã hái så
Hiãn t¿i dßch bãnh covid-19 r¿t nguy hißm, mát så thái đißm giãn cách xã hái, làm thúc đẩy tng tr°ãng l°u l°āng (traffic) dā liãu di đáng
Vßi să phát trißn dßch vă di đáng nhanh, các nhà cung c¿p vián thông cÁn áp dăng công că khoa hác kỹ thuÁt nh° mô hình máy hác đß thång kê và dă đoán t°¢ng đåi chính xác să tng tr°ãng, dă đoán dung l°āng cÿa nhà cung c¿p vián thông đáp āng đß có kà ho¿ch phát trißn m¿ng l°ßi di đáng phù hāp đß vừa đÁm bÁo ch¿t l°āng, không đß nghÁn căc bá, đÁu t° h¿ tÁng đ°āc hiãu quÁ và đáp āng đ°āc ch¿t l°āng dßch vă cho khách hàng vßi chi phí th¿p nh¿t và hiãu quÁ nh¿t
Máy hác là mát lĩnh văc ráng lßn, do đó không có mát ngôn ngā lÁp trình nào có thß mát mình thăc hiãn mái viãc, do vÁy nghiên cāu chÿ yÃu mô hình LSTM trên nÅn tÁng sÿ dăng Python đß āng dăng trong dßch vă m¿ng di đáng
Nghiên cāu mô hình LSTM cho viãc phân lo¿i chußi dā liãu theo thái gian āng dăng trong phân tích dā liãu m¿ng di đáng LTE cÿa mát nhà cung c¿p dßch vă trên đßa bàn tỉnh Tây Ninh
Trang 123 Māc đích nghiên cāu
Xây dăng, phát trißn hã thång phân tích, quÁn lý, giám sát hã thång m¿ng access LTE dăa trên mô hình LSTM dă đoán să tng tr°ãng l°u l°āng cÿa m¿ng di đáng đß đ°a ra Ph°¢ng án hành đáng đÁm bÁo tiÃn đá và hiãu quÁ đÁu t° cao, chi phí phù hāp
Đåi t°āng nghiên cāu: Mô hình LSTM, các công că thu thÁp, phân tích log và cÁnh báo
Ph¿m vi nghiên cāu: Xây dăng các rule tng tr°ãng cÿa m¿ng di đáng, công că hß trā phân tích log và cÁnh báo hiãu quÁ cho m¿ng di đáng LTE
Phương pháp luận: Dăa trên c¢ sã lý thuyÃt vÅ mô hình máy hác đß xây dăng
måi quan hã mô hình LSTM
Phương pháp đánh giá dựa trên cơ sở toán học: Trên c¢ sã các lý thuyÃt vÅ mô
hình hác máy, đÅ xu¿t ra thuÁt toán đß dă báo l°u l°āng trong m¿ng di đáng Chāng minh thuÁt toán và đánh giá hiãu quÁ cÿa thuÁt toán
Phương pháp đánh giá bằng mô phỏng thực nghiệm: Xây dăng mô hình mô phãng
và thăc nghiãm thuÁt toán đã đÅ xu¿t
6 Bố cāc luÃn vn
Ngoài phÁn mã đÁu, măc lăc, kÃt luÁn và tài liãu tham khÁo, nái dung chính cÿa luÁn án đ°āc chia thành 4 ch°¢ng, că thß nh° sau:
Ch°¢ng 1 trình bày táng quan vÅ m¿ng di đáng Ch°¢ng 2 trình bày c¢ sã lý thuyÃt và các công trình liên quan tßi đÅ tài luÁn vn
Ch°¢ng 3 trình bày đÅ xu¿t, nghiên cāu mô hình hác sâu cho dă báo l°u l°āng trong m¿ng di đáng
Ch°¢ng 4 trình bày mô phãng ch°¢ng trình và đánh giá kÃt quÁ thăc nghiãm
Trang 13T¿t cÁ các tr¿m gåc này đÅu đ°āc liên kÃt thông qua m¿ng truyÅn d¿n trã l¿i m¿ng lõi cÿa nhà cung c¿p dßch vă di đáng, m¿ng này quÁn lý các kÃt nåi giāa khách hàng cÿa mình và nhāng ng°ái dùng di đáng khác cũng nh° giāa khách hàng cÿa nó vßi internet
Các yÃu tå quan tráng cÿa l°u l°āng di đáng bao gßm: ch¿t l°āng dßch vă, dung l°āng l°u l°āng và kích th°ßc cell, hiãu su¿t phá và phân vùng, dung l°āng l°u l°āng so vßi vùng phÿ sóng và phân tích thái gian giā kênh
1.1.1 Chất lượng dịch vụ (Quality of Service – QoS)
T¿i thái đißm mà các ô cÿa mát hã thång con vô tuyÃn đ°āc thiÃt kÃ, các măc tiêu Ch¿t l°āng Dßch vă (QoS) đ°āc đặt ra, cho: tÃc nghÁn và chặn giao thông, vùng phÿ sóng chi phåi, C / I, xác su¿t ngừng ho¿t đáng, tỷ lã chuyßn giao th¿t b¿i, tỷ lã cuác gái thành công táng thß, tåc đá dā liãu, đá trá
1.1.2 Dung lượng lưu lượng và kích thước cell
Càng t¿o ra nhiÅu l°u l°āng, càng cÁn nhiÅu tr¿m gåc đß phăc vă khách hàng Så l°āng tr¿m gåc cÿa mát m¿ng di đáng đ¢n giÁn bằng så l°āng cell Kỹ s° giao thông có thß đ¿t đ°āc măc tiêu đáp āng så l°āng khách hàng ngày càng tng bằng cách tng så l°āng cell trong khu văc liên quan, do đó, điÅu này cũng sÁ làm tng så l°āng tr¿m c¢ sã Ph°¢ng pháp này đ°āc gái là tách tà bào (và kÃt hāp vßi sectorization) là cách duy nh¿t đß cung c¿p dßch vă cho dân så đang phát trißn ĐiÅu này chỉ đ¢n giÁn ho¿t đáng bằng cách chia các cell đã có sẵn thành các kích th°ßc nhã h¢n do đó tng dung l°āng l°u l°āng Viãc giÁm bán kính cell cho phép cell chāa thêm l°u l°āng truy cÁp Chi phí thiÃt bß cũng có thß đ°āc cÃt giÁm bằng cách
Trang 14giÁm så l°āng tr¿m gåc thông qua viãc thiÃt lÁp ba cell lân cÁn, vßi các cell phăc vă ba cung 120 ° vßi các nhóm kênh khác nhau
M¿ng vô tuyÃn di đáng đ°āc vÁn hành vßi tài nguyên hāu h¿n, h¿n chà (phá tÁn så có sẵn) Các tài nguyên này phÁi đ°āc sÿ dăng mát cách hiãu quÁ đß đÁm bÁo rằng t¿t cÁ ng°ái dùng đÅu nhÁn đ°āc dßch vă, tāc là ch¿t l°āng dßch vă đ°āc duy trì mát cách nh¿t quán ĐiÅu này cÁn phÁi sÿ dăng mát cách cẩn thÁn phá tÁn h¿n chÃ, mang l¿i să phát trißn cÿa các tà bào trong m¿ng di đáng, cho phép tái sÿ dăng tÁn så bãi các căm tà bào liên tiÃp Các hã thång sÿ dăng hiãu quÁ phá có sẵn đã đ°āc phát trißn, ví dă: hã thång GSM Bernhard Walke đßnh nghĩa hiãu su¿t phá là đ¢n vß dung l°āng l°u l°āng chia cho tích cÿa phÁn tÿ bng thông và diãn tích bÅ mặt, và phă thuác vào så kênh vô tuyÃn trên mßi cell và kích th°ßc căm (så cell trong mát nhóm cell)
1.1.3 Dung lượng lưu lượng so với vùng phủ sóng
Hã thång di đáng sÿ dăng mát hoặc nhiÅu trong bån kỹ thuÁt truy cÁp khác nhau (TDMA, FDMA, CDMA, SDMA) Xem các khái niãm vÅ Di đáng GiÁ sÿ mát tr°áng hāp Đa truy nhÁp phân chia theo mã đ°āc xem xét cho måi quan hã giāa dung l°āng l°u l°āng và vùng phÿ sóng (khu văc đ°āc bao phÿ bãi các ô) Hã thång di đáng CDMA có thß cho phép tng dung l°āng l°u l°āng vßi chi phí ch¿t l°āng dßch vă
1.1.4 Thời gian giữ kênh
Các thông så quan tráng nh° tỷ lã sóng trên nhiáu (C / I), hiãu su¿t phá và khoÁng cách tái sÿ dăng xác đßnh ch¿t l°āng dßch vă cÿa m¿ng di đáng Thái gian giā kênh là mát tham så khác có thß Ánh h°ãng đÃn ch¿t l°āng dßch vă trong m¿ng di đáng, do đó nó đ°āc xem xét khi lÁp kà ho¿ch m¿ng Tuy nhiên, viãc tính toán thái gian giā kênh không phÁi là điÅu dá dàng (Đây là thái gian mát Tr¿m di đáng (MS) v¿n ã trong cùng mát ô trong khi gái) Do đó, thái gian giā kênh sÁ nhã h¢n thái gian giā cuác gái nÃu MS di chuyßn nhiÅu h¢n mát ô vì quá trình chuyßn giao sÁ dián ra và MS từ bã kênh Trên thăc tÃ, không thß xác đßnh chính xác thái gian giā kênh Do đó, tßn t¿i các mô hình khác nhau cho phân phåi thái gian giā kênh Trong ngành công nghiãp, mát °ßc l°āng tåt vÅ thái gian giā kênh th°áng đÿ đß xác đßnh khÁ nng l°u l°āng m¿ng
Trang 151.2 Āng dāng hác máy trong phân tích l°u l°ÿng
L°u l°āng m¿ng di đáng đ°āc t¿o ã các tr¿m ngày càng trã nên phāc t¿p h¢n và khó hißu h¢n Ví dă: m¿ng không dây mang l¿i nhiÅu chỉ så hiãu su¿t m¿ng (ví dă: tỷ lã tín hiãu trên nhiáu (SNR), tåc đá truy cÁp liên kÃt / tỷ lã xung đát, tỷ lã m¿t gói, tỷ lã lßi bit (BER), đá trá, chỉ báo ch¿t l°āng liên kÃt, thông l°āng, nng l°āng tiêu thă, v.v.) và các thông så ho¿t đáng ã các lßp khác nhau cÿa ngn xÃp giao thāc m¿ng (ví dă: ã lßp PHY: kênh tÁn så, s¢ đß điÅu chÃ, công su¿t máy phát; ã lßp MAC: lăa chán giao thāc MAC và các tham så cÿa các giao thāc MAC că thß nh° CSMA: kích th°ßc cÿa sá tranh ch¿p, så l°āng dă phòng tåi đa, så mũ dă phòng; TSCH: trình tă nhÁy kênh, v.v.) có tác đáng đáng kß đÃn hiãu su¿t truyÅn thông
Viãc điÅu chỉnh các thông så vÁn hành này và đ¿t đ°āc tåi °u hóa nhiÅu lßp đß tåi đa hóa hiãu su¿t đÁu cuåi là mát nhiãm vă đÁy thách thāc ĐiÅu này đặc biãt phāc t¿p do nhu cÁu l°u l°āng lßn và tính không đßng nh¿t cÿa các công nghã không dây đ°āc trißn khai Đß giÁi quyÃt nhāng thách thāc này, hác máy (ML) ngày càng đ°āc sÿ dăng nhiÅu h¢n đß phát trißn các ph°¢ng pháp tiÃp cÁn nâng cao có thß tă đáng trích xu¿t các m¿u và dă đoán xu h°ßng (ví dă: ã lßp PHY: nhÁn d¿ng giao thoa, ã lßp MAC: dă đoán ch¿t l°āng liên kÃt, ã lßp m¿ng: °ßc tính nhu cÁu giao thông) dăa trên các phép đo môi tr°áng và các chỉ så hiãu su¿t làm đÁu vào Các m¿u nh° vÁy có thß đ°āc sÿ dăng đß tåi °u hóa cài đặt tham så ã các lßp giao thāc khác nhau, ví dă: PHY, MAC hoặc lßp m¿ng
Hình 1.1: Ki¿n trúc mô hình phân tích dā liãu lãn cÿa m¿ng vô tuy¿n [1]
Vßi nhāng tiÃn bá vÅ phÁn cāng và sāc m¿nh tính toán cũng nh° khÁ nng thu thÁp, l°u trā và xÿ lý mát l°āng lßn dā liãu, hác máy (ML) đã dÁn tiÃp cÁn vào nhiÅu
Trang 16lĩnh văc khoa hác khác nhau Nhāng thách thāc mà m¿ng không dây và t°¢ng lai phÁi đåi mặt cũng thúc đẩy lĩnh văc m¿ng không dây tìm kiÃm các giÁi pháp sáng t¿o đß đÁm bÁo hiãu su¿t m¿ng nh° mong đāi Đß giÁi quyÃt nhāng thách thāc này, ML ngày càng đ°āc sÿ dăng ráng rãi trong các m¿ng không dây
Trong luÁn vn này sÁ sÿ dăng thuÁt toán hác máy có giám sát là LSTM (Long short term memory) và ph°¢ng pháp time series đß tiÃn hành dă báo l°u l°āng mang di đáng dăa vào chußi thái gian, hß trā cho viãc phát hiãn nhāng tr¿m có l°u l°āng quá cao hoặc quá th¿p đß có nhāng kà ho¿ch cũng nh° chiÃn l°āc xÿ lý phù hāp
1.3 K¿t luÃn ch°¢ng
Ch°¢ng mát đã gißi thiãu và trình bày s¢ l°āc vÅ m¿ng di đáng, l°u l°āng m¿ng cũng nh° các tr¿m thu phát và quÁn lý m¿ng di đáng Ngoài ra, các khái niãm liên quan đÃn hác máy và să Ánh h°ãng cÿa hác máy đÃn nhiÅu lĩnh văc khác nhau trong đó m¿ng di đáng là mát trong nhāng lĩnh văc có tiÅm nng đß có thß áp dăng các kĩ thuÁt liên quan đÃn hác máy, nhằm cÁi thiãn ch¿t l°āng và nâng cao dßch vă
Trang 17CH¯¡NG 2 C¡ Sæ LÝ THUY¾T VÀ CÁC CÔNG TRÌNH
LIÊN QUAN
2.1 C¢ sç lý thuy¿t vÁ hác máy
2.1.1 Giới thiệu học máy
Hác máy (ML) là mát lo¿i trí tuã nhân t¿o (AI) cho phép các āng dăng phÁn mÅm trã nên chính xác h¢n trong viãc dă đoán kÃt quÁ mà không cÁn đ°āc lÁp trình rõ ràng đß làm nh° vÁy Các thuÁt toán hác máy sÿ dăng dā liãu lßch sÿ làm đÁu vào đß dă đoán các giá trß đÁu ra mßi
Hác máy th°áng đ°āc phân lo¿i theo cách mát thuÁt toán hác đß trã nên chính xác h¢n trong các dă đoán cÿa nó Có bån cách tiÃp cÁn c¢ bÁn: hác có giám sát, hác không giám sát, hác bán giám sát và hác tng c°áng
2.1.1.1 Hác có giám sát (Supervised learning)
Trong lo¿i hác máy này, các nhà khoa hác dā liãu cung c¿p các thuÁt toán vßi dā liãu hu¿n luyãn đ°āc gÃn nhãn và xác đßnh các biÃn mà há muån thuÁt toán đánh giá vÅ các måi t°¢ng quan CÁ đÁu vào và đÁu ra cÿa thuÁt toán đÅu đ°āc chỉ đßnh
Đß giÁi quyÃt mát v¿n đÅ nh¿t đßnh vÅ hác có giám sát, ng°ái ta phÁi thăc hiãn các b°ßc sau:
B°ãc 1: Xác đßnh lo¿i ví dă đào t¿o Tr°ßc khi làm b¿t cā điÅu gì khác, ng°ái
dùng nên quyÃt đßnh lo¿i dā liãu nào sÁ đ°āc sÿ dăng làm tÁp hu¿n luyãn Ví dă, trong tr°áng hāp phân tích chā viÃt tay, đây có thß là mát ký tă viÃt tay đ¢n l¿, toàn bá từ viÃt tay, toàn bá câu chā viÃt tay hoặc có thß là mát đo¿n vn viÃt tay đÁy đÿ
B°ãc 2: TÁp hāp mát tÁp hāp đào t¿o TÁp hu¿n luyãn cÁn phÁi đ¿i diãn cho
viãc sÿ dăng hàm trong thà gißi thăc Do đó, mát tÁp hāp các đåi t°āng đÁu vào đ°āc tÁp hāp và các đÁu ra t°¢ng āng cũng đ°āc thu thÁp, từ các chuyên gia con ng°ái hoặc từ các phép đo
B°ãc 3: Xác đßnh bißu dián đặc đißm đÁu vào cÿa hàm đã hác Đá chính xác
cÿa hàm đã hác phă thuác nhiÅu vào cách bißu dián đåi t°āng đÁu vào Thông th°áng, đåi t°āng đÁu vào đ°āc chuyßn đái thành mát vect¢ đặc tr°ng, chāa mát så đặc đißm mô tÁ đåi t°āng Så l°āng các đåi t°āng đßa lý không đ°āc quá lßn, vì điÅu này có thß xÁy ra; nh°ng phÁi chāa đÿ thông tin đß dă đoán chính xác kÃt quÁ đÁu ra
Trang 18B°ãc 4: Xác đßnh c¿u trúc cÿa hàm đã hác và thuÁt tốn hác t°¢ng āng Ví
dă, kỹ s° cĩ thß chán sÿ dăng máy vect¢ hß trā hoặc cây quyÃt đßnh
B°ãc 5: Hồn thiãn thiÃt kà Ch¿y thuÁt tốn hác tÁp trên tÁp hu¿n luyãn đã
tÁp hāp Mát så thuÁt tốn hác cĩ giám sát yêu cÁu ng°ái dùng xác đßnh các thơng så điÅu khißn nh¿t đßnh Các tham så này cĩ thß đ°āc điÅu chỉnh bằng cách tåi °u hĩa hiãu su¿t trên mát tÁp hāp con (đ°āc gái là tÁp xác nhÁn) cÿa tÁp hu¿n luyãn hoặc thơng qua xác nhÁn chéo
B°ãc 6: Đánh giá đá chính xác cÿa hàm đã hác Sau khi điÅu chỉnh tham så
và hác hãi, hiãu su¿t cÿa chāc nng kÃt quÁ phÁi đ°āc đo trên mát bá thÿ nghiãm tách biãt vßi bá hu¿n luyãn
Cách ho¿t đáng cÿa thuÃt tốn hác cĩ giám sát
Cho mát tÁp hāp tÁp dā liãu hu¿n luyãn N theo m¿u {(x1, y1),&(xN, yN)} sao cho xi là vect¢ đặc tr°ng cÿa m¿u �㖾-th và yi là nhãn cÿa nĩ (tāc là lßp), mát thuÁt tốn hác tìm kiÃm mát hàm g ∶ X → Ā , trong đĩ X là khơng gian đÁu vào và Y là khơng
gian đÁu ra Hàm g là mát phÁn tÿ cÿa mát så khơng gian cÿa các hàm khÁ thi G , th°áng đ°āc gái là khơng gian giÁ thuyÃt Đơi khi sÁ thuÁn tiãn khi bißu dián g bằng hàm tính đißm f : X × Y → ℝ sao cho g đ°āc xác đßnh là trÁ vÅ giá trß y cho đißm cao
nh¿t: g(x) =argþmax f(x, y) Gái F bißu thß khơng gian cÿa các hàm tính đißm
Mặc dù G và F cĩ thß là b¿t kỳ khơng gian hàm nào, nh°ng nhiÅu thuÁt tốn
hác là mơ hình xác su¿t trong đĩ g cĩ d¿ng mơ hình xác su¿t cĩ điÅu kiãn
g(x) = P (y | x), hoặc f cĩ d¿ng mơ hình xác su¿t chung f(x, y) = P (x, y) Ví dă, Nạve Bayes và phân tích phân biãt tuyÃn tính là mơ hình xác su¿t chung, trong khi hßi quy logistic là mơ hình xác su¿t cĩ điÅu kiãn
Cĩ hai cách tiÃp cÁn c¢ bÁn đß chán f hoặc g: giÁm thißu rÿi ro theo kinh nghiãm và giÁm thißu rÿi ro c¿u trúc GiÁm thißu rÿi ro theo kinh nghiãm tìm kiÃm chāc nng phù hāp nh¿t vßi dā liãu đào t¿o GiÁm thißu rÿi ro c¿u trúc bao gßm mát chāc nng ph¿t kißm sốt să cân bằng đá lãch/ph°¢ng sai
Trong cÁ hai tr°áng hāp, giÁ đßnh rằng tÁp hu¿n luyãn bao gßm mát m¿u các cặp đác lÁp và đ°āc phân phåi giång nhau, (xi, yi) Đß đo l°áng māc đá phù hāp cÿa mát hàm vßi dā liãu hu¿n luyãn, hàm m¿t mát �㔿: Ā × Ā → ℝ g 0 đ°āc xác đßnh Đåi vßi ví dă đào t¿o (ý�㕖, þ�㕖), viãc m¿t dă đốn giá trß þ là �㔿(þ�㕖, þ)
Trang 19Rÿi ro R(g) cÿa hàm g đ°āc xác đßnh là tán th¿t dă kiÃn cÿa g ĐiÅu này có thß đ°āc °ßc tính từ dā liãu đào t¿o nh°
ý�㕒ÿ�㕝(�㕔) = �㕁1∑ �㔿(þ�㕖 �㕖, �㕔(ý�㕖)) (2.1) 2.1.1.2 Hác không giám sát (Unsupervised learning)
Lo¿i hác máy này liên quan đÃn các thuÁt toán đào t¿o trên dā liãu không đ°āc gÃn nhãn ThuÁt toán quét qua các tÁp dā liãu đß tìm kiÃm b¿t kỳ kÃt nåi có ý nghĩa nào Dā liãu mà các thuÁt toán đào t¿o cũng nh° các dă đoán hoặc khuyÃn nghß mà chúng xu¿t ra đ°āc xác đßnh tr°ßc
2.1.1.3 Hác bán giám sát (Semi-supervised learning)
Cách tiÃp cÁn này đåi vßi hác máy liên quan đÃn să kÃt hāp cÿa hai lo¿i tr°ßc đó Các nhà khoa hác dā liãu có thß cung c¿p mát thuÁt toán chÿ yÃu là dā liãu đào t¿o đ°āc gÃn nhãn, nh°ng mô hình có thß tă do khám phá dā liãu và phát trißn să hißu biÃt cÿa riêng mình vÅ tÁp dā liãu
2.1.1.4 Hác tng c°áng (Reinforcement learning)
Các nhà khoa hác dā liãu th°áng sÿ dăng hác tng c°áng đß d¿y máy hoàn thành mát quy trình gßm nhiÅu b°ßc trong đó có các quy tÃc đ°āc xác đßnh rõ ràng Các nhà khoa hác dā liãu lÁp trình mát thuÁt toán đß hoàn thành mát nhiãm vă và cung c¿p cho nó các tín hiãu tích căc hoặc tiêu căc khi nó tìm ra cách hoàn thành mát nhiãm vă Nh°ng phÁn lßn, thuÁt toán tă quyÃt đßnh nhāng b°ßc cÁn thăc hiãn trong quá trình thăc hiãn
2.1.2 Các thuật toán học máy
Có r¿t nhiÅu thuÁt toán đ°āc sÿ dăng trong hác máy, tuy nhiên ã ph¿m vi cÿa đÅ tài nghiên cāu cũng nh° lĩnh văc liên quan đÃn m¿ng di đáng, mát så thuÁt toán th°áng đ°āc sÿ dăng trong lĩnh văc này đ°āc bài báo [1] liãt kê nh° sau:
2.1.2.1 Hßi quy (Linear Regression)
Hßi quy tuyÃn tính là mát kỹ thuÁt hác có giám sát đ°āc sÿ dăng đß mô hình hóa måi quan hã giāa mát tÁp hāp các biÃn đÁu vào đác lÁp là x và mát biÃn đÁu ra phă thuác là y, sao cho đÁu ra là să kÃt hāp tuyÃn tính cÿa các biÃn đÁu vào:
Trang 20(2.2) Trong đó:
x = [x1,&xn]T và θ = [θ0,θ1,&θn]Tlà vect¢ tham så °ßc tính từ mát tÁp hu¿n luyãn nh¿t đßnh (yi,xi), j = 1,2,&m
a Mô hình hßi quy tuy¿n tính đ¢n giÁn
Måi quan hã giāa biÃn trÁ lái Y và biÃn dă đoán X đ°āc quy đßnh là mô hình
tuyÃn tính
Ā = �㔷ÿ+ �㔷Āÿ + �㔺, (2.3)
trong đó Ā0 và Ā1 là các hằng så đ°āc gái là hã så hßi quy mô hình hoặc tham så và �㔀 là mát lßi hoặc nhiáu ng¿u nhiên GiÁ đßnh rằng trong ph¿m vi cÿa các quan sát đ°āc nghiên cāu, ph°¢ng trình tuyÃn tính (2.1) cung c¿p mát x¿p xỉ ch¿p nhÁn đ°āc
cho måi quan hã thăc să giāa Y và X Nói cách khác, Y x¿p xỉ mát hàm tuyÃn tính
cÿa X và �㔀 đo l°áng să khác biãt trong phép tính gÁn đúng đó Că thß, �㔀 không chāa thông tin có hã thång đß xác đßnh Y ch°a đ°āc ghi trong X Hã så Ā1, đ°āc gái là đá
dåc, có thß đ°āc hißu là să thay đái cÿa Y đåi vßi thay đái đ¢n vß trong X Hã så Ā0,
đ°āc gái là hã så không đái hoặc đánh chặn, là giá trß dă đoán cÿa Y khi X = 0
Ph°¢ng trình (2.1), có thß đ°āc viÃt nh°: þ�㕖 = Ā0+ Ā1ý�㕖+ �㔀�㕖, �㕖 = 1, 2, & , ÿ, (2.4) Trong đó þ�㕖 đ¿i diãn cho giá trß thā i cÿa biÃn trÁ lái Y, ý�㕖 đ¿i diãn cho giá trß thā i cÿa biÃn dă đoán X và �㔀�㕖 đ¿i diãn cho lßi trong x¿p xỉ cÿa þ�㕖
Phân tích hßi quy khác vßi mát cách quan tráng từ phân tích t°¢ng quan Hã
så t°¢ng quan là đåi xāng theo nghĩa Cor (Y, X) giång vßi Cor (X, Y) Các biÃn X và
Ycó tÁm quan tráng nh° nhau Trong phân tích hßi quy, biÃn trÁ lái Y có tÁm quan tráng chính TÁm quan tráng cÿa yÃu tå dă đoán X nằm ã khÁ nng tính đÃn să biÃn thiên cÿa biÃn trÁ lái Y và không phÁi là chính nó Do đó Y có tÁm quan tráng
hàng đÁu
b ¯ãc tính tham số
Dăa trên dā liãu có sẵn, chúng tôi muån °ßc tính các tham så Ā0 và Ā1 ĐiÅu này t°¢ng đ°¢ng vßi viãc tìm đ°áng thẳng cho đißm phù hāp nh¿t (đ¿i diãn) cÿa các đißm trong bißu đß phân tán cÿa trÁ lái so vßi biÃn dă đoán Chúng tôi °ßc tính các
Trang 21tham så bằng ph°¢ng pháp bình ph°¢ng tåi thißu, đ°a ra đ°áng thẳng tåi thißu hóa táng bình ph°¢ng cÿa khoÁng cách dác từ mßi đißm đÃn đ°áng thẳng KhoÁng cách dác bißu thß các lßi trong biÃn trÁ lái có thß thu đ°āc bằng cách viÃt l¿i (2.2) nh° �㔀�㕖 = þ�㕖 2 Ā02 Ā1ý�㕖, �㕖 = 1, 2, & , ÿ (2.5) Táng bình ph°¢ng cÿa các khoÁng cách này sau đó có thß đ°āc viÃt là
þ(Ā0,Ā1) = ∑ �㔀Ā �㕖2
�㕖=1 = ∑ (þĀ �㕖 2 Ā02 Ā1ý�㕖)�㕖2
�㕖=1 (2.6) Các giá trß Ā̂0 và Ā̂1 tåi thißu hóa þ(Ā0,Ā1) đ°āc đ°a ra bãi
Ā̂1 = ∑(þ�㕖 3 þ̅)(ý�㕖 3 ý̅)
∑(ý�㕖 3 ý̅)2 (2.7) Ā̂0 = þ̅ 2 Ā̂1ý̅ (2.8)
Chúng tôi cung c¿p công thāc cho Ā̂1 tr°ßc công thāc cho Ā̂0bãi vì Ā̂0sÿ dăng Ā̂1 Các °ßc tính, Ā̂0 và Ā̂1đ°āc gái là °ßc l°āng bình ph°¢ng nhã nh¿t cÿa Ā0 và Ā1vì chúng là giÁi pháp cho ph°¢ng pháp bình ph°¢ng nhã nh¿t, đánh chặn và đá dåc cÿa đ°áng có táng bình ph°¢ng nhã nh¿t có thß có cÿa khoÁng cách dác từ mßi đißm đÃn đ°áng Vì lý do này, đ°áng đ°āc gái là đ°áng hßi quy bình ph°¢ng nhã nh¿t Đ°áng hßi quy bình ph°¢ng nhã nh¿t đ°āc cho bãi
Ā̂ = Ā̂0+ Ā̂1ÿ (2.9)
L°u ý rằng mát dòng bình ph°¢ng tåi thißu luôn tßn t¿i bãi vì chúng ta luôn có thß tìm th¿y mát dòng cho táng bình ph°¢ng tåi thißu cÿa khoÁng cách dác Trong thăc tÃ, trong mát så tr°áng hāp, mát đ°áng bình ph°¢ng nhã nh¿t có thß không phÁi là duy nh¿t Đåi vßi mßi quan sát trong dā liãu cÿa chúng tôi, chúng tôi có thß tính toán
Trang 22c Thÿ nghiãm các giÁ thuy¿t
Nh° đã nêu tr°ßc đó, tính hāu ích cÿa X nh° mát yÃu tå dă đoán cÿa Y có thß
đ°āc đo l°áng mát cách không chính thāc bằng cách kißm tra hã så t°¢ng quan và
bißu đß phân tán t°¢ng āng cÿa Y so vßi X Mát cách chính thāc h¢n đß đo tính hāu dăng cÿa X nh° mát yÃu tå dă đoán cÿa Y là tiÃn hành kißm tra giÁ thuyÃt vÅ tham så
hßi quy Ā1 L°u ý rằng giÁ thuyÃt Ā1 = 0 có nghĩa là không có måi quan hã tuyÃn tính giāa Y và X Mát thÿ nghiãm cÿa giÁ thuyÃt này đòi hãi giÁ đßnh sau đây Đåi vßi mßi giá trß cå đßnh cÿa X, giÁ sÿ �㔀 là các đ¿i l°āng ng¿u nhiên đác lÁp th°áng đ°āc phân
phåi chuẩn vßi giá trß trung bình bằng 0 và ph°¢ng sai chung �㔎2 Vßi các giÁ đßnh này, các đ¿i l°āng, Ā̂0 và Ā̂1 là các °ßc tính không thiên vß cÿa Ā0 và Ā1, t°¢ng āng Ph°¢ng sai cÿa chúng là
�㕉Ăÿ(Ā̂0) = �㔎2[Ā1+ ∑(ýý̅2
�㕖 3 ý̅)2], (2.12) và
�㕉Ăÿ(Ā̂1) = ∑(ý�㔎2
�㕖 3 ý̅)2 (2.13) H¢n nāa, các phân phåi l¿y m¿u cÿa các °ßc l°āng bình ph°¢ng nhã nh¿t Ā̂0 và Ā̂1 là chuẩn vßi các trung bình Ā0 và Ā1và ph°¢ng sai nh° đ°āc đ°a ra trong (2.10) và (2 11), t°¢ng āng
Ph°¢ng sai cÿa Ā̂0 và Ā̂1 phă thuác vào tham så ch°a biÃt �㔎2 Vì vÁy, chúng ta cÁn °ßc tính �㔎2 từ dā liãu Mát °ßc tính không thiên vß cÿa �㔎2 đ°āc đ°a ra bãi
�㔎2 = ∑ �㕒�㕖2
Ā 3 2= ∑(þ�㕖 3 þ�㕖)2
Ā2 2 = Ā2 2þþ�㔸 , (2.14) Trong đó SSE là táng bình ph°¢ng cÿa phÁn d° (lßi) Så n - 2 trong m¿u så cÿa (2.14) đ°āc gái là bÁc tă do (df) Nó bằng så l°āng quan sát trừ đi så l°āng hã så hßi quy °ßc tính
Thay thà �㔎2 trong (2.12) và (2.13) bằng �㔎2 trong (2.14), chúng tôi nhÁn đ°āc các °ßc tính không thiên vß vÅ ph°¢ng sai cÿa Ā̂0 và Ā̂1 ¯ßc tính đá lãch chuẩn đ°āc gái là lßi tiêu chuẩn (s.e.) cÿa °ßc tính Do đó, các lßi tiêu chuẩn cÿa Ā̂0 và Ā̂1 là
Ā �㕒 (Ā̂0) = �㔎√1Ā+ ∑(ýý̅2
�㕖2ý̅)2 (2.15) và Ā �㕒 (Ā̂1) = √∑(ý�㔎
�㕖2ý̅)2, (2.16)
Trang 23t°¢ng āng, trong đó �㔎 là cn bÁc hai cÿa �㔎2 trong (2.14) Lßi tiêu chuẩn cÿa Ā̂1 là så đo đá chính xác cÿa đá dåc đã đ°āc °ßc tính Lßi tiêu chuẩn càng nhã thì công că °ßc tính càng chính xác
d Dă đoán
Ph°¢ng trình hßi quy đ°āc điÅu chỉnh có thß đ°āc sÿ dăng đß dă đoán Chúng tôi phân biãt giāa hai lo¿i dă đoán:
Dă đoán giá trß cÿa biÃn trÁ lái Y t°¢ng āng vßi b¿t kỳ giá trß đ°āc chán nào,
ý0, cÿa biÃn dă đoán
¯ßc tính cÿa trÁ lái trung bình �㔇0, khi ÿ = ý0 Trong tr°áng hāp đÁu tiên, giá trß dă đoán þ0 là þ0 = Ā̂0+ Ā̂1ý0 (2.17)
Lßi tiêu chuẩn cÿa dă đoán này là Ā �㕒 (þ0) = �㔎√1 +1Ā+ (ý02ý̅)2
∑(ý�㕖2ý̅)2 (2.18) Do đó, gißi h¿n tin cÁy cho giá trß dă đoán vßi hã så tin cÁy (1 2 ÿ) đ°āc đ°a ra bãi
þ0± ā(Ā22,�㗼
2) Ā �㕒 (þ0) (2.19) Đåi vßi tr°áng hāp thā hai, trÁ lái trung bình �㔇0 đ°āc °ßc tính bãi �㔇̂0 = Ā̂0+ Ā̂1ý0 (2.20)
Lßi tiêu chuẩn cÿa °ßc tính này là Ā �㕒 (�㔇̂0) = �㔎√1Ā+ (ý02ý̅)2
∑(ý�㕖2ý̅)2 (2.21) từ đó, theo đó các gißi h¿n tin cÁy cho �㔇0 vßi hã så tin cÁy (1 2 ÿ) đ°āc đ°a ra bãi
�㔇̂0 ± ā(Ā22,�㗼
2) Ā �㕒 (�㔇̂0) (2.22) L°u ý rằng °ßc tính đißm cÿa �㔇0giång hãt vßi trÁ lái dă đoán þ0 ĐiÅu này có thß đ°āc nhìn th¿y bằng cách so sánh (2.17) vßi (2.20) Tuy nhiên, lßi tiêu chuẩn cÿa �㔇̂0là nhã h¢n lßi tiêu chuẩn cÿa þ0 và có thß đ°āc nhìn th¿y bằng cách so sánh (2.18) vßi (2.21) Theo trăc giác, điÅu này có ý nghĩa Có să không chÃc chÃn (tính biÃn thiên) lßn h¢n trong viãc dă đoán mát quan sát (quan sát tiÃp theo) so vßi °ßc tính
Trang 24đáp āng trung bình khi ÿ = ý0 Tính trung bình đ°āc ngă ý trong trÁ lái trung bình làm giÁm tính biÃn thiên và đá không đÁm bÁo liên quan đÃn °ßc tính
Đß phân biãt giāa các gißi h¿n trong (2.19) và (2.22), các gißi h¿n trong (2.19) đôi khi đ°āc gái là gißi h¿n dă đoán hoặc dă báo, trong khi các gißi h¿n đ°āc đ°a ra trong (2.22) đ°āc gái là gißi h¿n tin cÁy
e Ch¿t l°ÿng đo l°ång cÿa să điÁu chỉnh
Kißm tra bißu đß phân tán cÿa Y so vßi Ā̂ TÁp hāp các đißm vßi đ°áng thẳng càng gÁn, måi quan hã tuyÃn tính giāa Y và X càng m¿nh Ng°ái ta có thß đo c°áng
đá cÿa måi quan hã tuyÃn tính trong bißu đß này bằng cách tính hã så t°¢ng quan
giāa Y và Ā̂, đ°āc đ°a ra bãi
nhau Hai giá trß t°¢ng āng cÿa hã så t°¢ng quan có liên quan theo ph°¢ng trình sau: �㔶Āÿ(Ā, Ā̂) = |�㔶Āÿ(Ā, ÿ)| (2.24)
Mặc dù các bißu đß phân tán cÿa Y so vßi Ā̂ và �㔶Āÿ(Ā, Ā̂) là d° thừa trong hßi
quy tuyÃn tính đ¢n giÁn, chúng cho chúng ta mát d¿u hiãu vÅ ch¿t l°āng cÿa să phù hāp trong cÁ hßi quy đ¢n giÁn và đa biÃn H¢n nāa, trong cÁ hai hßi quy đ¢n giÁn và đa biÃn, �㔶Āÿ(Ā, Ā̂) có liên quan đÃn mát th°ßc đo hāu ích khác vÅ ch¿t l°āng cÿa să phù hāp cÿa mô hình tuyÃn tính vßi dā liãu đ°āc quan sát Biãn pháp này đ°āc phát trißn nh° sau Sau khi chúng ta tính toán các °ßc l°āng bình ph°¢ng nhã nh¿t cÿa các tham så cÿa mô hình tuyÃn tính, chúng ta hãy tính các đ¿i l°āng sau:
þþÿ = ∑(þ�㕖2 þ̅)2, þþý = ∑(þ�㕖2 þ̅)2, (2.25) þþ�㔸 = ∑(þ�㕖2 þ�㕖)2,
Trong đó SST là táng cÿa đá lãch bình ph°¢ng trong Y từ trung bình þ̅ cÿa nó,
SSRbißu thß táng bình ph°¢ng do hßi quy và SSE đ¿i diãn cho táng så d° bình ph°¢ng
(lßi) Các đ¿i l°āng (þ�㕖2 þ̅), (þ�㕖2 þ̅) và (þ�㕖2 þ�㕖) đ°āc mô tÁ trong Hình 2.1 cho mát đißm đißn hình (ý�㕖, þ�㕖) Đ°áng þ�㕖 = Ā̂0+ Ā̂1ý�㕖 là đ°áng hßi quy phù hāp dăa
Trang 25trên t¿t cÁ các đißm dā liãu (không hißn thß trên bißu đß) và đ°áng ngang đ°āc vÁ t¿i
Y= þ̅ L°u ý rằng vßi mßi đißm (ý�㕖, þ�㕖), có hai đißm, (ý�㕖, þ�㕖), nằm trên đ°áng phù hāp và (ý�㕖, þ̅) nằm trên đ°áng thẳng Y = þ̅
Mát đẳng thāc c¢ bÁn, trong cÁ hai hßi quy đ¢n giÁn và đa biÃn, đ°āc đ°a ra bãi þþÿ = þþý + þþ�㔸 (2.26)
Theo đó, táng så đá lãch bình ph°¢ng trong Y có thß đ°āc phân tách thành táng cÿa hai đ¿i l°āng, SSR thā nh¿t, đo l°áng ch¿t l°āng cÿa X nh° mát công că dă đoán cÿa Y và thā hai, SSE đo l°áng sai så trong dă đoán này Do đó, tỷ lã ý2 =
SSR/SST có thß đ°āc hißu là tỷ lã cÿa táng biÃn thß trong Y đ°āc tính bãi biÃn dă đoán X Sÿ dăng (2.24), chúng ta có thß viÃt l¿i ý2 nh°
ý2 = þþýþþÿ = 1 2 þþ�㔸þþÿ (2.27) Ngoài ra, nó có thß đ°āc hißn thß rằng
[�㔶Āÿ(Ā, ÿ)]2 = [�㔶Āÿ(Ā, Ā̂)]2 = ý2 (2.28) Trong hßi quy tuyÃn tính đ¢n giÁn, ý2bằng bình ph°¢ng cÿa hã så t°¢ng quan giāa
biÃn trÁ lái Y và yÃu tå dă đoán X hoặc bình ph°¢ng cÿa hã så t°¢ng quan giāa biÃn trÁ lái Y và giá trß phù hāp Ā̂ Đßnh nghĩa đ°āc đ°a ra trong (2.25) cung c¿p cho chúng
tôi mát cách giÁi thích khác vÅ các hã så t°¢ng quan bình ph°¢ng Chỉ så māc đá phù hāp, ý2, có thß đ°āc hißu là tỷ lã cÿa táng biÃn thiên trong biÃn trÁ lái Y đ°āc tính bãi biÃn dă đoán X L°u ý rằng 0 f ý2f 1 bãi vì SSE f SST NÃu ý2 ã gÁn 1,
thì X giái thích mát phÁn lßn cÿa biÃn thß trong Y Vì lý do này, ý2đ°āc gái là hã så
xác đßnh vì nó cho chúng ta biÃt vÅ cách biÃn dă đoán X đánh giá (xác đßnh) biÃn trÁ lái Y
2.1.2.2 Cây quyÃt đßnh (Decision Tree)
DT mát thuÁt toán hác có giám sát nhằm t¿o ra mát đß thß hoặc mô hình d¿ng cây thß hiãn các kÃt quÁ hoặc hã quÁ có thß có cÿa viãc sÿ dăng các giá trß đÁu vào nh¿t đßnh Cây bao gßm mát nút gåc, các nút bên trong đ°āc gái là nút quyÃt đßnh kißm tra đÁu vào cÿa nó dăa trên mát bißu thāc đã hác và các nút lá t°¢ng āng vßi mát lßp hoặc quyÃt đßnh cuåi cùng Cây hác tÁp có thß đ°āc sÿ dăng đß rút ra các quy tÃc quyÃt đßnh đ¢n giÁn có thß đ°āc sÿ dăng cho các v¿n đÅ quyÃt đßnh hoặc đß phân lo¿i các tr°áng hāp trong t°¢ng lai bằng cách bÃt đÁu từ nút gåc và di chuyßn
Trang 26qua cây cho đÃn khi đ¿t đÃn nút lá n¢i gán nhãn lßp Tuy nhiên, cây quyÃt đßnh chỉ có thß đ¿t đ°āc đá chính xác cao nÃu dā liãu có thß phân tách tuyÃn tính, tāc là nÃu tßn t¿i mát siêu phẳng tuyÃn tính giāa các lßp
2.1.2.3 Rừng ng¿u nhiên (Random Forest)
RF cây quyÃt đßnh có đóng bao Đóng bao là mát kỹ thuÁt liên quan đÃn viãc đào t¿o nhiÅu nhóm phân lo¿i và xem xét sÁn l°āng trung bình cÿa táng thß Bằng cách này, ph°¢ng sai cÿa bá phân lo¿i tÁp hāp táng thß có thß đ°āc giÁm đáng kß Tính nng đóng gói th°áng đ°āc sÿ dăng vßi các DT vì chúng không chÃc chÃn lÃm đåi vßi các lßi do să khác biãt trong dā liãu đÁu vào
Hình 2.1: S¢ đß bißu dián thuÃt toán RF
2.1.2.4 Support Vector Machine (SVM)
SVM mát thuÁt toán hác giÁi quyÃt các v¿n đÅ phân lo¿i bằng cách ánh x¿ dā liãu đÁu vào đÁu tiên vào mát không gian đặc tr°ng có chiÅu cao h¢n, trong đó nó trã nên có thß phân tách tuyÃn tính bằng mát siêu phẳng, đ°āc sÿ dăng đß phân lo¿i Trong hßi quy vect¢ Hß trā, siêu phẳng này đ°āc sÿ dăng đß dă đoán đÁu ra giá trß liên tăc Ánh x¿ từ không gian đÁu vào đÃn không gian đặc tr°ng chiÅu cao là phi tuyÃn tính, đ¿t đ°āc bằng cách sÿ dăng các hàm nhân Các chāc nng nhân khác nhau tuân thÿ tåt nh¿t cho các miÅn āng dăng khác nhau Các hàm nhân phá biÃn nh¿t
Trang 27đ°āc sÿ dăng trong SVM là: nhân tuyÃn tính, nhân đa thāc và hàm nhân c¢ sã (RBF),
công thāc đ°āc bißu dián nh° sau:
2.1.2.6 K-Means
K-Means mát thuÁt toán hác tÁp không giám sát đ°āc sÿ dăng cho các bài toán phân căm Măc đích là gán mát så đißm, x1,& xm thành K nhóm hoặc căm, sao cho đá t°¢ng đßng nái bá kÃt quÁ là cao, trong khi đá t°¢ng tă giāa các căm th¿p Să t°¢ng tă đ°āc đo l°áng đåi vßi giá trß trung bình cÿa các đißm dā liãu trong mát căm Hình 2.2 minh háa mát ví dă vÅ phân căm k-mean, trong đó K = 3 và tÁp dā liãu đÁu vào bao gßm hai đặc đißm vßi các đißm dā liãu đ°āc vÁ dác theo trăc x và y
Hình 2.2: S¢ đß bißu dián ý t°çng thuÃt toán K-means
Trang 28â phía bên trái cÿa Hình 8 là các đißm dā liãu tr°ßc khi áp dăng ph°¢ng tiãn k, trong khi ã phía bên phÁi là 3 căm đã đ°āc xác đßnh và các tráng tâm cÿa chúng
đ°āc bißu dián bằng các hình vuông
2.1.2.7 M¿ng thÁn kinh nhân t¿o (Neural Networks)
Neural Networks hay m¿ng thÁn kinh nhân t¿o (ANN) là mát thuÁt toán hác tÁp có giám sát l¿y cÁm hāng từ ho¿t đáng cÿa bá não, th°áng đ°āc sÿ dăng đß l¿y ra các ranh gißi quyÃt đßnh phāc t¿p, phi tuyÃn tính đß xây dăng mô hình phân lo¿i, nh°ng cũng thích hāp cho các mô hình hßi quy hu¿n luyãn khi măc tiêu là dă đoán các đÁu ra có giá trß thăc M¿ng n¢ron đ°āc biÃt đÃn vßi khÁ nng xác đßnh các xu h°ßng phāc t¿p và phát hiãn các måi quan hã phi tuyÃn tính phāc t¿p giāa các biÃn đÁu vào vßi chi phí là gánh nặng tính toán cao h¢n Mát mô hình m¿ng n¢ron bao gßm mát đÁu vào, mát så lßp ẩn và mát lßp đÁu ra, nh° thß hiãn trên
Công thāc táng quát cho mát lßp nh° sau:
y = g(wTx + b), (2.30) Trong đó x là đÁu vào hu¿n luyãn và y là đÁu ra cÿa lßp, w là tráng så cÿa lßp, trong khi b là så h¿ng thiên vß
Lßp đÁu vào t°¢ng āng vßi các biÃn dā liãu đÁu vào Mßi lßp ẩn bao gßm mát så phÁn tÿ xÿ lý đ°āc gái là tà bào thÁn kinh xÿ lý đÁu vào cÿa nó (dā liãu từ lßp tr°ßc) bằng cách sÿ dăng mát hàm kích ho¿t hoặc truyÅn đß chuyßn tín hiãu đÁu vào thành tín hiãu đÁu ra, g () Các hàm kích ho¿t th°áng đ°āc sÿ dăng là: hàm b°ßc đ¢n vß, hàm tuyÃn tính, hàm sigmoid và hàm tiÃp tuyÃn hypebol Các phÁn tÿ giāa mßi lßp đ°āc kÃt nåi cao bằng các kÃt nåi có tráng så bằng så đ°āc thuÁt toán hác Lßp đÁu ra đ°a ra dă đoán (tāc là lßp) cho các đÁu vào đã cho và theo tráng så kÃt nåi đ°āc xác đßnh thông qua lßp ẩn ThuÁt toán đang trã l¿i phá biÃn trong nhāng nm gÁn đây do các kỹ thuÁt mßi và phÁn cāng m¿nh mÁ h¢n cho phép đào t¿o các mô hình phāc t¿p đß giÁi quyÃt các tác vă phāc t¿p Nói chung, m¿ng n¢-ron đ°āc cho là có thß x¿p xỉ vßi b¿t kỳ hàm nào đ°āc quan tâm khi đ°āc điÅu chỉnh tåt, đó là lý do t¿i sao chúng đ°āc coi là bá x¿p xỉ phá quát
2.2 Kÿ thuÃt phân tích và dă báo theo chußi thåi gian
Phân tích chußi thái gian là mát cách că thß đß phân tích mát chußi các đißm dā liãu đ°āc thu thÁp trong mát khoÁng thái gian Trong phân tích chußi thái gian,
Trang 29các nhà phân tích ghi l¿i các đißm dā liãu theo các khoÁng thái gian nh¿t quán trong mát khoÁng thái gian nh¿t đßnh thay vì chỉ ghi các đißm dā liãu mát cách gián đo¿n hoặc ng¿u nhiên Tuy nhiên, lo¿i phân tích này không chỉ đ¢n thuÁn là hành đáng thu thÁp dā liãu theo thái gian ĐiÅu làm cho dā liãu chußi thái gian khác biãt vßi các dā liãu khác là phân tích có thß cho th¿y các biÃn thay đái nh° thà nào theo thái gian
Nói cách khác, thái gian là mát biÃn quan tráng vì nó cho th¿y cách dā liãu điÅu chỉnh trong quá trình cÿa các đißm dā liãu cũng nh° kÃt quÁ cuåi cùng Nó cung c¿p mát ngußn thông tin bá sung và mát thā tă phă thuác giāa các dā liãu Phân tích chußi thái gian th°áng yêu cÁu mát så l°āng lßn các đißm dā liãu đß đÁm bÁo tính nh¿t quán và đá tin cÁy TÁp dā liãu mã ráng đÁm bÁo b¿n có cÿ m¿u đ¿i diãn và phân tích có thß cÃt bã dā liãu nhiáu Nó cũng đÁm bÁo rằng b¿t kỳ xu h°ßng hoặc kißu m¿u nào đ°āc phát hiãn không phÁi là ngo¿i lã và có thß giÁi thích cho ph°¢ng sai theo mùa Ngoài ra, dā liãu chußi thái gian có thß đ°āc sÿ dăng đß dă báo 4 dă đoán dā liãu trong t°¢ng lai dăa trên dā liãu lßch sÿ
2.2.1 Phân loại các loại chuỗi thời gian
Có nhiÅu cách phân lo¿i chußi thái gian khác nhau dăa trên các tiêu chí că thß Các yÃu tå phă thuác quan tráng nh¿t là: đá dài cÿa b°ßc thái gian, trí nhß và tính án đßnh Tùy thuác vào khoÁng cách giāa các giá trß đ°āc ghi l¿i, dā liãu chußi thái gian đ°āc phân lo¿i thành: Chußi thái gian cách đÅu và chußi thái gian không đÅu nhau
Chußi thái gian lãng đ°āc hình thành, khi các giá trß cÿa nó đ°āc ghi l¿i đßnh kỳ vßi đá dài chu kỳ không đái R¿t nhiÅu quá trình vÁt lý hoặc môi tr°áng đ°āc mô tÁ bằng lo¿i chußi thái gian này Chußi thái gian không cách đÅu là nhāng chußi thái gian không giā khoÁng cách không đái giāa các lÁn quan sát Các chỉ så kinh tà l°āng, chẳng h¿n nh° giá cá phiÃu không cÁn thiÃt đ°āc thăc hiãn trong nhāng khoÁng thái gian đÅu đặn, chúng đ°āc điÅu chỉnh bãi tỷ lã cung và cÁu că thß trên thß tr°áng că thß Do đó, lo¿i chußi này thß hiãn mát cách phù hāp ví dă chußi thái gian không đÅu nhau
Theo tỷ lã phă thuác giāa các giá trß mßi đ°āc quan sát và các giá trß tr°ßc đó, chußi thái gian đ°āc chia thành: chußi thái gian nhß dài, chußi thái gian nhß ngÃn
Chußi thái gian có bá nhß dài là nhāng chußi mà hàm tă t°¢ng quan giÁm chÁm Lo¿i chußi thái gian này th°áng mô tÁ các quy trình không có vòng quay
Trang 30nhanh TÃc nghÁn giao thông, tiêu thă nng l°āng điãn, các chỉ så vÁt lý hoặc khí t°āng khác nhau, nh° đo nhiãt đá không khí, t¿t cÁ các quá trình này th°áng đ°āc mô tÁ bằng chußi thái gian bá nhß dài Chußi thái gian bá nhß ngÃn là nhāng chußi mà hàm tă t°¢ng quan giÁm nhanh h¢n Ví dă đißn hình chāa các quy trình từ lĩnh văc kinh tà l°āng Mát cách phân lo¿i khác cÿa chußi thái gian dăa trên tính án đßnh cÿa chúng đó là chußi thái gian tĩnh và chußi thái gian không cå đßnh
Chußi thái gian tĩnh là chußi thái gian, trong đó các thuác tính thång kê nh° giá trß trung bình hoặc ph°¢ng sai, không đái theo thái gian Các chußi thái gian này luôn ã tr¿ng thái cân bằng t°¢ng đåi so vßi các giá trß trung bình t°¢ng āng cÿa nó Các chußi thái gian khác thuác chußi thái gian không cå đßnh Trong ngành công nghiãp, th°¢ng m¿i hoặc kinh tÃ, chußi thái gian th°áng xuyên h¢n thuác vÅ lo¿i không cå đßnh Đß xÿ lý công viãc dă báo, các chußi thái gian không cå đßnh th°áng đ°āc chuyßn đái thành các chußi thái gian tĩnh, bằng các ph°¢ng pháp tiÅn xÿ lý thích hāp
2.2.2 Mục tiêu của phân tích chuỗi thời gian
Phân tích chußi thái gian hāp nh¿t mát nhóm các ph°¢ng pháp làm viãc vßi dā liãu chußi thái gian, đß trích xu¿t thông tin hāu ích tiÅm nng Có hai măc tiêu chính cÿa phân tích chußi thái gian:
Xác đßnh hành vi cÿa chußi thái gian - Xác đßnh các tham så và đặc
tính quan tráng, mô tÁ đÁy đÿ hành vi cÿa chußi thái gian
Dă báo chußi thái gian - Dă báo giá trß t°¢ng lai cÿa chußi thái gian,
tùy thuác vào giá trß thăc tà và quá khā cÿa nó
CÁ hai măc tiêu này đÅu yêu cÁu xác đßnh mô hình chußi thái gian Ngay sau khi mô hình đ°āc xác đßnh, nó có thß đ°āc khai thác đß dián giÁi hành vi cÿa chußi thái gian, ví dă, đß hißu nhāng thay đái theo mùa cÿa giá cÁ hàng hóa Mô hình cũng có thß đ°āc sÿ dăng đß ngo¿i suy chußi thái gian, tāc là đß dă báo các giá trß trong t°¢ng lai cÿa nó
2.2.3 Các thành phần chuỗi thời gian
Thông th°áng, hÁu hÃt các ph°¢ng pháp phân tích đÅu giÁ đßnh rằng dā liãu chußi thái gian chāa thành phÁn hã thång (th°áng bao gßm mát så thành phÁn) và nhiáu ng¿u nhiên (lßi), làm phāc t¿p viãc phát hiãn các thành phÁn thông th°áng Do
Trang 31đó, phÁn lßn các ph°¢ng pháp, bao gßm các ph°¢ng pháp lác nhiáu khác nhau, đß phát hiãn các thành phÁn thông th°áng, hoặc nó phÁi thăc hiãn trong quá trình tiÅn xÿ lý dā liãu
HÁu hÃt các thành phÁn thông th°áng thuác vÅ hai lßp chính Chúng thuác vÅ xu h°ßng hoặc thành phÁn theo mùa Xu h°ßng là mát thành phÁn tuyÃn tính hoặc phi tuyÃn tính có hã thång chung, có thß thay đái theo thái gian Thành phÁn thái vă là thành phÁn lặp l¿i đßnh kỳ CÁ hai lo¿i thành phÁn thông th°áng này th°áng đ°āc trình bày đßng thái trong chußi thái gian Ví dă: doanh så bán hàng có thß tng từ nm này sang nm khác, nh°ng có mát thành phÁn theo mùa, điÅu này phÁn ánh să tng tr°ãng đáng kß cÿa doanh så bán hàng vào tháng 12 và giÁm xuång trong tháng 8
Mô hình này có thß đ°āc chāng minh trên chußi đ¿i diãn cho l°āng hành khách hàng tháng cÿa các hãng hàng không quåc tà từ nm 1949 đÃn nm 1960 Bißu đß så l°āng hành khách hàng tháng thß hiãn rõ xu h°ßng gÁn nh° tuyÃn tính, tāc là tng án đßnh từ nm này sang nm khác (så l°āng hành khách vÁn chuyßn nm 1960 là bån lÁn lßn h¢n nm 1949) Đßng thái, dián biÃn cÿa giá c°ßc hàng tháng trong vòng mát nm đ°āc lặp l¿i và t°¢ng tă từ nm này sang nm khác (ví dă: tỷ lã hành khách cao h¢n trong các kỳ nghỉ lá)
Nó đã đ°āc đÅ cÁp, mô hình chung cÿa chußi thái gian th°áng chāa mát så thành phÁn: thành phÁn xu h°ßng T(t), thành phÁn theo mùa S(t), thành phÁn nhiáu ng¿u nhiên R(t), và đôi khi có đÅ cÁp đÃn thành phÁn chu kỳ C( t) Să khác biãt giāa các thành phÁn theo chu kỳ và theo mùa là, các thành phÁn theo mùa thß hiãn tính chu kỳ theo mùa th°áng xuyên, trong khi thành phÁn chu kỳ có Ánh h°ãng lâu dài h¢n và có thß thay đái theo từng chu kỳ Thông th°áng, thành phÁn chu kỳ đ°āc tích hāp vào mát thành phÁn xu h°ßng T(t) Hình 2.3 minh háa mát ví dă vÅ phân rã chußi thái gian
Trang 32Hình 2.3: Các thành phÁn chußi thåi gian
ĐiÅu quan tráng là phÁi mô tÁ, cách các thành phÁn này t°¢ng tác vßi nhau vÅ mặt toán hác, đß t¿o ra mát chußi thái gian Måi quan hã chāc nng că thß giāa các thành phÁn có thß khác nhau đåi vßi các lo¿t sÁn phẩm khác nhau Tuy nhiên, có hai mô hình chính, cách chúng t°¢ng tác vßi nhau:
Mô hình cáng
Z(t) = T (t) + C(t) + S(t) + R(t) (2.31) Mô hình nhân
Z(t) = T (t) × C(t) × S(t) × R(t) (2.32) Să khác biãt chính giāa hai mô hình này có thß đ°āc quan sát th¿y ã tåc đá tng tr°ãng Ví dă đã đÅ cÁp tr°ßc đây vÅ så l°āng hành khách hàng không hàng tháng, thß hiãn mát mô hình nhân đißn hình, trong đó biên đá thay đái theo mùa tng theo xu h°ßng Să tng tr°ãng cÿa xu h°ßng hoặc các thành phÁn theo mùa có thß đ°āc bißu thß bằng phÁn trm (mô hình så nhân) hoặc bằng giá trß tuyãt đåi (mô hình cáng)
2.2.4 Dự báo chuỗi thời gian
Dă báo chußi thái gian thuác vÅ hÁu hÃt các ph°¢ng pháp phân tích quan tráng, đ°āc thăc hiãn trên dā liãu chußi thái gian Ý t°ãng chung là dăa trên thăc tÃ, rằng thông tin vÅ các să kiãn trong quá khā có thß đ°āc khai thác mát cách hiãu quÁ đß