ĈҤI HӐC QUӔC GIA TP.HCM NHIӊM VӨ VÀ NӜI DUNG: - Tìm hiӇu vӅ thuұt toán phân cөm K-means - Tìm hiӅu vӅ thuұt toán Multi Layer Perceptron MLP và kӻ thuұt lan truyӅn QJѭӧc - Áp dөng thuұt t
Tәng quan vӅ các kӻ thuұt dӵ báo
Khái niӋm mô hình dӵ báo
Mô hình dӵ báo có thӇ hiӇu là mӝt hàm toán hӑc có thӇ ánh xҥ giӳa mӝt tұp cӫa các biӃn dӳ liӋXÿҫXYjRWKѭӡQJÿѭӧFÿyQJJyLWURQJPӝt bҧn ghi vào mӝt biӃn ÿiS ӭng hay biӃQÿtFKWӟi mӝt biӃn dӵ EiRQjRÿy7URQJWKӵc tӃ, mӝt mô hình dӵ báo cҫn phҧi có rҩt nhiӅu các biӃQÿӝc lұSÿѭӧc chӑn lӵa tӯ bӝ dӳ liӋu, bên cҥQKÿy là các qui trình, chính sách ÿһFWUѭQJFKRWӯng ngành khoa hӑc chung phҧLÿѭӧc kӃt hӧp sӱ dөng trong mô hình dӵ báo Mô hình dӵ báo có thӇ ÿѭӧc chia làm hai loҥi WKHRTXDQÿLӇm cӫa các nhà khai phá dӳ liӋu, thӭ nhҩt là hӑc có giám sát, còn lҥi ÿѭӧc gӑi là hӑc không có giám sát
Khi chúng ta nói quá trình hӑc này là có giám sát QJKƭD Oj WURQJ TXi WUuQK huҩn luyӋn, dӳ liӋX ÿѭӧc trình bày theo mӝt mô hình dӵ báo vӟi các dӳ liӋX ÿҫu YjRÿҫu ra hay kӃt quҧ mong muӕn ViӋc huҩn luyӋQÿѭӧc lһp lҥLFKRÿӃn khi mô hình hӑFÿѭӧc hàm ánh xҥ giӳDFiFÿҫXYjRÿmFKRYj ÿҫu ra mong muӕn Các ví dө vӅ các mô hình dӵ EiR ÿDQJ Vӱ dөng viӋc hӑc tұp có giám sát bao gӗm các mҥng thҫn kinh lan truyӅn - QJѭӧc (ANN back propagation: Artificial Neural Network back propagation), các Space Vector Machine và các cây quyӃWÿӏnh (Decision Trees)
Mӝt mô hình dӵ EiR FNJQJ Fy WKӇ sӱ dөng viӋc hӑc không giám sát Trong WUѭӡng hӧp này, nó chӍ ÿѭӧc trình bày vӟi dӳ liӋXÿҫXYjR6DXÿyQKLӋm vө cӫa nó là tìm ra các bҧn ghi dӳ liӋX ÿҫu vào khác nhau liên quan vӟL QKDX QKѭ WKӃ nào Phân cөm (Clustering) là kiӇu mô hình dӵ EiRÿѭӧc sӱ dөng phә biӃn nhҩt, có sӱ dөng cách hӑc tұp không giám sát.
Tҫm quan trӑng cӫa dӳ liӋu
Trong các bài toán dӵ báo, vai trò cӫa dӳ liӋu là rҩt quan trӑng, bӣi vì không có dӳ liӋXWKuNK{QJFySKkQWtFKYjFNJQJFKҷng có phân tích dӵ báo Trong khoa hӑc khai phá dӳ liӋu, nhiӅu doanh nghiӋp rҩt có chú ý tӟi viӋc tìm kiӃm mӝt giҧi pháp phân tích dӵ báo cho công ty cӫa hӑ Mһc dù hӑ biӃt rҵng phân tích dӵ báo có thӇ giúp cҧi thiӋn kӃt quҧ kinh doanh cӫa hӑQKѭQJKӑ lҥLNK{QJFyÿӫ dӳ liӋu cho mӝt nhà khoa hӑc dӳ liӋXÿӇ thӵc sӵ huҩn luyӋn mӝWP{KuQKFyêQJKƭD7URQJNӹ nguyên cӫa dӳ liӋu lӟQ%LJ'DWDÿLӅXÿyWKӵc sӵ hay xҧ\UDÿӃn mӭc có thӇ làm cho bҥn ngҥFQKLrQĈӕi vӟi mӝt sӕ mô hình dӵ EiRÿӇ có thӇ hӑc và tәng quát hóa, phҧi cҫn ÿӃn hàng ngàn bҧn ghi và nhiӅXKѫQWKӃ
Theo công bӕ cӫa nhóm nghiên cӭu dӳ liӋu cӫa IBM, nhóm cӫa các nhà nghiên cӭXQj\ÿm ÿѭӧc giao nhiӋm vө xây dӵng mӝt mô hình ÿӇ dӵ báo xem mӝt quy trình sҧn xuҩWQjRÿyVӁ dүQÿӃn thành công hay thҩt bҥi Quá trình sҧn xuҩt này mҩt khoҧng 8 giӡ ÿӇ hoàn thành và tiêu thө nhiӅu tài nguyên ChӍ VDXNKLÿmKRjQ thành, các kӻ Vѭÿҧm bҧo chҩWOѭӧng cӫa công ty mӟi có thӇ [iFÿӏQK[HPFyÿLӅu gì không әn diӉn ra trong quá trình sҧn xuҩt không NӃu có, toàn bӝ lô sҧn phҭm này phҧi bӏ loҥi bӓ và mӝt lô mӟLÿѭӧc bҳWÿҫu lҥi tӯ ÿҫXéWѭӣng ӣ ÿk\OjFK~QJWD có thӇ xem xét dӳ liӋX WKX ÿѭӧc trong quá khӭ cho tҩt cҧ FiF JLDL ÿRҥn cӫa quy trình Qj\ ÿӕi vӟL FiF O{ ÿm NӃt cөc là tӕt hoһc xҩX 6DX ÿy FK~QJ WD Fy WKӇ huҩn luyӋn mӝt mô hình ÿӇ phát hiӋn ngay khi mӑi thӭ bҳWÿҫu có vҿ xҩXÿLWӯ EDQÿҫu trong quy trình này Mӝt sӵ thұt là, thӵc tӃ, trong khoҧng thӡLJLDQÿyKӑ FKѭD[k\ dӵng bҩt cӭ mô hình nào Trong quá trình phân tích dӳ liӋu, hӑ ÿmSKiWKLӋn ra rҵng dӳ liӋXÿmEӏ hӓng hoһc tӋ KѫQEӏ bӓ sót trong mӝt sӕ JLDLÿRҥn sҧn xuҩt then chӕt Quan trӑQJKѫQKӑ không thӇ tìm ra kӃt quҧ ÿҫu ra hay là các thông tin sӁ cho phép chúng tôi phân biӋt các lô tӕt vӟi các lô xҩX ĈLӅX ÿy Fy QJKƭD Oj QKyP FiF QKj nghiên cӭu này sӁ không thӇ sӱ dөng mӝt kӻ thuұt hӑc có giám sát ViӋc thiӃu các phҫn quan trӑng cӫa dӳ liӋX ÿҫX YjR ÿm Oj KLӇm hӑD ÿӕi vӟi viӋc sӱ dөng mӝt kӻ thuұt hӑc không giám sát Tóm lҥi, dӳ liӋu có thӇ tӵ nó trӣ thành giá trӏ dӵ báo nӃu QKѭQyOjPӝt dӳ liӋu tӕt.
Các ӭng dөng vӅ phân tích dӵ báo
Khi nghiên cӭu vӅ phân tích dӵ báo, các tác giҧ cӫa mӝt cuӕn sách (Duda, +DUW Yj 6WRUN Fy QKDQ ÿӅ ³phân lo̩i m̳u´ ÿm [k\ Gӵng mӝt hӋ thӕng phân loҥi mүu cho mӝt nhà máy chӃ biӃn cá Trong nhà máy này, hӑ sӱ dөng mӝt giҧi pháp dӵ báo ÿӇ phân loҥLFiÿѭDYjRWKjQKFiKӗLKD\OjFiYѭӧc biӇn phө thuӝFYjRFiFÿһc WtQKÿҫXYjRQKѭFKLӅu dài và mұWÿӝ cӫa vҧy cá Trong nghiên cӭu vӅ sӵ trung thành cӫa khách hàng ngân hàng, hoһc khách hàng là các khách hàng sӱ dөng dӏch vө ÿLӋn thoҥi, nhóm tác giҧ ÿmVӱ dөng chính sӵ bӓ ÿLFӫa khách hàng làm biӃn dӵ báo
Mӝt ӭng dөng vӅ phân tích dӵ báo vӕQ ÿm Uҩt thành công trong nhiӅX QăP nay là phát hiӋn gian lұn Mӛi khi bҥn quҽt thҿ tín dөng cӫa mình hoһc sӱ dөng nó trên mҥng, rҩt có thӇ là giao dӏch cӫa bҥQÿDQJÿѭӧc phân tích trong thӡi gian thӵc ÿӇ biӃt khҧ QăQJJLDQOұn ra sao Tùy thuӝFYjRQJX\FѫÿmQKұn biӃWÿѭӧc, hҫu hӃt các tә chӭc thӵc hiӋn mӝt tұp hӧp các quy tҳc nghiӋp vө thұm chí có thӇ tӯ chӕi mӝt giao dӏFKFyQJX\ Fѫ FDRĈk\ OjÿtFKFXӕi cùng cӫa phân tích dӵ báo trong cuӝc chiӃn chӕng tӝi phҥPÿyOjQJăQNK{QJFKRQy[ҧy ra ngay tӯ ÿҫu
Có rҩt nhiӅu ӭng dөng quan trӑng cӫa phân tích dӵ EiRWURQJOƭQKYӵc y tӃ, quân sӵ, tài chính, ngân hàng và nhiӅXFiFOƭQKYӵc khác Gian lұn vӅ y tӃ và ngân hàng hҫXQKѭFKҳc chҳQÿӭQJÿҫu danh sách các gian lұn, tuy nhiên, viӋc sӱ dөng phân tích dӵ EiR ÿӇ thӵc hiӋQ FKăP VyF SKzQJ QJӯa có hiӋu quҧ FNJQJ FKѭD ÿѭӧc thӵc sӵ TXDQWkPYjÿѭDYjR ӭng dөng bӣi các nhà lãnh ÿҥo cҩp cao trong tӯQJOƭQK vӵc liên quan Nhӡ biӃWÿѭӧc bӋQKQKkQQjRFyQJX\FѫSKiWWULӇn cao vӅ mӝWFăQ bӋQKQjRÿyFK~QJWDFyWKӇ áp dөng các biӋn pháp phòng ngӯDÿӇ giҧm thiӇu nguy FѫYjFXӕLFQJOjÿӇ cӭu sӕQJQJѭӡi bӋnh GҫQÿk\SKkQWtFKGӵ EiRÿmOjWUXQJ tâm chú ý cӫa mӝt cuӝc tranh luұQF{QJNKDLWURQJÿyGӳ liӋu lӏch sӱ ÿѭӧc sӱ dөng ÿӇ làm giҧm sӕ Oѭӧng bӋnh nhân nhұp viӋn lҥi
Ngoài ra, các công ty sӱ dөng công cө phân tích dӵ EiRÿӇ giӟi thiӋu các sҧn phҭm và các dӏch vө1Jj\QD\FK~QJWDÿmTXHQYӟi viӋFPRQJÿӧi các giӟi thiӋu WKtFKÿiQJFKRSKLP ҧnh, các cuӕn sách, các bài hát tӯ các cӱDKjQJYjWKѭѫQJQKkQ ѭDWKtFKQKҩt Vì lӁ ÿyFK~QJWDFNJQJÿDQJWUҧi qua các chiӃn dӏch tiӃp thӏ ÿѭӧFÿLӅu chӍQKQJj\FjQJSKKѫSKѫQYӟi thӏ hiӃu và các sӣ thích cӫDQJѭӡi tiêu dùng, ví dө, dӵa vào nӝi dung cӫDFiFWKѭÿLӋn tӱ cӫa chúng ta, dӵDYjRFiFEjLÿăQJYjFiF tìm kiӃm trên mҥng
Các ӭng dөng khác tұp trung vào các dӳ liӋu thu thұSÿѭӧc tӯ các cҧm biӃn
Ví dө QKѭFK~QJWDFyWKӇ sӱ dөng dӳ liӋu cӫa thiӃt bӏ GLÿӝQJ*36ÿӇ dӵ báo mұt ÿӝ giao thông, hoһc dùng cҧm biӃQÿӇ dӵ báo thӡi tiӃWYj[XKѭӟQJWKD\ÿәi cӫa nó Khi các hӋ thӕng này ngày càng trӣ nên chính xác, thông minh thì chúng ta sӁ có thӇ sӱ dөQJFK~QJÿӇ OjPWKD\ÿәi các lӵa chӑQÿLOҥi riêng cӫa mình Ví dө, mӝt hôm njR ÿy FK~QJ WD Fy WKӇ ÿL [H Oӱa nӃu dӵ báo tuyӃQ ÿѭӡng hoàn toàn bӏ tҳc nghӁn vӟi ô tô, hoһF WD ÿL [H EXV WKD\ FKR [H Pi\ Yu WKLӃt bӏ dӵ báo K{P ÿy WUӡi PѭD
+ѫQQӳa, sӵ sҹn có cӫa các cҧm biӃn và hiӋu quҧ vӅ FKLSKtGQJÿӇ thông báo vӅ tình trҥng hiӋn tҥi cӫa các cҩXWU~FQKѭFiFFk\Fҫu, các tòa nhà, máy móc thiӃt bӏ chҷng hҥQ QKѭ FiF WUҥm biӃn thӃ ÿLӋQ FiF Pi\ EѫP Qѭӟc, các máy cҳt không khí, các cӱa cӕQJYjFiFYDQÿmFKRSKpSVӱ dөng phân tích dӵ EiRÿӇ bҧo trì hoһc tiӃQKjQKFiFWKD\ÿәi vӅ vұt liӋu hoһFTX\WUuQKWUѭӟFNKLFyKѭKӓng và các tai nҥn xҧy ra Bҵng cách cho phép xây dӵng các mô hình bҧo trì dӵ báo, viӋc sӱ dөng dӳ liӋu tӯ các cҧm biӃn là mӝW FiFK U} UjQJ Kѭӟng tӟi viӋc trӧ giúp ÿӇ ÿҧm bҧo an toàn Trong mӝt nguӗn dӳ liӋu luôn mӣ rӝng, ÿѭӧc thu thұp tӯ mӑi QJѭӡi và các cҧm biӃn, phân tích dӵ báo cung cҩp các công cө dүQKѭӟng cҫn thiӃt cho các công ty và các cá nhân ÿӇ ÿҥt tӟLÿtFKFӫa hӑ thành công Nó thӵc hiӋQÿLӅu ÿyEҵng cách dӵ báo vӅ nhӳng gì sӁ xҧy ra, vì thӃ ta có thӇ ÿiS ӭng thích hӧSÿӇ tiӃp tөc tiӃn trình chính xác, an toàn, có thӇ lһp lҥi, có lӧi nhuұn và hiӋu quҧ nhҩt
ViӋc sӱ dөng phân tích dӵ EiR ÿm Yj ÿDQJ FiFK Pҥng hóa cách thӭc trong viӋFFK~QJWDWѭѫQJWiFYӟLP{LWUѭӡng cӫa mình Khi sӕ Oѭӧng dӳ liӋXWăQJOrQYj chҩt OѭӧQJÿѭӧc cҧi thiӋn, lҥLÿѭӧc trӧ giúp bӣi sӵ có sҹn cӫa sӭc mҥnh xӱ lý hiӋu quҧ vӅ chi phí, phân tích dӵ báo bҳt buӝc sӁ lan tӓa thұPFKtFzQKѫQVRYӟi hiӋn nay NӃX FK~QJ WD ÿm [iF ÿӏQK ÿѭӧc mӝt vài vҩQ ÿӅ mà bҥn có kӃ hoҥFK ÿӇ giҧi quyӃt vӟi phân tích dӵ báo, bҥn sӁ nhұn thҩy rҵQJ ÿk\ NK{QJ SKҧi là mӝt dӵ báo khó thӵc hiӋn Chúng ta có thӇ lӵa chӑQFiFSKѭѫQJSKiSNKiFQKDXYjNӃt hӧp các SKѭѫQJ SKiS ÿy Yӟi nhau cho mөF ÿtFK Gӵ báo cӫa chúng ta thӵc hiӋQ ÿѭӧc tӕt nhҩt Trong phҫn tiӃp theo, tác giҧ sӁ trình bày mӝt sӕ kӻ thuұt dӵ báo hiӋQÿҥi áp dөng toán hӑc và công nghӋ WK{QJWLQÿDQJÿѭӧc các nhà khoa hӑc sӱ dөng.
Các kӻ thuұt mô hình hóa dӵ báo
Giӟi thiӋu tәng quát
Khi tham gia vào các hoҥWÿӝng xã hӝLFK~QJWDÿDQJWtFKONJ\Gӳ liӋu theo TX\ P{ONJy thӯa IBM báo cáo rҵng 90% dӳ liӋu có sҹn hiӋQQD\ ÿm ÿѭӧc tҥo ra chӍ WURQJ KDLQăPTXD&QJYӟi sӵ bùng nә vӅ dӳ liӋu, các kӻ thuұt dӵ EiRFNJQJ phát triӇn mҥnh mӁ, chúng ta phҧi kӇ ÿӃn các mҥng thҫn kinh nhân tҥo (ANN - Artificial Neural Networks), phân cөm, các Space Vector Machine (các SVM) và các quy tҳc kӃt hӧSÿDQJWӗn tҥLÿӇ giúp dӏch các dӳ liӋu này thành thành giá trӏ và sӵ hiӇu biӃt tӕWKѫQ&K~QJWKӵc hiӋQÿLӅXÿyEҵng cách hӑc các mүu ҭn giҩu trong các khӕi dӳ liӋu lӏch sӱ khәng lӗ.KLÿmKӑc xong, kӃt quҧ là mӝt mô hình dӵ báo Sau khi mӝt mô hình ÿѭӧc xác nhұn hӧp lӋQyÿѭӧc coi là có thӇ tәng quát hóa kiӃn thӭFPjQyÿmKӑFÿѭӧc và áp dөng mô hình ÿyFKRPӝt tình huӕng mӟi Do các kӻ thuұt mô hình hóa dӵ báo có thӇ hӑc tӯ quá khӭ ÿӇ dӵ biR WѭѫQJ ODL FK~QJ ÿDQJ ÿѭӧc áp dөng cho vô sӕ các vҩQÿӅ QKѭFiFKӋ thӕQJWѭYҩn, phát hiӋn gian lұn và lҥm dөng và phòng ngӯa các bӋnh tұt và tai nҥn Tính sҹn có cӫa "dӳ liӋu lӟn" và công suҩt xӱ lý hiӋu quҧ vӅ FKLSKtÿDQJPӣ rӝng khҧ QăQJiSGөng các kӻ thuұt dӵ báo dӵa vào dӳ liӋu trong các ngành nghӅ NKiFQKDX7KHRFiFKOjPÿyWRiQKӑc WK{QJPLQKÿDQJJL~SFKRFjQJQJj\FjQJ có nhiӅu công ty nhұn ra tiӅPQăQJWKӵc sӵ ҭn giҩu trong dӳ liӋu cӫa hӑ Tӯ ÿy FKtQK ViFK FKLӃQ Oѭӧc kinh doanh cӫa hӑ ÿѭӧc dҫQ WKD\ ÿәi bӣi viӋc áp dөng các kӻ thuұt phân tích dө báo trong công viӋc kinh doanh cӫa hӑ
Phân tích dӵ EiRÿѭӧc các công ty và các cá nhân trên toàn thӃ giӟi sӱ dөng ÿӇ trích ra giá trӏ tӯ dӳ liӋu lӏch sӱ thu thұSÿѭӧc tӯ mӑLQJѭӡi và các cҧm biӃn Dӳ liӋu cӫa mӑLQJѭӡi gӗm có các giao dӏch khách hàng có cҩu trúc (ví dө, tӯ các lҫn mua hàng trӵc tuyӃn) hoһc dӳ liӋu không cҩu trúc thu thұSÿѭӧc tӯ FiFSKѭѫQJWLӋn truyӅn thông xã hӝi Mһt khác, dӳ liӋu cӫa cҧm biӃQ WKX ÿѭӧc tӯ hàng loҥt thiӃt bӏ ÿѭӧc sӱ dөQJÿӇ JLiP ViWÿѭӡng xá, cҫu cӕng, các tòa nhà, máy móc, hӋ thӕng OѭӟLÿLӋn và bҫu khí quyӇn và khí hұu Trong bài này, chúng ta tұp trung vào các kӻ thuұt mô hình hóa dӵ EiRĈk\OjQKӳng thuұt toán toán hӑFÿѭӧc sӱ dөQJÿӇ "hӑc" các mүu ҭn giҩu trong tҩt cҧ các dӳ liӋu này
Sau khi mӝt mô hình dӵ EiR ÿѭӧc xây dӵQJ Yj ÿѭӧc xác nhұn hӧp lӋ, nó ÿѭӧc coi là có thӇ tәng quát hóa kiӃn thӭFÿmKӑFÿѭӧc tӯ dӳ liӋu lӏch sӱ ÿӇ dӵ báo WѭѫQJ ODL %ҵng cách này, ví dө, có thӇ sӱ dөQJ Qy ÿӇ dӵ EiR QJX\ Fѫ GDR ÿӝng hoһc rӡi bӓ ÿL FӫD NKiFK KjQJ WURQJ WUѭӡng hӧp vӅ dӳ liӋu cӫa mӑL QJѭӡi hoһc QJX\ Fѫ Fӫa sӵ cӕ Pi\ PyF WURQJ WUѭӡng hӧp vӅ dӳ liӋu cӫa cҧm biӃn Các mô KuQKQKѭYұy tính toán mӝWÿLӇm sӕ hoһFQJX\FѫEҵng cách thӵc hiӋn mӝt hàm hӗi TX\ &NJQJ Fy WKӇ sӱ dөng các mô hình dӵ EiR ÿӇ thӵc hiӋn mӝt hàm phân loҥi, WURQJÿyNӃt quҧ là mӝt lӟp hay mӝt thӇ loҥi
Bҩt kӇ là kiӇu mô hình nào, các mô hình dӵ báo phҧLÿӏnh hình kinh nghiӋm cӫa chúng ta bҩt cӭ FK~QJWDÿLÿkXYjEҩt cӭ chúng ta làm gì Chúng giӟi thiӋu các sҧn phҭm và các dӏch vө dӵa trên thói quen cӫa chúng ta Chúng giúp các nhà cung cҩp dӏch vө FKăPVyFVӭc khӓe thiӃt kӃ và thӵc hiӋn các biӋn pháp cӭu chӳa phòng ngӯDFăQFӭ vào tính nhҥy cҧm cӫDFK~QJWDÿӕi vӟi mӝt mӝWFăQEӋnh cө thӇ.
Sӵ hình thành cӫa mӝt mô hình dӵ báo
Các mô hình dӵ EiR ÿѭӧc sinh ra bҩt cӭ khi nào sӱ dөng dӳ liӋX ÿӇ huҩn luyӋn mӝt kӻ thuұt mô hình hóa dӵ báo Chúng ta có thӇ thҩy rҵng:
Mô hình = Dӳ liӋu + Kӻ thuұt mô hình hóa dӵ báo 1Kѭ Yұy, mӝt mô hình dӵ báo là kӃt quҧ cӫa viӋc kӃt hӧS ³Dӳ liӋu´ Yj ³Toán hӑc´QѫLYLӋc hӑc tұp có thӇ ÿѭӧc chuyӇn dӏch thành viӋc tҥo ra mӝt hàm ánh xҥ giӳa mӝt tұp hӧSFiFWUѭӡng dӳ liӋXÿҫu vào và mӝt biӃQÿiS ӭng hay biӃn phө thuӝc ĈӇ xây dӵng mӝt mô hình dӵ EiRWUѭӟc tiên chúng ta cҫn phҧi kӃt hӧp tұp dӳ liӋu sӁ ÿѭӧc sӱ dөQJÿӇ huҩn luyӋQĈӇ OjPÿLӅXÿyPӝt tұp hӧp các thuӝc tính
(biӃQ ÿӝc lұS ÿҫX YjR ÿҥi diӋn cho mӝt khách hàng, chҷng hҥQ ÿѭӧc kӃt hӧp lҥi vӟi nhau thành mӝt bҧn ghi (record) Bҧn ghi này có thӇ FyFiFÿһFWtQKQKѭOjWXәi tác, giӟLWtQK PmEѭX ÿLӋn, sӕ Oѭӧng các mһWKjQJÿmPXDWURQJViXWKiQJTXDYj sӕ Oѭӧng các mһWKjQJÿmWUҧ lҥi, kӃt hӧp vӟi mӝt biӃn ÿtFKFyWKӇ ÿѭӧc sӱ dөQJÿӇ thông báo cho chúng ta biӃt liӋXNKiFKKjQJQj\ÿmEӓ ÿLKD\NK{QJWURQJTXiNKӭ 6DXÿyPӝt bҧn ghi khách hàng có thӇ ÿѭӧc mô tҧ bҵng toán hӑFQKѭOjPӝWYHFWѫ trong mӝt không gian nhiӅu chiӅX FiF ÿһc tính, do nhiӅX ÿһc tính ÿDQJ ÿѭӧc sӱ dөQJ ÿӇ [iF ÿӏQK ÿӕL Wѭӧng kiӇu khách hàng Khi tҩt cҧ các bҧn ghi khách hàng ÿѭӧc kӃt hӧp vӟi nhau, chúng trӣ thành mӝt tұp dӳ liӋu có thӇ chӭa hàng triӋu bҧn ghi Hình 1.1 cho thҩy mӝt biӇu diӉn hai chiӅu (sӱ dөng thuӝc tính "tuәi" và
"sӕ Oѭӧng các mһWKjQJÿmPXDFӫa mӝWYjLYHFWѫÿҫu vào hay là cӫa mӝWYjLÿӕi Wѭӧng khách hàng BiӇu diӉn hai chiӅu cӫa các vecWѫÿҫXYjRWURQJÿyPӛLYHFWѫ hoһFFiFÿӕLWѭӧQJNKiFKKjQJÿѭӧc biӇu diӉn bҵng mӝt ngôi sao màu vàng
Các kӻ thuұt mô hình hóa dӵ báo cho phép xây dӵng các mô hình dӵ báo chính xác, miӉQOjFyÿӫ dӳ liӋu và chҩWOѭӧng dӳ liӋXNK{QJÿiQJORQJҥi Dӳ liӋu xҩu cung cҩp các mô hình xҩu, bҩt kӇ các các kӻ thuұt dӵ báo tӕt thӃ QjRFKăQJQӳa 9jGRÿyFyFkXQyLOjFKҩWOѭӧQJÿҫu ra là mӝt hàm cӫa chҩWOѭӧQJÿҫu vào
Hình 1-1: Bi͋u di͍n hai chi͉u v͉ các thu͡c tính cͯa khách hàng
Trong machine learning, có mӝt thӭ gӑLOjÿӏnh luұW´ No Free Lunch ³1yL mӝt cách ngҳn gӑQÿLӅXÿyFKRUҵng không có mӝt thuұt toán nào là tӕt nhҩt trong mӑi vҩQÿӅ YjQyÿһc biӋt phù hӧp vӟi supervised learning ± viӋc hӑc có giám sát (ví dө là predictive modeling ± P{KuQKWLrQÿRiQ
Ví dө, bҥn không thӇ nói rҵng các kӃt nӕi neutral luôn tӕWKѫQFk\TX\ӃWÿӏnh ± GHFLVLRQWUHHVKD\QJѭӧc lҥi) Có rҩt nhiӅu yӃu tӕ ҧQKKѭӣng chҷng hҥQQKѭNtFK WKѭӟc và cҩu trúc cӫa bӝ dӳ liӋu
'RÿyEҥn nên thӱ nhiӅu thuұt toán khác nhau cho vҩQÿӅ cӫa bҥn, trong khi sӱ dөng mӝW³Wұp kiӇPWUD´FzQOҥLÿӇ ÿiQKJLiKLӋu suҩt và chӑn ra giҧi pháp tӕLѭX nhҩt
Tҩt nhiên, các thuұt toán bҥn thӱ phҧi phù hӧp vӟi vҩQÿӅ cӫa bҥQÿyOjYLӋc bҥn chӑQ ÿ~QJ F{QJ YLӋc cho Machine Learning 7ѭѫQJ Wӵ, nӃu bҥn cҫn dӑn dҽp nhà cӱa, bҥn có thӇ sӱ dөng máy hút bөi, mӝt cây chәi hoһc mӝt cái giҿ ODXQKѭQJEҥn sӁ không sӱ dөng mӝt cái xҿQJYjÿjR
Tuy nhiên, có mӝt nguyên tҳF FKXQJ Oj Fѫ Vӣ cho mӑi thuұt toán machine learning ÿѭӧFJLiPViWFKRP{KuQKWLrQÿRiQ
Các thuұWWRiQPDFKLQHOHDUQLQJÿѭӧc mô tҧ QKѭYLӋc hӑc mӝt hàm mөc tiêu
- WDUJHWIXQFWLRQIÿӇ biӃn bҧQÿӗ ÿҫu vào (X) thành biӃn xuҩt (Y): Y = f (X) Ĉk\OjPӝt nhiӋm vө hӑc tұp tәng quát mà chúng ta muӕQÿѭDUDQKӳng tiên ÿRiQWURQJWѭѫQJODL