1. Trang chủ
  2. » Luận Văn - Báo Cáo

ỨNG DỤNG VỀ KHOA HỌC DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU: DATA MINING LANDSCAPE

12 0 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Văn Hóa - Nghệ Thuật - Công Nghệ Thông Tin, it, phầm mềm, website, web, mobile app, trí tuệ nhân tạo, blockchain, AI, machine learning - Công nghệ thông tin Vềkhoahọcdữliệuvàkhaiphádữliệu Datamininglandscape HồTúBảo JapanAdvancedInstituteofScienceandTechnology Outline Statistics,(machine(learning,(data(mining,(and(data( science Issuesindatamining Developmentofdatamininganditschallenges 2 MộtsốslideschưachuyểnquatiếngViệtnhưng sẽđượctrìnhbàybằngtiếngViệt Data,information,knowledge,andwisdom 3 FromJulienBlin Howknowledgeiscreated? Chuồnchuồn baythấp thì mưa Baycao thì nắng bayvừa thì râm (thôi) Mùahèđangnắng,cỏgàtrắngthìmưa. Cỏgàmọclang,cảlàngđượcnước. Kiếnđenthatrứnglêncao Thếnàocũngcómưaràorất to Chuồn chuồn cắn rốn,bốn ngày biết bơi 4 Biết " à", Tìm((+ ) Biết " ,Tìm(") Induction)(quy)nạp) Deduction)(suy)diễn) 5 Un-interpreted signal Number of cars counted on a road by hours, by days of the week, by months. data equipped with meaning Average of number of cars each hour, each day, each week, each year on the road. integrated information, including facts and their relations (“justified true belief) Is this road appropriate for such amount of cars? Data,information,andknowledge Knowledgecanbeconsidereddataata highlevelofabstractionandgeneralization. Obtainingby K Observing K Measuring K Collecting Obtainingby K Processing Obtainingby K Perceiving K Discovering K Learning Howdoespeoplecollectdata? Dữliệuchínhlàgiá(trị(của(các(thuộc(tính (features,attributes, properties,variables)củacácđốitượng,thuđượcdoquansát,đođạc vàthuthập. Haicáchthuthậpdữliệu Lấymẫu ngẫunhiên Thumọidữliệu cóđược Conventional)statistics:Firsthave thetarget thencollectdatatoreach thetarget.Methodsweremostly createdfor smallormediumKsized datasets. Data)Mining:Dataarecollected withoutconnectingtoanytarget. Manyinnovativemultivariate techniquesbeingdevelopedtosolve largeKscaledataproblems. 6 Fromdatatoknowledge? 7 Nhiềukhoahọcliênquan việcđitừdữliệuđếntrithức Statistics MachineLearning DataMining DataScience Cóthểxemtrithứclàdữliệuởmức kháiquáthoácao(generalization). Thốngkêm Statistics Thốngkêcungcấpcácphươngphápvàkỹthuậttoánhọcđể phântích,kháiquátvàraquyếtđịnhtừdữliệu. Nội dungchính " Thốngkêmôtả(descriptivestatistics):phânbốxácsuất… " Thốngkêsuydiễn(inferentialstatistics):ướclượngvàkiểm địnhgiảthiếtthốngkê…) Dữliệutừthínghiệmvàdữliệuquansát " Dữliệuthốngkêthườngđượcthuthậpđểtrảlờinhững câu hỏiđược định trước (experimentdesign,surveydesign) " Phầnlớnlàdữliệusố,ítdữliệuhìnhthức(symbolic). Nhiềuphươngpháppháttriểnchotậpdữliệunhỏ,phântíchtừng biếnngẫunhiênriênglẻ,trướckhicómáytính. 8 Phântíchdữliệunhiềubiến Multivariateanalysis Phântíchđồngthờiquanhệcủanhiềubiếnngẫunhiên Phântíchthămdò(EDA,exploratorydataanalysis)dùngdữ liệutạoracácgiảthiếtvs.việckiểmđịnhgiảthiếttrong Phântíchkhẳngđịnh(CDA,confirmatorydataanalysis) " Factoranalysis, PCA,Lineardiscriminantanalysis " Regressionanalysis " Clusteranalysis Thấygìtừcácphươngpháptruyềnthống? " Kếtquảnghèotrêndữliệulớnvàphứctạp " Cácphươngpháptruyềnthốngchỉphântíchtậpdữliệunhỏ. " Giálưutrữvàxửlýdữliệugiảmnhanhthậpkỷqua. 9 Phântíchdữliệunhiềubiến Multivariateanalysis Phươngphápphântíchđượctạorachocáctậpdữliệucókích thướcnhỏhoặctrungbình,vàkhimáytínhcònyếu. Phântíchthốngkênhiềubiếnđangthayđổinhanhdokỹthuật tínhtoánnhanhvàhiệuquảhơn.Nhiềuphươngphápmớiđược pháttriểnđểgiảicácbàitoánlớn (Pagerank của Google nghịch đảo matrận kích thước nhiều tỷ chiều) June2013:China Tianhem2,33.86petaflops, 3,120,000 Intelcores(No.1.SunwayTaihuLight) Nov.2012:Cray’sTitancomputer, 17.59petaflops, 560640processors. 10 11 Machinelearninganddatamining Machine learning To build computer systems that learn as human does. ICML since 1982 (33th ICML in 2016), ECML since 1989. ECMLPKDD since 2001. ACML starts Nov. 2009. Data mining To find new and useful knowledge from large datasets. ACM SIGKDD (1995), PKDD and PAKDD (1997) IEEE ICDM and SIAM DM (2000), etc. ACML:AsiaConferenceonMachineLearning PAKDD:PacificAsiaKnowledgeDiscoveryandDataMining M?achine learning Fieldofstudythatgivescomputersthe abilitytolearn withoutbeingexplicitly programmed(ArthurSamuel,1959). Mộtchươngtrìnhmáytínhđượcnóilà " học từkinhnghiệmE " chomộtlớpcácnhiệmvụT " vớiđộđohiệusuấtP nếuhiệusuấtcủanóvớinhiệmvụT, đánhgiábằngP,cóthểtănglêncùng kinhnghiệm. (TomMitchell,1997) Three main AI targets: Automatic Reasoning, Language understanding, Learning Finding hypothesis f in the hypothesis space F by narrowing the search with constraints (bias) (fromEricXinglecturenotes) 12 Tự)động)khám)phá,)phát)hiện)các)tri)thức)tiềm)ẩn)từ) các)tập)dữ)liệu)lớn)và)đa)dạng.) Data mining metaphor: Extracting ore from rock Khaiphádữliệu– DataMining Large and unstructured real-life data Databases Statistics Machine Learning KDD 13 Statisticsvs.MachineLearning Statistics Nhấnmạnhsuydiễnthốngkêhình thức(ướclượng,kiểmđịnhgiảthiết). Dựatrêncácmôhình(models)chobài toáncósốchiều nhỏ,ởdạngsố. Khoahọcđãthiếtlập,ít‘vănhóa’thay đổivàthíchnghivớimôitrườngtính toán. Có xu hướng mởrộngsanghọcmáy. Machine(learning Nhấnmạnhcácbàitoándựđoán, bắt đầuvớidữliệuhìnhthức. Bướcđầuchủyếuxâydựngvà dùngcácthuật toántrựccảm (heuristics algorithms). Gắnvớithốngkênhiềuhơn,xây dựngmôhìnhtoánchocácthuật toán(statistical modelsunderlying thealgorithms). 14 Thốngkêvs.Khaiphádữliệu Feature Statistics Data)Mining Kiểubàitoán dữ liệu Cócấutrúc(wellstructured) Không cấutrúcNửa cấu trúc UnstructuredSemiKstructured Mụcđíchphân tích vàthuthậpdữliệu Xácđịnhmụctiêurồithu thậpdữliệu Dữliệuthuthậpthườngkhôngliên quanđếnmụctiêu Kíchthướcdữliệu Nhỏvàthườngthuầnnhất Lớnvàthườngkhôngthuầnnhất. Môthứctiếpcận Paradigmapproach Dựatrênlýthuyếtsuydiễn Theorybased(deductive) Phốihợplýthuyếtvàtrựccảm Theoryheuristicbased (inductive) Kiểuphân tích Confirmative(khẳngđịnh) Explorative(thămdò,khaiphá) Sốbiến Nhỏ Lớn Giảđịnhvềphânbố Distribution assump. Dựatrêngiảđịnhvềphânbố Khônggiảđịnhphânbốxácsuất Kiểu bài toán 15 Thứba,772015 Nhu)cầu)nhân)lực)khổng)lồ)cho)Big)Data Thấy gần đây 16 London)subway London)taxi Dữliệulớnnóivềcác tập)dữ)liệu)rất)lớn) vàhoặcrất)phức)tạp, vượtquákhảnăngxử lýcủacáckỹthuậtIT truyềnthống(View1). Bigdatalàgì? (View2)BigDataisabouttechnology(toolsandprocesses). (View3)Hiệntượngkháchquan màcáctổchức,doanh nghiệp…phảiđốiđầuđểpháttriển. 17 Aschemeofdatascience 18 Enterprise,Oracle,SAP, Customer,Systems,etc. Sensors Mobiles WebUnstructured ……. EXTRACT MANAGEMENT ANALYTICS SemiGstructuredunGstructuredataextraction……. Distributed FileSystem Parallel0 computing Data Storage DataCleaning DataSecurity ……. DATA MINING MACHINE LEARNINGSTATISTICS Browser Mobile devices Customhandhelp VISUALIZATION Tag(cloud Clustergram Spatial(information(flowHistory( flow Web services FTPandSFTP MQ,JMS,Sockers DIRECTEDACTIONSTOHUMAN DIRECTEDACTIONSTOMACHINES DATASOURCES DATA MANIPULATION DATA ANALYTICS ACCESS PUBLICATION RESULT COMMUNICATION Datascience “ChỉThượng đếlàđáng tin.Mọi thứkhácđềuphảidựavàodữliệu” Data Scientist: The Sexiest Job of the 21st Century (Harvard Business Review, October 2012) Outline Statistics,machinelearning,datamining,anddatascience Issues(in(data(mining 1) Types,modelsandstructuresofdata 2) Dataminingprocess 3) Modelassessmentandselection 4) Dataminingmethods 5) Others Developmentofdatamininganditschallenges 20 MộtsốslideschưachuyểnquatiếngViệtnhưng sẽđượctrìnhbàybằngtiếngViệt 21 Data types and models Flat data tables Relational databases Temporal spatial data Transactional databases Multimedia data Genome databases Materials science data Textual data Web data etc. Mining tasks and methods ClassificationPrediction " Decision trees " Bayesian classification " Neural networks " Rule induction " Support vector machines " Hidden Markov Model " etc. Description " Association analysis " Clustering " Summarization " etc. Datatypesandmodels vs.miningmethods 22 Theprocessisinherently interactiveanditerative astepconsistingofmethods thatanalyzethedatafor usefulpatternsormodels fromthedata 1 3 4 5 Understandthedomain, collectdata,defineproblems Preprocessdata DataAnalysis ExtractPatternsModels Interpretandevaluate discoveredknowledge Puttingtheresults inpracticaluse Maybe70)90 ofeffortandcost 2 Thedataanalysisprocess 23 Data cleaning Data integration and transformation Data reduction (instances and dimensions) 1 2 3 4 Data discretization Majortasksindatapreprocessing Datatypes SYMBOLIC " Indexing:E.g.,names,tags,casenumbers,orserial numbersthatidentifyarespondentorgroupof respondents. " Binary:Twovalues,e.g.,YESorNO,SUCCESSor FAILURE,MALEorFEMALE,WHITEorNONmWHITE,FOR orAGAINST,andsoon. " Boolean:TwovaluesTRUEorFALSE,andmayhavethe valueUNKNOWN. " Nominal:Charactermstringvalues(green,blue,red,…) " Ordinal:Valuesforthischaractermstring datatypeare linearlyordered (Small,Middle,Large,…) NUMERIC " Integer:Valuesarejustintegernumbers " Continuous:realnumbers. 24 Symbols or Numbers 25 Combinatorial search in hypothesis spaces (machine learning) Often matrix-based computation (multivariate d...

Về#khoa#học#dữ#liệu#và#khai#phá#dữ#liệu Outline Data#mining#landscape ! Statistics,( machine(learning,(data(mining,(and(data( Hồ#Tú#Bảo science Japan#Advanced#Institute##of#Science#and#Technology ! Issues*in*data*mining Data,*information,*knowledge,*and*wisdom ! Development* of*data*mining*and*its*challenges From$Julien$Blin Một$số$slides$chưa$chuyển$qua$tiếng$Việt$nhưng$ sẽ$được$trình$bày$bằng$tiếng$Việt 3 2 How*knowledge*is*created? Chuồn*chuồn bay*thấp thì mưa Biết "& ,#Tìm#!(") Bay*cao thì nắng bay*vừa thì râm (thôi) Induction)(quy)nạp) Mùa*hè*đang*nắng,*cỏ*gà*trắng*thì*mưa.* Biết ! " #$à#"&, Tìm#((*+)# Cỏ*gà*mọc*lang,*cả*làng*được*nước.* Deduction)(suy)diễn) Kiến*đen*tha*trứng*lên*cao Thế*nào*cũng*có*mưa*rào*rất to Chuồn chuồn cắn rốn,*bốn ngày biết bơi! 4 Data,*information,*and*knowledge How*does*people*collect*data? Knowledge$can$be$considered$data$at$a$$ ! Dữ*liệu*chính*là*giá(trị(của(các(thuộc(tính (features,*attributes,* high$level$of$abstraction$and$generalization properties,*variables)*của*các*đối*tượng,*thu*được*do*quan*sát,*đo*đạc* và*thu*thập.* integrated information, including facts and their relations (“justified true belief) ! Hai*cách*thu*thập*dữ*liệu Is this road appropriate for such amount of cars? Obtaining$by$ Lấy*mẫu* Thu*mọi*dữ*liệu* K Perceiving data equipped with meaning ngẫu*nhiên có*được K Discovering Average of number of cars each hour, each K Learning day, each week, each year on the road Conventional)statistics:$First$have$ Data)Mining:$Data$are$collected$ the$target then$collect$data$to$reach$ without$connecting$to$any$target.$$ Obtaining$by$ Un-interpreted signal the$target.$Methods$were$mostly$ Many$innovative$multivariate$ K Processing Number of cars counted on a road by created$for small$or$mediumKsized$ techniques$being$developed$to$solve$ hours, by days of the week, by months data$sets largeKscale$data$problems Obtaining$by$ K Observing K Measuring K Collecting 5 6 From*data*to*knowledge? Thống*kê*m Statistics Có$thể$xem$tri$thức$là$dữ$liệu$ở$mức$$$$$$$ ! Thống&kê&cung#cấp#các#phương#pháp#và#kỹ#thuật#toán#học#để# khái$quát$hoá$cao$(generalization) phân#tích,#khái#quát#và#ra#quyết#định#từ#dữ#liệu Nhiều*khoa*học*liên*quan** ! Nội dung&chính việc*đi*từ*dữ*liệu*đến*tri*thức " Thống&kê&mô&tả&(descriptive#statistics):#phân#bố#xác#suất… • Statistics* " Thống&kê&suy&diễn&(inferential#statistics):#ước#lượng#và#kiểm# • Machine*Learning* định#giả#thiết#thống#kê…) • Data*Mining* • Data*Science ! Dữ#liệu#từ#thí#nghiệm#và#dữ#liệu#quan#sát# " Dữ#liệu#thống#kê#thường#được#thu#thập#để#trả&lời&những& câu& 7 hỏi&được định trước (experiment#design,#survey#design) " Phần#lớn#là#dữ#liệu#số,#ít#dữ#liệu#hình#thức#(symbolic) ! Nhiều#phương#pháp#phát#triển#cho#tập#dữ&liệu&nhỏ,#phân#tích#từng# biến#ngẫu#nhiên#riêng#lẻ,#trước#khi#có#máy#tính 8 Phân*tích*dữ*liệu*nhiều*biến Phân*tích*dữ*liệu*nhiều*biến Multivariate*analysis* Multivariate*analysis* ! Phân#tích#đồng#thời#quan#hệ#của#nhiều#biến#ngẫu#nhiên ! Phương*pháp*phân*tích*được*tạo*ra*cho*các*tập*dữ*liệu*có*kích* ! Phân&tích&thăm&dò&(EDA,#exploratory#data#analysis)#dùng#dữ# thước*nhỏ*hoặc*trung*bình,*và*khi*máy*tính*còn*yếu.* liệu#tạo#ra#các#giả#thiết#vs.#việc#kiểm#định#giả#thiết#trong####### ! Phân*tích*thống*kê*nhiều*biến*đang*thay*đổi*nhanh*do*kỹ*thuật* Phân&tích&khẳng&định&(CDA,#confirmatory#data#analysis)# tính*toán*nhanh*và*hiệu*quả*hơn.*Nhiều*phương*pháp*mới*được* phát*triển*để*giải*các*bài*toán*lớn (Pagerank của Google* nghịch " Factor#analysis, PCA,#Linear#discriminant#analysis đảo ma*trận kích thước nhiều tỷ chiều) " Regression#analysis " Cluster#analysis Nov.*2012:*Cray’s*Titan*computer,* June*2013:*China Tianhem2,*33.86*petaflops,* 17.59*petaflops, 560640*processors 3,120,000* Intel*cores*(No.*1.*Sunway*TaihuLight) ! Thấy#gì#từ#các#phương#pháp#truyền#thống? 10 " Kết#quả#nghèo#trên#dữ#liệu#lớn#và#phức#tạp# " Các#phương#pháp#truyền#thống#chỉ#phân#tích#tập#dữ#liệu#nhỏ.# M?achine learning " Giá#lưu#trữ#và#xử#lý#dữ#liệu#giảm#nhanh#thập#kỷ#qua 9 Machine*learning*and*data*mining* Machine learning Data mining ! Field*of*study*that*gives*computers*the* ability*to*learn without*being*explicitly* # To build computer # To find new and useful programmed*(Arthur*Samuel,*1959) systems that learn as knowledge from large ! Một*chương*trình*máy*tính*được*nói*là* human does datasets " học từ*kinh*nghiệm*E # ICML since 1982 # ACM SIGKDD (1995), " cho*một*lớp*các*nhiệm*vụ*T (33th ICML in 2016), PKDD and PAKDD (1997) ECML since 1989 IEEE ICDM and SIAM DM " với*độ*đo*hiệu*suất*P # ECML/PKDD since 2001 (2000), etc nếu*hiệu*suất*của*nó*với*nhiệm*vụ*T,* # ACML starts Nov 2009 đánh*giá* bằng*P,*có*thể*tăng*lên*cùng* kinh*nghiệm (Tom*Mitchell,* 1997) (from$Eric$Xing$lecture$notes) ACML:$Asia$Conference$on$Machine$Learning • Three main AI targets: Automatic Reasoning, Language understanding, Learning PAKDD:$Pacific$Asia$Knowledge$Discovery$and$Data$Mining 11 • Finding hypothesis f in the hypothesis space F by narrowing the search with constraints (bias) 12 Khai*phá*dữ*liệu*– Data*Mining Statistics*vs.*Machine*Learning Tự) động) khám) phá,) phát) hiện) các)tri) thức) tiềm) ẩn) từ) Statistics Machine(learning các)tập)dữ)liệu)lớn)và)đa)dạng.) ! Nhấn*mạnh*suy*diễn*thống*kê*hình* ! Nhấn*mạnh*các*bài*toán*dự*đoán,* Data mining metaphor: Statistics Large and thức*(ước*lượng,*kiểm*định*giả* thiết) bắt đầu*với*dữ*liệu*hình*thức.*********************************** Extracting ore from rock unstructured KDD real-life data ! Dựa*trên*các*mô*hình*(models)*cho*bài* ! Bước*đầu*chủ*yếu*xây*dựng*và* toán*có*số*chiều* nhỏ,*ở*dạng*số dùng*các*thuật* toán*trực*cảm* (heuristics* algorithms) ! Khoa*học*đã*thiết*lập,*ít*‘văn*hóa’*thay* đổi*và*thích* nghi*với*môi*trường*tính* ! Gắn*với*thống*kê*nhiều*hơn,*xây* toán.* dựng*mô*hình*toán*cho*các*thuật* ! Có xu hướng mở*rộng*sang*học*máy toán*(statistical* models*underlying* the*algorithms).* Databases Machine Learning 13 14 London)taxi Thống*kê*vs.*Khai*phá*dữ*liệu Thấy gần đây London)subway Feature Statistics Data)Mining Kiểu$bài$toán &$dữ Có$cấu$trúc$(well$structured) Không cấu$trúc/Nửa cấu trúc liệu Unstructured/SemiKstructured Xác$định$mục$tiêu$rồi$thu$ Mục$đích$phân$ tích$ thập$ dữ$liệu Dữ$liệu$thu$thập$ thường$ không$ liên$ và$thu$thập$dữ$ liệu Nhỏ$ và$thường$ thuần$ nhất quan$ đến$ mục$tiêu Kích$thước$dữ$ liệu Lớn$ và$thường$ không$ thuần$ nhất.$ Mô$thức/tiếp$cận Dựa$ trên$lý$thuyết$suy$diễn Phối$hợp$ lý$thuyết$và$trực$cảm Paradigm/approach Theory$based$ (deductive) Theory$&$heuristic$based$ (inductive) Kiểu$phân$ tích Confirmative$(khẳng$ định) Explorative$(thăm$dò,$khai$phá) Số$biến Nhỏ Lớn Dựa$ trên$giả$định$về$phân$ bố Không$ giả$ định$phân$ bố$ xác$suất Giả$định$ về$phân$ bố Distribution assump Thứ$ba,$7/7/2015 Nhu)cầu)nhân)lực)khổng)lồ)cho)Big)Data 15 Kiểu bài toán 16 Big#data#là#gì? A*scheme*of*data*science Dữ$liệu$lớn$nói$về$các$$$$$$$$$$$$$$ PUBLICATION DIRECTED*ACTIONS*TO*HUMAN DIRECTED*ACTIONS*TO*MACHINES tập)dữ)liệu)rất)lớn) ACCESS và/hoặc$rất)phức)tạp, RESULT Browser Mobile* Custom*hand*help Web* FTP*and*SFTP MQ,*JMS,*Sockers vượt$quá$khả$năng$xử$ devices services lý$của$các$kỹ$thuật$IT$ COMMUNICATION truyền$thống$(View%1) VISUALIZATION Tag(cloud Clustergram History( Spatial(information(flow DATA* ANALYTICS flow (View%2)%Big%Data% is%about% technology%(tools%and% processes).% ANALYTICS DATA* (View%3)%Hiện%tượng%khách%quan% mà%các%tổ%chức,%doanh% nghiệp…%phải%đối%đầu%để%phát%triển STATISTICS MACHINE* MINING LEARNING 17 MANAGEMENT Distributed* Data*Cleaning Data*science File*System Data*Security DATA* Data* “Chỉ$Thượng$ đế$là$đáng tin.$Mọi MANIPULATION Parallel0 Storage …… thứ$khác$đều$phải$ dựa$ vào$dữ$liệu” computing Data Scientist: The Sexiest EXTRACT SemiGstructured/unGstructure*data*extraction*************…… Job of the 21st Century DATA*SOURCES Enterprise,*Oracle,*SAP, Sensors Mobiles Web/Unstructured …… (Harvard Business Review, October Customer,*Systems,*etc 2012) 18 Outline ! Statistics,* machine*learning,* data*mining,*and*data*science ! Issues( in(data(mining 1) Types,*models*and*structures*of*data 2) Data*mining*process 3) Model*assessment*and*selection 4) Data*mining*methods 5) Others ! Development* of*data*mining*and*its*challenges Một$số$slides$chưa$chuyển$qua$tiếng$Việt$nhưng$ sẽ$được$trình$bày$bằng$tiếng$Việt 20 Data*types*and*models vs.*mining*methods The*data*analysis*process Data types and models Mining tasks and methods a*step*consisting*of*methods* 5 Putting*the*results that*analyze*the*data*for* in*practical*use # Flat data tables # Classification/Prediction useful*patterns*or*models* # Relational databases from*the*data 4 Interpret*and*evaluate # Temporal & spatial data " Decision trees discovered*knowledge # Transactional databases " Bayesian classification # Multimedia data " Neural networks Maybe&70)90%& 3 Data*Analysis # Genome databases " Rule induction of&effort&and&cost Extract*Patterns/Models* # Materials science data " Support vector machines # Textual data " Hidden Markov Model 2 # Web data " etc Preprocess*data******** # etc # Description 1 The$process$is$inherently Understand*the*domain,* interactive$and$iterative " Association analysis collect*data,*define*problems " Clustering 22 " Summarization " etc 21 Major*tasks*in*data*preprocessing Data*types 1 Data cleaning # SYMBOLIC Symbols$ " Indexing:*E.g.,*names,*tags,*case*numbers,*or*serial* or$ 2 Data integration and transformation numbers*that* identify*a*respondent*or*group*of* Numbers respondents 3 Data reduction 4 Data discretization " Binary:*Two*values,*e.g.,*YES*or*NO,*SUCCESS*or* 24 (instances and dimensions) 23 FAILURE,*MALE*or*FEMALE,*WHITE*or*NONmWHITE,*FOR* or*AGAINST,*and*so*on.* " Boolean:*Two*values*TRUE*or*FALSE,*and*may*have*the* value*UNKNOWN.* " Nominal:*Charactermstring*values*(green,*blue,*red,*…) " Ordinal:*Values*for*this*charactermstring* data*type*are* linearly*ordered (Small,*Middle,*Large,…) # NUMERIC " Integer:*Values*are*just*integer*numbers " Continuous:*real*numbers.* Why*we*should*care about*data*types? Structures*of*data Combinatorial search in hypothesis spaces (machine learning) ! Structured(data Attribute********Numerical*********Symbolic Posible$ " Can*be*stored*in*database*SQL*in* analysis$ table*with*rows*and*columns.* No*structure Places, Nominal$or operations$ Color categorical (thus$methods,$ " Only*about*5m10%*of*all* = ≠ (Binary,* algorithms)$ available*data Rank, Boolean) depend$on$data$ Ordinal**** Integer:** Resemblance types ! SemiMstructured( data structure******* Age, Ordinal Temperature " Doesn’t*reside*in*a*relational* =≠≥ Measurable database*but*that*does*have* Continuous:* some*organizational*properties* Ring* Income, that*make*it*easier*to*analyze.* structure Length " XML*documents*and*NoSQL** =≠≥ +× databases*documents*are*semi* structured Often matrix-based computation (multivariate data analysis) Articls$in$a$Latex$database 25 26 Structures*of*data Supervised*vs.*Unsupervised*data* ! Unstructured(data Given:* !",$" , !%, $% , … , (!(, $() m *+ is*description*of*an*object,*phenomenon,* etc " Unstructured*data*represent*around*80%*of*data.*It*often*include* m $+ (label*attribute)*is*some*property*of**+,*if*not*available*learning*is*unsupervised text*and*multimedia*content.* Example:*emmail*messages,* word*documents,*videos,*photos,*audio* Find:*a*function*, * that*characterizes*{*+}*or*that*, *+ = $+ files,*webpages* and*many*other*kinds*of*business*documents Unsupervised data Supervised data " A*key*issue*in*data*science*is*representing(unstructured(data Example:*The*DNA*sequence H1 H2 H3 H4 “…TACATTAGTTATTACATTGAGAAACTTTATAATTAAAAAAGATTC…” can*be*represented*by*different*ways*for*computation*such*as* C1 C2 sliding*windows,*motifs,**kernel*function,*web*link…*representation C3 C4 27 The$problem$is$usually$called$classification if$“label”$is$categorical,$and$prediction if$“label”$ is$continuous$(in$this$case,$if$the$descriptive$attribute$is$numerical$the$problem$ is$regression)$ $ Hoàng$Xuân$Huấn,$Classification$and$Regression 28 Classification—a*twomstep*process Classification:*Train,*Validation,*Test Model construction Model usage Results)known Classification + Training)set Model Algorithms + ` Builder Unknown object ` H1 H2 + Evaluate Data Model Builder Predictions H3 H4 + - Classifier Cancerous? YN + (model) 29 - C1 C2 Validation)set training data If color = dark Final Model + and # tails = 2 - Final)Evaluation cancerous cell Testing Set + Then - 30 Classification*with*decision*trees Classification*with*neural*networks #nuclei? H1 H2 1 2 H1 H2 color*=*dark #*nuclei*=*1 color? color? #*tails*=*2 Healthy light dark Cancerous H3 H4 H3 H4 H #tails? 32 light dark 12 C1 C2 #tails? C C1 C2 12 C3 C4 H C HC C3 C4 31 Classification*with*decision*rules Instancembased*classification H1 H2 IF Color = light ! InstanceMbased( classification Class$A AND # nuclei = 1 X Healthy " Using*most*similar*individual*instances*known* THEN in*the*past*to*classify*a*new*instance Class$B 34 H3 H4 ! Typical(approaches X$ belongs$ Color = dark " kMnearest(neighbor(approach to$A$or$B?$ # nuclei = 2 IF Cancerous ! Instances*represented*as*points*in*a* AND Euclidean*space C1 C2 THEN " Locally(weighted(regression ! Constructs*local*approximation C3 C4 " CaseMbased(reasoning ! Uses*symbolic*representations*and* knowledgembased*inference 33 Bayesian*classification Clustering*(Apsara faces) ! The*essence*of*Bayes’*theorem*is*that*tell*us*how*to*update*our*initial* probabilities*.(ℎ) if*we*see*evidence*0,*in*order*to*find*out*.(ℎ|0) ℎ 0 = 0 ℎ (ℎ) (0) ℎ 0 = 0 ℎ (ℎ) = 0 ℎ (ℎ) (0) 0 ℎ ℎ + 0 ¬ℎ (¬ℎ) 127 landmarks ! A*prior*probability 12 9 10 3 6 4 5 7 8 ! Conditional*probability*(likelihood)*← coming*from*the*data* ! Posteriori*probability Single Link clusters • Naïve*assumption:*attribute-independence Shape alignment An ethnologist needs to validate the groups • Bayesian*belief*network*allows*a*subset of*the*variables*conditionally* Nguyễn$Trí$Thành,$Cluster$Analysis independent 36 35 Mining associations* Many*other*issues Super market data ! Ensemble*learning ! Transfer*learning “Young men buy diaper and beer together” ! Learning* to*rank ! Multiminstance* multimlabel*learning Dữ*liệu*siêu*thị**** Khai*phá*dữ*liệu****** Trai*trẻ*20m30*tuổi + ! Semimsupervised* learning ! Structured* prediction* * Bỉm*************************Bia***** ! Social*network* analysis*(Trần*Mai*Vũ) ! Learning* in*specific*domains ! etc                        38         Võ$Đình$Bảy,$Pattern$and$asociation$mining 37 KDD*nuggets Which*algorithms*perform*best*at*which*tasks?* Nguồn-thông-tin-lớn-nhất-về-khai-phá-dữ-liệu Algorithm Pros Cons Good)at www.kdnuggets.com is*website*of*the*data*mining*community Linear) regression K Very$fast$(runs$in$constant$time) K Unable$to$model$complex$relationships K The$first$look$at$a$dataset Decision) K Easy$to$understand$the$model K Unable$to$capture$nonlinear$ K Numerical$data$with$lots$of$ trees K Less$prone$to$overfitting relationships$ without$first$transforming$ features Neural) the$inputs networks K Fast K Complex$trees$are$hard$to$interpret K Star$classification Support) K Robust$to$noise$and$missing$values K Duplication$ within$ the$same$subKtree$is$ K Medical$diagnosis Vector) K Accurate K Credit$risk$analysis Machines possible K Extremely$powerful K Images K`Nearest) K Can$model$even$very$complex$ K Prone$to$overfitting K Video Neighbors K Long$training$time K “HumanKintelligence”$type$tasks$ relationships K Requires$significant$computing$power$for$ K No$need$to$understand$the$underlying$ like$driving$or$flying large$datasets K Robotics data K Almost$works$by$“magic” K Model$is$essentially$unreadable K Can$model$complex,$nonlinear$ K Need$to$select$a$good$kernel$function K Classifying$proteins relationships K Model$parameters$are$difficult$to$interpret K Text$classification K Sometimes$numerical$stability$problems K Image$classification K Robust$to$noise$(because$they$ K Requires$significant$memory$and$ K Handwriting$recognition maximize$margins) processing$power K Simple K Powerful K Expensive$and$slow$to$predict$new$ K LowKdimensional$datasets K No$training$involved$(“lazy”) instances K Computer$security:$intrusion$ K Naturally$handles$multiclass$ K Must$define$a$meaningful$distance$ detection classification$and$regression function K Fault$detection$in$semiKconducter K Performs$poorly$on$highKdimensionality$ manufacturing datasets K Video$content$retrieval K Gene$expression K ProteinKprotein$interaction 39 http://www.lauradhamilton.com/machineKlearningKalgorithmKcheatKsheet 40 Outline Development*of*machine*learning ! Statistics,* machine*learning,* data*mining,*and*data*science Successful)applications ! Issues*in*data*mining ! Development( of(data(mining(and(its(challenges Symbolic)concept)induction Data)mining IR$&$ranking Multi$strategy$learning MIML Minsky$criticism$ NN,$GA,$EBL,$CBL Active$&$online$learning Transfer$learning Pattern$Recognition$emerged Abduction,$Analogy Kernel$methods Sparse$learning Revival)of)non`symbolic)learning Bayesian$methods PAC$learning ILP SemiKsupervised$learning Deep$$learning Experimental$comparisons Dimensionality$reduction Math$discovery$AM Supervised)learning Probabilistic$graphical$models Neural$modeling Statistical)learning Rote$learning Unsupervised)learning Nonparametric$Bayesian Ensemble$methods Reinforcement)learning Structured$prediction 19510941 19149960 1956 19179058 196189801970 19179290 1982 12908060 1990 19972010 ICML$(1982) ECML$(1989) KDD$(1995) PAKDD$(1997) ACML$(2009) enthusiasm dark$age renaissance maturity fast$development 42 Một$số$slides$chưa$chuyển$qua$tiếng$Việt$nhưng$ sẽ$được$trình$bày$bằng$tiếng$Việt 41 Kernel*methods:*the*scheme Probabilistic*graphical*models MIN VOL SET Input$space$X PU L MEMBOL U S IN TU BATION KIN KED TU BE VEN TMAC H D ISC ON N EC T Feature$space$F ! Kết*nối*graph*theory*và probability* PAP SH U N T VEN TL U N G VEN ITU BE theory*trong*một*hình*thức*chặt* chẽ* cho*mô*hình*hoá*thống*kê*nhiều* chiều.* PR ESS x1 x2 inverse map φ-1 MIN OVL FIO2 VEN TAL V φ(xn) AN APH YL AXIS PVSAT AR TC O2 φ(xn-1) φ(x) φ(x1) ! Probability*theory đảm*bảo*tính*nhất* TPR SAO2 IN SU FFAN ESTH EXPC O2 k(xi,xj) = φ(xi).φ(xj) φ(x2) quán*(consistency)*và*cho*mô*hình*mô* … tả*và*kết*nối*với*dữ*liệu.* H YPOVOL EMIA L VFAIL U R E C ATEC H OL xn-1 xn ! Graph*theory cho*một*giao*diện*trực* giác*với*con*người L VED VOL U ME STR OEVOL U ME HISTORY ERRBLOWOUTPUT HR ER R C AU TER “Ngôn*ngữ*đồ*thị*cho*ta*cách* diễn*giải* C VP PC W P CO H R EKG H R SAT rõ*tính*chất* thực*tế:*các*biến*có*xu* kernel function k: XxX $ R Gram matrix Knxn= {k(xi,xj)} - kernel-based algorithm on K hướng*chỉ*tương*tác*trực-tiếp-với*một* H R BP số*ít*biến*khác”.*(Koller’s book) BP ! Modularity:*Mọi*hệ*phức*tạp*đều*được* xây*dựng*từ*những*phần*đơn*giản*hơn.* A ICU alarm network, 37 nodes, 509 parameters # Biến%đổi%dữ%liệu%từ%X%bởi%một%ánh%xạ%6(x) vào%một%không% gian%vector%(nhiều%chiều),% gọi%là ! Issues:* " Representation feature%space%F " Learning " Inference # Tìm%một%hàm/mô%hình tuyến%tính (hoặc%một%hàm%tốt%hơn) trong% F bằng%%các%thuật%toán% " Applications quen%biết%thực%hiện%trên%Gram%matrix Trần Quốc Long, Probabilistic graphical models # Bởi%một%ánh%xạ%ngược,%hàm%tuyến%tính%trên%F%có%thể%tương%ứng%với%một%hàm%phức%tạp%trên% X.% # Điều%này%có%thể%thực%hiện%đơn%giản%hơn% do%sử%dụng%nội%tích%(inner%products)% trong F%(kernel% trick)%xác%định%bởi%một%hàm%hạch%(kernel%function) Probabilistic*graphical*models Nonmlinearly*separable*problems******************** and*deep*learning Instances-of-graphical-models Naïve$ Graphical$models Probabilistic$models Structure Types+of Exclusive7OR Classes+with Most+General Bayes$ Single7Layer Decision+Regions Problem Meshed+regions Region+Shapes classifier Half+Plane A B Mixture$ Bounded+ By models Hyperplane B A Kalman Directed Undirected LDA B A filter model Bayes$nets MRFs Two7Layer Convex+Open A B Or B A Closed+Regions DBNs B A Hidden$ Markov$Model$ (HMM) Conditional Three7Layer Arbitrary A B random$ (Complexity fields Limited$by$No B of$Nodes) B A A MaxEnt Murphy, ML for life sciences 45 Lê$Hồng$Phương,$Deep$Learning$ for$Text 46 Some*typical*books** 47

Ngày đăng: 11/03/2024, 19:45

Xem thêm:

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w