BÀI GIẢNG KHOA HỌC DỮ LIỆU VÀ CÁCH MẠNG CÔNG NGHIỆP LẦN THỨ TƯ

68 143 0
BÀI GIẢNG KHOA HỌC DỮ LIỆU VÀ CÁCH MẠNG CÔNG NGHIỆP LẦN THỨ TƯ

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Khoa học Dữ liệu Cách mạng Công nghiệp lần thứ Tư Hồ Tú Bảo (bao@jaist.ac.jp) Japan Advanced Institute of Science and Technology Outline n n n Cách mạng công nghiệp lần thứ tư Khoa học liệu gì? Nguyên lý phương pháp khoa học liệu Cách mạng công nghiệp lần thứ tư? Đặc trưng cách mạng cơng nghiệp: n Có đột phá khoa học công nghệ n Tạo thay đổi chất sản xuất Cách mạng công nghiệp lần thứ tư? Đặc trưng cách mạng cơng nghiệp: n Có đột phá khoa học công nghệ n Tạo thay đổi chất sản xuất sản xuất thông minh dựa tiến công nghệ thông tin, công nghệ sinh học, công nghệ nano… với tảng đột phá công nghệ số cyber-­‐physical systems Chiến lược nước phát triển Japan’s smart society Klaus  Schwab (WEF),  The  Fourth  Industrial  Revolution Alistair  Nolan  (OECD),  Enabling  the  Next  Production  Revolution:  Implications  for  Policy,  Hanoi,  12.2016 Cách mạng số hoá cyber-­‐physical systems n n n ‘Phiên số’ thực thể: Biểu diễn thực thể ‘0’ ‘1’ máy tính (digitalization) Thí dụ: ơ-­‐tơ, bệnh án điện tử… Hệ kết nối không gian số-­‐thực thể (cyber-­‐physical system): hệ kết nối thực thể ‘phiên số’ chúng Hành động giới thực thể Tính tốn, điều khiển khơng gian số Thay  đổi  phương  thức  sản  xuất London CCTV (Closed circuit TV) n n n 500 triệu bảng (video surveillance) Cung cấp 95% thông tin vụ phạm tội Bắt nhầm người à Hàn quốc: từ 60m, 45o nghiêng Data-­‐intensive science: a shift in science Làm khoa học dựa vào liệu, nhằm tìm tri thức từ liệu Data-driven approach to science Carefully designed data-generating experiment Analyze and test hypotheses Inductive reasoning by computation Generation of hypotheses Cách truyền thống nhằm kiểm chứng giả thiết có từ tri thức biết Knowledge-driven approach to science Some knowledge of the domain Synthesis Hypotheses to be tested Experiment observations Jim  Gray  (1944-­2007) Book: The Fourth Paradigm, 2009 & Newman et al., CACM 2003 Science  paradigms n Thousand  years  ago:                                                                                         science  was  empirical   Describing  natural  phenomena n Last  few  hundred  years:                                                                               theoretical  branch Using  models,  generalizations n Last  few  decades:   a  computational branch Simulating  complex  phenomena n Today:  Data  exploration  (eScience)                     Unify  theory,  experiment,  and  simulation q q q q Data  captured  by  instruments  or  generated  by  simulator Processed  by  software Information/knowledge  stored  in  computer Scientist  analyzes  databases/files  using  data  management   and  statistics The  Four  Paradigm:  Data-­Intensive  Scientific  Discovery,  2009 Công nghệ số (digital technology) n n Số hố (thí dụ máy ảnh, in ấn, truyền hình…) Xử lý liệu số hoá How  digital   technology  will   transform  the   world,  Fujitsu   Journal,  1.2016 10 Classification with neural networks H1 H2 color  =  dark H3 H4 #  nuclei  =  1 C1 C2 #  tails  =  2 C3 C4 Healthy Cancerous 54 Deep Learning GS  Phùng Quốc Định nói mơ hình deep  learning  (học nhiều tầng),   chia  sẻ kinh nghiệm,  bài học,  hạn chế xu hướng lĩnh vực 55 Bayesians in machine learning David  Heckerman Judea  Pearl   Michael  Jordan GS  Nguyễn  Xuân  Long  sẽ  chia  sẻ  một  số  nền  tảng  thống  kê  của  khoa  học  dữ  liệu 56 Probabilistic graphical models Instances of graphical models Naïve   Bayes   classifier Probabilistic  models Graphical  models Directed Bayes  nets Mixture   models Kalman filter model Murphy, ML for life sciences LDA Undirected MRFs DBNs Hidden  Markov  Model  (HMM) Conditional random   fields MaxEnt 57 Probabilistic graphical models Approximate  inference Sampling inference (stochastic methods) Variational inference (deterministic methods) Markov Chain Monte Carlo (MCMC) cho kết dạng tập mẫu (samples) tìm từ phân bố hậu nghiệm (posterior distribution) Tìm phần tử tối ưu họ phân bố xấp xỉ cực tiểu hoá tiêu chuẩn thích hợp đo khác phân bố xấp xỉ phân bố hậu nghiệm xác GS  Phùng  Quốc  Định  sẽ  chia  sẻ  kinh  nghiệm  phần  này  khi  nói  về  big  data 58 Model selection Model: Abstract description or representation of a reality DNA  model  figured  out  in   1953  by  Watson  and  Crick   A model is defined as a parametric collection of probability distributions, indexed by model parameters      𝑀 = 𝑓 𝑦 𝜃 𝜃 ∈ Ω} Pignet  index  (body  build  index)  =  Stature  in  cm  -­ (weight  in  kg  +  chest  circumference  in  cm) Very  sturdy:  36 59 Model selection n n q n Problem: Choosing the most appropriate model(s) given a dataset and the task Relating to selecting Models that can be appropriated q Parameters of those models Examples of model selection problems q q q q q (1919-­2013) Is it a linear or non-­‐linear regression I should choose? Which neural net architecture gives the best generalization error? How many neighbors should I take in consideration in k-­‐NN? Should I use a linear model, a decision tree, a neural net, a local learning algorithms? Which of the 50 features are relevant for this problem? 60 Classification: Train, Validation, Test Results  known + + -­ -­ + Data Evaluate Model Builder Y Predictions + + - N Validation  set Testing Set Model Builder Training  set Final Model + - Final  Evaluation + - 61 Khía cạnh cơng nghệ hệ thống? Sẽ  được  chia  sẻ  trong  bài  giảng  của  TS  Bùi  Hải  Hưng  và  GS  Phùng  Quốc  Định   62 Take home message n n n n Bức tranh tổng thể khoa học liệu, khái niệm nguyên lý Khoa học liệu nằm trung tâm công nghệ số, đột phá trí tuệ nhân tạo à vai trò trung tâm CMCN4 Với người: tinh thần cách tân (innovation) đặt việc làm có ý nghĩa cao cần lời giải phân tích liệu Cơ hội thách thức toán học CNTT Việt Nam, giới KH&CN Cơ hội góp phần vào phát triển đất nước? 63 Latent semantic indexing (LSI) D2 D3 0.8 Q1 LSI (Deerwester, 1990) clusters documents in the reduced-dimension semantic space according to word co-occurrence patterns 0.6 0.4 D1 0.2 -­0.2 -­1                            -­0.8                    -­0.6                        -­0.4                      -­0.2 -­0.4 -­0.6 D4 -­0.8 x y cos( x, y) = x y D6 documents dims D5 D1 D2 D3 D4 D5 D6 Q1 rock 2 1 granite 1 0 0 marble 0 0 music 0 0 song 0 band 0 0 0 U D documents dims C dims words words dims cos(d3,  q1)  =  0   cos(d5,  q1)  =  0   cos(d4,  q1)  ¹ cos(d6,  q1)  ¹ -­1 V D1 D2 D3 D4 D5 D6 Q1 Dim -0.888 -0.759 -0.615 -0.961 -0.388 -0.851 -0.845 Dim 0.460 0.652 0.789 -0.276 -0.922 -0.525 0.534 64 KDD nuggets Nguồn thông tin lớn khai phá liệu www.kdnuggets.com is website of the data mining community 65 Which algorithms perform best at which tasks? Algorithm Pros Cons Good  at Linear   regression -­ Very  fast  (runs  in  constant  time) -­ Easy  to  understand  the  model -­ Less  prone  to  overfitting -­ Unable  to  model  complex  relationships -­ Unable  to  capture  nonlinear   relationships  without  first  transforming   the  inputs -­ The  first  look  at  a  dataset -­ Numerical  data  with  lots  of   features Decision   trees -­ Fast -­ Robust  to  noise  and  missing  values -­ Accurate -­ Complex  trees  are  hard  to  interpret -­ Duplication  within  the  same  sub-­tree  is   possible -­ Star  classification -­ Medical  diagnosis -­ Credit  risk  analysis Neural   networks -­ Extremely  powerful -­ Can  model  even  very  complex   relationships -­ No  need  to  understand  the  underlying   data -­ Almost  works  by  “magic” -­ Prone  to  overfitting -­ Long  training  time -­ Requires  significant  computing  power  for   large  datasets -­ Model  is  essentially  unreadable -­ Images -­ Video -­ “Human-­intelligence”  type  tasks   like  driving  or  flying -­ Robotics Support   Vector   Machines -­ Can  model  complex,  nonlinear   relationships -­ Robust  to  noise  (because  they   maximize  margins) K-­Nearest   Neighbors -­ -­ -­ -­ Simple Powerful No  training  involved  (“lazy”) Naturally  handles  multiclass   classification  and  regression -­ -­ -­ -­ Need  to  select  a  good  kernel  function Model  parameters  are  difficult  to  interpret Sometimes  numerical  stability  problems Requires  significant  memory  and   processing  power -­ Expensive  and  slow  to  predict  new   instances -­ Must  define  a  meaningful  distance   function -­ Performs  poorly  on  high-­dimensionality   datasets -­ -­ -­ -­ Classifying  proteins Text  classification Image  classification Handwriting  recognition -­ Low-­dimensional  datasets -­ Computer  security:  intrusion   detection -­ Fault  detection  in  semi-­conducter manufacturing -­ Video  content  retrieval -­ Gene  expression -­ Protein-­protein  interaction http://www.lauradhamilton.com/machine-­learning-­algorithm-­cheat-­sheet 66 Master on data science at JVN Special  courses Selective  courses 13 Leadership  development:   Analysis  to  Action * Visual  analytics Text  &  web  analytics Decision  analysis  * 12 Advanced  enterprise   data  practice Machine  learning  and   data  mining * 11 Social  media  and  diginal   market  analytics Databases  and   information  systems * Basic  courses Linear  algebra   and  optimization * Probability  &  Statistics * 14 Capstone project and thesis 10 Advanced  machine  learning   and  data  mining Risk  analysis * Time  series  analytics  and   forecasting * Some typical books 68

Ngày đăng: 23/04/2019, 04:49

Từ khóa liên quan

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan