Lecture Introduction to Machine learning and Data mining: Lesson 1. This lesson provides students with content about: data collection and currency processing; recovery time; reporting data collection system; extract semantic symbols; convert data text;... Please refer to the detailed content of the lecture!
Introduction to Machine Learning and Data Mining (Học máy Khai phá liệu) Khoat Than Le Minh Hoa, Nguyen Van Son School of Information and Communication Technology Hanoi University of Science and Technology 2021 Content ¡ Introduction to Machine Learning & Data Mining ¡ Data crawling and pre-processing ¡ Supervised learning ¡ Unsupervised learning ¡ Practical advice Quỹ thời gian § Thời gian dành cho phân tích liệu sao? • Thu thập liệu: 19% • Thu xếp làm liệu: 60% • Tạo tập liệu huấn luyện: 3% • Khai phá: 9% • Cải thiện thuật tốn: 4% • Khác: 5% Why? ¡ Tiền xử lý để làm • Thuận tiện lưu trữ, truy vấn • Các mơ hình học máy thường làm việc với liệu có cấu trúc: ma trận, vectơ, chuỗi,… • Học máy thường làm việc hiệu có biểu diễn liệu phù hợp Input Output Vấn đề cần giải lĩnh vực Dữ liệu số - ma trận vector 𝑥 ! = -0.0920 3.4931 -1.8493 -0.2010 -1.3079 𝑥" 𝑥# 𝒟= … 𝑥 ! How? § Thu thập liệu • Lấy mẫu (sampling) • Kỹ thuật: crawling, logging, scraping Đ X lý d liu ã Lc nhiu, làm sạch, số hoá,… Business understanding Analytic approach Feedback Data requirements Deployment Data collection Evaluation Data understanding Modeling Data preparation Data collection Input Vấn đề cần giải Output Mẫu liệu Fundamentals :: Sampling ¡ WHAT – lấy tập mẫu nhỏ, phổ biến để đại diện cho lĩnh vực cần học “One or more small spoon(s) can be enough to assess whether the soup is good or not.” ¡ WHY – khơng thể học tồn Giới hạn thời gian khả tính tốn ¡ HOW – thu thập mẫu từ thực tế, nguồn chứa liệu web, database,… https://www.coursera.org/learn/inferential-statistics-intro Fundamentals :: Sampling :: How ¡ Variety – tập mẫu thu đủ đa dạng để phủ hết ngữ cảnh lĩnh vực “One or more small spoon(s) can be enough to assess whether the soup is good or not.” Remember to stir to avoid tasting biases ¡ Bias – liệu cần tổng quát, không bị sai lệch, thiên vị phận nhỏ lĩnh vực https://www.coursera.org/learn/inferential-statistics-intro Fundamentals :: Sampling :: How ¡ Variety – mẫu đủ đa dạng để phản ánh khách quan? Actual results https://projects.fivethirtyeight.com/2016-election-forecast/ http://edition.cnn.com/election/results/president Image credit: Wikipedia, FiveThirtyEight https://www.coursera.org/learn/inferential-statistics-intro Techniques § Crowd-sourcing: Survey – thực khảo sát § Logging: lưu lại lịch sử tương tác người dùng, truy cập sản phẩm,… § Scrapping: tìm kiếm nguồn liệu website, tải về, bóc tách, lọc,… 10 Fundamentals :: Data “rawness” Completeness (đầy đủ) Từng mẫu thu thập nên đầy đủ thông tin trường thuộc tính cần thiết Integrity (trung thực) § Nguồn thu thập thống, đảm bảo mẫu thu chứa giá trị xác thực tế § Jan as everyone’s birthday? – intentional (systematic) noises Homogeneity (đồng nhất) § Rating “1, 2, 3” & “A, B, C”; or Age = “42” & Birthday = “03/07/2010” (inconsistency) § Heterogenous data sources / schemas Structures (cấu trúc) 16 17 Techniques Cleaning Integrating Transforming Techniques :: Cleaning ¡ Tính đầy đủ + trung thực 18 • Mẫu liệu cần thu thập từ nguồn đáng tin cậy Phản ánh vấn đề cần giải • Loại bỏ nhiễu (ngoại lai): bỏ vài mẫu liệu mà có khác biệt lớn với mẫu khác • Một mẫu liệu bị trống (thiếu, chưa đầy đủ), cần có chiến lược phù hợp: • Bỏ qua, khơng đưa vào phân tích? • Bổ sung trường thiếu cho mẫu? 19 Techniques :: Cleaning ¡ Điền giá trị thiếu ¡ Điền lại giá trị tay ¡ Gán cho giá trị nhãn đặc biệt hay khoảng biểu diễn Gán giá trị trung bình cho Gán giá trị trung bình mẫu khác thuộc lớp Tìm giá trị có xác suất lớn điền vào chỗ bị ¡ ¡ ¡ (hồi quy, suy diễn Bayes,…) A1 ? ? ? 2.887 2.731 A2 3.683 ? 3.096 3.870 3.945 A3 ? 60 67 68 79 A4 -0.634 1.573 0.249 -1.347 1.967 A5 0 ? A6 0.409 0.639 0.089 1.276 2.487 A7 7 ? ? ? A8 30 30 80 60 100 y 5 Techniques :: Cleaning (cont.) 20 ¡ Tính đồng Các mẫu liệu cần có tính đồng cách biểu diễn, ký hiệu Ví dụ khơng đồng nhất: Rating “1, 2, 3” & “A, B, C”; Age = 42 & Birthday = 03/08/2020 21 Techniques :: Integrating w/ some Transforming `` texts in websites, emails, articles, tweets Un-structured 2D/3D images, videos + meta spectrograms, DNAs, … image credits: wikipedia, shutterstock, CNN Techniques :: Transforming Semantics? Trích xuất đặc trưng ngữ nghĩa, chuẩn hóa 22 23 Semantics example: visual data (raw pixels) `` Low-level semantics Mid-/High-level semantics (e.g human-interpretable features) cat human car ground building 0.28 0.17 0.08 0.25 0.22 cat → not on → car people ← behind ← building car → is → red Mức ngữ nghĩa tối thiểu để hiểu: • Phân loại văn • Phân tích cảm xúc • AI Chatbot (nhiều mức ngữ nghĩa khác nhau) Image credits: CS231n, Stanford University; Lee et al, 2009; Socher et al, 2011 Techniques :: Transforming (cont.) 24 ¡ Mục tiêu: trích xuất đặc trưng ngữ nghĩa • Từng lĩnh vực cụ thể, loại liệu sử dụng kỹ thuật xuất đặc trưng ngữ nghĩa khác (dữ liệu text, hình ảnh, …) … and standardize One-hot encoding 1= 10000 3= 00100 … 𝑥 − 𝑥̅ 𝑠 • Feature discretization (rời rạc hố): số thuộc tính tỏ hiệu gom nhóm giá trị • Feature normalization: chuẩn hóa giá trị thuộc tính, miền giá trị, dễ dàng tính tốn Techniques :: Transforming (cont.) 25 ¡ Giảm kích cỡ: ¡ Giúp giảm kích thước liệu đồng thời giữ ngữ nghĩa cốt lõi liệu ¡ Giúp tăng tốc trình học khai phá tri thức ¡ Vài chiến lược: ¡ Lựa chọn đặc trưng (feature selection): thuộc tính khơng liên quan, dư thừa chiều xóa hay loại bỏ ¡ Giảm chiều (dimension reduction): dùng số thuật tốn (ví dụ PCA, ICA, LDA,…) để biến đổi liệu ban đầu khơng gian có chiều ¡ Trừu tượng hố: giá trị liệu thơ thay khái niệm trừu tượng 26 Techniques :: Transforming example & demo Transforming text data 27 DEMO Input Mẫu liệu thô: json text Output Dữ liệu số theo ML/AI model(s) 28 DEMO :: Steps Tokenize Dictionary Data Input (tfidf-Vector) DEMO :: Exercise 29 § Bài tập: Tính vector biểu diễn văn với liệu nhỏ § Dữ liệu: bỏo t trang dõn trớ Đ Yờu cu: ã S dung module tách từ • Build tập từ điển từ văn • Sử dung stopwords lọc từ dừng • Chuyển hoá văn thành vector tfidf Summary (Take-home messages) 30 § Dữ liệu lĩnh vực trước vào hệ thống học máy phải thu thập biểu diễn thành dạng cấu trúc với số đặc tính: đầy đủ, nhiễu, quán, có cấu trúc xác định § Dữ liệu thu thập cho trình học tập nhỏ, cần phản ánh dầy đủ mặt vấn đề cần giải § Dữ liệu thơ sau thu thập tiền xử lý phải giữ đầy đủ đặc trưng ngữ nghĩa – đặc trưng ảnh hưởng đến khả giải vấn đề § Khoa học liệu lĩnh vực rộng, việc sử dụng công cụ áp dụng, nắm vững kiến thức điều quan trọng ...Content ¡ Introduction to Machine Learning & Data Mining ¡ Data crawling and pre-processing ¡ Supervised learning ¡ Unsupervised learning ¡ Practical advice Quỹ thời... sạch, số hố,… Business understanding Analytic approach Feedback Data requirements Deployment Data collection Evaluation Data understanding Modeling Data preparation Data collection Input Vấn đề... ứng 13 DEMO :: Steps Rss Item Content DEMO :: Sample 14 15 Data preprocessing Input Mẫu liệu thô (text, ảnh, audio, …) Output Dữ liệu số theo ML/AI model(s)