BÀI GIẢNG Thu thập và Tiền xử lý dữ liệu

Thu thập Tiền xử lý liệu Thân Quang Khốt Nguyễn Minh Phương + Lê Minh Hồ Bài giảng DSLab Viện nghiên cứu cao cấp Toán (VIASM) CrowdFlower Inc., 2016 Quỹ thời gian WHY? Tiền xử lý để làm ?? § Các mơ hình Học máy làm việc với liệu ma trận vector § Mơ hình xác suất/ mơ hình học máy đạt hiệu § Dễ lưu trữ / truy vấn Input Vấn đề cần giải lĩnh vực Output Dữ liệu số - ma trận vector ! " = -0.0920 3.4931 -1.8493 -0.2010 -1.3079 $= −! −! & ' − − … −! " − Content (i.e HOW?) § Thu thập liệu q Lấy mẫu (sampling) q Kỹ thuật: crawling, logging, scraping § Xử lý liệu q Dữ liệu cần lọc nhiễu, số hóa q Kĩ thuật – làm sạch, số hóa, lưu trữ Thu thập liệu Input Vấn đề cần giải Output Mẫu liệu Fundamentals :: Sampling § WHAT – lấy tập mẫu nhỏ, phổ biến để đại diện cho lĩnh vực cần học § HOW – thu thập mẫu từ thực tế, nguồn chứa liệu web, database, § WHY – khơng thể học toàn Giới hạn thời gian khả tính tốn “One or more small spoon(s) can be enough to assess whether the soup is good or not.” https://www.coursera.org/learn/inferential-statistics-intro Fundamentals :: Sampling :: HOW § Variety – tập mẫu thu đủ đa dạng để phủ hết ngữ cảnh lĩnh vực § Biases – liệu cần tổng quát, không bị sai lệch, thiên vị phận nhỏ lĩnh vực “One or more small spoon(s) can be enough to assess whether the soup is good or not.” Remember to stir to avoid tasting biases https://www.coursera.org/learn/inferential-statistics-intro Fundamentals :: Sampling :: HOW § Variety – mẫu đủ đa dạng để phản ánh khách quan ? Actual results https://projects.fivethirtyeight.com/2016-election-forecast/ http://edition.cnn.com/election/results/president Image credit: Wikipedia, FiveThirtyEight https://www.coursera.org/learn/inferential-statistics-intro Techniques ¡ Crowd-sourcing: Survey – thực khảo sát ¡ Logging vd: lưu lại lịch sử tương tác người dùng, truy cập sản phẩm,… ¡ Scrapping tìm kiếm nguồn liệu website, tải bóc tách, lọc … Techniques :: Scrapping :: DEMO • Mục tiêu: Dữ liệu cho tốn phân loại văn – miền báo chí • DEMO: Hệ thống crawl liệu báo 10 Techniques :: Cleaning Tính đầy đủ + rõ ràng • Mẫu lieu cần thu thập từ nguồn đáng tin cậy Phản ánh vấn đề cần giải • Mẫu liệu thu thập đầy đủ, cần có chiến lược phù hợp: Bỏ qua, khơng đưa vào liệu học • Bổ sung trường thiếu cho mẫu: • Bằng tay • Tự động (heuristic) • Jiawei Han, Data Mining: Concepts & Techniques (Book) 17 Techniques :: Cleaning (cont.) Tính đồng Các mẫu liệu cần có tính đồng cách biểu diễn, ký hiệu Vd: Rating “1, 2, 3” & “A, B, C”; Age = “42” & Birthday = “03/07/2010” tính đồng liệu 18 Techniques :: Integrating w/ some Transforming texts in websites, emails, articles, tweets `` Structured – relational (table-like) Un-structured Semi-structured – XML, JSON, HDF 2D/3D images, videos + meta spectrograms, DNAs, … image credits: wikipedia, shutterstock, CNN 19 Techniques :: Transforming Semantics? Trích xuất đặc trưng ngữ nghĩa, chuẩn hóa 20 Semantics example: visual data (raw features) `` Low-level semantics Mid-/High-level semantics (e.g human-interpretable features) cat human car ground building 0.28 0.17 0.08 0.25 0.22 cat → not on → car people ← behind ← building car → is → red Mức ngữ nghĩa tối thiểu để hiểu: • Phân loại văn • Phân tích cảm xúc • AI Chatbot (nhiều mức ngữ nghĩa khác nhau) 21 Image credits: CS231n, Stanford University; Lee et al, 2009; Socher et al, 2011 Techniques :: Transforming example & demo Transforming text data 22 Techniques :: Transforming (cont.) Mục tiêu: trích xuất đặc trưng ngữ nghĩa vấn đề Từng lĩnh vực cụ thể, loại liệu sử dụng kỹ thuật xuất đặc trưng ngữ nghĩa khác (dữ liệu text, hình ảnh, …) • … and standardize • • 23 One-hot encoding 1= 10000 3= 00100 … " − "̅ % Feature discretization – số thuộc tính tỏ hiệu phân nhóm, xếp trước Feature normalization ← chuẩn hóa giá trị thuộc tính, miền giá trị, dẽ dàng tính tốn DEMO Input Mẫu liệu thô: json text 24 Output Dữ liệu số theo ML/AI model(s) DEMO :: Steps Tokenize 25 Dictionary Data Input (tfidf-Vector) DEMO :: Exercise § Bài tập: Tính vector biểu diễn văn với liệu nhỏ § Dữ liệu: báo từ trang dân trí § u cầu: 26 q Sử dung module tách từ q Build tập từ điển từ văn q Sử dung stopwords lọc từ dừng q Chuyển hoá văn thành vector tfidf DEMO :: Training model § Thử nghiệm training model § Dữ liệu: liệu báo chí thu thập 10 lĩnh vực: § ['Giải trí', 'Khoa học - Cơng nghệ', 'Kinh tế', 'Pháp luật', 'Sức khỏe', 'Thể thao', 'Thời sự', 'Tin khác', 'Đời sống - Xã hội', 'Độc giả’] § Đã thực bước tiền xử lý § Mơ hình: Random forest § Training + infer: Sử dụng thư viện sklearn hỗ trợ 27 DEMO :: Training model Data Input (tfidf-Vector) Training Build model 28 Infer new sample DEMO :: Model Selection § Thử nghiệm lựa chọn tham số § Dữ liệu: liệu báo chí thu thập 10 lĩnh vực § Mơ hình: Random forest § Training + testing: Thay đổi tham số C, đánh giá chất lượng mơ hình với tham số 29 Summary (Take-home messages) § Dữ liệu lĩnh vực trước vào hệ thống học máy phải thu thập biểu diễn thành dạng cấu trúc với số đặc tính: đầy đủ, nhiễu, qn, có cấu trúc xác định § Dữ liệu thu thập cho trình học tập nhỏ, cần phản ánh dầy đủ mặt vấn đề cần giải § Dữ liệu thô sau thu thập tiền xử lý phải giữ đầy đủ đặc trưng ngữ nghĩa – đặc trưng ảnh hưởng đến khả giải vấn đề § Khoa học liệu lĩnh vực rộng, ngồi việc sử dụng cơng cụ áp dụng, nắm vững kiến thức điều quan trọng 30 Liên hệ Thân Quang Khoát Viện nghiên cứu cao cấp Toán (VIASM) Viện CNTT-TT, Đại học Bách Khoa HN khoattq@soict.hust.edu.vn 31

Định dạng
Số trang	31
Dung lượng	13,9 MB