Bài giảng Lập trình cho khoa học dữ liệu - Bài 1: Tổng quan về khoa học dữ liệu cung cấp cho người học những kiến thức như: Khoa học dữ liệu là gì; Ứng dụng của khoa học dữ liệu; Data scientist (nhà khoa họcdữ liệu); Các yếu tố phát triển khoa học dữ liệu. Mời các bạn cùng tham khảo!
LOGO LẬPTRÌNH CHO KHOA HỌC DỮ LIỆU Bài Tổng quan khoa học liệu Nội dung 2 Khoa học liệu Ứng dụng khoa học liệu Data scientist (nhà khoa học liệu) Các yếu tố phát triển khoa học liệu Khoa học liệu Hầu hết ngành khoa học từ xưa đến giải vấn đề dựa lập luận tri thức Ngành tốn: dựa mệnh đề, cơng thức, lập luận… để chứng minh toán Ngành vật lý: dựa quan sát, thực nghiệm,tính tốn,… kiểm chứng giả thiết Ngành hóa học:… … Tagọi ngành khoa học “knowledge-driven” (dẫn dắt tri thức) Có ngành có chút ngoại lệ, ví dụ: ngành xác suất Khoa học liệu Với quan điểm vậy, tất quan sát mà không chứng minh chặt chẽ thường đượccho “không khoa học” Chẳng hạn: chuồn chuồn bay thấp mưa Khoa học liệu ≠ Khoa học thơng thường quan điểm: tìm tri thức từ liệu (dẫn dắt liệu – “data-driven”) Chúng ta rút tri thức việc tìm tịi từ liệu khơng thiết phải chứng minhnó Tất nhiên tri thức tìm phải có tính ổn định (ln có kết sử dụng phươngpháp) Khoa học liệu Cách mạng cơng nghiệp lần thứ tư Khoa học liệu Cách mạng sốhố physical-cyber systems ‘Phiên số’ thực thể: Biểu diễn thực thể ‘0’ ‘1’ máy tính (digital version) Thí dụ: ơ-tơ, bệnh án điện tử… Hệ thống không gian số-thế giới thực thể (cyber-physical system): kết nối thực thể ‘phiên số’ chúng Thay đổi phương thức sản xuất Ảnh hưởng lĩnh vực xãhội Khoa học liệu Đột phá chuyển đổi kỹ thuật số Khoa học liệu Cloud computing Điện toán đám mây: Lưu giữ truy nhập liệu chương trình clouds qua Internet thay máy tính người dùng Dữ liệu lưu giữ thường trực máy chủ Internet lưu trữ tạm thời máykhách Cloud computing vs local computing Thí dụ: Google drive, Google gmail Apple iClouds Dropbox Khoa học liệu Internet of things (IoT) Là kết nối mạng (internetworking) vật thể, thiết bị (connected devices, “smartdevices”) Các thực thể, thiết bị có khả trao đổi thơng tin, liệu qua internet mà không cần tương tác trực tiếp (người với người, người với máy, máy với máy (M2M) Sức khoẻ người nối với gì? Hồ sơ sức khoẻ điện tử, wearables, trái tim cấy ghép, sở tri thức bệnh, hệ cảnh báo, dẫn xử lý Khoa học liệu Big Data Dữ liệu lớn nói tập liệu lớn và/hoặc phức tạp, vượt khả xử lý kỹ thuậtIT truyền thống 10 Các yếu tố phát triển khoa học liệu Data scientist workflow – Bước Lên kếhoạch Làm tính có khả thi hayko? Sẽcần loại liệu gì? Ởđâu? Bao nhiêu đủ? Lấy liệu nào? Cần resource (nhân lực, thời gian) Tính gắn vào đâu sản phẩm cuối giúp ích cho người dùng Các yếu tố phát triển khoa học liệu Data scientist workflow – Bước Thu thập làm dữliệu Để dạy cho máy biết phân biệt chó/mèo, phải học nhiều hình ảnh tốt.Nên phải “gom liệu” Dữ liệu gom xong cịn lộn xộn nhiều rác phải “làm liệu” • Hình ảnh ko cần loại bỏ; Hình mờ làm cho rõ… • Đồng hóa liệu • Hình ảnh mang có kích thước khác nhau, phải đưa hết kích thước, định dạng theo mơ hình liệu đãchọn Nếu liệu chưa đủ phải thu thậpthêm 35 Các yếu tố phát triển khoa học liệu Data scientist workflow – Bước Chọn giảipháp Nếu vấn đề có sẵn giải pháp • Lựa chọn / kết hợp giải pháp lại, chạy thử nghiệm, kiểm tra thử nghiệm tốt sao, chọn giải pháp để phát triển thêm Nếu vấn đề chưa có sẵn giải pháp • Cần làm nghiên cứu: tìm hiểu xem trước có làm vấn đề hay chưa • Sau đó, chọn một loạt phương pháp để thử nghiệm Các yếu tố phát triển khoa học liệu Data scientist workflow – Bước Máy học Chạy thử mơ hình đánh giá hiệu • Tưởng tượng bạn điều khiển bảng điều khiển với nhiều nút Bạn thử chỉnh nút chút, thấy kết tốt chút xíu giữ lại chỉnh thử nút khác Nhận diện yếu tố ảnh hưởng đến kết Điều chỉnh dấu hiệu ưu tiên để kết tốt Các yếu tố phát triển khoa học liệu Data scientist workflow – Bước Output Kết gắn vào sản phẩm lớn có tính ứngdụng Viết báo Tổ chức hội thảo Các yếu tố phát triển khoa học liệu Data scientist: tố chất cần có? 39 Các yếu tố phát triển khoa học liệu Data scientist: tố chất cần có? Kiên nhẫn Tố chất quan trọng DSphải dành phần lớn thời gian để thu thập làm dữliệu 40 Các yếu tố phát triển khoa học liệu Data scientist: tố chất cần có? Giao tiếp tốt Với Team Business: để hiểu rõ sản phẩm requirements, từ tìm insightscó giá trị Với Team Engineer: để áp dụng mơ hình vào hệ thống đề nghị họ tổ chức/hệ thống data cho sử dụng Trình bày, giải thích insights cho bên liên quan hiểu 41 Các yếu tố phát triển khoa học liệu Data scientist cần kỹ gì? Kiến thức toán học: yếu tố quan trọng số Nghề data science sử dụng nhiều kiến thức liên ngành • Machine learning kết hợp mô hình tốn học chạy bên • Khi xử lý / làm việc với liệu, bạn cần sử dụng rấtnhiều kiến thức toán, xác suất thống kê,… • Tưduy toán học giúp bạn dễ tiếp thu học kĩ khác 42 Các yếu tố phát triển khoa học liệu Data scientist cần kỹ gì? Khả Lập trình phần mềm Công việc Data Scientist gần với Software Engineer Vì vậy, code cứng yêu cầu quan trọng Sựnhạybén Khi nhìn vào liệu, bạn cần đủ nhạy để suy đoán: loại liệu nên làm với nó, nên estimate nào? Sựnhạy bén tố chất song tích lũy dần theo kinh nghiệm thời gian 43 Nhà khoa học liệu làm gì? Data scientist cần kỹ gì? Nghề Data Scientist địi hỏi nhiều kiến thứcvà kĩ tổng hợp Machine Learning: để học từ liệu, từđó tạo mơ hình dự đốn Database: giúp lưu trữ, truy xuất liệu thực tính tốn Programming language: viết code để áp dụng mơ hình học nói vào sản phẩm cụ thể hoặcđể thao tác với database Visualization: giúp hiểu liệu trình bày kết phân tích 44 Các yếu tố phát triển khoa học liệu Nhu cầu 45 Các yếu tố phát triển khoa học liệu Nhu cầu 46 Các yếu tố phát triển khoa học liệu Thu nhập 47 LOGO