BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ KHAI PHÁ DỮ LIỆU 1 PGS TS Hà Quang Thụy HÀ NỘI, 09 2020 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI http //uet vnu edu vn/~thuyhq/[.]
BÀI GIẢNG NHẬP MÔN KHAI PHÁ DỮ LIỆU CHƯƠNG GIỚI THIỆU CHUNG VỀ KHAI PHÁ DỮ LIỆU PGS TS Hà Quang Thụy HÀ NỘI, 09-2020 TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐẠI HỌC QUỐC GIA HÀ NỘI http://uet.vnu.edu.vn/~thuyhq/ Nội dung Tại khai phá liệu (KPDL)? Khái niệm KPDL phát tri thức CSDL KPDL xử lý CSDL truyền thống Kiểu liệu KPDL Kiểu mẫu khai phá Công nghệ KPDL điển hình Một số ứng dụng điển hình Các vấn đề KPDL 2 Tại khai phá liệu ⚫ ⚫ Một ví dụ: Donal Trump Thắng cử Tổng thống Mỹ Bùng nổ liệu liệu lớn (Big Data) ▪ ▪ ▪ ⚫ ⚫ Lý công nghệ Lý xã hội Thể Ngành kinh tế tri thức, liệu thông tin (Infonomics) ▪ Kinh tế tri thức ▪ Phát tri thức từ liệu Nhu cầu khai phá liệu Việt Nam ▪ Trường hè KHDL 2016 Ví dụ: Tại khai phá liệu ? ⚫ Phân tích liệu giúp ứng viên Tổng thống Mỹ Đào Trung Thành Big Data giúp Trump chiến thắng Bầu cử Mỹ http://vietnamnet.vn/vn/cong-nghe/ung-dung/big-data-giup-donald-trump-chien-thangtrong-cuoc-bau-cu-my-big-data-nguy-hiem-den-muc-nao-346181.html.(13/12/2016, 15:02 GMT+7) Big Data nguy hiểm tới mức nào? http://vietnamnet.vn/vn/congnghe/ung-dung/big-data-da-giup-trump-chien-thang-trong-cuoc-bau-cu-my-the-nao346184.html (10/02/2017 21:55:30 (GMT+7)) TÍNH MỚI LẠ TỪ DỮ LIỆU LỚN TRẦN THẮNG (kỹ sư hàng không Mỹ) Mạng xã hội giúp ông Trump đắc cử tổng thống Mỹ nào? http://tuoitre.vn/tin/the-gioi/bau-cu-tong-thong-my2016/20161110/it-phieu-hon-vi-sao-ong-trum-dac-cu-tong-thong-my/1216150.html (10/11/2016 19:15 GMT+7) TÍNH KHÁC BIỆT: TWITER TRUYỀN THƠNG TT Von Hannes Grassegger und Mikael Krogerus Ich habe nur gezeigt, dass es die Bombe gibt Das Magazin N°48 – Dezember 2016 https://www.dasmagazin.ch/2016/12/03/ich-habe-nur-gezeigt-dass-es-die-bombe-gibt/ Nhà tâm lý học Michal Kosinski phát triển phương pháp phân tích tinh tế người dựa hành vi họ Facebook Và giúp Donald Trump chiến thắng PHƯƠNG PHÁP, KỸ THUẬT MIỀN ỨNG DỤNG: PHÂN TÍCH DỮ LIỆU TÂM LÝ http://www.michalkosinski.com/: an Assistant Professor in Organizational Behavior at Stanford Graduate School of Business Leonid Bershidsky No, Big Data Didn't Win the U.S Election https://www.bloomberg.com/view/articles/2016-12-08/no-big-data-didn-t-win-the-u-selection (DEC 8, 2016 2:56 PM EST) "Obviously, it is not big data analytics that wins the election," he (Michal Kosinski) wrote back "Candidates We don't know how much his victory was helped by big data analytics.“ KINH DOANH MÀ KHƠNG LÀ CƠNG NGHỆ Cơng nghệ: Bùng nổ liệu: Luật Moore [APEC18] ⚫ [42Year] Xu từ Định luật Moore ▪ Gordon E Moore (1965) Cramming more components onto integrated circuits, Electronics, 38 (8), April 19, 1965 Một quan sát dự báo ▪ Lượng bóng bán dẫn (giá) mạch tích hợp tăng (rẻ) gần gấp đôi sau chu kỳ hai năm ▪ Máy tính (điện thoại, v.v.) mạnh hơn, gọn hơn, giá phù hợp [APEC18] APEC Policy Support Unit APEC Regional Trends Analysis - The Digital Productivity Paradox Asia-Pacific Economic Cooperation Policy Support Unit, November 2018 [42Year] https://www.karlrupp.net/2018/02/42-years-of-microprocessor-trend-data/ Bùng nổ liệu: Giá thành thể https://www.seagate.com/as/en/our-story/data-age-2025/ ⚫ Nguồn: IDC Digital Universe Study, Seagate Technology, 2018 ⚫ Giá tạo liệu ngày rẻ ▪ Chiều hướng giá tạo liệu giảm dần ▪ 0,5 xu Mỹ/1 GB vào năm 2009 giảm tới 0,02 xu Mỹ /1 GB vào năm 2020 ⚫ Dung lượng tổng thể tăng ▪ Độ dốc tăng cao ▪ Đã đạt 33ZB năm 2018 (năm 2011 dự kiến đạt 35 ZB vào năm 2020) Phân bổ lượng liệu theo khu vực https://www.seagate.com/as/en/our-story/data-age-2025/ Rest of World US Asia-Pacific, including Japan, except China The Europe, the Middle East, and Africa EMEA China Nguồn: IDC Digital Universe Study, Seagate Technology, 2018 Nhu cầu nắm bắt liệu ⚫ Bùng nổ liệu với tăng trưởng nhận lực CNTT ▪ Dung lượng thông tin tăng 67 lần, đối tượng liệu tăng 67 lần ▪ Lực lượng nhân lực CNTT tăng 1,4 lần ▪ Nguồn: IDC Digital Universe Study, sponsored by EMC, May 2010 Nhu cầu thu nhận tri thức từ liệu ⚫ Jim Gray, chuyên gia Microsoft, giải thưởng Turing 1998 ▪ “Chúng ta ngập liệu khoa học, liệu y tế, liệu nhân học, liệu tài chính, liệu tiếp thị Con người khơng có đủ thời gian để xem xét liệu Sự ý người trở thành nguồn tài nguyên quý giá Vì vậy, phải tìm cách tự động phân tích liệu, tự động phân loại nó, tự động tóm tắt nó, tự động phát mơ tả xu hướng nó, tự động dẫn dị thường Đây lĩnh vực động thú vị cộng đồng nghiên cứu sở liệu Các nhà nghiên cứu lĩnh vực bao gồm thống kê, trực quan hóa, trí tuệ nhân tạo, học máy đóng góp cho lĩnh vực Bề rộng lĩnh vực làm cho trở nên khó khăn để nắm bắt tiến phi thường vài thập kỷ gần đây” [HK0106] ⚫ Kenneth Cukier, ▪ “Thông tin từ khan tới dư dật Điều mang lại lợi ích to lớn… tạo nên khả làm nhiều việc mà trước thực được: nhận xu hướng kinh doanh, ngăn ngừa bệnh tật, chống tội phạm … Được quản lý tốt, liệu sử dụng để mở khóa nguồn có giá trị kinh tế, cung cấp hiểu biết vào khoa học tạo lợi ích từ quản lý” http://www.economist.com/node/15557443?story_id=15557443 Kinh tế tri thức ⚫ Kinh tế tri thức ▪ Tri thức tài nguyên ▪ Sử dụng tri thức động lực chủ chốt cho tăng trưởng kinh tế ⚫ Hình vẽ: Năm 2003, đóng góp tri thức cho tăng GDP/đầu người Hàn Quốc gấp đơi so với đóng góp lao động vốn TFP: Total Factor Productivity (The World Bank Korea as a Knowledge Economy, 2006) 10 Kinh tế dịch vụ: Từ liệu tới giá trị ⚫ Kinh tế dịch vụ ▪ Xã hội loài người chuyển dịch từ kinh tế hàng hóa sang kinh tế dịch vụ Lao động dịch vụ vượt lao động nông nghiệp (2006) ▪ Mọi kinh tế kinh tế dịch vụ ▪ Đơn vị trao đổi kinh tế xã hội dịch vụ ⚫ Dịch vụ: liệu & thông tin tri thức giá trị ▪ Khoa học: liệu & thông tin tri thức ▪ Kỹ nghệ: tri thức dịch vụ ▪ Quản lý: tác động tới tồn quy trình thi hành dịch vụ Jim Spohrer (2006) A Next Frontier in Education, Employment, Innovation, and Economic Growth, IBM Corporation, 2006 11 Quá trình tiến hóa liệu tới trí tuệ ⚫ Từ liệu tới trí tuệ ▪ Dữ liệu (data): kiện khơng ngữ cảnh Trình bày kiện ▪ Thơng tin (information): kiện với ngữ cảnh khía cạnh Dữ liệu có ý nghĩa, liệu ngữ cảnh Hiểu quan hệ ▪ Tri thức (knowledge): Thông tin dung để phát hiểu mẫu liệu Hiểu mẫu ▪ Trí tuệ (wisdom): Tri thức nảy sinh hiểu lý mẫu xuất liệu Hiểu nguyên lý ▪ http://www.systems-thinking.org/kmgmt/kmgmt.htm 12 Dữ liệu lớn không ngừng gia tăng giá trị ▪ (i) Mỹ: tiết kiệm 300 tỷ US$ ngành y tế, (ii) Châu Âu: chỉnh phủ tiết kiệm 100 tỷ Euro (giảm gian lận, sai sót, chênh lệch thuế), v.v [Chen14] Min Chen, Shiwen Mao, Yunhao Liu Big Data: A Survey MONET 19(2): 171-209, 2014 13 Giá trị liệu: Ví dụ (Capital One) ⚫ -1980’s: Mơ hình xác śt mặc định với thẻ tín dụng đờng mức ▪ ▪ ⚫ Người q/lý NH tin khách hàng chưa ưa mức khác nhau; HTTT chưa thể đáp ứng quản lý mức tín dụng khác Richard Fairbanks Nigel Morris ▪ ▪ ▪ ▪ CNTT cho mơ hình dự báo tinh vi (mơ hình lợi nhuận), đủ lực mức tín dụng Thuyết phục nhà QL NH lớn: thất bại Thuyết phục người QL ngân hàng nhỏ Signet Bank: tin tỷ lệ nhỏ khách hàng thực tạo 100% lợi nhuận NH từ hoạt động thẻ tín dụng MHLN: tốt → KH tốt + thu hút KH tốt từ NH lớn http://www.fundinguniverse.com/company-histories/capital-one-financial-corporationhistory/ và https://www.capitalone.com/ 14 Giá trị liệu: Ví dụ (Capital One) ⚫ Thiếu liệu giải pháp ▪ ▪ ▪ ⚫ Khơng có liệu với mức thẻ tín dụng khác Tạo DL cho mơ hình (MHLN): cung cấp ngẫu nhiên mức tín dụng khác tới KH khác DL tài nguyên phải đầu tư Tốn kém: tỷ lệ "khoanh nợ“: 2,9% đầu ngành, cung cấp ngẫu nhiên giảm sút tới gần 6% dư chưa toán Kết ▪ ▪ ▪ ▪ năm: vừa thu thập liệu vừa hồn thiện mơ hình 1994 (Học máy tăng cường) 1994 tách thành Capital One Nhanh chóng thành có lợi nhuận lớn Nhà phát hành thể tín dụng thứ sáu nước Mỹ: mở 48,6 triệu tài khoản 53,2 tỷ US$, 12% gia đình Mỹ Bền vững sau khủng khoảng 9/11 Chiến lược dựa thông tin Information-Based Strategy (IBS) lợi lớn http://www.fundinguniverse.com/company-histories/capital-one-financial-corporationhistory/ và https://www.capitalone.com/ 15 Giá trị liệu: Ví dụ (Microsoft-LinkedIn) ⚫ Sự kiện vấn đề ▪ Microsoft mua lại LinkedIn với giá 26,2 tỷ đơ-la Mỹ ▪ Định giá kế tốn LinkedIn 3,2 tỷ đô-la Mỹ ▪ Độ chênh lệch 23 tỷ đô-la Mỹ số lớn ? ⚫ Giá trị liệu Linkedln mang lại cho Microsoft ▪ 23 tỷ đô-la Mỹ chủ yếu từ giá trị liệu ▪ Đo lường giá trị liệu ? ▪ Infonomics (Chương 2) ⚫ Với Google Facebook ▪ Ban đầu: Dữ liệu phục vụ quảng cáo tốt ▪ Hiện tại: Dữ liệu dịch vụ trí tuệ nhân tạo Cơng nghiệp 4.0 ⚫ Liên hệ với Grab Việt Nam ▪ Họ thu thập liệu ? ▪ Dữ liệu sử dụng (kinh doanh) ? https://www.forbes.com/sites/bernardmarr/2017/05/31/why-every-business-needsinfonomics-in-a-big-data-world-and-what-it-is/#1e290da64c69 https://www.economist.com/news/briefing/21721634-how-it-shaping-up-data-giving16 rise-new-economy Ví dụ 3: Chi tiêu liệu 2016-18, 2019-21 2019-21 2019-21 2019-21 2016-18 2016-18 2016-18 ⚫ 2016-18 2019-21 2016-18 2019-21 2016-18 2019-21 McKinsey & Company ▪ Chi tiêu liệu hàng năm: hàng trăm triệu đô la/công ty loại vừa đến hàng tỷ đô la/công ty lớn COVID-19 tăng chi phí https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/reducingdata-costs-without-jeopardizing-growth July 31, 2020 17 Ví dụ 3: Phân bố chi phí theo cơng đoạn 2019-21 2016-18 2016-18 ⚫ 2019-21 2016-18 2019-21 2016-18 2019-21 2016-18 2019-21 2016-18 2019-21 McKinsey & Company, 2020 ▪ (1) Không bao gồm quy trình thu thập liệu nội bộ; (2) Các ngành công nghiệp không trực tiếp chạm vào người tiêu dùng (ví dụ: hàng hóa đóng gói người tiêu dùng) dành phần cao (> 20%) cho việc tìm nguồn cung ứng liệu; (3) Đối với cơng ty loại vừa có doanh thu từ tỷ đến 10 tỷ la chi phí hoạt động từ tỷ đến tỷ đô la ▪ Giá trị tuyệt đối khác tùy theo ngành quy mô cơng ty; ví dụ, chi tiêu tuyệt đối (trung bình) ngành viễn thông cao 18 Giá trị liệu: Thị trường liệu châu Âu Tăng trường hàng năm 14,1% Tăng trường hàng năm 8,9% € 247 billion in 2013 2,0% GDP châu Âu 4,0% GDP châu Âu https://ec.europa.eu/digital-single-market/en/news/final-results-european-datamarket-study-measuring-size-and-trends-eu-data-economy 19 Việt nam:Trường hè Khai phá liệu 2016 ⚫ Chuỗi trường hè Trường ĐHCN ▪ 26/11/2014: Hội thảo “Machine Learning and Its Application in Vietnam (MLAVN)” thuộc ACML 2014 NhaTrang (Ảnh) ▪ 10-13/8/2015: Trường hè “Học máy thống kê” Nhà G3, ĐHCN ▪ 16-19/8/2016: Trường hè “Khai phá liệu” Nhà G3, ĐHCN http://fit.uet.vnu.edu.vn/dmss2016/ ▪ 2017 (dự kiến): Trường hè “Khoa học liệu”? Trao đổi 19/8/2016 20 ... https://www.mckinsey.com/business-functions/mckinsey-digital/our-insights/reducingdata-costs-without-jeopardizing-growth July 31, 2020 17 Ví dụ 3: Phân bố chi phí theo cơng đoạn 2 019 - 21 2 016 -18 2 016 -18 ⚫ 2 019 - 21 2 016 -18 2 019 - 21 2 016 -18 2 019 - 21 2 016 -18 2 019 - 21. .. 2 016 -18 2 016 -18 ⚫ 2 016 -18 2 019 - 21 2 016 -18 2 019 - 21 2 016 -18 2 019 - 21 McKinsey & Company ▪ Chi tiêu liệu hàng năm: hàng trăm triệu đô la/công ty loại vừa đến hàng tỷ đô la/công ty lớn COVID -19 tăng... https://www.forbes.com/sites/bernardmarr/2 017 /05/ 31/ why-every-business-needsinfonomics-in-a-big-data-world-and-what-it-is/#1e290da64c69 https://www.economist.com/news/briefing/ 217 216 34-how-it-shaping-up-data-giving16 rise-new-economy Ví dụ 3: Chi tiêu liệu 2 016 -18 , 2 019 - 21 2 019 - 21 2 019 - 21 2 019 - 21 2 016 -18 2 016 -18