LỜI MỞ ĐẦU Sự phát triển mạnh mẽ của cuộc cách mạng khoa học và công nghệ, đặc biệt là của công nghệ thông tin và truyền thông đã tác động sâu sắc đến sự phát triển kinh tế thế giới. Thế giới đang chuyển dần từ xã hội công nghiệp sang xã hội thông tin với nền kinh tế chi thức. Toàn cầu hóa kinh tế được xác định là một xu thế khách quan, tạo cơ hội cho phát triển. Khoa học và công nghệ (KH&CN) sẽ có bước nhảy vọt và những đột phá lớn, tác động nhều mặt đến tất cả các quốc gia Những năm gần đây, vai trò của các hệ thống thông tin trong doanh nghiệp đã ngày càng lớn mạnh. Từ chỗ chỉ được sử dụng để hỗ trợ một số hoạt động trong văn phòng, hệ thống thông tin đã trở nên có vai trò chiến lược trong doanh nghiệp. Đặc biệt những thành tựu trong công nghệ thông tin (CNTT) đã khiến doanh nghiệp ngày càng chú ý hơn tới việc áp dụng những nó để gia tăng thế cạnh tranh và tạo cơ hội cho mình. Thành tựu CNTT không chỉ giới hạn trong các doanh nghiệp lớn, tầm cỡ đa quốc gia mà còn lan rộng trong tất cả các doanh nghiệp, kể cả những doanh nghiệp vừa và nhỏ ở những nước đang phát triển. Tuy nhiên, việc ứng dụng thành tựu CNTT một ứng dụng thành công trong các lĩnh vực hiện nay cũng còn mới ở nước ta. Vì vậy, đồ án của nhóm đó là tìm hiểu về “Khoa học dữ liệu (Data science)” để có cái nhìn sâu hơn, thực tế hơn về việc ứng dụng hệ thống thông tin trong các lĩnh vực đời sống. Vì thời gian thực hiện không nhiều nên chắc chắn còn nhiều thiếu sót, mong được thầy cô chỉ dẫn thêm Chương 1./ Giới thiệu ngành Data Sciense 1./ Data Sciense là gì? Data science còn được biết đến với tên gọi là Khoa học dữ liệu. Đúng với tên gọi của nó, về mặt bản chất, đây chính là công việc thu thập và phân tích dữ liệu. Data science là một lĩnh vực liên ngành mà trong đó, những bộ dữ liệu được xử lý, sắp xếp và giải mã bằng các mô hình thống kê hay phương pháp toán học. Khoa học dữ liệu là lĩnh vực nghiên cứu dữ liệu nhằm khai thác những thông tin chuyên sâu có ý nghĩa đối với hoạt động kinh doanh. Đây là một phương thức tiếp cận đa ngành, kết hợp những nguyên tắc và phương pháp thực hành của các lĩnh vực toán học, thống kê, trí tuệ nhân tạo và kỹ thuật máy tính để phân tích khối lượng lớn dữ liệu. Nội dung phân tích này sẽ giúp các nhà khoa học dữ liệu đặt ra và trả lời những câu hỏi như sự kiện gì đã xảy ra, tại sao nó xảy ra, sự kiện gì sẽ xảy ra và có thể sử dụng kết quả thu được cho mục đích gì.
TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN CƠ SỞ Tên đề tài: Tìm hiểu Khoa học liệu (Data Science) Giảng viên hướng dẫn: VƯƠNG XUÂN CHÍ Sinh viên thực hiện: NGUYỄN MINH ĐĂNG MSSV: 2011549718 Khố: 2020 Ngành/ chun ngành: CƠNG NGHỆ THƠNG TIN/KHOA HỌC DỮ LIỆU Tp HCM, tháng 09 năm 2022 TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH KHOA CÔNG NGHỆ THƠNG TIN ĐỒ ÁN CƠ SỞ Tên đề tài: Tìm hiểu Khoa học liệu (Data Science) Giảng viên hướng dẫn: VƯƠNG XUÂN CHÍ Sinh viên thực hiện: NGUYỄN MINH ĐĂNG MSSV: 2011549718 Khố: 2020 Ngành/ chun ngành: CƠNG NGHỆ THÔNG TIN/KHOA HỌC DỮ LIỆU TPHCM, tháng 09 năm 2022 Trường Đại học Nguyễn Tất Thành Khoa Công Nghệ Thơng Tin CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc NHIỆM VỤ ĐỒ ÁN CƠ SỞ Họ tên: Nguyễn Minh Đăng .MSSV: 2011549718 Chuyên ngành: Khoa học Dữ Liệu Lớp:20DTH2A Tên đề tài: Tìm hiểu Khoa học liệu (Data science) Giáo viên hướng dẫn: Vương Xuân Chí Thời gian thực hiện: 20/06/2022 đến 20/09/2022 MÔ TẢ ĐỀ TÀI: Data Science định nghĩa tất thu thập, khai thác phân tích liệu để tìm insight giá trị Sau trực quan hóa Insight cho bên liên quan, để chuyển hóa Insight thành hành động Đây lĩnh vực đa ngành sử dụng phương pháp quy trình khoa học để rút insight từ liệu NỘI DUNG VÀ PHƯƠNG PHÁP: - Giới thiệu ngành Data science - Phân tích liệu, tạo Data truy vấn SQL - Áp dụng Machine learning vào ngành học - Kiến thức rút rừ ngành Khoa học liệu YÊU CẦU: - Có kiến thức, đam mê, hiểu biết công nghệ Mạng neural, Machine Learning, Deep Learning… Đọc hiểu tài liệu tiếng Anh, kỹ trình bày văn máy tính tốt - Có tác phong làm việc chăm chỉ, tinh thần trách nhiệm cao, có khả làm việc độc lập làm việc nhóm tốt Nội dung yêu cầu thông qua Bộ môn TP.HCM, ngày 26 tháng 06 năm 2022 TRƯỞNG BỘ MÔN (Ký ghi rõ họ tên) GIÁO VIÊN HƯỚNG DẪN (Ký ghi rõ họ tên) LỜI MỞ ĐẦU Sự phát triển mạnh mẽ cách mạng khoa học công nghệ, đặc biệt công nghệ thông tin truyền thông tác động sâu sắc đến phát triển kinh tế giới Thế giới chuyển dần từ xã hội công nghiệp sang xã hội thơng tin với kinh tế chi thức Tồn cầu hóa kinh tế xác định xu khách quan, tạo hội cho phát triển Khoa học cơng nghệ (KH&CN) có bước nhảy vọt đột phá lớn, tác động nhều mặt đến tất quốc gia Những năm gần đây, vai trị hệ thống thơng tin doanh nghiệp ngày lớn mạnh Từ chỗ sử dụng để hỗ trợ số hoạt động văn phịng, hệ thống thơng tin trở nên có vai trò chiến lược doanh nghiệp Đặc biệt thành tựu công nghệ thông tin (CNTT) khiến doanh nghiệp ngày ý tới việc áp dụng để gia tăng cạnh tranh tạo hội cho Thành tựu CNTT khơng giới hạn doanh nghiệp lớn, tầm cỡ đa quốc gia mà lan rộng tất doanh nghiệp, kể doanh nghiệp vừa nhỏ nước phát triển Tuy nhiên, việc ứng dụng thành tựu CNTT ứng dụng thành công lĩnh vực nước ta Vì vậy, đồ án nhóm tìm hiểu “Khoa học liệu (Data science)” để có nhìn sâu hơn, thực tế việc ứng dụng hệ thống thông tin lĩnh vực đời sống Vì thời gian thực khơng nhiều nên chắn cịn nhiều thiếu sót, mong thầy dẫn thêm LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành đến thầy Vương Xuân Chí giảng viên khoa Công nghệ thông tin trường Đại học Nguyễn Tất Thành trang bị giúp em kỹ kiến thức cần thiết để hoàn thành đồ án sở Tuy nhiên, trình làm đồ án sở kiến thức chuyên ngành em cịn hạn chế nên khơng thể tránh khỏi vài thiếu sót trình bày đánh giá vấn đề Rất mong nhận góp ý, đánh giá thầy cô môn để đề tài em thêm hoàn thiện Em xin chân thành cảm ơn! TRƯỜNG ĐẠI HỌC NGUYỄN TẤT THÀNH TRUNG TÂM KHẢO THÍ BM-ChT11 KỲ THI KẾT THÚC HỌC PHẦN HỌC KỲ … … NĂM HỌC …… - ….… PHIẾU CHẤM THI TIỂU LUẬN/ĐỒ ÁN Môn thi:Đồ án sở Khoa học Dữ Liệu .Lớp học phần:20DTH2A Nhóm sinh viên thực hiện: Nguyễn Tiến Thành Nguyễn Minh Đăng Ngày thi: 22/09/2022 .Phòng thi: Đề tài tiểu luận/báo cáo sinh viên : Tìm hiểu Khoa học Dữ Liệu (Data Science) Phần đánh giá giảng viên (căn thang rubrics mơn học): Tiêu chí (theo Đánh giá GV CĐR HP) Cấu trúc báo cáo Nội dung - Các nội dung thành phần - Lập luận - Kết luận Trình bày Điểm tối đa Điểm đạt TỔNG ĐIỂM Giảng viên chấm thi (ký, ghi rõ họ tên) MỤC LỤC Chương 1./ Giới thiệu ngành Data Sciense 1./ Data Sciense gì? Data science biết đến với tên gọi Khoa học liệu Đúng với tên gọi nó, mặt chất, cơng việc thu thập phân tích liệu Data science lĩnh vực liên ngành mà đó, liệu xử lý, xếp giải mã mơ hình thống kê hay phương pháp tốn học Khoa học liệu lĩnh vực nghiên cứu liệu nhằm khai thác thơng tin chun sâu có ý nghĩa hoạt động kinh doanh Đây phương thức tiếp cận đa ngành, kết hợp nguyên tắc phương pháp thực hành lĩnh vực tốn học, thống kê, trí tuệ nhân tạo kỹ thuật máy tính để phân tích khối lượng lớn liệu Nội dung phân tích giúp nhà khoa học liệu đặt trả lời câu hỏi kiện xảy ra, xảy ra, kiện xảy sử dụng kết thu cho mục đích Hình 1.1 Data Science lĩnh vực liên quan 2./ Tầm quan trọng Data Sciense Các công ty phụ thuộc vào tảng liệu để cấu trúc, phát triển cải tiến doanh nghiệp Các Data Scientist làm việc với số, phân tích một khối lượng lớn Data để xuất Insight ý nghĩa Những insight hữu ích phân tích cơng ty hoạt động cơng ty thị trường từ đưa định đắn Cũng ngành cơng nghiệp thương mại khác, ngành chăm sóc sức khỏe ứng dụng Data Science Nơi mà công nghệ có nhu cầu lớn để nhận dạng khối u siêu nhỏ từ giai đoạn đầu Thống kê số lượng vai trò Data Scientist tăng trưởng 650% kể từ năm 2012 Khoảng 11,5 triệu việc làm liên quan đến chức danh tạo đến năm 2026 (theo U.S Bureau of Labor Statistics) Bên cạnh cơng việc Data Scientist xếp hạng top công việc bật LinkedIn Khoa học liệu quan trọng lĩnh vực kết hợp công cụ, phương pháp công nghệ để rút ý nghĩa từ liệu Các tổ chức đại chìm ngập liệu có vơ vàn thiết bị tự động thu thập lưu trữ liệu Các hệ thống cổng toán trực tuyến dần thu thập nhiều liệu lĩnh vực thương mại điện tử, y tế, tài khía cạnh khác đời sống người Chúng ta có sẵn khối lượng đồ sộ liệu dạng văn bản, âm thanh, video hình ảnh Đáng tiếc thay, liệu thơ chẳng có giá trị trừ chúng sử dụng để giải vấn đề Các nhà khoa học liệu chuyển đổi liệu thơ thành đề xuất có ý nghĩa Họ phát giải vấn đề mà doanh nghiệp cịn khơng biết chúng tồn Các tổ chức sử dụng đề xuất để khiến khách hàng hài lòng hơn, tối ưu hóa chuỗi cung ứng cho mắt sản phẩm 2.1./ Tại khoa học liệu lại quan trọng? Khoa học liệu quan trọng lĩnh vực kết hợp cơng cụ, phương pháp công nghệ để rút ý nghĩa từ liệu Các tổ chức đại chìm ngập liệu có vơ vàn thiết bị tự động thu thập lưu trữ liệu Các hệ thống cổng toán trực tuyến dần thu thập nhiều liệu lĩnh vực thương mại điện tử, y tế, tài khía cạnh khác đời sống người Chúng ta có sẵn khối lượng đồ sộ liệu dạng văn bản, âm thanh, video hình ảnh Đáng tiếc thay, liệu thơ chẳng có giá trị trừ chúng sử dụng để giải vấn đề Các nhà khoa học liệu chuyển đổi liệu thơ thành đề xuất có ý nghĩa Họ phát giải vấn đề mà doanh nghiệp cịn khơng biết chúng tồn Các tổ chức sử dụng đề xuất để khiến khách hàng hài lịng hơn, tối ưu hóa chuỗi cung ứng cho mắt sản phẩm Hình 1.2 Tại Data Science lại quan trọng? 3./ Lợi ích Data Science Khoa học liệu cách mạng hóa phương thức hoạt động cơng ty Nhiều doanh nghiệp, quy mô, cần chiến lược khoa học liệu hiệu để thúc đẩy tăng trưởng trì lợi cạnh tranh Một số lợi ích bao gồm: 3.1./ Khám phá mẫu biến đổi tiềm ẩn Khoa học liệu cho phép doanh nghiệp phát mẫu mối quan hệ có tiềm biến đổi tồn tổ chức Nó lộ thay đổi với chi phí thấp 10 Hình 2.2 Mối liên hệ Trí Tuệ Nhân Tạo với nhánh học Máy Học, Biểu Diễn Tri Thức Suy Luận, Xử Lý Ngôn Ngữ Tự Nhiên, Thị Giác Máy Tính… 23 2./ Sự phát triển Machine Learning Nhờ vào cơng nghệ điện tốn, ngày Machine Learning khơng cịn máy tính “học” chuyện q khứ Machine Learning sinh từ khả nhận diện pattern từ lý thuyết máy tính “học” mà khơng cần phải lập trình để thực tasks cụ thể Về phía nhà nghiên cứu quan tâm đến trí tuệ nhân tạo, họ lại muốn xem thử liệu máy tính học liệu Yếu tố lặp Machine Learning quan trọng models tiếp xúc với liệu mới, Machine Learning thích ứng cách độc lập Machine Learning “học” computations trước để trả kết quả, định đáng tin cậy, lặp lại Từ lâu có nhiều thuật tốn Machine Learning tiếng khả tự động áp dụng phép tính phức tạp vào Big Data – lặp lặp lại với tốc độ nhanh – phát triển gần Các ứng dụng Machine Learni ng trở nên quen thuộc như: - Xe tự lái, giảm thiểu tai nạn Google? Chính chất machine - learning Các ưu đãi recommendation online Amazong & Netflix? Ứng dụng - Machine Learning sống ngày Muốn biết người dùng nói bạn Twitter? Machine Learning kết hợp - với sáng tạo quy tắc ngôn ngữ Nhận diện lừa đảo? Một nhu cầu sử dụng hiển nhiên ngày 24 Hình 2.3 Sự phát triển Machine Learning Cùng với cơng nghệ máy tính ngày phát triển, Máy Học ngày không giống Máy Học khứ Nó sinh từ nhận dạng mẫu (pattern recognition) lý thuyết máy tính học mà khơng cần lập trình để thực nhiệm vụ cụ thể; nhà nghiên cứu quan tâm đến trí tuệ nhân tạo muốn xem liệu máy tính học từ liệu hay khơng Khía cạnh lặp lặp lại Máy Học quan trọng mơ hình tiếp xúc với liệu mới, chúng thích ứng cách độc lập Chúng học hỏi từ tính tốn trước để đưa định kết đáng tin cậy, lặp lại Đây ngành khoa học không – lại ngành khoa học đạt nhiều bước tiến lớn 3./ Thế để có hệ thống Machine Learning tốt? - Khả chuẩn bị liệu - Thuật toán – & nâng cao - Quy trình tự động quy trình lặp lại - Khả scale - Ensemble modeling 25 4./ Những đối tượng sử dụng Machine Learning Hầu hết ngành công nghiệp làm việc với hàm lượng lớn liệu nhận tầm quan trọng công nghệ Machine Learning Những insights từ nguồn liệu – chủ yếu dạng realtime – giúp tổ chức vận hành hiệu tạo lợi cạnh tranh so với đối thủ Hầu hết ngành công nghiệp làm việc với hàm lượng lớn liệu nhận tầm quan trọng công nghệ Machine Learning Những insights từ nguồn liệu – chủ yếu dạng realtime – giúp tổ chức vận hành hiệu tạo lợi cạnh tranh so với đối thủ Hình 2.4 Machine Learning & ứng dụng ngành công nghiệp lớn 4.1./ Các dịch vụ tài Ngân hàng doanh nghiệp hoạt động lĩnh vực tài sử dụng cơng nghệ Machine Learning với mục đích chính: xác định insights liệu ngăn chặn lừa đảo Insights biết hội đầu tư thông báo đến nhà đầu tư thời điểm giao dịch hợp lý Data mining tìm khách hàng có hồ sơ rủi ro cao sử dụng giám sát mạng để rõ tín hiệu lừa đảo 26 4.2./ Chính phủ Các tổ chức phủ hoạt động an ninh cộng đồng tiện ích xã hội sở hữu nhiều nguồn liệu khai thác insights Ví dụ, phân tích liệu cảm biến, phủ tăng mức độ hiệu dịch vụ tiết kiệm chi phí Machine Learning cịn hỗ trợ phát gian lận giảm thiểu khả trộm cắp danh tính 4.3./ Chăm sóc sức khỏe Machine Learning xu hướng phát triển nhanh chóng ngành chăm sóc sức khỏe, nhờ vào đời thiết bị máy cảm ứng đeo sử dụng liệu để đánh giá tình hình sức khỏe bệnh nhân thời gian thực (real-time) Công nghệ Machine Learning giúp chuyên gia y tế xác định xu hướng tín hiệu để cải thiện khả điều trị, chẩn đốn bệnh 4.4./ Chăm sóc sức khỏe Machine Learning xu hướng phát triển nhanh chóng ngành chăm sóc sức khỏe, nhờ vào đời thiết bị máy cảm ứng đeo sử dụng liệu để đánh giá tình hình sức khỏe bệnh nhân thời gian thực (real-time) Cơng nghệ Machine Learning cịn giúp chun gia y tế xác định xu hướng tín hiệu để cải thiện khả điều trị, chẩn đoán bệnh 4.5./ Dầu khí Tìm kiếm nguồn ngun liệu Phân tích mỏ dầu đất Dự đốn tình trạng thất bại cảm biến lọc dầu Sắp xếp kênh phân phối để đạt hiệu tiết kiệm chi phí Có thể nói, số lượng trường hợp sử dụng Machine Learning ngành công nghiệp lớn ngày mở rộng 4.6./ Vận tải Phân tích liệu để xác định patterns & xu hướng trọng tâm ngành vận tải ngành phụ thuộc vào khả tận dụng hiệu tuyến đường dự đoán vấn đề tiềm tàng để gia tăng lợi nhuận Các chức phân tích liệu modeling Machine Learning đóng vai trị quan trọng với doanh nghiệp vận chuyện, vận tải công cộng tổ chức vận chuyển khác 27 5./ Một số Methods Machine Learning Hai methods Machine Learning chấp nhận rộng rãi supervised learning (học có giám sát) unsupervised learning (học khơng giám sát) có methods khác semisupervised learning (học bán giám sát), reinforcement learning (học tăng cường) Dưới khái niệm chung phương pháp phổ biến nhất: 5.1/ Supervised Learning (SL) Là kĩ thuật học máy để học tập từ tập liệu gán nhãn cho trước Tập liệu cho trước chứa nhiều liệu Mỗi liệu có cấu trúc theo cặp {x, y} với x xem liệu thô (raw data) y nhãn liệu Nhiệm vụ SL dự đoán đầu mong muốn dựa vào giá trị đầu vào Dễ nhận ra, học có GIÁM SÁT tức máy học dựa vào trợ giúp người, hay nói cách khác người dạy cho máy học giá trị đầu mong muốn định trước người Tập liệu huấn luyện hoàn toàn gán nhãn dựa vào người Tập nhỏ máy tính học SL áp dụng cho nhóm tốn tốn dự đốn (regression problem) toán phân lớp (classification problem) Kỹ thuật SL thực chất để xây dựng hàm xuất giá trị đầu tương ứng với tập liệu Ta gọi hàm hàm h(x) mong muốn hàm xuất giá trị y với nhiều tập liệu khác với liệu học Hàm h(x) cần loại tham số học khác tùy thuộc với nhiều toán khác Việc học từ tập liệu (training) tìm tham số học cho hàm h(x) 5.2./ Unsupervised learning (UL) Là kĩ thuật máy học nhằm tìm mơ hình hay cấu trúc bị ẩn bơi tập liệu KHÔNG gán nhãn cho trước UL khác với SL xác định trước output từ tập liệu huấn luyện Tùy thuộc vào tập huấn luyện kết output khác Trái ngược với SL, tập liệu huấn luyện UL không người gán nhãn, máy tính phải tự học hồn tồn Có thể nói, học KHƠNG GIÁM SÁT giá trị đầu phụ thuộc vào thuật toán UL 28 Ứng dụng: Ứng dụng phổ biến học không giám sát gom cụm (cluster) Đương nhiên có nhiều ứng dụng khác, có hội tơi đề cập thêm Ứng dụng dễ nhận Google Facebook Google gom nhóm báo có nội dung gần nhau, Facebook gợi ý kết bạn có nhiều bạn chung cho bạn Các báo có nội dung gom lại thành nhóm (cluster) phân biệt với nhóm khác Dữ liệu huấn luyện báo từ khứ tới tăng dần theo thời gian Dễ nhận liệu gán nhãn người Khi báo cho vào input, tìm cụm (cluster) gần với báo gợi ý liên quan 6./ Tầm quan trọng Machine Learning Mối quan tâm ngày tăng Máy Học yếu tố tương tự làm cho việc khai thác liệu phân tích Bayes trở nên phổ biến hết Những thứ số lượng nhiều loại liệu có sẵn ngày tăng, khiến cho việc xử lý tính tốn rẻ mạnh lưu trữ liệu với giá phải Tất điều có nghĩa nhanh chóng tự động tạo mơ hình phân tích liệu lớn hơn, phức tạp đưa đến việc có kết nhanh hơn, xác – quy mô lớn Và cách xây dựng mô hình xác, tổ chức có hội tốt việc xác định hội sinh lời – tránh rủi ro chưa biết 29 Hình 2.5 Ứng dụng tầm quan trọng Machine đến ngành liên quan 7./ Quy trình làm việc Machine Learning Hệ thống học tập thuật tốn Máy Học chia thành ba phần chính: 30 7.1./ Một Quy trình Quyết định (Decision Process) Nói chung, thuật toán Máy Học sử dụng để đưa dự đoán phân loại Dựa số liệu đầu vào, gắn nhãn khơng gắn nhãn, thuật tốn bạn sinh ước tính mẫu liệu 7.2./ Một Hàm So lỗi (Error Function) Dùng để đánh giá dự đốn mơ hình Nếu tồn mẫu biết, Hàm So lỗi thực so sánh để đánh giá độ xác mơ hình 7.3./ Một Quy trình Tối ưu hóa Mơ hình (Model Optimization Procress) Nếu mơ hình phù hợp tốt với điểm liệu tập huấn luyện, trọng số điều chỉnh nhằm làm giảm khác biệt mẫu thử biết ước tính mơ hình Thuật tốn lặp lại quy trình đánh giá tối ưu hóa này, việc cập nhật trọng số làm cách tự động đạt đến ngưỡng xác Hình 2.6 Quy trình làm việc Machine Learning 8./ Một số phương pháp Máy Học phổ biến Hai số phương pháp Máy Học áp dụng rộng rãi Học có giám sát (Supervised learning) Học khơng giám sát (Unsupervised learning) Ngồi cịn có phương pháp Máy Học khác, tổng quan loại phổ biến 31 8.1./ Học có giám sát (Supervised learning) Là thuật tốn huấn luyện cách sử dụng ví dụ gắn nhãn, chẳng hạn đầu vào mà đầu mong muốn biết đến Ví dụ: thiết bị có điểm liệu dán nhãn “F” (Failed) “R” (Run) Thuật toán học nhận tập hợp đầu vào với đầu xác tương ứng thuật tốn học cách so sánh đầu thực tế với đầu xác để tìm sai khác (error) Sau đó, chỉnh sửa mơ hình cho phù hợp Thơng qua phương pháp phân loại, hồi quy, dự đoán tăng độ chênh lệch (Gradient), Học có giám sát sử dụng mẫu để dự đoán giá trị nhãn liệu bổ sung chưa gắn nhãn Học có giám sát thường sử dụng ứng dụng nơi mà liệu lịch sử dự đoán kiện xảy tương lai Ví dụ: dự đốn giao dịch thẻ tín dụng có khả bị gian lận khách hàng bảo hiểm có khả nộp đơn khiếu nại 8.2./ Học không giám sát (Unsupervised learning) Được sử dụng để chống lại liệu mà gắn nhãn trước Hệ thống khơng cho biết “câu trả lời đúng” Thuật tốn phải tìm hiển thị Mục đích khám phá liệu tìm số cấu trúc bên Học không giám sát hoạt động tốt liệu giao dịch Ví dụ: xác định phân khúc khách hàng có thuộc tính tương tự, người sau đối xử chiến dịch tiếp thị Hoặc tìm thuộc tính ngăn cách phân khúc khách hàng với Các kỹ thuật phổ biến bao gồm đồ tự tổ chức (self-Organizating map), ánh xạ láng giềng gần (nearest-neighbor mapping), phân cụm k-phương thức (k-means clustering) phân rã giá trị đơn lẻ (singular value decomposition) Các thuật toán sử dụng để phân khúc chủ đề văn bản, đề xuất hạng mục xác định giá trị ngoại lai liệu 8.3./ Học bán giám sát (Semi-supervised learning) Được sử dụng cho ứng dụng tương tự Học có giám sát Nhưng sử dụng liệu gắn nhãn không gắn nhãn để huấn luyện – thường lượng nhỏ liệu gắn nhãn với lượng lớn liệu khơng gắn nhãn (vì liệu khơng 32 gắn nhãn tốn cơng sức để thu thập) Loại hình học tập sử dụng với phương pháp phân loại, hồi quy dự đoán Học bán giám sát hữu ích chi phí liên quan đến việc gắn nhãn cao phép trình huấn luyện gắn nhãn đầy đủ Các ví dụ ban đầu điều bao gồm xác định khuôn mặt người webcam 8.4./ Học tăng cường (Reinforcement learning) Thường sử dụng cho robot, chơi game điều hướng Với Học tăng cường, thuật tốn phát thơng qua q trình thử (trial) sai (error), hành động mang lại phần thưởng lớn Loại Học có ba thành phần chính: tác nhân (agent) (người học người định), môi trường (mọi thứ mà tác nhân tương tác cùng) hành động (tác nhân làm gì) Mục tiêu để tác nhân chọn hành động tối đa hóa phần thưởng mong đợi khoảng thời gian định Tác nhân đạt mục tiêu nhanh nhiều tuân theo sách tốt Vì mục tiêu Học tăng cường học sách tốt Chương 3./ Kết luận 1./ Môi trường cần tới Khoa học Dữ Liệu Data science sử dụng hầu hết lĩnh vực sống, chẳng hạn ngân hàng, cơng nghệ, chăm sóc sức khỏe, bán lẻ, thương mại điện tử, v.v; loại hình tổ chức nào, từ công ty khởi nghiệp nhỏ đến tập đoàn khổng lồ, tổ chức phi lợi nhuận quốc tế, v.v Với số công ty bán sản phẩm hữu hình, khoa học liệu đóng vai trị tư vấn, giúp nhóm kinh doanh hiểu liệu họ tạo mơ hình để hỗ trợ chiến lược kinh doanh Trong môi trường đó, bạn phải đề xuất đánh giá trường hợp xảy ra, giải thích cách tiếp cận tốt với phương án, xây dựng mơ hình liệu để dự đốn tình hình tăng trưởng cho tương lai cho sản phẩm 33 Trong đó, cơng ty công nghệ lớn, nhiều khả bạn tham gia nhóm chuyên biệt, tập trung vào việc tối ưu hóa một vài phần cụ thể mơ hình liệu cho sản phẩm tính cơng nghệ Hình Mơi trường hoạt động ngành Khoa học Dữ liệu 2./ Kiến thức rút từ ngành Khoa học Dữ liệu Khoa học liệu (KHDL) thuật ngữ có lẽ cịn lạ lẫm Việt Nam thời đại cơng nghiệp 4.0 Nhưng dần trở thành xu hướng doanh nghiệp hướng tới để đẩy mạnh hoạt động kinh doanh nhờ việc sử dụng thông tin phân tích cơng nghệ mang lại Khi Cách mạng Công nghệ 4.0 bùng nổ, quốc gia phải dựa nhiều vào Khoa học Công nghệ, vào liệu Trong chạy đua công nghệ số, người thắng người làm chủ nguồn liệu lớn Đây lĩnh vực trở thành tâm điểm thu hút người học Nhà khoa học liệu lên nghề săn lùng nhiều đến bất ngờ Nhìn vào khía cạnh đó, ta xem thể tập hợp gồm ngành khác vận động phát triển không ngừng khoa học máy tính, mơ phỏng, thống kê, phân tích tốn học Trọng tâm nằm việc áp dụng 34 phương pháp tự động hóa cho việc phân tích lượng lớn liệu từ rút kiến thức Điều ta quan sát hầu khắp nơi từ di truyền học đến vật lý cao lượng, khoa học liệu giúp ta tìm nhánh khoa học, tạo ảnh hưởng sâu rộng đến toàn khoa học tự nhiên, công nghệ kỹ thuật , khoa học xã hội nhân văn Hầu tất ngành kinh tế truy cập vào trung tâm liệu Điều hẳn bạn tưởng tượng cách mười năm Các doanh nghiệp tích lũy khối thơng tin với tốc độ vượt lực mà họ rút chiết giá trị Vậy nên câu hỏi mà tất các tổ chức đặt thu hút quan tâm toàn cộng đồng làm để sử dụng liệu cách hiệu quả, không riêng họ mà bao gồm nguồn có liên quan Trong năm tới, xu hướng dự kiến tăng mạnh với lên thiết bị thông minh giới mạng thơng tin Cịn với nghiên cứu khoa học, thấy số lượng lớn ngành sinh kèm với từ "tính tốn"(computational) "định lượng" (quantitative) phía trước Trong công nghiệp, khoa học liệu thay đổi tất lĩnh vực từ y tế đến phương tiện truyền thông Tài liệu tham khảo [1] Khoa CNTT ĐH Nguyễn Tất Thành, Ths.Vương Xuân Chí khoa CNTT ĐH Nguyễn Tất Thành [2] Các nguồn tài liệu Google 35 ... Khoa học liệu (Data Science) Giảng viên hướng dẫn: VƯƠNG XUÂN CHÍ Sinh viên thực hiện: NGUYỄN MINH ĐĂNG MSSV: 2011549718 Khố: 2020 Ngành/ chun ngành: CƠNG NGHỆ THƠNG TIN/KHOA HỌC DỮ LIỆU TPHCM,... XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập – Tự – Hạnh phúc NHIỆM VỤ ĐỒ ÁN CƠ SỞ Họ tên: Nguyễn Minh Đăng .MSSV: 2011549718 Chuyên ngành: Khoa học Dữ Liệu Lớp:20DTH2A Tên đề tài: Tìm hiểu... học Dữ Liệu .Lớp học phần:20DTH2A Nhóm sinh viên thực hiện: Nguyễn Tiến Thành Nguyễn Minh Đăng Ngày thi: 22/09/2022 .Phòng thi: Đề tài tiểu luận/báo cáo sinh viên : Tìm