Báo cáo thực nghiệm thí nghiệm học phần nhập môn về kỹ thuật – it6011 đề tài tìm hiểu và trình bày hiểu biết của em về nghề khoa học dữ liệu (data science

40 0 0
Báo cáo thực nghiệm thí nghiệm học phần nhập môn về kỹ thuật – it6011 đề tài  tìm hiểu và trình bày hiểu biết của em về nghề khoa học dữ liệu (data science

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Trang 1 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘIKHOA CƠNG NGHỆ THƠNG TIN_______________________________BÁO CÁO THỰC NGHIỆM/THÍ NGHIỆMHỌC PHẦN: NHẬP MÔN VỀ KỸ THUẬT – IT6011Đề tài: Tìm hiểu và t

lOMoARcPSD|39270902 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN _ BÁO CÁO THỰC NGHIỆM/THÍ NGHIỆM HỌC PHẦN: NHẬP MÔN VỀ KỸ THUẬT – IT6011 Đề tài: Tìm hiểu và trình bày hiểu biết của em về nghề khoa học dữ liệu (Data Science) Sinh viên thực hiện: Nguyễn Việt Hoàng Hoàng Mạnh Hùng Hoàng Phi Hùng Mai Quốc Huy Nguyễn Ngọc Huy Nhóm: 6 Lớp học phần: 2022DHKHMT01 Khóa: 17 Giảng viên hướng dẫn: Trần Thanh Huân Hà Nội, /2023 Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 BỘ CÔNG THƯƠNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI Độc lập – tự do – hạnh phúc -o0o - PHIẾU GIAO ĐỀ TÀI BÁO CÁO THỰC NGHIỆM/THÍ NGHIỆM Nhóm thực hiện: Nhóm 6: 1) Nguyễn Việt Hoàng 2) Hoàng Mạnh Hùng 3) Hoàng Phi Hùng 4) Mai Quốc Huy 5) Nguyễn Ngọc Huy Lớp: 2022DHKHMT01 Khóa 17 Khoa Công nghệ thông tin Ngành học: Khoa học máy tính Tên đề tài: Tìm hiểu và trình bày hiểu biết của em về nghề khoa học dữ liệu (Data Science) Mục đích: Giúp người đọc hiểu rõ hơn về ngành khoa học dữ liệu (Data Science) và ứng dụng của ngành trong cuộc sống Yêu cầu: Nộp đúng thời hạn Thông tin của bài báo cáo có tính chính xác Trình bày chặt chẽ, logic, khoa học theo sự hướng dẫn của giảng viên Kết quả thu được: Bản báo cáo đề tài Ngày giao đề tài: 01/05/2023 Ngày triển khai: 23/06/2023 Ngày hoàn thành: 07/07/2023 Giảng viên hướng dẫn: Trần Thanh Huân Hà Nội, Ngày …… Tháng ……… Năm 2023 GIẢNG VIÊN Trần Thanh Huân 2 Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 PHIẾU PHÂN CÔNG NHIỆM VỤ Nhóm 03, gồm 5 thành viên: 1) Nguyễn Việt Hoàng 2) Hoàng Mạnh Hùng 3) Hoàng Phi Hùng 4) Mai Quốc Huy 5) Nguyễn Ngọc Huy T Công việc Kết quả đạt Nhận xét của GV T Người thực hiện được 3 Tuần 1 1 Nguyễn Việt Hoàng Tìm hiểu tài liệu chương V Đã hoàn thành nhiệm vụ 2 Hoàng Mạnh Hùng Tìm hiểu tài liệu chương Đã hoàn thành III nhiệm vụ 3 Hoàng Phi Hùng Tìm hiểu tài liệu chương II Đã hoàn thành nhiệm vụ 4 Mai Quốc Huy Tìm hiểu tài liệu chương Đã hoàn thành IV nhiệm vụ 5 Nguyễn Ngọc Huy Tìm hiểu tài liệu chương I Đã hoàn thành nhiệm vụ Tuần 2 1 Nguyễn Việt Hoàng Nộp bản word Đã hoàn thành nhiệm vụ 2 Hoàng Mạnh Hùng Nộp bản word + chỉnh sửa Đã hoàn thành cho bản final để nộp nhiệm vụ 3 Hoàng Phi Hùng Nộp word Đã hoàn thành nhiệm vụ 4 Mai Quốc Huy Nộp word Đã hoàn thành nhiệm vụ 5 Nguyễn Ngọc Huy Nộp bản word + lời mở Đã hoàn thành đầu nhiệm vụ Tuần 3 1 Nguyễn Việt Hoàng 2 Hoàng Mạnh Hùng Soát lại tài liệu lần cuối + Đã hoàn thành kết luận nhiệm vụ 3 Hoàng Phi Hùng Đóng góp ý kiến Đã hoàn thành nhiệm vụ 4 Mai Quốc Huy Đóng góp ý kiến + làm Đã hoàn thành PowerPoint nhiệm vụ 5 Nguyễn Ngọc Huy Làm PowerPoint Đã hoàn thành Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 nhiệm vụ LỜI NÓI ĐẦU .6 CHƯƠNG 1 KHÁI QUÁT VỀ KHOA HỌC DỮ LIỆU VÀ NGHỀ KHOA HỌC DỮ LIỆU (Data Science) 7 1.1 Giới thiệu về khoa học dữ liệu (Data Science) 7 1.1.1 Khái niệm: 7 1.1.2 Lịch sử lĩnh vực khoa học dữ liệu: 7 1.1.3 Tầm quan trọng của Khoa học dữ liệu: 7 1.1.4 Sự khác biệt của Khoa học dữ liệu so với các lĩnh vực khác: .8 1.2 Giới thiệu về nghề khoa học dữ liệu (Data Scientist): 10 1.2.1 Khái niệm: 10 1.2.2 Vai trò của Data Scientist: 11 1.2.3 Công việc của Data Scientist: 12 1.2.4 Phân biệt Data Scientist với những thuật ngữ khác: 12 CHƯƠNG 2: CÁC KỸ NĂNG CẦN CÓ CỦA DATA SCIENTIST 14 2.1 Kỹ năng phân tích: 14 2.2 Kỹ năng thống kê: .14 2.3 Kỹ năng lập trình: .15 2.4 Tư duy phản biện và kỹ năng thuyết trình: .15 2.5 Kiến thức về Machine Learning, Deep Learning và AI: 15 CHƯƠNG 3: CÁC NGÔN NGỮ LẬP TRÌNH VÀ CÔNG CỤ PHỔ BIẾN TRONG DATA SCIENCE .16 3.1 Các ngôn ngữ lập trình phổ biến: 16 3.1.1 Python: .16 3.1.2 R: 19 3.1.3 SQL: 20 3.2 Các công cụ lập trình phổ biến: 22 3.2.1 Jupiter Notebook: .22 3.2.2 Tableau: .23 CHƯƠNG 4: ỨNG DỤNG CỦA KHOA HỌC DỮ LIỆU 25 4.1 Ứng dụng khoa học dữ liệu vào chăm sóc sức khỏe: .26 4.1.1 Xác định khối u ung thư: 26 4 Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 4.1.2 Theo dõi chu kì kinh nguyệt: .26 4.1.3 Cá nhân hóa kế hoạch điều trị 27 4.1.4 Làm sạch dữ liệu thử nghiệm lâm sàng .27 4.2 Ví dụ về khoa học dữ liệu trong giao thông vận tải 27 4.2.1 Mô hình hóa các mẫu lưu lượng truy cập 27 4.2.2 Tối ưu hóa việc giao đồ ăn 28 4.2.3 Cải thiện việc giao hàng trọn gói .28 4.3 Ứng dụng khoa học dữ liệu trong thể thao .28 4.3.1 Đưa ra những hiểu biết về bóng rổ 28 4.3.2 Theo dõi dữ liệu thể chất cho vận động viên .29 4.3.3 Thu thập số liệu hiệu suất cho cầu thủ bóng đá 29 4.4 Ứng dụng khoa học dữ liệu của chính phủ .29 4.4.1 Dự đoán tái phạm trong một quần thể bị giam giữ 30 4.4.2 Khai thác cơ sở dữ liệu với phần mềm nhận dạng khuân mặt 30 4.4.3 Phát hiện gian lận thuế .30 4.5 Ví dụ về khoa học dữ liệu trò chơi 30 4.5.1 Cải thiện trò chơi trực tuyến 31 4.5.2 Đưa ra đề xuất cho người chơi để cải thiện lối chơi 31 4.5.3 Theo dõi các số liệu kinh doanh trong lĩnh vực trò chơi điện tử .31 4.6 Ứng dụng khoa học dữ liệu thương mại điện tử .31 4.6.1 Tạo quảng cáo 32 4.6.2 Quản lí nhà nghỉ cho thuê 32 4.6.3 Dự đoán sở thích sản phẩm của người tiêu dùng .32 4.6.4 Tạo cơ hội quảng cáo kỹ thuật số 33 4.7 Ví dụ về khoa học dữ liệu nền tảng xã hội .33 4.7.1 Quản lí các cuộc gặp trên các ứng dụng hẹn hò 33 4.7.2 Gợi ý kết bạn trên Facebook 34 4.8 Ứng dụng khoa học dữ liệu Fintech 34 4.8.1 Đẩy mạnh khai thác bảo hiểm nhân thọ .34 4.8.2 Tạo báo cáo tín dụng 34 4.8.3 Thu thập dữ liệu bảng lương 35 CHƯƠNG 5: TƯƠNG LAI CỦA NGHỀ KHOA HỌC DỮ LIỆU 36 5.1 Dự đoán về xu hướng nghề nghiệp trong tương lai của ngành khoa học dữ liệu: 36 5.2 Tiềm năng của khoa học dữ liệu trong các lĩnh vực khác: .37 5 Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 KẾT LUẬN 39 TÀI LIỆU THAM KHẢO 40 LỜI NÓI ĐẦU Nghề Khoa học dữ liệu (Data Scientist) đang trở thành một chủ đề nóng hiện nay, bởi sự tiến bộ của công nghệ dẫn đến tăng trưởng đáng kể về dữ liệu và thông tin Data Scientist là một công việc chuyên về thu thập, phân tích, và tạo ra giải pháp dựa trên dữ liệu, cung cấp cho các doanh nghiệp và tổ chức tiềm năng cho việc ra quyết định chiến lược Với sự phát triển và sự phổ biến của công nghệ thông tin, công việc của Data Scientist ngày càng trở nên quan trọng và được tìm kiếm nhiều hơn Các công ty và tổ chức đang tìm kiếm các chuyên gia trong lĩnh vực này để giúp họ tận dụng tối đa dữ liệu trong quá trình kinh doanh và đưa ra các quyết định chủ đạo Báo cáo này sẽ giới thiệu về nghề Khoa học dữ liệu, các kỹ năng và kiến thức cần thiết để trở thành một Data Scientist, cũng như những lợi ích mà các tổ chức có thể thu được khi có các chuyên gia trong lĩnh vực này Ngoài ra, báo cáo cũng sẽ trình bày một số ứng dụng cụ thể của Khoa học dữ liệu trong thực tế, từ đó giúp cho các nhà quản lý và các chuyên gia có thể hiểu rõ hơn và kết nối với các chuyên gia trong lĩnh vực này 6 Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 CHƯƠNG 1 KHÁI QUÁT VỀ KHOA HỌC DỮ LIỆU VÀ NGHỀ KHOA HỌC DỮ LIỆU (Data Science) 1.1 Giới thiệu về khoa học dữ liệu (Data Science) 1.1.1 Khái niệm: - Khoa học dữ liệu (Data Science) là lĩnh vực nghiên cứu dữ liệu nhằm khai thác những thông tin chuyên sâu có ý nghĩa đối với hoạt động kinh doanh Đây là một phương thức tiếp cận đa ngành, kết hợp những nguyên tắc và phương pháp thực hành của các lĩnh vực toán học, thống kê, trí tuệ nhân tạo và kỹ thuật máy tính để phân tích khối lượng lớn dữ liệu - Nội dung phân tích này sẽ giúp các nhà khoa học dữ liệu đặt ra và trả lời những câu hỏi như sự kiện gì đã xảy ra, tại sao nó xảy ra, sự kiện gì sẽ xảy ra và có thể sử dụng kết quả thu được cho mục đích gì Ví dụ như dự đoán tình hình xã hội, con người hậu Covid 19 hoặc khám phá về các xu hướng, hành vi của người dùng Facebook, Tiktok, Instagram thông qua các dữ liệu người dùng họ thu thập được 1.1.2 Lịch sử lĩnh vực khoa học dữ liệu: - Tuy rằng thuật ngữ khoa học dữ liệu không có gì mới, ý nghĩa và hàm ý của thuật ngữ này đã thay đổi theo thời gian Thuật ngữ này lần đầu xuất hiện vào khoảng thập niên 60, trong vai trò là tên gọi khác của thống kê Đến cuối thập niên 90, các chuyên gia khoa học máy tính đã chính thức hóa thuật ngữ này Một định nghĩa được đề xuất cho khoa học dữ liệu mô tả lĩnh vực này như một ngành riêng biệt gồm 3 khía cạnh: thiết kế, thu thập và phân tích dữ liệu Vẫn phải mất thêm một thập niên nữa thì thuật ngữ này mới được sử dụng ngoài giới học thuật 1.1.3 Tầm quan trọng của Khoa học dữ liệu: - Khoa học dữ liệu quan trọng bởi vì lĩnh vực này kết hợp các công cụ, phương pháp và công nghệ để rút ra ý nghĩa từ dữ liệu Các tổ chức hiện đại chìm ngập trong dữ liệu và hiện có vô vàn thiết bị có thể tự động thu thập và lưu trữ dữ liệu Các hệ thống và cổng thanh toán trực tuyến đang dần thu thập nhiều dữ liệu hơn trong những lĩnh vực thương mại điện tử, y tế, tài chính cũng như mọi khía cạnh khác của đời sống con người Chúng ta có sẵn khối lượng đồ sộ dữ liệu dưới dạng văn bản, âm thanh, video và hình ảnh - Có thể khẳng định rằng ngày nay công ty nào nắm giữ được lượng dữ liệu càng lớn thì càng nắm trong tay ưu thế hơn các đối thủ còn lại Bởi vì sao? Vì thu thập được dữ liệu lớn giúp các Data Scientist có thể phân tích và dự đoán một cách 7 Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 chính xác hơn về các thực trạng về khách hàng, xã hội, xu hướng Mà nhờ đó công ty có thể phát triển được các chiến lược hiệu quả, giảm chi phí, giảm thiểu rủi ro Và quan trọng hơn là giải quyết đúng ngay vấn đề mà khách hàng và xã hội đang gặp phải 1.1.4 Sự khác biệt của Khoa học dữ liệu so với các lĩnh vực khác: a Khoa học dữ liệu với Phân tích dữ liệu: - Mặc dù hai thuật ngữ này có thể được sử dụng thay thế cho nhau, phân tích dữ liệu là một nhánh phụ của khoa học dữ liệu o Khoa học dữ liệu là một thuật ngữ bao hàm mọi khía cạnh của xử lý dữ liệu —từ thu thập dữ liệu đến lập mô hình rồi rút ra thông tin chuyên sâu o Mặt khác, phân tích dữ liệu chủ yếu liên quan tới thống kê, toán học và phân tích thống kê Lĩnh vực này chỉ tập trung vào phân tích dữ liệu, trong khi đó, khoa học dữ liệu liên quan đến bức tranh toàn cảnh hơn về dữ liệu của tổ chức - Tại hầu hết môi trường làm việc, các nhà khoa học dữ liệu và nhà phân tích dữ liệu phối hợp cùng nhau để đạt các mục tiêu kinh doanh chung Một nhà phân tích dữ liệu có thể dành nhiều thời gian hơn cho việc phân tích thông thường, cung cấp các báo cáo thường xuyên Một nhà khoa học dữ liệu có thể thiết kế phương thức lưu trữ, điều chỉnh và phân tích dữ liệu Nói một cách đơn giản, nhà phân tích dữ liệu diễn giải dữ liệu hiện có, còn nhà khoa học dữ liệu tạo ra các phương pháp và công cụ mới để xử lý dữ liệu cho các nhà phân tích sử dụng 8 Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 b Khoa học dữ liệu với Phân tích kinh doanh: - Mặc dù có sự trùng lặp giữa khoa học dữ liệu và phân tích kinh doanh, điểm khác biệt chính giữa hai lĩnh vực này là việc sử dụng công nghệ trong từng lĩnh vực Các nhà khoa học dữ liệu làm việc sát với công nghệ dữ liệu hơn các nhà phân tích kinh doanh - Các nhà phân tích kinh doanh thu hẹp khoảng cách giữa kinh doanh và CNTT Họ xác định các trường hợp kinh doanh, thu thập thông tin từ những bên liên quan hoặc xác thực các giải pháp - Mặt khác, các nhà khoa học dữ liệu sử dụng công nghệ để làm việc với dữ liệu kinh doanh Họ có thể viết ra các chương trình, áp dụng những kỹ thuật máy học để tạo ra mô hình và phát triển thuật toán mới Các nhà khoa học dữ liệu không chỉ nắm rõ vấn đề mà còn có thể xây dựng một công cụ cung cấp giải pháp cho vấn đề đó - Việc các nhà phân tích kinh doanh phối hợp với những nhà khoa học dữ liệu trong cùng nhóm là chuyện không hiếm gặp Nhà phân tích kinh doanh lấy và sử dụng kết quả từ nhà khoa học dữ liệu để diễn giải theo cách mà toàn thể doanh nghiệp có thể hiểu 9 Downloaded by SAU DO (saudinh3@gmail.com) lOMoARcPSD|39270902 c Khoa học dữ liệu với Kỹ thuật dữ liệu: - Các kỹ sư dữ liệu xây dựng và duy trì các hệ thống cho phép nhà khoa học dữ liệu truy cập và diễn giải dữ liệu Họ làm việc chặt chẽ với công nghệ cơ bản hơn là các nhà khoa học dữ liệu Vai trò này thường liên quan tới việc tạo các mô hình dữ liệu, xây dựng đường ống dữ liệu và giám sát quy trình trích xuất, chuyển đổi, tải - Tùy thuộc vào quy mô và cơ cấu của tổ chức, kỹ sư dữ liệu cũng có thể quản lý cơ sở hạ tầng liên quan như nền tảng lưu trữ, truyền phát và xử lý dữ liệu lớn Các nhà khoa học dữ liệu sử dụng dữ liệu mà kỹ sư dữ liệu đã xử lý để xây dựng và đào tạo các mô hình dự đoán Sau đó, các nhà khoa học dữ liệu có thể giao kết quả cho các nhà phân tích để đưa ra quyết định tiếp theo d Khoa học dữ liệu với Máy học: - Máy học là lĩnh vực khoa học về đào tạo máy móc phân tích và học hỏi từ dữ liệu giống như con người Đây là một trong những phương pháp được sử dụng trong các dự án khoa học dữ liệu nhằm thu thập thông tin chuyên sâu tự động từ dữ liệu - Các kỹ sư máy học chuyên về kỹ năng tính toán, thuật toán và viết mã cụ thể cho các phương pháp máy học Các nhà khoa học dữ liệu có thể sử dụng các phương pháp máy học như một công cụ hoặc hợp tác chặt chẽ với các kỹ sư máy học khác để xử lý dữ liệu e Khoa học dữ liệu với Thống kê: - Thống kê là một lĩnh vực dựa trên toán học nhằm thu thập và diễn giải dữ liệu định lượng Ngược lại, khoa học dữ liệu là một lĩnh vực đa ngành sử dụng các phương pháp, quy trình và hệ thống khoa học để trích xuất tri thức từ dữ liệu dưới nhiều hình thức khác nhau - Các nhà khoa học dữ liệu sử dụng các phương pháp từ nhiều lĩnh vực, bao gồm cả thống kê Tuy nhiên, các lĩnh vực này khác nhau về quy trình và những vấn đề mà chúng nghiên cứu 10 Downloaded by SAU DO (saudinh3@gmail.com)

Ngày đăng: 27/03/2024, 16:00

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan