Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 18 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
18
Dung lượng
322,59 KB
Nội dung
lOMoARcPSD|38784156 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ======***====== TIỂU LUẬN MÔN HỌC Đề tài: Tìm hiểu và trình bày hiểu biết về nghề khoa học dữ liệu (Data Scientist) Giáo viên hướng dẫn: Th.S Đoàn Văn Trung Lớp: Nhóm: 2022IT6011007 Sinh viên: 2 Lê Mạnh Cường Nguyễn Hùng Cường Nguyễn Hữu Đức Bùi Xuân Dũng Nguyễn Ba Duy Hà Nam, tháng 2, năm 2023 Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science Nhóm 02 BỘ CÔNG THƯƠNG CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI Độc lập - Tự do - Hạnh phúc _ _ PHIẾU GIAO ĐỀ TÀI TIỂU LUẬN Họ và tên: Lê Mạnh Cường Nguyễn Hùng Cường Nguyễn Hữu Đức Bùi Xuân Dũng Nguyễn Ba Duy Lớp: 20221IT6011007 Khoá: 17 Khoa: Công nghệ thông tin Ngành học: Công nghệ thông tin Tên đề tài: Tìm hiểu và trình bày hiểu biết của em về nghề khoa học dữ liệu (Data Scientist) Mục đích: - Tìm hiểu về ngành Data Science - Tìm hiểu công việc của một Data Scientist Yêu cầu: - Thuyết trình về chủ đề Data Scientist - Quyển báo cáo đề tài Kết quả thu được : Bản thuyết minh đề tài Ngày giao đề tài: 23/12/2022 Ngày hoàn thành: 12/02/2023 Giáo viên hướng dẫn : Ths Đoàn Văn Trung Hà Nam, ngày 23 tháng 12 năm 2022 GIÁO VIÊN HƯỚNG DẪN Đoàn Văn Trung -i- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science PHÂN CÔNG CÔNG VIỆC Nhóm 02 Tuần Người thực hiện Nội dung công việc Kết quả đạt được 1 Bùi Xuân Dũng - Tìm hiểu nội dung chủ - Hoàn thành phần chia Nguyễn Hùng đề công việc cho từng Cường - Phân công công việc thành viên Lê Mạnh Cường cụ thể: - Các thành viên nắm rõ Nguyễn Ba Duy + H.Cường và Hữu Đức được công việc của Nguyễn Hữu Đức tập trung tìm nội dung mình cho phần bản báo cáo - Chia công việc phù Bùi Xuân Dũng + M.Cường và Dũng hợp với khả năng của Nguyễn Hùng làm từng thành viên Cường phần powerpoint - Cả nhóm hình dung 2 Lê Mạnh Cường Nguyễn Ba Duy + Duy làm phần thuyết được sườn ( bố cục ) Nguyễn Hữu Đức trình và cùng hỗ trợ các công việc thành viên khác Bùi Xuân Dũng - Hoàn thành được một Nguyễn Hùng - H.Cường và Hữu Đức phần ba bài tiểu luận Cường bắt đầu làm phần tiểu - Chuẩn bị xong 3 Lê Mạnh Cường Nguyễn Ba Duy luận template cho Nguyễn Hữu Đức - M.Cường và Dũng powerpoint chuẩn bị template - Công việc đúng tiến Bùi Xuân Dũng powerpoint độ dự định Nguyễn Hùng - Duy hỗ trợ nhóm Cường Lê Mạnh Cường - H.Cường và Hữu Đức - Tiếp tục thực hiện các 4 Nguyễn Ba Duy tiếp tục làm phần tiểu công việc đề ra theo Nguyễn Hữu Đức luận đúng kế hoạch và tiến - M Cường và Dũng hỗ độ dự định của cả Bùi Xuân Dũng trợ thêm và chắt lọc nhóm 5 Nguyễn Ba Duy thông tin - Duy chuẩn bị phần - Đã hoàn thành xong thuyết trình phần báo cáo tiểu luận và powerpoint - H.Cường và Hữu Đức - Các thành viên trong hoàn thành phần tiểu nhóm hoàn thành công luận việc đúng tiến độ - M.Cường và Dũng hoàn tất chắt lọc thông - Hoàn tất phần chốt lại tin phần tiểu luận và công việc của nhóm hoàn thành powerpoint - Chuẩn bị sẵn sàng nộp - Duy chuẩn bị thuyết bài và thuyết trình trình - Dũng chốt lại các công việc nhóm - Duy chuẩn bị thuyết trình -ii- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science Nhóm 02 LỜI NÓI ĐẦU Lĩnh vực khoa học dữ liệu đang phát triển nhanh chóng và cách mạng hóa rất nhiều ngành công nghiệp Đây là một lĩnh vực toán học và thống kê ứng dụng cung cấp thông tin hữu ích dựa trên một lượng lớn dữ liệu phức tạp hoặc dữ liệu lớn Do đó, không có gì ngạc nhiên khi Data Scientist là những chuyên gia được săn đón nhất trong ngành Phân tích dữ liệu lớn nói riêng và Công nghệ thông tin nói chung Trong thời đại công nghệ hiện nay, Data Science đã trở nên rất quen thuộc đối với những ai đang làm trong ngành công nghệ thông tin Chắc hẳn đây cũng là ngành nghề mà nhiều “dân công nghệ” đang hướng đến Quyển báo cáo sẽ giúp bạn hiểu rõ hơn về ngành Data Science và những tố chất để trở thành một nhà khoa học dữ liệu (Data Scientist) Có thể khẳng định rằng ngày nay công ty nào nắm giữ được lượng dữ liệu càng lớn thì càng nắm trong tay ưu thế hơn các đối thủ còn lại Bởi vì sao? Vì thu thập được dữ liệu lớn giúp các Data Scientist có thể phân tích và dự đoán một cách chính xác hơn về các thực trạng về khách hàng, xã hội, xu hướng Mà nhờ đó công ty có thể phát triển được các chiến lược hiệu quả, giảm chi phí, giảm thiểu rủi ro Và quan trọng hơn là giải quyết đúng ngay vấn đề mà khách hàng và xã hội đang gặp phải “Data (dữ liệu) là thứ vô cùng quý giá và sẽ có giá trị lâu dài hơn bất cứ hệ thống nào đang điều phối chúng.” - Tim Berners Lee - “Trong 10 năm tới, data science và phần mềm sẽ có vai trò trong lĩnh vực y dược lớn hơn so với bất kỳ công nghệ sinh học nào.” - Vinod Khosla - MỤC LỤC CHƯƠNG 1 TÌM HIỂU VỀ NGÀNH DATA SCIENCE 1 1.1 Data Science là gì? .1 1.2 Nguồn gốc ngành Data Science 1 1.3 Ứng dụng của ngành Data Science .1 1.4 Tiềm năng phát triển 3 1.4.1 Trong nước 3 -iii- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science Nhóm 02 1.4.2 Ngoài nước 3 CHƯƠNG 2 TÌM HIỂU VỀ VỊ TRÍ DATA SCIENTIST 4 2.1 Data Scientist là gì? .4 2.2 Công việc của một Data Scientist .4 2.3 Phân biệt Data Scientist với những thuật ngữ khác 5 2.4 Các yếu tố cần có để trở thành Data Scientist 5 2.5 Cơ hội nghề nghiệp 6 2.6 Đạo đức hành nghề 8 CHƯƠNG 3 KẾT LUẬN .9 TÀI LIỆU THAM KHẢO 10 PHỤ LỤC .11 -iv- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) Ngành Data Science lOMoARcPSD|38784156 Nhóm 02 DANH SÁCH HÌNH VẼ -v- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science Nhóm 02 DANH SÁCH BẢNG BIỂU -vi- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science Nhóm 02 CHƯƠNG 1 TÌM HIỂU VỀ NGÀNH DATA SCIENCE 1.1 Data Science là gì? Data Science hay còn gọi là khoa học dữ liệu, là một lĩnh vực liên quan đến việc sử dụng các công cụ máy tính tiên tiến kết hợp với kiến thức toán học, thống kê để chuyển hóa dữ liệu thành những thông tin quan trọng và có ích cho công ty Ví dụ như dự đoán tình hình xã hội, con người hậu Covid 19 hoặc khám phá về các xu hướng, hành vi của người dùng Facebook, Tik Tok, Instagram thông qua các dữ liệu người dùng họ thu thập được 1.2 Nguồn gốc của ngành Data Science Máy tính đầu tiên được phát minh vào năm 1936 và với việc tạo ra internet hiện đại vào năm 1990 đã giúp thu thập dữ liệu trên quy mô lớn và sử dụng các mô hình thống kê, toán học để giải thích các thông tin dữ liệu mang lại Ngay sau đó, các công ty và tổ chức bắt đầu nhận ra rằng họ có thể sử dụng dữ liệu để giải quyết các vấn đề quan trọng Nhiều người đã đóng vai trò trong việc phổ biến thuật ngữ Nhà khoa học dữ liệu, nhưng nó chủ yếu được ghi nhận cho Patil và Jeff Hammerbacher, người đồng sáng lập Cloudera, người lãnh đạo nhóm dữ liệu của Facebook Họ cũng là một trong những người đầu tiên tự gọi mình là Nhà khoa học dữ liệu Với công nghệ máy tính và di động mới và nhanh hơn đã tạo ra các bộ dữ liệu khổng lồ (Big data) rất khó để quản lý, nhưng cung cấp nhiều nguồn thông tin hữu ích về người dùng, khách hàng hay giao dịch Để xử lý dữ liệu lớn, các công ty bắt đầu phát minh ra khả năng lưu trữ đám mây và các công cụ phân tích Năm 2010, Mike Loukides đã viết, Khoa học dữ liệu là gì? Tương lai thuộc về các công ty và con người biến dữ liệu thành sản phẩm Kể từ đó, nhiều công ty và trường đại học đã bắt đầu thành lập các bộ phận công ty, các chương trình học thuật xung quanh việc nghiên cứu dữ liệu Việc làm khoa học dữ liệu đã tăng 15.000% từ năm 2011 đến 2012, khi các công ty thấy cách khoa học dữ liệu có thể tăng doanh thu, cắt giảm chi phí, tăng hiệu quả tiếp thị, tạo ra các số liệu tác động và thúc đẩy các chiến lược tiếp cận thị trường 1.3 Ứng dụng của ngành Data Science -Ứng dụng trong y tế: Xây dựng hệ thống trợ lý chăm sóc sức khỏe ảo Đây là ứng dụng của khoa học dữ liệu trong lĩnh vực y tế mà bạn có thể cảm thấy quen thuộc nhất Trong thời đại kỹ thuật số, nhiều trường hợp bệnh nhân không thực sự cần thiết phải đến gặp bác sĩ trực tiếp Một ứng dụng di động có thể đưa ra giải pháp hiệu quả hơn bằng cách đưa bác sĩ đến với bệnh nhân Các ứng dụng này được hỗ trợ bởi AI có thể cung cấp hỗ trợ chăm sóc sức khỏe cơ bản, thường là thông qua chatbot Bạn chỉ cần mô tả các triệu chứng của mình hoặc đặt câu hỏi, sau đó nhận về được những thông tin về tình trạng bệnh của bạn và phương pháp chữa trị -1- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science Nhóm 02 Các ứng dụng còn có thể nhắc bạn uống thuốc đúng giờ và đặt một cuộc hẹn với bác sĩ tại bệnh viện gần nhất nếu cần Cách tiếp cận này giúp tiết kiệm thời gian xếp hàng chờ hẹn, giảm thiểu tình trạng quá tải cho các bệnh viện và cho phép bác sĩ tập trung vào các trường hợp quan trọng hơn -Nghiên cứu về gen và di truyền: Ứng dụng của khoa học dữ liệu còn cho phép cá nhân hóa điều trị ở cấp độ nâng cao thông qua nghiên cứu về di truyền và gen Ngành khoa học dữ liệu cũng mang lại bước tiến đáng kể trong việc hiểu sâu hơn về DNA của con người, bằng cách tích hợp các loại dữ liệu khác nhau với dữ liệu bộ gen trong nghiên cứu bệnh tật Mục đích là để hiểu tác động của DNA đối với sức khỏe của chúng ta và tìm ra các mối liên hệ sinh học giữa di truyền, bệnh tật và phản ứng với thuốc -Điều chế thuốc: Thêm vào đó, các ứng dụng của khoa học dữ liệu và thuật toán máy học cũng có thể giúp đơn giản hóa và rút ngắn quá trình phát triển các loại thuốc, từ việc sàng lọc ban đầu các hợp chất thuốc đến dự đoán tỷ lệ thành công dựa trên các yếu tố sinh học Các thuật toán có thể dự báo cách các hợp chất sẽ hoạt động trong cơ thể, bằng cách sử dụng mô hình toán học nâng cao và mô phỏng thay vì thí nghiệm trong phòng thí nghiệm -Ứng dụng trong tìm kiếm thông tin: Khi nói về tìm kiếm, chúng ta sẽ nghĩ ngay đến Google Bên cạnh đó, còn có nhiều công cụ tìm kiếm khác như Yahoo, Bing, Ask, v.v “Nếu phân tích dữ liệu về nhu cầu thị trường ta có thể quyết định cần nuôi bao nhiêu lợn mỗi nơi mỗi lúc Nếu có và phân tích được dữ liệu mô phỏng các phương án xả lũ vào mùa mưa ta có thể chọn được cách xả lũ ít thiệt hại nhất Nếu có và phân tích được các bệnh án điện tử của người bệnh ta có thể tìm ra được phác đồ thích hợp hơn cả cho người bệnh Amazon đã phân tích các lần mua hàng trước của bạn để dự đoán những món đồ bạn có thể sẽ thích mua và gửi quảng cáo tới, v.v Khi nghe nói về các thành tựu đột phá gần đây của Trí tuệ nhân tạo người nghe có thể cũng chưa biết rằng phần lớn chúng đều dựa vào các phương pháp và đột phá của KHDL.” -Mạng xã hội và dữ liệu người dùng CEO của Facebook, Mark Zuckerberg thuyết trình tại hội nghị phát triển F8 -2- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science Nhóm 02 Facebook, mạng xã hội lớn nhất hành tinh, một trong những cái tên được nhắc tới nhiều nhất trong giới trẻ hiện nay, là một trong những ứng dụng nổi tiếng của khoa học dữ liệu Tại hội nghị các nhà phát triển F8 đầu năm 2016, CEO Mark Zurkerberg cũng đã thông báo về một lộ trình mười năm tới Trong đó, sẽ tạo ra một hệ sinh thái với những sản phẩm và công nghệ tiên tiến như trí tuệ nhân tạo (Artificial Intelligence) Tất cả đều dựa trên toàn bộ nguồn dữ liệu từ người dùng và các thuật toán máy học (Machine Learning Algorithms) "Mỗi cú click chuột, mỗi cái like, mỗi bình luận và tất cả các kết nối đều được sử dụng để xây dựng một hồ sơ hoàn chỉnh cho mỗi người dùng." Đằng sau những trải nghiệm kết nối và tương tác giữa bạn bè và người thân, đó là sự vận hành của các thuật toán đánh giá người dùng được xây dựng bởi những kỹ sư hàng đầu thế giới Tính tới tháng 8 năm 2016, tổng số lượng người dùng trên trang này cán đến mốc 1,750,000 người, gấp 5 lần dân số nước Mỹ, tương đương với 1/3 dân số thế giới và lớn hơn tổng số dân của châu Âu, châu Úc và Nam Mỹ cộng lại 1.4 Tiềm năng phát triển 1.4.1 Trong nước Trong tương lai gần, Data Scientists sẽ có khả năng được trọng dụng trong nhiều lĩnh vực kinh doanh lẫn những ngành nghề thử thách hơn Chiều hướng sử dụng Data Science ngày càng xê dịch sang lĩnh vực kinh doanh sẽ giúp nhiều ngành nghề liên quan có bước tiến vượt bậc Các doanh nghiệp hiện tại đang đối mặt với tình trạng thiếu hụt nguồn nhân lực Data Scientist Đây là cơ hội lớn cho các bạn trẻ 1.4.2 Nước ngoài Kiến thức về Data Science (khoa học dữ liệu), vì thế đang nổi lên như một chức năng cần thiết trong hầu hết ngành nghề, lĩnh vực Chuyên gia khoa học dữ liệu (Data Scientist) cũng trở thành một trong những ngành hot nhất hiện nay Theo thống kê của Glassdoor, Data Scientist đứng đầu top 10 nghề nghiệp tốt nhất tại Mỹ trong những năm gần đây với mức lương 110.000 USD một năm -3- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science Nhóm 02 CHƯƠNG 2 TÌM HIỂU VỀ VỊ TRÍ DATA SCIENTIST 2.1 Data Scientist là gì? Data Scientist là những người làm trong lĩnh vực khoa học dữ liệu Họ có thể tự giới thiệu bản thân theo cách dễ hiểu như sau: “Tôi một nửa là nhà phân tích, một nửa là nghệ sĩ Tôi sử dụng khả năng phân tích và kỹ thuật của mình để rút ra ý nghĩa, cái nhìn sâu sắc từ những tập dữ liệu khổng lồ” Thật vậy, Data Scientist là những người rất quan trọng trong các công ty, đặc biệt là công ty công nghệ Vì nhờ họ mà dữ liệu được sử dụng một cách hiệu quả, khôn ngoan giúp doanh nghiệp đưa ra được những quyết định đúng đắn 2.2 Công việc của một Data Scientist Một Data Scientist phải xử lý cả dữ liệu có cấu trúc và phi cấu trúc Dữ liệu phi cấu trúc được thể hiện dưới dạng dữ liệu thô, yêu cầu phải xử lý, làm sạch và tổ chức lại dữ liệu để tạo ra một cấu trúc có ý nghĩa cho bộ dữ liệu Theo đó các Data Scientist sẽ nghiên cứu các dữ liệu đã được tổ chức và phân tích kỹ lưỡng để trích xuất thông tin bằng cách sử dụng nhiều phương pháp thống kê khác nhau Họ sẽ sử dụng các phương pháp thống kê để mô tả, trực quan hóa và đưa ra các thông tin giả thuyết từ dữ liệu đó Sau đó các Data scientist sẽ sử dụng thuật toán Machine learning để dự đoán các sự kiện sẽ xảy ra và đưa ra quyết định dựa trên các data đó Những Data Scientist sẽ triển khai các mảng lớn công cụ và thực tiễn để nhận ra các mẫu dư thừa trong dữ liệu Các công cụ này bao gồm SQL, Hadoop, Weka, R và Python Họ thường đóng vai trò nhà tư vấn trong công ty, tham gia vào các quá trình ra quyết định khác nhau và tạo ra các chiến lược Nhờ vào sự hiểu biết từ dữ liệu, họ hỗ trợ các công ty đưa ra quyết định kinh doanh thông minh hơn Điển hình như các công ty công nghệ như Google, Netflix, và Amazon đang sử dụng Khoa học dữ liệu, để phát triển hệ thống các đề xuất tích cực cho người dùng Tương tự, các công ty tài chính khác nhau đang sử dụng các phương pháp phân tích và dự báo để dự đoán giá cổ phiếu Khoa học dữ liệu đã giúp tạo ra một hệ thống thông minh hơn có thể đưa ra các quyết định tự trị dựa trên các dữ liệu lịch sử Thông qua sự đồng hóa với các công nghệ mới nổi như Thị giác máy tính, Xử lý công nghệ tự nhiên, Reinforcement Learning (một lĩnh vực thuộc Machine Learning) Data Scientist làm việc chủ yếu xoay quanh dữ liệu với mục đích chính là để đưa ra những kết luận có ý nghĩa từ lượng dữ liệu đó Nghe có vẻ đơn giản, tuy nhiên để khám phá ra những điều đó đòi hỏi bạn phải có năng lực, kỹ năng, kinh nghiệm và nhìn vấn đề ở nhiều góc độ Cụ thể hơn, công việc của một Data Scientist sẽ gồm những nhiệm vụ sau: -4- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science Nhóm 02 - Lọc dữ liệu thô đã thu thập được để loại bỏ những thông tin bị lỗi mà máy tính không thể đọc được Dữ liệu có thể ở dạng cấu trúc hoặc phi cấu trúc Công đoạn này được cho là mất thời gian và công sức nhất vì dữ liệu nhiễu cũng khá nhiều - Phân tích lượng dữ liệu hợp lệ để xây dựng được những mô hình và giả thuyết hiệu quả Dựa vào đó, nhìn từ nhiều góc độ để đưa ra những kết luận có ý nghĩa - Sử dụng các công cụ hỗ trợ như Machine Learning để tìm ra những xu hướng, cơ hội cho công ty trong tương lai Đồng thời xác định được những vấn đề mà công ty đang gặp phải hoặc Sau đó, Data Scientist có nhiệm vụ trình bày bằng hình ảnh, biểu đồ trực quan để giải thích cho công ty, đồng thời đề xuất các giải pháp khả thi cho các vấn đề đó 2.3 Phân biệt Data Scientist với các thuật ngữ khác - Data Engineer: Là kiến trúc sư dữ liệu, họ thường có kỹ thuật máy tính và kỹ năng tạo hệ thống nâng cao để chuyển đổi dữ liệu thành “Pipeline” cho nhóm Khoa học dữ liệu Một số ngôn ngữ lập trình họ sử dụng là Python, C++, Java, Scala Nói chung nhiệm vụ chính của họ là thiết kế, xây dựng, sắp xếp đường ống dữ liệu Khác với Data Scientist, họ sẽ không làm việc liên quan đến đọc số liệu để đưa ra kết luận, dự đoán - Data Analyst: Vị trí này tham gia vào việc thu thập dữ liệu từ các nguồn khác nhau, phân tích và viết các chương trình theo từng công việc được giao Họ cũng chịu trách nhiệm minh họa, báo cáo lại kết quả theo từng nhiệm vụ Data Analyst khác Data Scientist ở chỗ họ chỉ báo cáo về một nhiệm vụ nào đó chứ không báo cáo kết quả khám phá của cả dự án - Computer Science: Dịch sang tiếng Việt là khoa học máy tính Ngành này liên quan đến cấu trúc máy tính, nghiên cứu môi trường Web và Internet, các hệ điều hành, bộ xử lý thông tin dữ liệu, hỗ trợ nghiên cứu AI (trí tuệ nhân tạo), an toàn máy tính, thiết kế và phát triển ứng dụng,… Nhìn chung, Computer Science khác Data Scientist ở chỗ tất cả công việc tập trung và xoay quanh các kỹ thuật máy tính mà không phải phân tích, đưa ra kết quả thực tiễn cho công ty 2.4 Các yếu tố cần có để trở thành Data Scientist 2.4.1 Nắm vững các ngôn ngữ lập trình cơ bản: SQL, R, Python, C/C++,…những loại ngôn ngữ lập trình này sẽ giúp Data Scientist cho từng thao tác khác nhau từ nhập dữ liệu, viết các câu lệnh, xử lý dữ liệu, xuất và chia sẻ dữ liệu Tuy hơi khô khan nhưng nắm vững chúng thì con đường trở thành một Data Scientist giỏi toàn diện sẽ được rút ngắn đáng kể 2.4.2 Hiểu rõ thuật toán Machine Learning: Đây có thể cho là kỹ năng cần thiết nhất đối với một Data Scientist Hiểu đơn giản, Machine Learning là “dạy” máy tính học các dữ liệu lịch sử, dữ liệu có sẵn để đưa ra được các quyết định tự trị một cách thông minh Hiểu rõ cơ chế hoạt động này sẽ giúp Data Scientist tiết kiệm được nhiều thời gian trong việc khám phá, dự báo từ dữ liệu 2.4.3 Kỹ năng thống kê: Đây cũng là kiến thức cơ bản bạn cần nắm Bạn nên bắt đầu nghiêm túc với các môn học xác suất thống kê, thống kê mô tả để nắm được các khái niệm cơ -5- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science Nhóm 02 bản như nghịch lý Simpson, phân tích dữ liệu khám phá (EDA), liên kết các biến,… Đó sẽ là tiền đề vững chắc để bạn phát triển hơn trong nghề 2.4.4 Kỹ năng trình bày tốt: 30% công việc của một Data Science là phải trao đổi với ban lãnh đạo, các phòng ban liên quan như Marketing, Phát triển sản phẩm, để hiểu được vấn đề chung Ngoài ra ở bước cuối cùng của chuỗi công việc, bạn sẽ phải trình bày các kết quả với ban lãnh đạo sao cho trực quan và dễ hiểu nhất Chính vì thế, kỹ năng thuyết trình tốt là một điểm vô cùng quan trọng và cần được trau dồi thường xuyên 2.4.5 Kỹ năng định lượng dữ liệu: Mục đích cuối cùng của một Data Scientist là dự đoán, khám phá được xu hướng, giả thuyết sẽ xảy ra trong tương lai Vì vậy kỹ năng định lượng rất quan trọng Việc giỏi toán học và thống kê sẽ giúp bạn rất nhiều để nâng cao kỹ năng này Do đó hãy trau dồi 2 kiến thức này ngay từ bây giờ 2.4.6 Khả năng thu thập, xử lí và phân tích dữ liệu: Dữ liệu ngày nay vô cùng đa dạng và đến từ nhiều nguồn khác nhau (như bảng khảo sát, thống kê mạng xã hội, điện thoại di động, ) Từ đống dữ liệu “lộn xộn” đó bạn phải xử lý về cùng một ngôn ngữ mà máy đọc được Vì vậy bạn cần chú trọng đến các kỹ năng này để làm việc hiệu quả, năng suất, tiết kiệm thời gian hơn 2.4.7 Khả năng tư duy: Khả năng tư duy là yếu tố phân biệt một người giỏi hay bình thường Đối với một Data Scientist, bạn cần rèn luyện não mỗi ngày bằng cách luôn tò mò về nhiều vấn đề và tự tìm cho mình lời giải đáp từ nhiều góc độ khác nhau Ngoài ra bạn cũng nên có tính tiểu tiết, ghi chép lại đầy đủ các phát hiện của mình và phải có óc sáng tạo để đưa ra giải pháp mới mẻ, hiệu quả 2.5 Cơ hội nghề nghiệp Data Science được đánh giá là ngành có mức lương hấp dẫn hàng đầu trên thế giới, nhu cầu tuyển dụng cho vị trí trong ngành cũng rất cao Những người giỏi thường được các công ty săn đón với mức lương cao ngất ngưởng cùng nhiều quyền lợi đi kèm Dưới đây sẽ là các vị trí mà bạn có thể làm trong ngành Data Science: - Nhà khoa học dữ liệu (Data Scientist): là những người phân tích dữ liệu để phát triển các mô hình, thuật toán Từ đó đưa ra các giả thuyết, khám phá hoặc dự đoán nhằm giúp công ty giải quyết vấn đề, thử nghiệm dự án mới - Nhà phân tích dữ liệu (Data Analyst): là người thu thập các tập dữ liệu từ nhiều nguồn khác nhau, viết chương trình nhằm trả lời cho các câu hỏi nghiên cứu Ngoài ra họ cũng có nhiệm vụ biến dữ liệu thành báo cáo trực quan -6- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science Nhóm 02 - Kỹ sư dữ liệu (Data Engineer): là người có nền tảng kỹ thuật tốt, có kinh nghiệm sử dụng các ngôn ngữ lập trình Họ thiết kế, chuẩn bị cơ sở hạ tầng dữ liệu để thu thập và phân tích dữ liệu một cách tốt nhất - Nhà phân tích kinh doanh (Business Analyst): là người có đầu óc phân tích, tư duy logic tốt Business Analyst sử dụng dữ liệu, kết quả phân tích định lượng để đưa ra các quyết định kinh doanh mang tính chiến lược Họ có thể giúp đỡ công ty để đưa ra đường hướng phát triển, cải tiến tốt nhất với mục tiêu tối ưu hóa doanh thu và lợi nhuận của công ty - Kỹ sư học máy (Machine Learning): là một nhánh của AI (trí tuệ nhân tạo) nhằm dự đoán kết quả trong tương lai một cách tự động nhờ vào dữ liệu đầu vào và dữ liệu lưu trong quá khứ Một kỹ sư học máy tạo ra các mô hình thông minh, có thể mở rộng cho khoa học dữ liệu Họ cũng có thể lập trình cho máy tính, robot tự học tập từ các mô hình dữ liệu để thực thi các lệnh -7- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science Nhóm 02 2.6 Đạo đức hành nghề Một số điều cơ bản trong đạo đức nghề nghiệp của một data scientist: 1.Không bao giờ tạo ra và sử dụng phềm mềm độc hại 2.Không dùng mã nguồn có bản quyền chưa được cho phép 3.Luôn cung cấp những sản phẩm đảm bảo an toàn và chất lượng 4.Trung thực về kinh nghiệm và kỹ năng lập trình của bản thân 5.Có ý thức trách nhiệm với sản phẩm mình tạo ra 6.Trung thực trong đánh giá sản phẩm , không tư lợi cá nhân 7.Công nhận thực lực của người khác 8.Giữ bí mật thông tin trong quá trình hoàn thành dự án 9.Giảm thiểu tối đa sự ảnh hưởng của các tác nhân bên ngoài trong quá trình làm việc 10.Phát triển sản phẩm theo hướng có chi phí hợp lý nhất 11.Sẵn sàng giúp đỡ đồng nghiệp 12.không ngừng nâng cao kiến thức, cải thiện trình độ bản thân 13.Không có tình phá vỡ mã của lập trình viên khác nhằm hạ uy tín đối thủ 14.Không che giấu khó khăn trong việc hoàn thành dự án, dù ở bất kỳ giai đoạn nào 15.Không ăn cắp phầm mềm , đặc biệt là công cụ dùng để phát triển -8- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science Nhóm 02 CHƯƠNG 3 KẾT LUẬN Tổng kết lại, chúng ta có thể thấy Data Science ( khoa học dữ liệu ) đã và đang trở nên phổ biến và quan trọng trong đời sống hiện nay Với sự phát triển mạnh mẽ của mạng xã hội, dịch vụ mua sắm online hay các dịch vụ công cộng khác đã đem lại cơ hội phát triển mạnh mẽ cho ngành khoa học dữ liệu Với sức mạnh dữ liệu của thế giới ngày nay, từ việc khám phá những cách mới để cải thiện quá trình ra quyết định cho đến mở ra những đổi mới, dữ liệu có khả năng mở ra yếu tố thành công cho nhiều ngành Khoa học dữ liệu đang dần thay đổi xã hội của chúng ta Khoa học dữ liệu mang lại ý nghĩa cho dữ liệu Nó chuyển đổi dữ liệu thô thành các sản phẩm có ý nghĩa có thể được sử dụng bởi các ngành công nghiệp để tạo ra giá trị dịch vụ và nhận ra xu hướng thị trường Rõ ràng, khoa học dữ liệu có ảnh hưởng lớn trong thời đại ngày nay Điều này đã dẫn đến một số cơ hội việc làm mọc lên như nấm trên khắp thế giới Trên thực tế, theo một báo cáo của ngành, nó chiếm 28% tổng số công việc kỹ thuật số vào năm 2020 Công việc này có nhịp độ rất cao và những người có bộ kỹ năng và kinh nghiệm phù hợp được săn đón nhiều vì sự gia tăng này trong ngành Các ngành công nghiệp đang dần trở nên dựa trên dữ liệu và ngày càng phát triển đổi mới nhanh hơn Lĩnh vực công nghệ đã trở nên năng động và ngày càng có nhiều người tương tác với Internet để tạo ra dữ liệu Dữ liệu được coi là nguồn điện của các thiết bị và ứng dụng hiện đại Nó làm cho sản phẩm thông minh và trao quyền tự chủ -9- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) lOMoARcPSD|38784156 Ngành Data Science Nhóm 02 TÀI LIỆU THAM KHẢO Essential Math for Data Science – Hadrien Jean A Common-Science Guide to Data Structures and Algorithms, Second Edition The Hundred Page Machine Learning Book – Andriy Burkov Deep learning – John Krohn -10- Downloaded by Lan Nguyen (tailieuso.18@gmail.com) Ngành Data Science lOMoARcPSD|38784156 Nhóm 02 PHỤ LỤC -11- Downloaded by Lan Nguyen (tailieuso.18@gmail.com)