Do đó, không có gì ngạc nhiên khi Data Scientist là những chuyên gia được săn đón nhất trong ngành Phân tích dữ liệu lớn nói riêng và Công nghệ thông tin nói chung.. Quyển báo cáo sẽ giú
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
======***======
TIỂU LUẬN MÔN HỌC
Đề tài: Tìm hiểu và trình bày hiểu biết về nghề khoa
học dữ liệu (Data Scientist)
Hà Nam, tháng 2, năm 2023
Giáo viên hướng dẫn: Th.S Đoàn Văn Trung
Nhóm:
Sinh viên:
2
Lê Mạnh Cường Nguyễn Hùng Cường Nguyễn Hữu Đức Bùi Xuân Dũng Nguyễn Ba Duy
Trang 2BỘ CÔNG THƯƠNG
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
CỘNG HOÀ XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
_ _
PHIẾU GIAO ĐỀ TÀI TIỂU LUẬN
Nguyễn Hùng Cường Nguyễn Hữu Đức Bùi Xuân Dũng Nguyễn Ba Duy
Lớp: 20221IT6011007 Khoá: 17 Khoa: Công nghệ thông tin
Ngành học: Công nghệ thông tin
liệu (Data Scientist).
Mục đích: - Tìm hiểu về ngành Data Science
- Tìm hiểu công việc của một Data Scientist
- Quyển báo cáo đề tài
Kết quả thu được : Bản thuyết minh đề tài
Ngày giao đề tài: 23/12/2022
Ngày hoàn thành: 12/02/2023
Giáo viên hướng dẫn : Ths Đoàn Văn Trung.
Hà Nam, ngày 23 tháng 12 năm 2022
GIÁO VIÊN HƯỚNG DẪN
Đoàn Văn Trung
Trang 3PHÂN CÔNG CÔNG VIỆC
Tuần Người thực hiện Nội dung công việc Kết quả đạt được
1
Bùi Xuân Dũng
Nguyễn Hùng
Cường
Lê Mạnh Cường
Nguyễn Ba Duy
Nguyễn Hữu Đức
- Tìm hiểu nội dung chủ đề
- Phân công công việc
cụ thể:
+ H.Cường và Hữu Đức tập trung tìm nội dung cho phần bản báo cáo
+ M.Cường và Dũng làm
phần powerpoint
+ Duy làm phần thuyết trình và cùng hỗ trợ các thành viên khác
- Hoàn thành phần chia công việc cho từng thành viên
- Các thành viên nắm rõ được công việc của mình
- Chia công việc phù hợp với khả năng của từng thành viên
- Cả nhóm hình dung được sườn ( bố cục ) công việc
2
Bùi Xuân Dũng
Nguyễn Hùng
Cường
Lê Mạnh Cường
Nguyễn Ba Duy
Nguyễn Hữu Đức
- H.Cường và Hữu Đức bắt đầu làm phần tiểu luận
- M.Cường và Dũng chuẩn bị template powerpoint
- Duy hỗ trợ nhóm
- Hoàn thành được một phần ba bài tiểu luận
- Chuẩn bị xong template cho powerpoint
- Công việc đúng tiến
độ dự định
3
Bùi Xuân Dũng
Nguyễn Hùng
Cường
Lê Mạnh Cường
Nguyễn Ba Duy
Nguyễn Hữu Đức
- H.Cường và Hữu Đức tiếp tục làm phần tiểu luận
- M Cường và Dũng hỗ trợ thêm và chắt lọc thông tin
- Duy chuẩn bị phần thuyết trình
- Tiếp tục thực hiện các công việc đề ra theo đúng kế hoạch và tiến
độ dự định của cả nhóm
4
Bùi Xuân Dũng
Nguyễn Hùng
Cường
Lê Mạnh Cường
Nguyễn Ba Duy
Nguyễn Hữu Đức
- H.Cường và Hữu Đức hoàn thành phần tiểu luận
- M.Cường và Dũng hoàn tất chắt lọc thông tin phần tiểu luận và hoàn thành powerpoint
- Duy chuẩn bị thuyết trình
- Đã hoàn thành xong phần báo cáo tiểu luận
và powerpoint
- Các thành viên trong nhóm hoàn thành công việc đúng tiến độ
5
Bùi Xuân Dũng
Nguyễn Ba Duy - Dũng chốt lại các côngviệc nhóm
- Duy chuẩn bị thuyết
- Hoàn tất phần chốt lại công việc của nhóm
- Chuẩn bị sẵn sàng nộp
Trang 4LỜI NÓI ĐẦU
Lĩnh vực khoa học dữ liệu đang phát triển nhanh chóng và cách mạng hóa rất
nhiều ngành công nghiệp Đây là một lĩnh vực toán học và thống kê ứng dụng
cung cấp thông tin hữu ích dựa trên một lượng lớn dữ liệu phức tạp hoặc dữ liệu
lớn Do đó, không có gì ngạc nhiên khi Data Scientist là những chuyên gia được
săn đón nhất trong ngành Phân tích dữ liệu lớn nói riêng và Công nghệ thông tin
nói chung
Trong thời đại công nghệ hiện nay, Data Science đã trở nên rất quen thuộc đối
với những ai đang làm trong ngành công nghệ thông tin Chắc hẳn đây cũng là
ngành nghề mà nhiều “dân công nghệ” đang hướng đến Quyển báo cáo sẽ giúp
bạn hiểu rõ hơn về ngành Data Science và những tố chất để trở thành một nhà
khoa học dữ liệu (Data Scientist)
Có thể khẳng định rằng ngày nay công ty nào nắm giữ được lượng dữ liệu càng lớn thì càng nắm trong tay ưu thế hơn các đối thủ còn lại Bởi vì sao? Vì thu thập được dữ liệu lớn giúp các Data Scientist có thể phân tích và dự đoán một cách chính xác hơn về các thực trạng về khách hàng, xã hội, xu hướng Mà nhờ đó công ty có thể phát triển được các chiến lược hiệu quả, giảm chi phí, giảm thiểu rủi ro Và quan trọng hơn là giải quyết đúng ngay vấn đề mà khách hàng và xã hội đang gặp phải “Data (dữ liệu) là thứ vô cùng quý giá và sẽ có giá trị lâu dài hơn bất cứ hệ thống nào đang điều phối chúng.” - Tim Berners Lee -“Trong 10 năm tới, data science và phần mềm sẽ có vai trò trong lĩnh vực y dược lớn hơn so với bất kỳ công nghệ sinh học nào.”
- Vinod Khosla -MỤC LỤC CHƯƠNG 1 TÌM HIỂU VỀ NGÀNH DATA SCIENCE 1
1.1 Data Science là gì? 1
1.2 Nguồn gốc ngành Data Science 1
1.3 Ứng dụng của ngành Data Science 1
1.4 Tiềm năng phát triển 3
1.4.1 Trong nước 3
Trang 51.4.2 Ngoài nước 3
CHƯƠNG 2 TÌM HIỂU VỀ VỊ TRÍ DATA SCIENTIST 4
2.1 Data Scientist là gì? 4
2.2 Công việc của một Data Scientist 4
2.3 Phân biệt Data Scientist với những thuật ngữ khác 5
2.4 Các yếu tố cần có để trở thành Data Scientist 5
2.5 Cơ hội nghề nghiệp 6
2.6 Đạo đức hành nghề 8
CHƯƠNG 3 KẾT LUẬN 9
TÀI LIỆU THAM KHẢO 10
PHỤ LỤC 11
Trang 6DANH SÁCH HÌNH VẼ
Trang 7DANH SÁCH BẢNG BIỂU
Trang 8CHƯƠNG 1 TÌM HIỂU VỀ NGÀNH DATA SCIENCE
1.1 Data Science là gì?
Data Science hay còn gọi là khoa học dữ liệu, là một lĩnh vực liên quan đến việc
sử dụng các công cụ máy tính tiên tiến kết hợp với kiến thức toán học, thống kê để
chuyển hóa dữ liệu thành những thông tin quan trọng và có ích cho công ty Ví dụ
như dự đoán tình hình xã hội, con người hậu Covid 19 hoặc khám phá về các xu
hướng, hành vi của người dùng Facebook, Tik Tok, Instagram thông qua các dữ liệu người dùng họ thu thập được
1.2 Nguồn gốc của ngành Data Science
Máy tính đầu tiên được phát minh vào năm 1936 và với việc tạo ra internet
hiện đại vào năm 1990 đã giúp thu thập dữ liệu trên quy mô lớn và sử dụng các
mô hình thống kê, toán học để giải thích các thông tin dữ liệu mang lại Ngay sau
đó, các công ty và tổ chức bắt đầu nhận ra rằng họ có thể sử dụng dữ liệu để giải quyết các vấn đề quan trọng Nhiều người đã đóng vai trò trong việc phổ biến
thuật ngữ Nhà khoa học dữ liệu, nhưng nó chủ yếu được ghi nhận cho Patil và
Jeff Hammerbacher, người đồng sáng lập Cloudera, người lãnh đạo nhóm dữ liệu của Facebook Họ cũng là một trong những người đầu tiên tự gọi mình là Nhà
khoa học dữ liệu Với công nghệ máy tính và di động mới và nhanh hơn đã tạo ra các bộ dữ liệu khổng lồ (Big data) rất khó để quản lý, nhưng cung cấp nhiều
nguồn thông tin hữu ích về người dùng, khách hàng hay giao dịch Để xử lý dữ
liệu lớn, các công ty bắt đầu phát minh ra khả năng lưu trữ đám mây và các công
cụ phân tích Năm 2010, Mike Loukides đã viết, Khoa học dữ liệu là gì? Tương
lai thuộc về các công ty và con người biến dữ liệu thành sản phẩm Kể từ đó,
nhiều công ty và trường đại học đã bắt đầu thành lập các bộ phận công ty, các
chương trình học thuật xung quanh việc nghiên cứu dữ liệu Việc làm khoa học
dữ liệu đã tăng 15.000% từ năm 2011 đến 2012, khi các công ty thấy cách khoa
học dữ liệu có thể tăng doanh thu, cắt giảm chi phí, tăng hiệu quả tiếp thị, tạo ra
các số liệu tác động và thúc đẩy các chiến lược tiếp cận thị trường
1.3 Ứng dụng của ngành Data Science
-Ứng dụng trong y tế:
Xây dựng hệ thống trợ lý chăm sóc sức khỏe ảo Đây là ứng dụng của khoa học
dữ liệu trong lĩnh vực y tế mà bạn có thể cảm thấy quen thuộc nhất
Trong thời đại kỹ thuật số, nhiều trường hợp bệnh nhân không thực sự cần thiết phải đến gặp bác sĩ trực tiếp Một ứng dụng di động có thể đưa ra giải pháp hiệu quả hơn bằng cách đưa bác sĩ đến với bệnh nhân
Các ứng dụng này được hỗ trợ bởi AI có thể cung cấp hỗ trợ chăm sóc sức khỏe
cơ bản, thường là thông qua chatbot Bạn chỉ cần mô tả các triệu chứng của mình
hoặc đặt câu hỏi, sau đó nhận về được những thông tin về tình trạng bệnh của bạn
và phương pháp chữa trị
Trang 9Các ứng dụng còn có thể nhắc bạn uống thuốc đúng giờ và đặt một cuộc hẹn
với bác sĩ tại bệnh viện gần nhất nếu cần
Cách tiếp cận này giúp tiết kiệm thời gian xếp hàng chờ hẹn, giảm thiểu tình
trạng quá tải cho các bệnh viện và cho phép bác sĩ tập trung vào các trường hợp
quan trọng hơn
-Nghiên cứu về gen và di truyền:
Ứng dụng của khoa học dữ liệu còn cho phép cá nhân hóa điều trị ở cấp độ
nâng cao thông qua nghiên cứu về di truyền và gen
Ngành khoa học dữ liệu cũng mang lại bước tiến đáng kể trong việc hiểu sâu
hơn về DNA của con người, bằng cách tích hợp các loại dữ liệu khác nhau với dữ
liệu bộ gen trong nghiên cứu bệnh tật Mục đích là để hiểu tác động của DNA đối
với sức khỏe của chúng ta và tìm ra các mối liên hệ sinh học giữa di truyền, bệnh tật
và phản ứng với thuốc
-Điều chế thuốc:
Thêm vào đó, các ứng dụng của khoa học dữ liệu và thuật toán máy học cũng
có thể giúp đơn giản hóa và rút ngắn quá trình phát triển các loại thuốc, từ việc sàng lọc ban đầu các hợp chất thuốc đến dự đoán tỷ lệ thành công dựa trên các yếu tố
sinh học
Các thuật toán có thể dự báo cách các hợp chất sẽ hoạt động trong cơ thể, bằng cách sử dụng mô hình toán học nâng cao và mô phỏng thay vì thí nghiệm trong
phòng thí nghiệm
-Ứng dụng trong tìm kiếm thông tin:
Khi nói về tìm kiếm, chúng ta sẽ nghĩ ngay đến Google Bên cạnh đó, còn có
nhiều công cụ tìm kiếm khác như Yahoo, Bing, Ask, v.v
“Nếu phân tích dữ liệu về nhu cầu thị trường ta có thể quyết định cần nuôi bao
nhiêu lợn mỗi nơi mỗi lúc Nếu có và phân tích được dữ liệu mô phỏng các phương
án xả lũ vào mùa mưa ta có thể chọn được cách xả lũ ít thiệt hại nhất Nếu có và
phân tích được các bệnh án điện tử của người bệnh ta có thể tìm ra được phác đồ
thích hợp hơn cả cho người bệnh Amazon đã phân tích các lần mua hàng trước của bạn để dự đoán những món đồ bạn có thể sẽ thích mua và gửi quảng cáo tới, v.v
Khi nghe nói về các thành tựu đột phá gần đây của Trí tuệ nhân tạo người nghe có
thể cũng chưa biết rằng phần lớn chúng đều dựa vào các phương pháp và đột phá
của KHDL.”
-Mạng xã hội và dữ liệu người dùng
CEO của Facebook, Mark Zuckerberg thuyết trình tại hội nghị phát triển F8
Trang 10Facebook, mạng xã hội lớn nhất hành tinh, một trong những cái tên được nhắc tới
nhiều nhất trong giới trẻ hiện nay, là một trong những ứng dụng nổi tiếng của khoa học dữ liệu
Tại hội nghị các nhà phát triển F8 đầu năm 2016, CEO Mark Zurkerberg cũng đã
thông báo về một lộ trình mười năm tới Trong đó, sẽ tạo ra một hệ sinh thái với
những sản phẩm và công nghệ tiên tiến như trí tuệ nhân tạo (Artificial Intelligence) Tất cả đều dựa trên toàn bộ nguồn dữ liệu từ người dùng và các thuật toán máy học (Machine Learning Algorithms)
"Mỗi cú click chuột, mỗi cái like, mỗi bình luận và tất cả các kết nối đều được sử
dụng để xây dựng một hồ sơ hoàn chỉnh cho mỗi người dùng."
Đằng sau những trải nghiệm kết nối và tương tác giữa bạn bè và người thân, đó là
sự vận hành của các thuật toán đánh giá người dùng được xây dựng bởi những kỹ
sư hàng đầu thế giới
Tính tới tháng 8 năm 2016, tổng số lượng người dùng trên trang này cán đến mốc
1,750,000 người, gấp 5 lần dân số nước Mỹ, tương đương với 1/3 dân số thế giới và lớn hơn tổng số dân của châu Âu, châu Úc và Nam Mỹ cộng lại
1.4 Tiềm năng phát triển
1.4.1 Trong nước
Trong tương lai gần, Data Scientists sẽ có khả năng được trọng dụng trong nhiều
lĩnh vực kinh doanh lẫn những ngành nghề thử thách hơn Chiều hướng sử dụng
Data Science ngày càng xê dịch sang lĩnh vực kinh doanh sẽ giúp nhiều ngành nghề liên quan có bước tiến vượt bậc Các doanh nghiệp hiện tại đang đối mặt với tình
trạng thiếu hụt nguồn nhân lực Data Scientist Đây là cơ hội lớn cho các bạn trẻ
1.4.2 Nước ngoài
Kiến thức về Data Science (khoa học dữ liệu), vì thế đang nổi lên như một chức năng cần thiết trong hầu hết ngành nghề, lĩnh vực Chuyên gia khoa học dữ liệu
(Data Scientist) cũng trở thành một trong những ngành hot nhất hiện nay Theo
thống kê của Glassdoor, Data Scientist đứng đầu top 10 nghề nghiệp tốt nhất tại
Mỹ trong những năm gần đây với mức lương 110.000 USD một năm.
Trang 11CHƯƠNG 2 TÌM HIỂU VỀ VỊ TRÍ DATA SCIENTIST
2.1 Data Scientist là gì?
Data Scientist là những người làm trong lĩnh vực khoa học dữ liệu Họ có thể tự giới thiệu bản thân theo cách dễ hiểu như sau: “Tôi một nửa là nhà phân tích, một
nửa là nghệ sĩ Tôi sử dụng khả năng phân tích và kỹ thuật của mình để rút ra ý
nghĩa, cái nhìn sâu sắc từ những tập dữ liệu khổng lồ” Thật vậy, Data Scientist là
những người rất quan trọng trong các công ty, đặc biệt là công ty công nghệ Vì nhờ
họ mà dữ liệu được sử dụng một cách hiệu quả, khôn ngoan giúp doanh nghiệp đưa
ra được những quyết định đúng đắn
2.2 Công việc của một Data Scientist
Một Data Scientist phải xử lý cả dữ liệu có cấu trúc và phi cấu trúc Dữ liệu phi cấu trúc được thể hiện dưới dạng dữ liệu thô, yêu cầu phải xử lý, làm sạch và tổ
chức lại dữ liệu để tạo ra một cấu trúc có ý nghĩa cho bộ dữ liệu
Theo đó các Data Scientist sẽ nghiên cứu các dữ liệu đã được tổ chức và phân tích
kỹ lưỡng để trích xuất thông tin bằng cách sử dụng nhiều phương pháp thống kê
khác nhau Họ sẽ sử dụng các phương pháp thống kê để mô tả, trực quan hóa và đưa
ra các thông tin giả thuyết từ dữ liệu đó
Sau đó các Data scientist sẽ sử dụng thuật toán Machine learning để dự đoán các sự kiện sẽ xảy ra và đưa ra quyết định dựa trên các data đó Những Data Scientist sẽ
triển khai các mảng lớn công cụ và thực tiễn để nhận ra các mẫu dư thừa trong dữ
liệu Các công cụ này bao gồm SQL, Hadoop, Weka, R và Python
Họ thường đóng vai trò nhà tư vấn trong công ty, tham gia vào các quá trình ra
quyết định khác nhau và tạo ra các chiến lược Nhờ vào sự hiểu biết từ dữ liệu, họ
hỗ trợ các công ty đưa ra quyết định kinh doanh thông minh hơn
Điển hình như các công ty công nghệ như Google, Netflix, và Amazon đang sử
dụng Khoa học dữ liệu, để phát triển hệ thống các đề xuất tích cực cho người dùng Tương tự, các công ty tài chính khác nhau đang sử dụng các phương pháp phân tích
và dự báo để dự đoán giá cổ phiếu
Khoa học dữ liệu đã giúp tạo ra một hệ thống thông minh hơn có thể đưa ra các
quyết định tự trị dựa trên các dữ liệu lịch sử Thông qua sự đồng hóa với các công
nghệ mới nổi như Thị giác máy tính, Xử lý công nghệ tự nhiên, Reinforcement
Learning (một lĩnh vực thuộc Machine Learning)
Data Scientist làm việc chủ yếu xoay quanh dữ liệu với mục đích chính là để
đưa ra những kết luận có ý nghĩa từ lượng dữ liệu đó Nghe có vẻ đơn giản, tuy
nhiên để khám phá ra những điều đó đòi hỏi bạn phải có năng lực, kỹ năng, kinh
nghiệm và nhìn vấn đề ở nhiều góc độ Cụ thể hơn, công việc của một Data
Trang 12- Lọc dữ liệu thô đã thu thập được để loại bỏ những thông tin bị lỗi mà máy tính
không thể đọc được Dữ liệu có thể ở dạng cấu trúc hoặc phi cấu trúc Công đoạn
này được cho là mất thời gian và công sức nhất vì dữ liệu nhiễu cũng khá nhiều
- Phân tích lượng dữ liệu hợp lệ để xây dựng được những mô hình và giả thuyết
hiệu quả Dựa vào đó, nhìn từ nhiều góc độ để đưa ra những kết luận có ý nghĩa
- Sử dụng các công cụ hỗ trợ như Machine Learning để tìm ra những xu hướng, cơ
hội cho công ty trong tương lai Đồng thời xác định được những vấn đề mà công ty đang gặp phải hoặc Sau đó, Data Scientist có nhiệm vụ trình bày bằng hình ảnh,
biểu đồ trực quan để giải thích cho công ty, đồng thời đề xuất các giải pháp khả thi cho các vấn đề đó
2.3 Phân biệt Data Scientist với các thuật ngữ khác
- Data Engineer: Là kiến trúc sư dữ liệu, họ thường có kỹ thuật máy tính và kỹ
năng tạo hệ thống nâng cao để chuyển đổi dữ liệu thành “Pipeline” cho nhóm Khoa học dữ liệu Một số ngôn ngữ lập trình họ sử dụng là Python, C++, Java, Scala Nói chung nhiệm vụ chính của họ là thiết kế, xây dựng, sắp xếp đường ống dữ liệu
Khác với Data Scientist, họ sẽ không làm việc liên quan đến đọc số liệu để đưa ra
kết luận, dự đoán
- Data Analyst: Vị trí này tham gia vào việc thu thập dữ liệu từ các nguồn khác
nhau, phân tích và viết các chương trình theo từng công việc được giao Họ cũng
chịu trách nhiệm minh họa, báo cáo lại kết quả theo từng nhiệm vụ Data
không báo cáo kết quả khám phá của cả dự án
- Computer Science: Dịch sang tiếng Việt là khoa học máy tính Ngành này liên
quan đến cấu trúc máy tính, nghiên cứu môi trường Web và Internet, các hệ điều
hành, bộ xử lý thông tin dữ liệu, hỗ trợ nghiên cứu AI (trí tuệ nhân tạo), an toàn
máy tính, thiết kế và phát triển ứng dụng,… Nhìn chung, Computer Science khác
Data Scientist ở chỗ tất cả công việc tập trung và xoay quanh các kỹ thuật máy tính
mà không phải phân tích, đưa ra kết quả thực tiễn cho công ty
2.4 Các yếu tố cần có để trở thành Data Scientist
2.4.1 Nắm vững các ngôn ngữ lập trình cơ bản:
SQL, R, Python, C/C++,…những loại ngôn ngữ lập trình này sẽ giúp Data Scientist cho từng thao tác khác nhau từ nhập dữ liệu, viết các câu lệnh, xử lý
dữ liệu, xuất và chia sẻ dữ liệu Tuy hơi khô khan nhưng nắm vững chúng thì
con đường trở thành một Data Scientist giỏi toàn diện sẽ được rút ngắn đáng
kể
2.4.2 Hiểu rõ thuật toán Machine Learning:
Đây có thể cho là kỹ năng cần thiết nhất đối với một Data Scientist Hiểu
đơn giản, Machine Learning là “dạy” máy tính học các dữ liệu lịch sử, dữ liệu
có sẵn để đưa ra được các quyết định tự trị một cách thông minh Hiểu rõ cơ
chế hoạt động này sẽ giúp Data Scientist tiết kiệm được nhiều thời gian trong
việc khám phá, dự báo từ dữ liệu
2.4.3 Kỹ năng thống kê:
Đây cũng là kiến thức cơ bản bạn cần nắm Bạn nên bắt đầu nghiêm túc với các môn học xác suất thống kê, thống kê mô tả để nắm được các khái niệm cơ