Báo cáo thực nghiệm thí nghiệm học phần nhập môn về kỹ thuật – it6011 đề tài tìm hiểu và trình bày hiểu biết của em về nghề khoa học dữ liệu (data science

Trang 1 TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘIKHOA CƠNG NGHỆ THƠNG TIN_______________________________BÁO CÁO THỰC NGHIỆM/THÍ NGHIỆMHỌC PHẦN: NHẬP MÔN VỀ KỸ THUẬT – IT6011Đề tài: Tìm hiểu và t

KHÁI QUÁT VỀ KHOA HỌC DỮ LIỆU VÀ NGHỀ KHOA HỌC DỮ LIỆU (Data Science)

Giới thiệu về khoa học dữ liệu (Data Science)

- Khoa học dữ liệu (Data Science) là lĩnh vực nghiên cứu dữ liệu nhằm khai thác những thông tin chuyên sâu có ý nghĩa đối với hoạt động kinh doanh Đây là một phương thức tiếp cận đa ngành, kết hợp những nguyên tắc và phương pháp thực hành của các lĩnh vực toán học, thống kê, trí tuệ nhân tạo và kỹ thuật máy tính để phân tích khối lượng lớn dữ liệu.

- Nội dung phân tích này sẽ giúp các nhà khoa học dữ liệu đặt ra và trả lời những câu hỏi như sự kiện gì đã xảy ra, tại sao nó xảy ra, sự kiện gì sẽ xảy ra và có thể sử dụng kết quả thu được cho mục đích gì Ví dụ như dự đoán tình hình xã hội, con người hậu Covid 19 hoặc khám phá về các xu hướng, hành vi của người dùng Facebook, Tiktok, Instagram thông qua các dữ liệu người dùng họ thu thập được.

1.1.2 Lịch sử lĩnh vực khoa học dữ liệu:

- Tuy rằng thuật ngữ khoa học dữ liệu không có gì mới, ý nghĩa và hàm ý của thuật ngữ này đã thay đổi theo thời gian Thuật ngữ này lần đầu xuất hiện vào khoảng thập niên 60, trong vai trò là tên gọi khác của thống kê Đến cuối thập niên 90, các chuyên gia khoa học máy tính đã chính thức hóa thuật ngữ này Một định nghĩa được đề xuất cho khoa học dữ liệu mô tả lĩnh vực này như một ngành riêng biệt gồm 3 khía cạnh: thiết kế, thu thập và phân tích dữ liệu Vẫn phải mất thêm một thập niên nữa thì thuật ngữ này mới được sử dụng ngoài giới học thuật.

1.1.3 Tầm quan trọng của Khoa học dữ liệu:

- Khoa học dữ liệu quan trọng bởi vì lĩnh vực này kết hợp các công cụ, phương pháp và công nghệ để rút ra ý nghĩa từ dữ liệu Các tổ chức hiện đại chìm ngập trong dữ liệu và hiện có vô vàn thiết bị có thể tự động thu thập và lưu trữ dữ liệu. Các hệ thống và cổng thanh toán trực tuyến đang dần thu thập nhiều dữ liệu hơn trong những lĩnh vực thương mại điện tử, y tế, tài chính cũng như mọi khía cạnh khác của đời sống con người Chúng ta có sẵn khối lượng đồ sộ dữ liệu dưới dạng văn bản, âm thanh, video và hình ảnh.

- Có thể khẳng định rằng ngày nay công ty nào nắm giữ được lượng dữ liệu càng lớn thì càng nắm trong tay ưu thế hơn các đối thủ còn lại Bởi vì sao? Vì thu thập chính xác hơn về các thực trạng về khách hàng, xã hội, xu hướng Mà nhờ đó công ty có thể phát triển được các chiến lược hiệu quả, giảm chi phí, giảm thiểu rủi ro.

Và quan trọng hơn là giải quyết đúng ngay vấn đề mà khách hàng và xã hội đang gặp phải.

1.1.4 Sự khác biệt của Khoa học dữ liệu so với các lĩnh vực khác: a Khoa học dữ liệu với Phân tích dữ liệu:

- Mặc dù hai thuật ngữ này có thể được sử dụng thay thế cho nhau, phân tích dữ liệu là một nhánh phụ của khoa học dữ liệu o Khoa học dữ liệu là một thuật ngữ bao hàm mọi khía cạnh của xử lý dữ liệu

—từ thu thập dữ liệu đến lập mô hình rồi rút ra thông tin chuyên sâu o Mặt khác, phân tích dữ liệu chủ yếu liên quan tới thống kê, toán học và phân tích thống kê Lĩnh vực này chỉ tập trung vào phân tích dữ liệu, trong khi đó, khoa học dữ liệu liên quan đến bức tranh toàn cảnh hơn về dữ liệu của tổ chức

- Tại hầu hết môi trường làm việc, các nhà khoa học dữ liệu và nhà phân tích dữ liệu phối hợp cùng nhau để đạt các mục tiêu kinh doanh chung Một nhà phân tích dữ liệu có thể dành nhiều thời gian hơn cho việc phân tích thông thường, cung cấp các báo cáo thường xuyên Một nhà khoa học dữ liệu có thể thiết kế phương thức lưu trữ, điều chỉnh và phân tích dữ liệu Nói một cách đơn giản, nhà phân tích dữ liệu diễn giải dữ liệu hiện có, còn nhà khoa học dữ liệu tạo ra các phương pháp và công cụ mới để xử lý dữ liệu cho các nhà phân tích sử dụng. b Khoa học dữ liệu với Phân tích kinh doanh:

- Mặc dù có sự trùng lặp giữa khoa học dữ liệu và phân tích kinh doanh, điểm khác biệt chính giữa hai lĩnh vực này là việc sử dụng công nghệ trong từng lĩnh vực. Các nhà khoa học dữ liệu làm việc sát với công nghệ dữ liệu hơn các nhà phân tích kinh doanh

- Các nhà phân tích kinh doanh thu hẹp khoảng cách giữa kinh doanh và CNTT Họ xác định các trường hợp kinh doanh, thu thập thông tin từ những bên liên quan hoặc xác thực các giải pháp

- Mặt khác, các nhà khoa học dữ liệu sử dụng công nghệ để làm việc với dữ liệu kinh doanh Họ có thể viết ra các chương trình, áp dụng những kỹ thuật máy học để tạo ra mô hình và phát triển thuật toán mới Các nhà khoa học dữ liệu không chỉ nắm rõ vấn đề mà còn có thể xây dựng một công cụ cung cấp giải pháp cho vấn đề đó

- Việc các nhà phân tích kinh doanh phối hợp với những nhà khoa học dữ liệu trong cùng nhóm là chuyện không hiếm gặp Nhà phân tích kinh doanh lấy và sử dụng kết quả từ nhà khoa học dữ liệu để diễn giải theo cách mà toàn thể doanh nghiệp có thể hiểu. c Khoa học dữ liệu với Kỹ thuật dữ liệu:

- Các kỹ sư dữ liệu xây dựng và duy trì các hệ thống cho phép nhà khoa học dữ liệu truy cập và diễn giải dữ liệu Họ làm việc chặt chẽ với công nghệ cơ bản hơn là các nhà khoa học dữ liệu Vai trò này thường liên quan tới việc tạo các mô hình dữ liệu, xây dựng đường ống dữ liệu và giám sát quy trình trích xuất, chuyển đổi, tải

- Tùy thuộc vào quy mô và cơ cấu của tổ chức, kỹ sư dữ liệu cũng có thể quản lý cơ sở hạ tầng liên quan như nền tảng lưu trữ, truyền phát và xử lý dữ liệu lớn Các nhà khoa học dữ liệu sử dụng dữ liệu mà kỹ sư dữ liệu đã xử lý để xây dựng và đào tạo các mô hình dự đoán Sau đó, các nhà khoa học dữ liệu có thể giao kết quả cho các nhà phân tích để đưa ra quyết định tiếp theo. d Khoa học dữ liệu với Máy học:

- Máy học là lĩnh vực khoa học về đào tạo máy móc phân tích và học hỏi từ dữ liệu giống như con người Đây là một trong những phương pháp được sử dụng trong các dự án khoa học dữ liệu nhằm thu thập thông tin chuyên sâu tự động từ dữ liệu

Giới thiệu về nghề khoa học dữ liệu (Data Scientist)

- Vào năm 2018, Harvard Business Review đã bầu chọn nghề Data Scientist – Nhà khoa học dữ liệu là công việc “hot” nhất thế kỷ 21 để nhấn mạnh sự thành công và sức ảnh hưởng của Dữ liệu đến thị trường thế giới

Vậy Data Scientist là gì?

- Data Scientist là những người phân tích, sắp xếp và thay dữ liệu “kể chuyện”, bất kể nó có cấu trúc hay không Công việc của họ sẽ cần phối hợp giữa cả khoa học máy tính, thống kê và toán học Họ sẽ là người phân tích, xử lý và “mô hình hóa” các dữ liệu, sau đó diễn giải các kết quả để tạo ra các kế hoạch hoạt động cho team và doanh nghiệp

- Nói một cách dễ hiểu, nghề data scientist làm việc cũng dữ liệu và cho ra các insight mang tính phân tích Họ sẽ truyền đạt các phát hiện và insight này với các bên liên quan – từ lãnh đạo cấp cao, quản lý đến khách hàng Từ đó các công ty có thể trực tiếp hưởng lợi từ việc đưa ra các quyết định sáng suốt nhất để thúc đẩy tăng trưởng kinh doanh và lợi nhuận của họ (tức là, phụ thuộc vào bối cảnh của các ngành công nghiệp).

1.2.2 Vai trò của Data Scientist:

- Một Data Scientist phải xử lý cả dữ liệu có cấu trúc và phi cấu trúc Dữ liệu phi cấu trúc được thể hiện dưới dạng dữ liệu thô, yêu cầu phải xử lý, làm sạch và tổ chức lại dữ liệu để tạo ra một cấu trúc có ý nghĩa cho bộ dữ liệu.

- Theo đó các Data Scientist sẽ nghiên cứu các dữ liệu đã được tổ chức và phân tích kỹ lưỡng để trích xuất thông tin bằng cách sử dụng nhiều phương pháp thống kê khác nhau Họ sẽ sử dụng các phương pháp thống kê để mô tả, trực quan hóa và đưa ra các thông tin giả thuyết từ dữ liệu đó.

- Sau đó các Data scientist sẽ sử dụng thuật toán Machine learning để dự đoán các sự kiện sẽ xảy ra và đưa ra quyết định dựa trên các data đó Những Data Scientist sẽ triển khai các mảng lớn công cụ và thực tiễn để nhận ra các mẫu dư thừa trong dữ liệu Các công cụ này bao gồm SQL, Hadoop, Weka, R và Python.

- Họ thường đóng vai trò nhà tư vấn trong công ty, tham gia vào các quá trình ra quyết định khác nhau và tạo ra các chiến lược Nhờ vào sự hiểu biết từ dữ liệu, họ hỗ trợ các công ty đưa ra quyết định kinh doanh thông minh hơn.

- Điển hình như các công ty công nghệ như Google, Netflix, và Amazon đang sử dụng Khoa học dữ liệu, để phát triển hệ thống các đề xuất tích cực cho người dùng Tương tự, các công ty tài chính khác nhau đang sử dụng các phương pháp phân tích và dự báo để dự đoán giá cổ phiếu.

- Khoa học dữ liệu đã giúp tạo ra một hệ thống thông minh hơn có thể đưa ra các quyết định tự trị dựa trên các dữ liệu lịch sử Thông qua sự đồng hóa với các công nghệ mới nổi như Thị giác máy tính, Xử lý công nghệ tự nhiên, Reinforcement Learning (một lĩnh vực thuộc Machine Learning).

1.2.3 Công việc của Data Scientist:

- Một nhà khoa học dữ liệu có thể sử dụng hàng loạt các kỹ thuật, công cụ và công nghệ khác nhau trong quy trình khoa học dữ liệu Tùy theo vấn đề, họ chọn những cách kết hợp tốt nhất để có kết quả nhanh và chính xác hơn.

- Vai trò và công việc hàng ngày của nhà khoa học dữ liệu thay đổi tùy thuộc vào quy mô và yêu cầu của tổ chức Mặc dù họ thường tuân theo quy trình khoa học dữ liệu, nhưng có thể khác nhau về chi tiết Trong các nhóm khoa học dữ liệu lớn hơn, nhà khoa học dữ liệu có thể làm việc với các nhà phân tích, kỹ sư, chuyên gia máy học và nhà thống kê khác để đảm bảo quy trình khoa học dữ liệu được tuân thủ từ đầu đến cuối và đạt được các mục tiêu kinh doanh

- Tuy nhiên, trong các nhóm nhỏ hơn, một nhà khoa học dữ liệu có thể đảm nhiệm nhiều vị trí Dựa trên kinh nghiệm, kỹ năng và trình độ học vấn, họ có thể thực hiện nhiều vai trò hoặc các vai trò chồng chéo Trong trường hợp này, trách nhiệm hàng ngày của họ có thể bao gồm kỹ thuật, phân tích và máy học cùng với các phương pháp khoa học dữ liệu cốt lõi.

- Data Scientist làm việc chủ yếu xoay quanh dữ liệu với mục đích chính là để đưa ra những kết luận có ý nghĩa từ lượng dữ liệu đó Nghe có vẻ đơn giản, tuy nhiên để khám phá ra những điều đó đòi hỏi bạn phải có năng lực, kỹ năng, kinh nghiệm và nhìn vấn đề ở nhiều góc độ Cụ thể hơn, công việc của một Data Scientist sẽ gồm những nhiệm vụ sau: o Lọc dữ liệu thô đã thu thập được để loại bỏ những thông tin bị lỗi mà máy tính không thể đọc được Dữ liệu có thể ở dạng cấu trúc hoặc phi cấu trúc. Công đoạn này được cho là mất thời gian và công sức nhất vì dữ liệu nhiễu cũng khá nhiều. o Phân tích lượng dữ liệu hợp lệ để xây dựng được những mô hình và giả thuyết hiệu quả Dựa vào đó, nhìn từ nhiều góc độ để đưa ra những kết luận có ý nghĩa. o Sử dụng các công cụ hỗ trợ như Machine Learning để tìm ra những xu hướng, cơ hội cho công ty trong tương lai Đồng thời xác định được những vấn đề mà công ty đang gặp phải hoặc Sau đó, Data Scientist có nhiệm vụ trình bày bằng hình ảnh, biểu đồ trực quan để giải thích cho công ty, đồng thời đề xuất các giải pháp khả thi cho các vấn đề đó.

1.2.4 Phân biệt Data Scientist với những thuật ngữ khác:

- Data Engineer: Là kiến trúc sư dữ liệu, họ thường có kỹ thuật máy tính và kỹ năng tạo hệ thống nâng cao để chuyển đổi dữ liệu thành “Pipeline” cho nhóm Khoa học dữ liệu Một số ngôn ngữ lập trình họ sử dụng là Python, C+ +, Java, Scala Nói chung nhiệm vụ chính của họ là thiết kế, xây dựng, sắp xếp đường ống dữ liệu Khác với Data Scientist, họ sẽ không làm việc liên quan đến đọc số liệu để đưa ra kết luận, dự đoán.

- Data Analyst: Vị trí này tham gia vào việc thu thập dữ liệu từ các nguồn khác nhau, phân tích và viết các chương trình theo từng công việc được giao Họ cũng chịu trách nhiệm minh họa, báo cáo lại kết quả theo từng nhiệm vụ DataAnalyst khác Data Scientist ở chỗ họ chỉ báo cáo về một nhiệm vụ nào đó chứ không báo cáo kết quả khám phá của cả dự án.

CÁC KỸ NĂNG CẦN CÓ CỦA DATA SCIENTIST

Kỹ năng phân tích

- Là Data Scientist, bạn phải có khả năng làm việc với các công cụ như kiểm tra thống kê, phân phối và ước tính khả năng tối đa Một Data Scientist tốt sẽ nhận ra kỹ thuật nào là tối ưu để tiếp cận vấn đề.

- Với số liệu thống kê, bạn có thể giúp các bên liên quan đưa ra quyết định, thiết kế và đánh giá các thử nghiệm.

Kỹ năng thống kê

- Thống kê sẽ giúp các nhà khoa học dữ liệu có cái nhìn tổng quan về dữ liệu trong bước tiền xử lý dữ liệu, cũng như giúp họ thể hiện tốt các kết quả nghiên cứu cho đồng nghiệp và khách hàng Các công cụ hỗ trợ trong thống kê thường là kiểm định thống kê, các hàm phân bố và ước lượng hợp lý cực đại.

- Khi hiểu rõ những công cụ, khái niệm này, nhà khoa học dữ liệu sẽ lựa chọn được kỹ thuật tốt nhất có thể áp dụng cho vấn đề của họ Với số liệu thống kê, bạn có thể giúp các bên liên quan đưa ra quyết định, thiết kế và đánh giá các thử nghiệm.

Kỹ năng lập trình

- Data Scientist phải thành thạo kỹ năng về việc sử dụng các công cụ lập trình nhưPython, R và ngôn ngữ truy vấn cơ sở dữ liệu như SQL, trên cả hai khía cạnh tính toán và thống kê.

Tư duy phản biện và kỹ năng thuyết trình

- Tư duy phản biện là sử dụng các phân tích, khảo sát và ước lượng khách quan trước một vấn đề để đưa ra phán đoán chính đáng và có tính khả thi Để có tư duy phản biện, Data Scientist luôn cần đặt câu hỏi về mọi điều nghe thấy và đọc được, tập trung vào khía cạnh quan trọng của vấn đề và bỏ qua các chi tiết không liên quan.

- Data Scientist cần có kỹ năng thuyết trình để giao tiếp hiệu quả với các bên liên quan Họ là những người đứng ở giao điểm của kinh doanh, công nghệ và dữ liệu.

Kiến thức về Machine Learning, Deep Learning và AI

- Machine Learning là một lĩnh vực của Trí tuệ nhân tạo (AI)sử dụng các phương pháp thống kê để giúp máy tính có khả năng học từ dữ liệu Công nghệ xe tự lái, nhận dạng giọng nói, tìm kiếm hiệu quả trên web đều có thể thực hiện được.

- Deep Learning là một ngành của Machine Learning trong đó dữ liệu được biến đổi qua nhiều phép biến đổi phi tuyến trước khi thu được kết quả đầu ra AI dựa trên ý tưởng về khả năng của máy tính hoặc chương trình máy tính để suy nghĩ, hiểu và học hỏi như con người Data Science có sự giao thoa với AI nhưng không phải là một lĩnh vực của AI.

CÁC NGÔN NGỮ LẬP TRÌNH VÀ CÔNG CỤ PHỔ BIẾN TRONG DATA SCIENCE

Các ngôn ngữ lập trình phổ biến

- Python là một trong những ngôn ngữ lập trình phổ biến nhất trong lĩnh vực khoa học dữ liệu (data science) Với Python, chúng ta có thể xử lý dữ liệu, thực hiện phân tích và giải quyết các vấn đề thực tế

- Python cũng có thể sử dụng trong các lĩnh vực khác như lập trình web, máy học (machine learning), học sâu (deep learning) và những lĩnh vực khác trong lĩnh vực khoa học dữ liệu.

- Với sự phát triển của các thư viện và công cụ được sử dụng trong Python, việc học Python sẽ là một lợi thế lớn cho các nhà khoa học dữ liệu trong việc thực hiện các tác vụ và phân tích dữ liệu. b, Các thư viện trong Python phục vụ cho Data Science:

 Numpy (Numeric Python): là một thư viện toán học rât phổ biến và mạnh mẽ của Python NumPy được trang bị các hàm số đã được tối ưu, cho phép làm việc hiệu quả với ma trận và mảng, đặc biệt là dữ liệu ma trận và mảng lớn với tốc độ xử lý nhanh hơn nhiều lần khi chỉ sử dụng Python đơn thuần.

 Lịch sử: NumPy được phát triển bởi Jim Hugunin Phiên bản ban đầu là

Numarray được phát triển, có một số chức năng bổ sung Năm 2005, Travis Oliphant đã tạo ra gói NumPy bằng cách kết hợp các tính năng của Numarray và gói Numeric.

 Nó là phần mềm mã nguồn mở Nó chứa các tính năng đa dạng bao gồm các tính năng quan trọng như sau: o Một đối tượng mảng N-dimensional mạnh mẽ o Các hàm tinh vi (broadcasting) tinh tế o Các công cụ để tích hợp mã C/C++ và Fortran o Các tính năng đại số tuyến tính, Fourier và khả năng tạo số ngẫu nhiên hữu ích

 Ngoài việc sử dụng cho các tác vụ khoa học rõ ràng, NumPy còn có thể được sử dụng như một bộ chứa dữ liệu đa chiều hiệu quả cho các dữ liệu thông thường Các loại dữ liệu tùy ý có thể được định nghĩa bằng Numpy, điều này cho phép NumPy tích hợp một cách mượt mà và nhanh chóng với nhiều cơ sở dữ liệu khác nhau.

 Pandas là một thư viện mã nguồn mở được phát triển chủ yếu để làm việc với dữ liệu quan hệ hoặc được đánh nhãn một cách dễ dàng và trực quan Nó cung cấp các cấu trúc dữ liệu và các phép toán cho việc xử lý dữ liệu số và chuỗi thời gian Thư viện này được xây dựng trên cơ sở của thư viện NumPy Pandas là một thư viện nhanh chóng, mang lại hiệu suất và năng suất cao cho người dùng.

 Lịch sử: Pandas ban đầu được phát triển bởi Wes McKinney vào năm 2008 trong khi ông đang làm việc tại AQR Capital Management Ông đã thuyết phục AQR cho phép mở mã nguồn Pandas Chang She, một nhân viên khác của AQR, đã tham gia vào năm 2012 và được coi là người đóng góp chính thứ hai cho thư viện Theo thời gian, nhiều phiên bản của Pandas đã được phát hành. Phiên bản mới nhất của Pandas là 1.5.3, phát hành vào ngày 18 tháng 1 năm 2023.

 Ưu điểm: o Nhanh chóng và hiệu quả trong việc xử lý và phân tích dữ liệu o Dữ liệu từ các đối tượng tệp khác nhau có thể được tải lên. o Dễ dàng xử lý dữ liệu bị thiếu (được biểu diễn dưới dạng NaN) trong dữ liệu dấu phẩy động và không động dấu phẩy. o Có khả năng thay đổi kích thước: các cột có thể được chèn và xóa khỏi DataFrame và các đối tượng có số chiều cao hơn. o Ghép và kết nối các bộ dữ liệu. o Có khả năng thay đổi kích thước linh hoạt và xoáy trở của các bộ dữ liệu. o Cung cấp chức năng chuỗi thời gian. o Có chức năng nhóm mạnh mẽ để thực hiện các hoạt động chia-áp-dụng trên các bộ dữ liệu.

 Tại sao Pandas được sử dụng cho Khoa học dữ liệu? o Pandas được sử dụng kết hợp với các thư viện khác được sử dụng cho khoa học dữ liệu Nó được xây dựng trên cơ sở của thư viện NumPy, có nghĩa là nhiều cấu trúc của NumPy được sử dụng hoặc sao chép trong Pandas o Dữ liệu được tạo ra bởi Pandas thường được sử dụng như là đầu vào cho các chức năng vẽ biểu đồ của Matplotlib, phân tích thống kê trong SciPy và các thuật toán học máy trong Scikit-learn. o Chương trình Pandas có thể chạy từ bất kỳ trình soạn thảo văn bản nào,tuy nhiên khuyến khích sử dụng Jupyter Notebook vì Jupyter cho phép thực thi mã trong một ô nhất định thay vì thực thi toàn bộ tệp Jupyter cũng cung cấp một cách dễ dàng để trực quan hóa các khung dữ liệu và biểu đồ của Pandas.

 Scikit-learn là một thư viện Python cung cấp một loạt các thuật toán học giám sát và học không giám sát cho các ứng dụng của máy học Nó được xây dựng dựa trên NumPy, SciPy và Matplotlib, và cung cấp các công cụ dễ sử dụng và hiệu quả cho khai thác dữ liệu và phân tích dữ liệu

 Scikit-learn bao gồm một loạt các mô hình như cây quyết định, máy hỗ trợ vector, k-nearest neighbors và rừng ngẫu nhiên, để kể một số Những mô hình này có thể được sử dụng cho các nhiệm vụ phân loại, hồi quy và phân cụm

 Lịch sử: o Scikit-learn ban đầu được đề xuất bởi David Cournapeau trong một dự án mùa hè của Google vào năm 2007. o Later Matthieu Brucher tham gia dự án trên và bắt đầu sử dụng nó làm một phần luận văn tiến sĩ của ông ấy Vào năm 2010, INRIA bắt đầu tài trợ và phiên bản đầu tiên được xuất bản (v0.1 beta) vào cuối tháng 1 năm 2010. o Dự án vẫn đang được nghiên cứu bởi một đội ngũ hơn 30 nhà nghiên cứu đến từ các công ty lớn INRIA, Google, Tinyclues và Python

 Thay vì tập trung vào việc tải, xử lý và tóm tắt dữ liệu, thư viện Scikit-learn được tập trung vào mô hình hóa dữ liệu Một số từng nhóm mô hình phổ biến nhất được cung cấp bởi Sklearn như sau: o Thuật toán học có giám sát (Supervised Learning) - Hầu hết tất cả các thuật toán học có giám sát phổ biến, chẳng hạn như Linear Regression, Support Vector Machine (SVM), Decision Tree vv , đều là một phần của scikit-learn. o Thuật toán học không giám sát (Unsupervised Learning) - Ngược lại, nó cũng có tất cả các thuật toán học không giám sát phổ biến từ phân cụm, phân tích yếu tố, PCA (Principal Component Analysis) đến mạng nơ- ron không giám sát. o Phân cụm (Clustering) - Mô hình này được sử dụng để nhóm các dữ liệu không được gắn nhãn. o Xác thực chéo (Cross Validation) - Nó được sử dụng để kiểm tra độ chính xác của các mô hình học có giám sát trên dữ liệu chưa nhìn thấy. o Giảm chiều dữ liệu (Dimensionality Reduction) - Nó được sử dụng để giảm số lượng các thuộc tính trong dữ liệu có thể được sử dụng để tóm tắt, trực quan hóa và lựa chọn tính năng. o Phương pháp tổ hợp (Ensemble methods) - Như tên gọi, nó được sử dụng để kết hợp các dự đoán của nhiều mô hình được giám sát. o Trích xuất tính năng (Feature extraction) - Nó được sử dụng để trích xuất các tính năng từ dữ liệu để xác định các thuộc tính trong dữ liệu ảnh và văn bản. o Lựa chọn tính năng (Feature selection) - Nó được sử dụng để xác định các thuộc tính hữu ích để tạo các mô hình học có giám sát. o Mã nguồn mở - Đây là một thư viện mã nguồn mở và cũng có thể được sử dụng thương mại theo giấy phép BSD.

- R là ngôn ngữ lập trình phổ biến được sử dụng cho tính toán thống kê và trình bày đồ họa

- Sử dụng phố biến nhất của R là phân tích và trực quan hóa dữ liệu

Các công cụ lập trình phổ biến

- Jupyter là một thuật ngữ được ghép từ ba ngôn ngữ lập trình Julia, Python và R. Trước đây Jupyter Notebook có tên là IPython Notebook, đến năm 2014 tách ra khỏi IPython và đổi tên thành Jupyter Notebook.

- Jupyter Notebook là một nền tảng tính toán khoa học mã nguồn mở, bạn có thể sử dụng để tạo và chia sẻ các tài liệu có chứa code trực tiếp, phương trình, trực quan hóa dữ liệu và văn bản tường thuật.

- Jupyter Notebook được coi là môi trường điện toán tương tác đa ngôn ngữ, hỗ trợ hơn 40 ngôn ngữ lập trình cho người dùng.

- Với Jupyter Notebook, người dùng có thể đưa dữ liệu, code, hình ảnh, công thức, video vào trong cùng một file, giúp cho việc trình bày trở nên dễ dàng hơn. b, Lợi ích mà Jupiter Notebook mang lại:

1, Phân tích khám phá dữ liệu (Exploratory Data Analysis):

- Jupyter cho phép người dùng xem kết quả của code in-line (mã inline) mà không cần phụ thuộc vào các phần khác của code.

- Trong Notebook mọi ô của code có thể được kiểm tra bất cứ lúc nào, điều này đã giúp Jupyter trở nên khác biệt so với các ID như Pycharm, VSCode Việc Jupyter có thể xuất code in-line đã giúp ích rất nhiều trong quá trình phân tích khám phá dữ liệu (EDA).

2, Trực quan hóa dữ liệu (Data Visualisation):

- Jupyter Notebook hỗ trợ trực quan hóa dữ liệu và hiển thị thêm một số đồ họa và biểu đồ Những điều này được tạo ra từ code với sự trợ giúp của các mô - đun như Matplotlib, Plotly hoặc Bokeh Ngoài ra, Jupyter còn cho phép người dùng cùng chia sẻ code và bộ dữ liệu hoặc thay đổi tương tác với nhau.

3, Tương tác trực tiếp với code:

- Jupyter Notebook sử dụng "ipywidgets" packages, cung cấp cho người dùng giao diện chuẩn nhằm khám phá sự tương tác trực tiếp với code và với dữ liệu Người dùng có thể chỉnh sửa và chạy code, làm cho code của Jupyter non- static.

- Ngoài ra, nó còn cho phép người dùng kiểm soát nguồn đầu vào của code và phản hồi lại trực tiếp trên trình duyệt

- Tableau là một công cụ mạnh mẽ và được phát triển nhanh nhất có chức năng phân tích (analyze) và trực quan hóa (visualize) dữ liệu trong ngành công nghiệp kinh doanh thông minh (Business Intelligence) nhằm xây dựng nền tảng số và phân tích dữ liệu cho doanh nghiệp

- Một cách đơn giản, Tableau chuyển hóa dữ liệu thô dưới dạng bảng thành các định dạng dễ theo dõi và tiếp thu như hình ảnh và biểu đồ. b, Lợi ích mà Tableau mang lại:

1, Cộng tác và chia sẻ:

- Tableau cho phép người dùng cộng tác và chia sẻ luồng công việc với nhau trong thời gian thực một cách an toàn, giúp tăng hiệu quả công việc khi làm việc theo nhóm.

- Công cụ này còn giúp kết nối tất cả các phòng ban Mọi thành viên trong doanh nghiệp giờ đây đều có thể đọc, phân tích, tổng hợp các số liệu, tạo nên các góc nhìn khác nhau cho dữ liệu vận hành; từ đó mọi thành viên trong doanh nghiệp đều làm việc trên một môi trường số hóa, tạo ra một tiếng nói chung, thống nhất và xuyên suốt quá trình làm việc.

- Việc thống nhất chung một ngôn ngữ là số liệu khiến việc thông tin trao đổi sẽ trở nên mạch lạc hơn, hoàn toàn mang tính định lượng, giúp giảm thiểu sai sót so với làm việc định tính như trước đây

2, Dữ liệu trực tiếp và In-memory:

- Tableau có khả năng kết nối và sử dụng các nguồn dữ liệu thời gian thực; hoặc lưu trữ thông tin từ thiết bị ngoại vi vào bộ nhớ máy tính để xử lý Đây là công nghệ giúp cho tốc độ xử lý các phân tích chỉ trong “nháy mắt”; có kết quả gần như ngay lập tức, giúp tiết kiệm thời gian cho người sử dụng và doanh nghiệp

- Tableau hỗ trợ nhiều nguồn cấp dữ liệu khác nhau như tập tin, cơ sở dữ liệu quan hệ/phi quan hệ; dữ liệu trên đám mây,…

3, Trình diễn thông tin trên bản đồ:

- Tableau được cài sẵn nhiều dạng thông tin như tên các địa danh, mã bưu chính,…; hỗ trợ rất tốt cho việc thể hiện thông tin chi tiết và chính xác trên bản đồ Các dạng bản đồ hỗ trợ cũng đa dạng như bản đồ nhiệt; bản đồ mật độ điểm, bản đồ luồng,…

- Hệ thống phân quyền và xác thực có sẵn giúp Tableau giảm thiểu nguy cơ mất mát dữ liệu Ngoài ra, công cụ còn cho phép tự sử dụng các giao thức bảo mật khác từ môi trường desktop như Active Directory, Kerberos,

- Người dùng có thể truy vấn dữ liệu chỉ bằng ngôn ngữ tự nhiên; công cụ sẽ trả về thông tin cả dạng thô và dạng trực quan hóa.

- Không chỉ thể hiện các dữ liệu sẵn có mà Tableau cũng giúp đưa ra các dự đoán xu hướng dữ liệu; dựa trên thuật toán, tạo tiền đề cho việc đưa ra quyết định của doanh nghiệp

ỨNG DỤNG CỦA KHOA HỌC DỮ LIỆU

Ứng dụng khoa học dữ liệu vào chăm sóc sức khỏe

- Trở lại năm 2008, khoa học dữ liệu đã tạo được dấu ấn đầu tiên trong ngành chăm sóc sức khỏe Các nhân viên của Google đã phát hiện ra rằng họ có thể lập bản đồ các đợt bùng phát dịch cúm trong thời gian thực bằng cách theo dõi dữ liệu vị trí trên các tìm kiếm liên quan đến dịch cúm Bản đồ hiện có của CDC về các trường hợp cúm được ghi nhận, FluView, chỉ được cập nhật mỗi tuần một lần Google đã nhanh chóng tung ra một công cụ cạnh tranh với các bản cập nhật thường xuyên hơn: Google xu hướng dịch cúm.

- Nhưng nó không hoạt động Vào năm 2013, Google đã ước tính khoảng gấp đôi số ca mắc bệnh cúm thực tế được quan sát thấy Phương pháp bí mật của công cụ dường như liên quan đến việc tìm ra mối tương quan giữa khối lượng cụm từ tìm kiếm và các ca bệnh cúm Điều đó có nghĩa là thuật toán Xu hướng Dịch cúm đôi khi đặt quá nhiều mục cho các cụm từ tìm kiếm như (bóng rổ trường trung học).

- Mặc dù vậy, nó đã chứng minh tiềm năng lớn của khoa học dữ liệu trong chăm sóc sức khỏe Dưới đây là một số ví dụ về các công cụ chăm sóc sức khỏe chính xác và mạnh mẽ hơn được phát triển trong những năm sau theo những nỗ lực ban đầu của Google Tất cả chúng đều được hỗ trợ bởi khoa học dữ liệu.

4.1.1 Xác định khối u ung thư:

- Google đã không từ bỏ việc áp dụng khoa học dữ liệu vào chăm sóc sức khỏe. Trên thực tế, công ty đã phát triển một công cụ, LYNA, để xác định các khối ung thư vú di căn đến các hạch bạch huyết gần đó Điều đó có thể khó nhìn thấy bằng mắt thường, đặc biệt là khi sự phát triển ung thư mới còn sớm Trong một thử nghiệm, LYNA- viết tắt của Lymph Node Assistant- đã xác định chính xác ung thư di căn trong 99% trường hợp sử dụng thuật toán máy học (machine learning) của mình Tuy nhiên, cần phải thử nghiệm them trước khi các bác sĩ có thể sử dụng nó trong bệnh viện

4.1.2 Theo dõi chu kì kinh nguyệt:

- Ứng dụng Clue phổ biến sử dụng khoa học dữ liệu để dự báo chu kỳ kinh nguyệt và sức khỏe sinh sản của người dùng bằng cách theo dõi ngày bắt đầu chu kỳ, tâm trạng, loại phân, tình trạng tóc và nhiều số liệu khác Đằng sau hậu trường, các nhà khoa học dữ liệu khai thác lượng dữ liệu ẩn danh phong phú này bằng các công cụ như Python và Jupyter's Notebook Sau đó, người dùng được thông báo bằng thuật toán khi họ có khả năng thụ thai, sắp đến kỳ kinh nguyệt hoặc có nguy cơ cao mắc các tình trạng như mang thai ngoài tử cung.

4.1.3 Cá nhân hóa kế hoạch điều trị

- Phần mềm của Oncora sử dụng máy học (machine learning) để tạo các đề xuất được cá nhân hóa cho các bệnh nhân ung thư hiện tại dựa trên dữ liệu từ những người trong quá khứ Các cơ sở chăm sóc sức khỏe sử dụng nền tảng của công ty bao gồm UT Health San Antonio và Scripps Health Nhóm X quang của họ đã hợp năm về chẩn đoán, kế hoạch điều trị, kết quả và tác dụng phụ từ hơn 50.000 hồ sơ ung thư Dựa trên dữ liệu này, thuật toán của Oncora đã học để đề xuất phác đồ hóa trị và xạ trị được cá nhân hóa.

4.1.4 Làm sạch dữ liệu thử nghiệm lâm sàng

- Veeva là một công ty phần mềm đám mây cung cấp các giải pháp dữ liệu và phần mềm cho ngành chăm sóc sức khỏe Phạm vi tiếp cận của công ty mở rộng thông qua các lĩnh vực y tế lâm sàng, quy định và thương mại Veera’s Vault EDC sử dụng khoa học dữ liệu để làm sạch các kết quả thử nghiệm lâm sàng và giúp các chuyên gia y tế thực hiện các điều chỉnh trong quá trình nghiên cứu.

Ví dụ về khoa học dữ liệu trong giao thông vận tải

- Lái xe đóng một vai trò trung tâm trong cuộc sống của người Mỹ Tòa án Tối cao đã gọi đó là “một nhu cầu ảo” và đại đa số người Mỹ - khoảng 132 triệu hộ gia đình – sở hữu hoặc thuê ô tô Vào năm 2021, ô tô của Mỹ đã “đốt” khoảng 135 tỷ gallon xăng Thật không may, thói quen này góp phần gây ra biến đổi khí hậu, nhưng khoa học dữ liệu luôn sẵn sàng vào cuộc

- Mặc dù cả đi xe đạp và phương tiện giao thông công cộng đề có thể hạn chế lượng khí thải liên quan đến lái xe, khoa học dữ liệu cũng có thể làm điều tương tự bằng cách tối ưu hóa các tuyến đường Và mặc dù các điều chỉnh lộ trình dựa trên dữ liệu thường nhỏ nhưng chúng có thể giúp tiết kiệm hàng nghìn gallon xăng khi trải rộng trên hàng trăm chuyến đi và phương tiện- Ngay cả trong số các công ty không tập trung vào sinh thái một cách rõ ràng Dưới đây là một số ví dụ về ứng dụng của khoa học dữ liệu trong vấn đề này.

4.2.1 Mô hình hóa các mẫu lưu lượng truy cập

- StreetLight sử dụng khoa học dữ liệu để lập mô hình giao thông cho ô tô, xe đạp và người đi bộ trên đường phố Bắc Mỹ Dựa trên hàng nghìn tỷ điểm dữ liệu hàng tháng từ điện thoại thông minh, thiết bị định vị trong xe, v.v , bản đồ giao thông của StreetLight luôn được cập nhật Chúng cũng chi tiết hơn các ứng dụng bản đồ chính thống: chúng có thể xác định các nhóm hành khách sử dụng nhiều chế độ chuyển tuyến để đi làm Các bản đồ của công ty cung cấp thông tin cho các doanh nghiệp quy hoạch thành phố khác nhau, bao gồm cả thiết kế phương tiện đi lại.

4.2.2 Tối ưu hóa việc giao đồ ăn

- Các nhà khoa học dữ liệu tại UberEats có một mục tiêu khá đơn giản: nhận thức ăn nóng được giao nhanh chóng Tuy nhiên, để làm được điều đó trên khắp đất nước, cần có máy học, mô hình thống kê tiên tiến và các nhà khí tượng học nhân viên Để tối ưu hóa toàn bộ quy trình giao hàng, nhóm phải dự đoán mức độ ảnh hưởng của mọi biến số có thể xảy ra — từ bão đến cao điểm trong kỳ nghỉ lễ — sẽ ảnh hưởng đến giao thông và thời gian nấu nướng.

4.2.3 Cải thiện việc giao hàng trọn gói

- UPS sử dụng khoa học dữ liệu để tối ưu hóa việc vận chuyển gói hàng từ khi gửi đến khi giao hàng Hệ thống định vị tích hợp của công ty ORION giúp người lái chọn hơn 66.000 tuyến đường tiết kiệm nhiên liệu ORION đã tiết kiệm cho UPS khoảng 100 triệu dặm và 10 triệu gallon nhiên liệu mỗi năm nhờ sử dụng các thuật toán tiên tiến, trí tuệ nhân tạo và máy học Công ty có kế hoạch tiếp tục cập nhật hệ thống ORION của mình, với phiên bản cuối cùng đã được tung ra vào năm

2021 Bản cập nhật mới nhất cho phép người lái xe giảm lộ trình của họ từ hai đến bốn dặm.

Ứng dụng khoa học dữ liệu trong thể thao

- Vào đầu những năm 2000, ngân sách tuyển dụng của Oakland Athletics quá ít nên đội không thể chiêu mộ những cầu thủ chất lượng Ít nhất, họ không chiêu mộ được cầu thủ nào được coi là chất lượng của đội khác Vì vậy, tổng giám đốc đã xác định lại chất lượng, sử dụng số liệu thống kê trong trò chơi mà các đội khác đã bỏ qua để dự đoán tiềm năng của người chơi và tập hợp một đội mạnh bất chấp ngân sách của họ

- Chiến lược của anh ấy đã giúp đội A lọt vào vòng loại trực tiếp, và nó đã lăn cầu tuyết từ đó Tác giả Michael Lewis đã viết một cuốn sách về hiện tượng này, Moneyball Kể từ đó, thị trường phân tích thể thao toàn cầu đã phát triển đáng kể và dự kiến sẽ đạt 8,4 tỷ vào năm 2026 Dưới đây là một số ví dụ về cách khoa học dữ liệu đang chuyển đổi thể thao.

4.3.1 Đưa ra những hiểu biết về bóng rổ

- Hệ thống phân tích cú sút của RSPCT, được các đội NBA và trường đại học áp dụng, dựa vào một cảm biến trên vành đai của vành đai bóng rổ, có camera nhỏ xíu theo dõi chính xác thời điểm và vị trí bóng đập vào mỗi lần ném rổ Nó chuyển dữ liệu đó tới một thiết bị hiển thị chi tiết cảnh quay trong thời gian thực và tạo ra thông tin chuyên sâu mang tính dự đoán

- “Dựa trên dữ liệu của chúng tôi… Chúng tôi có thể nói với [một game bắn súng],'Nếu bạn sắp thực hiện phát bắn cuối cùng để giành chiến thắng trong trò chơi,đừng thực hiện nó từ trên cùng của phím, bởi vì vị trí tốt nhất của bạn thực sự là góc bên phải,'” COO của RSPCT Leo Moravtchik nói với SVG News.

4.3.2 Theo dõi dữ liệu thể chất cho vận động viên

- WHOOP tạo ra các thiết bị đeo được theo dõi dữ liệu thể chất của vận động viên như nhịp tim khi nghỉ ngơi, chu kỳ giấc ngủ và nhịp hô hấp Mục tiêu là giúp các vận động viên hiểu khi nào nên tăng cường tập luyện và khi nào nên nghỉ ngơi — đồng thời đảm bảo rằng họ đang thực hiện các bước cần thiết để tận dụng tối đa cơ thể của mình Theo trang web của công ty, các vận động viên chuyên nghiệp như vận động viên chạy nước rút Olympic Gabby Thomas, vận động viên chơi gôn Olympic Nelly Korda và vận động viên chơi gôn PGA Nick Watney nằm trong số những người dùng của WHOOPS.

4.3.3 Thu thập số liệu hiệu suất cho cầu thủ bóng đá

- Trace cung cấp cho huấn luyện viên bóng đá thiết bị ghi âm và hệ thống AI phân tích phim trận đấu Người chơi đeo một thiết bị theo dõi, được gọi là Tracer, trong khi camera được thiết kế đặc biệt của nó ghi lại trò chơi Sau đó, bot AI sẽ lấy đoạn phim đó và ghép tất cả những khoảnh khắc quan trọng nhất trong trò chơi lại với nhau — từ những cú sút trúng khung thành đến những sai sót trong phòng thủ,v.v Công nghệ này cho phép huấn luyện viên và người chơi hiểu chi tiết hơn về phim trò chơi Ngoài việc ghép các clip lại với nhau, phần mềm còn cung cấp các chỉ số hiệu suất và bản đồ nhiệt trường.

Ứng dụng khoa học dữ liệu của chính phủ

- Mặc dù ít người nghĩ chính phủ Hoa Kỳ là “cực kỳ trực tuyến”, nhưng các cơ quan của họ có thể truy cập hàng đống dữ liệu Các cơ quan của họ không chỉ duy trì cơ sở dữ liệu riêng về ảnh ID, dấu vân tay và hoạt động điện thoại, mà các cơ quan chính phủ có thể nhận được lệnh lấy dữ liệu từ bất kỳ kho dữ liệu nào của Mỹ. Chẳng hạn, các nhà điều tra thường liên hệ với nhà kho của Google để lấy danh sách các thiết bị đang hoạt động tại hiện trường vụ án

- Mặc dù nhiều người coi hoạt động như vậy là xâm phạm quyền riêng tư, nhưng Hoa Kỳ có các quy định tối thiểu về quyền riêng tư và kho dữ liệu của chính phủ sẽ không sớm cạn kiệt Dưới đây là một số cách các cơ quan chính phủ áp dụng khoa học dữ liệu cho các kho dữ liệu khổng lồ

4.4.1 Dự đoán tái phạm trong một quần thể bị giam giữ

- Được sử dụng rộng rãi bởi hệ thống tư pháp và cơ quan thực thi pháp luật của Hoa

Kỳ, bộ phần mềm Northpointe của Equivant cố gắng đánh giá nguy cơ tái phạm tội của một người bị giam giữ Các thuật toán của nó dự đoán rủi ro đó dựa trên bảng câu hỏi bao gồm tình trạng việc làm, trình độ học vấn của người đó, v.v.Không có mục câu hỏi nào đề cập rõ ràng đến vấn đề chủng tộc, nhưng theo một phân tích của ProPublica đã bị Northpointe phản đối, thuật toán Equivant xác định người Da đen có nguy cơ tái phạm cao hơn người da trắng 77% thời gian — ngay cả khi họ ở cùng độ tuổi và giới tính, với tiền án tiền sự tương tự ProPublica cũng nhận thấy rằng các dự đoán của Equivant chính xác tới 71%.

4.4.2 Khai thác cơ sở dữ liệu với phần mềm nhận dạng khuân mặt

- Cơ quan Thực thi Di trú và Hải quan Hoa Kỳ đã sử dụng công nghệ nhận dạng khuôn mặt để khai thác cơ sở dữ liệu ảnh bằng lái xe, với mục tiêu trục xuất những người nhập cư không có giấy tờ Thực tiễn - đã làm dấy lên sự chỉ trích từ cả quan điểm đạo đức và công nghệ (công nghệ nhận dạng khuôn mặt vẫn còn run rẩy) - nằm dưới sự bảo trợ của khoa học dữ liệu Tính năng nhận dạng khuôn mặt dựa trên ảnh chụp khuôn mặt, hay còn gọi là dữ liệu thô, với khả năng học máy và trí tuệ nhân tạo.

4.4.3 Phát hiện gian lận thuế

- Theo một ước tính, việc trốn thuế khiến chính phủ Hoa Kỳ phải trả 1 tỷ đô la mỗi năm, vì vậy không có gì ngạc nhiên khi IRS đã hiện đại hóa các giao thức phát hiện gian lận của mình trong thời đại kỹ thuật số Trước sự thất vọng của những người ủng hộ quyền riêng tư, cơ quan này đã cải thiện hiệu quả bằng cách xây dựng hồ sơ người nộp thuế đa chiều từ dữ liệu truyền thông xã hội công cộng, siêu dữ liệu các loại, phân tích email, mẫu thanh toán điện tử, v.v Căn cứ vào các hồ sơ đó, cơ quan dự kiến khai thuế cá nhân; bất kỳ ai có lợi nhuận thực tế và dự báo cực kỳ khác nhau đều bị gắn cờ để kiểm tra.

Ví dụ về khoa học dữ liệu trò chơi

- Ngành công nghiệp trò chơi đang phát triển và nó đang sử dụng khoa học dữ liệu để giúp mở rộng Thị trường trò chơi điện tử toàn cầu được định giá 195,65 tỷ USD vào năm 2021 và dự kiến sẽ tăng gần 13% vào năm 2030

- Khoa học dữ liệu và AI đã được sử dụng trong trò chơi điện tử từ đầu những năm

1950 với việc tạo ra Nim — một trò chơi chiến lược toán học, trong đó hai người chơi thay phiên nhau lấy đồ vật ra khỏi đống Sự đổi mới tiếp tục với Pac-Man, nơi AI và khoa học dữ liệu được sử dụng trong mê cung của trò chơi và tạo cho những con ma những tính cách riêng biệt

- Ngành công nghiệp trò chơi điện tử tiếp tục tìm ra những cách sáng tạo để triển khai khoa học dữ liệu và AI nhằm cải thiện việc chơi trò chơi và giải trí cho hàng triệu người trên toàn cầu Đây chỉ là một vài ví dụ về cách sử dụng khoa học dữ liệu trong trò chơi điện tử.

4.5.1 Cải thiện trò chơi trực tuyến

- Được biết đến là công ty đứng sau các trò chơi đình đám như Call of Duty, World of Warcraft, Candy Crush và Overwatch, Activision Blizzard sử dụng dữ liệu lớn để cải thiện trải nghiệm chơi trò chơi trực tuyến của họ Một ví dụ về điều này là bộ phận khoa học trò chơi của công ty phân tích dữ liệu trò chơi để ngăn chặn việc trao quyền — nỗ lực cải thiện điểm số thể thao của người khác thông qua các phương tiện tiêu cực — giữa những người chơi COD Công ty cũng sử dụng máy học để phát hiện việc tăng sức mạnh, đồng thời xác định và theo dõi các chỉ số chính để tăng chất lượng thời gian chơi game

4.5.2 Đưa ra đề xuất cho người chơi để cải thiện lối chơi

- 2k Games là một studio trò chơi điện tử đã tạo ra các tựa game nổi tiếng như Bioshock và Borderlands, cũng như cả loạt trò chơi WWE và PGA Nhóm khoa học trò chơi đang phát triển của công ty tập trung vào việc trích xuất dữ liệu trò chơi và xây dựng mô hình để cải thiện các trò chơi thể thao như NBA2K Các nhà khoa học dữ liệu tại các trò chơi 2K phân tích lối chơi của người chơi và dữ liệu từ xa về kinh tế để hiểu hành vi của người chơi và đề xuất các hành động nhằm cải thiện trải nghiệm của người chơi.

4.5.3 Theo dõi các số liệu kinh doanh trong lĩnh vực trò chơi điện tử

- Unity là một nền tảng để tạo và vận hành nội dung 3D thời gian thực, tương tác, bao gồm cả trò chơi Nền tảng này được sử dụng bởi các công ty trò chơi như Riot Games, Atari và Reverawn Entertainment, theo trang web của nó Unity sử dụng dữ liệu trò chơi để đưa ra quyết định dựa trên dữ liệu trong nhóm phát triển sản phẩm của mình và để theo dõi các số liệu kinh doanh.

Ứng dụng khoa học dữ liệu thương mại điện tử

- Ngày xửa ngày xưa, mọi người trong một thị trấn nhất định đều mua sắm tại cùng một trung tâm mua sắm: một địa điểm thực tế với một số đài phun nước trong nhà,một ki-ốt trang sức và có thể là Cửa hàng Body Shop Ngày nay, mỗi công dân của cùng một thị trấn có thể mua sắm trong trung tâm mua sắm kỹ thuật số được cá nhân hóa của riêng họ — còn được gọi là internet Các nhà bán lẻ trực tuyến thường tự động điều chỉnh mặt tiền cửa hàng trên web của họ dựa trên hồ sơ dữ liệu của người xem Điều đó có thể có nghĩa là điều chỉnh bố cục trang và tùy chỉnh các sản phẩm nổi bật, trong số những thứ khác Một số cửa hàng cũng có thể điều chỉnh giá dựa trên những gì người tiêu dùng dường như có thể trả, một phương pháp được gọi là định giá cá nhân hóa Ngay cả những trang web không bán gì cũng có quảng cáo được nhắm mục tiêu Dưới đây là một số ví dụ về các công ty sử dụng khoa học dữ liệu để tự động cá nhân hóa trải nghiệm mua sắm trực tuyến.

- Sovrn môi giới thỏa thuận giữa các nhà quảng cáo và các cửa hàng như Bustle, ESPN và Encyclopedia Britannica Vì những giao dịch này xảy ra hàng triệu lần mỗi ngày, nên Sovrn đã khai thác rất nhiều dữ liệu để có thông tin chi tiết, thể hiện trong công nghệ quảng cáo thông minh của mình Tương thích với các nền tảng đặt giá thầu từ máy chủ đến máy chủ của Google và Amazon, giao diện của nó có thể kiếm tiền từ phương tiện với sự giám sát tối thiểu của con người — hoặc, đối với nhà quảng cáo, nhắm mục tiêu chiến dịch đến khách hàng với mục đích cụ thể.

4.6.2 Quản lí nhà nghỉ cho thuê

- Khoa học dữ liệu đã giúp Airbnb cải tiến hoàn toàn chức năng tìm kiếm của mình. Ngày xửa ngày xưa, nó ưu tiên cho thuê kỳ nghỉ được xếp hạng cao nhất nằm cách trung tâm thành phố một khoảng cách nhất định Điều đó có nghĩa là người dùng luôn có thể tìm thấy những nơi cho thuê đẹp, nhưng không phải lúc nào cũng ở những khu vực lân cận thú vị

- Các kỹ sư đã giải quyết vấn đề đó bằng cách ưu tiên xếp hạng tìm kiếm cho thuê nếu nó nằm trong khu vực có mật độ đặt phòng Airbnb cao Vẫn còn chỗ cho sự kỳ quặc trong thuật toán, vì vậy các thành phố không thống trị các thị trấn và người dùng thỉnh thoảng có thể tình cờ tìm thấy ngôi nhà trên cây cho thuê.

4.6.3 Dự đoán sở thích sản phẩm của người tiêu dùng

- Instagram sử dụng khoa học dữ liệu để nhắm mục tiêu các bài đăng được tài trợ của mình, nơi bán mọi thứ từ giày thể thao hợp thời trang đến những người có ảnh hưởng đăng quảng cáo được tài trợ Các nhà khoa học dữ liệu của công ty lấy dữ liệu từ Instagram cũng như chủ sở hữu của nó, Meta, nơi có cơ sở hạ tầng theo dõi web toàn diện và thông tin chi tiết về nhiều người dùng, bao gồm cả tuổi tác và trình độ học vấn Từ đó, nhóm tạo ra các thuật toán chuyển đổi lượt thích và nhận xét của người dùng, việc họ sử dụng các ứng dụng khác và lịch sử web của họ thành dự đoán về các sản phẩm họ có thể mua

- Theo Amanda Mull của The Atlantic, mặc dù các thuật toán quảng cáo củaInstagram vẫn còn là một bí ẩn, nhưng chúng hoạt động rất hiệu quả: “Tôi thường cảm thấy như Instagram không thúc đẩy sản phẩm mà hoạt động như một người mua sắm cá nhân kỹ thuật số mà tôi được tự do chỉ huy.”

4.6.4 Tạo cơ hội quảng cáo kỹ thuật số

- Taboola sử dụng công nghệ học sâu, trí tuệ nhân tạo và bộ dữ liệu lớn để tạo cơ hội tương tác cho các nhà quảng cáo và tài sản kỹ thuật số Nền tảng khám phá của nó tạo ra khả năng kiếm tiền, khán giả và mức độ tương tác mới bằng cách đặt quảng cáo trên nhiều nhà xuất bản và trang web trực tuyến Nền tảng khám phá của nó có thể đưa người đọc đến với tin tức, giải trí, thông tin chuyên đề hoặc lời khuyên cũng như sản phẩm hoặc dịch vụ mới Công ty hợp tác với các cửa hàng như USA Today, Bloomberg, Insider và MSN, theo trang web của công ty.

Ví dụ về khoa học dữ liệu nền tảng xã hội

- Sự gia tăng của các mạng xã hội đã thay đổi hoàn toàn cách mọi người giao tiếp với nhau Các mối quan hệ lãng mạn diễn ra công khai trên Venmo Các kỹ sư meta có thể rà soát danh sách mời dự tiệc sinh nhật của người dùng Tình bạn, sự quen biết và tình đồng nghiệp đều để lại những dấu vết dữ liệu trực tuyến rộng lớn

- Một số người cho rằng những con đường mòn này - danh sách bạn bè trên Facebook hoặc kết nối LinkedIn - không có nhiều ý nghĩa Chẳng hạn, nhà nhân chủng học Robin Dunbar đã phát hiện ra rằng mọi người chỉ có thể duy trì khoảng

150 mối quan hệ tình cờ tại một thời điểm; về mặt nhận thức, con người không thể xử lý nhiều hơn thế Theo quan điểm của Dunbar, việc có hơn 150 kết nối kỹ thuật số nói lên rất ít về đời sống xã hội hàng ngày của một người

- Mặc dù vậy, danh mục những người quen nhất của mạng xã hội có một loại ý nghĩa khác Giờ đây, nhiều mối quan hệ bắt đầu trực tuyến, dữ liệu về thế giới xã hội của bạn sẽ tác động đến những người bạn làm quen tiếp theo Dưới đây là một số ví dụ về khoa học dữ liệu thúc đẩy kết nối con người.

4.7.1 Quản lí các cuộc gặp trên các ứng dụng hẹn hò

- Khi những người độc thân hợp nhau trên Tinder, họ có thể cảm ơn các nhà khoa học dữ liệu của công ty Một thuật toán được chế tạo cẩn thận hoạt động ở hậu trường, giúp tăng xác suất trùng khớp Ngày xửa ngày xưa, thuật toán này dựa trên điểm Elo của người dùng, về cơ bản là xếp hạng mức độ hấp dẫn Giờ đây, nó ưu tiên các kết quả phù hợp giữa những người dùng đang hoạt động, những người dùng ở gần nhau và những người dùng có vẻ giống “gu” của nhau dựa trên lịch sử vuốt của họ.

4.7.2 Gợi ý kết bạn trên Facebook

- Tất nhiên, nền tảng Facebook của Meta sử dụng khoa học dữ liệu theo nhiều cách khác nhau, nhưng một trong những tính năng dựa trên dữ liệu nổi bật hơn của nó là thanh bên “Những người bạn có thể biết”, xuất hiện trên màn hình chính của mạng xã hội Thông thường, nó dựa trên danh sách bạn bè của người dùng, những người họ đã được gắn thẻ trong ảnh và nơi họ đã làm việc và đi học Nó cũng dựa trên “toán học thực sự tốt”, theo Washington Post — cụ thể là một loại khoa học dữ liệu được gọi là khoa học mạng, về cơ bản dự báo sự phát triển của mạng xã hội của người dùng dựa trên sự phát triển của mạng của những người dùng tương tự.

Ứng dụng khoa học dữ liệu Fintech

Công nghệ tài chính và khoa học dữ liệu đi đôi với nhau, vì các công ty tài chính thường sử dụng thông tin chi tiết rút ra từ dữ liệu thô để đưa ra quyết định cho vay và tạo báo cáo tín dụng Khoa học dữ liệu cũng được sử dụng để dự đoán hành vi của người tiêu dùng, chạy đánh giá rủi ro và tối ưu hóa danh mục tài chính và tài sản Dưới đây là một số công ty sử dụng khoa học dữ liệu trong các ứng dụng fintech.

4.8.1 Đẩy mạnh khai thác bảo hiểm nhân thọ

- Bestow cung cấp các giải pháp bảo hiểm nhân thọ cho cả cá nhân và doanh nghiệp Mục tiêu của công ty là làm cho bảo hiểm nhân thọ có thể tiếp cận và giá cả phải chăng cho mọi người Nó sử dụng khoa học dữ liệu để hỗ trợ quy trình bảo lãnh phát hành tăng tốc của mình, quy trình lấy dữ liệu từ các nguồn bên ngoài như báo cáo tín dụng, hồ sơ xe cơ giới hoặc Cục Thông tin Y tế Bảo lãnh phát hành nhanh được hỗ trợ bởi các thuật toán dự đoán của khoa học dữ liệu để xác định các yếu tố rủi ro của người nộp đơn.

4.8.2 Tạo báo cáo tín dụng

- TransUnion là một cơ quan báo cáo tín dụng được biết đến với việc cung cấp các báo cáo tín dụng, dịch vụ theo dõi gian lận và cho vay tài chính Nhóm khoa học dữ liệu của công ty chịu trách nhiệm tạo ra các mô hình dự đoán dựa trên báo cáo dữ liệu từ các đại lý ô tô đến các nhà bán lẻ đến các công ty thế chấp Công ty sử dụng khoa học dữ liệu để trích xuất thông tin chuyên sâu từ cả dữ liệu tín dụng cá nhân và dữ liệu hồ sơ công khai Những hiểu biết sâu sắc này được các tổ chức tài chính và người cho vay sử dụng để đưa ra quyết định sáng suốt về việc mở rộng các ưu đãi tín dụng và cơ hội cho vay.

4.8.3 Thu thập dữ liệu bảng lương

- Pinwheel sử dụng khoa học dữ liệu để cung cấp giải pháp trả lương trong ngành ngân hàng và cho vay Luồng thu nhập của Pinwheel cung cấp cho các tổ chức tài chính dữ liệu về thời gian và sự có mặt của khách hàng, cũng như dữ liệu bảng lương lịch sử, thu nhập tích lũy và thu nhập dự kiến Hệ thống này dựa trên các dự đoán về dữ liệu lịch sử được tổng hợp và cho phép các công ty tài chính cập nhật về thu nhập và lịch sử việc làm của khách hàng.

TƯƠNG LAI CỦA NGHỀ KHOA HỌC DỮ LIỆU

Dự đoán về xu hướng nghề nghiệp trong tương lai của ngành khoa học dữ liệu

- Khoa học dữ liệu hiện nay chưa có định nghĩa chính xác vì nó có vô số cách vận hành Tuy nhiên, định nghĩa của khoa học dữ liệu sẽ trở nên chuyên sâu và chặt chẽ hơn vì nó sớm muộn sẽ liên kết với những lĩnh vực thiết yếu khác Khi đó, bức tranh toàn cảnh về tương lai ngành Khoa học dữ liệu sẽ ngày càng rõ ràng hơn.

- Trong tương lai gần, những nhà khoa học dữ liệu sẽ có khả năng được trọng dụng trong nhiều lĩnh vực kinh doanh lẫn những ngành nghề thử thách hơn Chiều hướng sử dụng khoa học dữ liệu ngày càng xê dịch sang lĩnh vực kinh doanh sẽ giúp nhiều ngành nghề liên quan có bước tiến vượt bậc.

- Tương lai ngành khoa học dữ liệu có thể phát triển theo nhiều hướng Theo đó, các nhà khoa học tổng hợp thành 3 xu hướng phát triển chính và nhắc về khái niệm máy tính lượng tử: a) Cá nhân hóa nâng cao

 Hàng tỷ người dùng khắp thế giới đang sở hữu điện thoại thông minh, đồng hồ thông minh và nhiều thiết bị điện tử khác Người dùng tạo ra lượng lớn data, trở thành tiềm năng cho các nền công nghiệp để đào sâu nhu cầu thị trường Nhờ đó, các doanh nghiệp có thể tối đa hóa nguồn thu lợi nhuận, cũng như trau dồi hiểu biết về nền tảng người dùng. b) Kết quả khảo sát và tìm kiếm nâng cao cho người dùng

 Thuật toán Machine Learning cho phép chúng ta có được kết quả tìm kiếm chính xác và tương thích nhất Sử dụng thuật toán Machine Learning nâng cao của Google giúp chúng ta có được nội dung dựa trên lượng tìm kiếm cũ Những kết quả này được dự đoán tăng lên chính xác hơn trước rất nhiều. c) Môi trường mã hóa miễn phí

 Với sự hỗ trợ của các công cụ Machine Learning, những phần mềm hiện nay đã phát triển đến một mức mà các tiến sĩ không còn phải hiểu sâu về các bước chúng vận hành nữa Pytorch và TensorFlow được tận dụng là kết quả của quá trình tăng trưởng thần tốc của Data Science. d) Hệ điều hành lượng tử

 Tiềm năng của hệ điều hành Quantum và Data Science rất lớn trong tương lai Machine Learning có thể thúc đẩy thông tin nhạy bén hơn với tốc độ rà soát và lưu trữ Dựa trên đó, thời gian cần để giải quyết những vấn đề phức tạp sẽ được rút ngắn Nhờ vậy, nền y tế – chăm sóc sức khỏe sẽ phát triển tốt đẹp hơn.

Tiềm năng của khoa học dữ liệu trong các lĩnh vực khác

a) Học máy dựa trên dữ liệu thô: Học máy dựa trên dữ liệu thô đang trở thành một xu hướng mới trong Data Science Điều này cho phép học máy được áp dụng trực tiếp trên dữ liệu thô mà không cần phải tiền xử lý và làm sạch dữ liệu trước đó. b) Tích hợp AI trong các sản phẩm và dịch vụ: Các công ty đang ngày càng đầu tư vào việc tích hợp trí tuệ nhân tạo (AI) vào các sản phẩm và dịch vụ của mình. Điều này giúp cải thiện trải nghiệm khách hàng, tăng hiệu quả sản xuất và giảm chi phí. c) Tăng cường bảo mật và an ninh thông tin: Với sự gia tăng của các cuộc tấn công mạng và các vấn đề liên quan đến bảo mật thông tin, việc áp dụng Data Science để giải quyết các vấn đề bảo mật và an ninh thông tin là rất cần thiết Việc sử dụng các mô hình học máy để phát hiện các hành vi bất thường hoặc các mẫu tấn công mới đang trở thành một lĩnh vực tiềm năng trong Data Science. d) Tập trung vào tăng cường khả năng diễn giải của mô hình: Trong quá trình phát triển mô hình, việc tăng cường khả năng diễn giải của mô hình là rất quan trọng. Việc diễn giải mô hình giúp người dùng hiểu rõ hơn về cách hoạt động của mô hình, đồng thời giúp tăng tính minh bạch và tin tưởng từ phía người dùng. e) Sự phát triển của Data Science trên nền tảng đám mây: Việc sử dụng nền tảng đám mây để triển khai các dự án Data Science đang trở thành một xu hướng mới trong tương lai của Data Science Nền tảng đám mây cho phép các chuyên gia Data Science sử dụng các công cụ và tài nguyên tính toán mạnh mẽ và linh hoạt, đồng thời giúp tiết kiệm chi phí về phần cứng và phần mềm Bằng cách sử dụng các dịch vụ đám mây như Amazon Web Services, Microsoft Azure hay Google Cloud Platform, các chuyên gia Data Science có thể triển khai các dự án của mình một cách dễ dàng và linh hoạt hơn Ngoài ra, nền tảng đám mây cũng hỗ trợ việc lưu trữ và quản lý dữ liệu, giúp cho việc truy xuất và sử dụng dữ liệu trở nên dễ dàng hơn. f) Xu hướng sử dụng Machine Learning trên thiết bị di động cũng đang được dự đoán sẽ trở thành một xu hướng mới trong tương lai của Data Science Với sự phát triển của các công nghệ di động, các chuyên gia Data Science có thể áp dụng các mô hình Machine Learning trực tiếp trên các thiết bị di động Điều này đem lại nhiều lợi ích như tăng tốc độ xử lý dữ liệu, giảm thiểu thời gian truyền tải dữ liệu qua mạng, đồng thời giúp bảo mật dữ liệu tốt hơn. g) Ngoài ra, việc áp dụng AI vào các lĩnh vực như y tế, giáo dục, nông nghiệp, thương mại điện tử, chăm sóc khách hàng, cũng được dự đoán sẽ phát triển mạnh trong tương lai Với sự tiến bộ của các mô hình Machine Learning và Deep Learning, AI có thể được sử dụng để phát hiện bệnh, dự báo thời tiết, tối ưu hóa chuỗi cung ứng, phân tích và dự đoán hành vi người dùng trong thương mại điện tử, và nhiều ứng dụng khác.

Trong báo cáo này, chúng ta đã tìm hiểu và nghiên cứu về khoa học dữ liệu và ứng dụng của nó trong các lĩnh vực khác nhau.

Qua quá trình nghiên cứu, chúng ta nhận thấy rằng khoa học dữ liệu có vai trò quan trọng trong việc giúp chúng ta hiểu và nắm bắt thông tin từ dữ liệu lớn Ngoài ra chúng ta cũng nhận thấy rằng việc áp dụng khoa học dữ liệu không chỉ có lợi ích trong lĩnh vực kinh doanh mà còn trong nhiều lĩnh vực khác như y tế, giáo dục, marketing và vô cùng nhiều ngành nghề khác nữa.

Tổng kết lại, báo cáo này đã trình bày về khoa học dữ liệu, các phương pháp và công cụ áp dụng, cũng như ứng dụng của khoa học dữ liệu trong thực tế Chúng em tin rằng việc nghiên cứu và phát triển khoa học dữ liệu sẽ tiếp tục đóng vai trò quan trọng trong việc giải quyết những thách thức và tận dụng cơ hội dữ liệu trong tương lai.

Hy vọng rằng nội dung của báo cáo này có thể đóng góp vào sự hiểu biết và nhận thức về khoa học dữ liệu của chúng ta và khả năng áp dụng của nó.

Tiêu đề	Tìm Hiểu Và Trình Bày Hiểu Biết Của Em Về Nghề Khoa Học Dữ Liệu (Data Science)
Tác giả	Nguyễn Việt Hoàng, Hoàng Mạnh Hùng, Hoàng Phi Hùng, Mai Quốc Huy, Nguyễn Ngọc Huy
Người hướng dẫn	Trần Thanh Huân
Trường học	Trường Đại Học Công Nghiệp Hà Nội
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Báo Cáo Thực Nghiệm/Thí Nghiệm
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	40
Dung lượng	642,96 KB