Đó là những thách thức lớn mà các doanh nghiệp phải đối mặt trong việc ứng dụng khoa học dữ liệu trong hoạt động kinh doanh của mình.. Theo IBM – Một tập đoàn về công nghệ máy tính đa qu
Trang 1NGÂN HÀNG NHÀ NƯỚC VIỆT NAM BỘ GIÁO DỤC VÀ ĐÀOTẠO
TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP HỒ CHÍ MINH
BỘ MÔN TOÁN KINH TẾ
Trang 2NGÂN HÀNG NHÀ NƯỚC VIỆT NAM BỘ GIÁO DỤC VÀ ĐÀOTẠO
TRƯỜNG ĐẠI HỌC NGÂN HÀNG TP HỒ CHÍ MINH
BỘ MÔN TOÁN KINH TẾ
Trang 3MỤC LỤC
LỜI MỞ ĐẦU 1
CHƯƠNG 1: KHÁM PHÁ ĐỊNH NGHĨA VÀ TẦM QUAN TRỌNG CỦA KHOA HỌC DỮ LIỆU TRONG KINH DOANH 2
1.1 Tổng quan về khoa học dữ liệu 2
1.1.1 Khái niệm khoa học dữ liệu 2
1.1.2 Sự kết hợp giữa khoa học dữ liệu, dữ liệu lớn và học máy 2
1.1.3 Tính tất yếu của việc ứng dụng khoa học dữ liệu 3
1.2 Ứng dụng khoa học dữ liệu trong kinh doanh 4
1.2.1 Quy trình khoa học dữ liệu 4
1.2.2 Ứng dụng quy trình khoa học dữ liệu OSEMN trong kinh doanh 7
CHƯƠNG 2: CƠ HỘI TỪ VIỆC ÁP DỤNG KHOA HỌC DỮ LIỆU TRONG KINH DOANH 8
2.1 Cải thiện hiệu quả kinh doanh 8
2.1.1 Tối ưu hóa chuỗi cung ứng 8
2.1.2 Tối đa hóa lợi nhuận trong việc quyết định giá sản phẩm 9
2.2 Nắm bắt được xu hướng thị trường và phân khúc khách hàng 9
2.2.1 Phân tích thị trường 9
2.2.2 Phân khúc khách hàng 10
2.3 Quản lý rủi ro trong kinh doanh 10
CHƯƠNG 3: THÁCH THỨC TRONG VIỆC ÁP DỤNG KHOA HỌC DỮ LIỆU TRONG KINH DOANH 11
3.1 Vấn đề về lưu trữ vào bảo vệ quyền riêng tư dữ liệu cá nhân 11
3.1.1 Thách thức trong việc thu thập dữ liệu 11
3.1.2 Thách thức trong việc lưu trữ dữ liệu 11
3.1.3 Thách thức trong việc chia sẻ dữ liệu 12
3.1.4 Thách thức trong việc bảo mật dữ liệu 12
Trang 43.2 Thiếu nhân lực có kỹ năng và trình độ chất lượng cao 12
3.2.1 Tình hình nhân sự ngành khoa học dữ liệu hiện nay 12
3.2.2 Nguyên nhân dẫn đến sự thiếu hụt nhân sự chất lượng cao 13
3.3 Khó khăn trong việc ứng dụng và xử lí dữ liệu liệu lớn 13
CHƯƠNG 4: GIẢI PHÁP VƯỢT QUA NHỮNG THÁCH THỨC KHI ÁP DỤNG KHOA HỌC DỮ LIỆU VÀO KINH DOANH 13
4.1 Đào tạo và phát triển nhân lực 13
4.2 Xây dựng chính sách bảo mật dữ liệu 15
4.3 Sử dụng các công cụ và công nghệ hiện đại tiếp cận, xử lí dữ liệu lớn 15
4.3.1 Hệ quản trị cơ sở liệu 15
4.3.2 Công cụ trực quan hóa dữ liệu 16
CHƯƠNG 5: KẾT LUẬN 16
Danh mục tài liệu tham khảo 17
DANH MỤC TỪ VIẾT TẮT
System
Hệ thống Định vị Toàn cầu
System
Hệ quản trị Cơ sở dữ liệu
Management System
Hệ quản trị Cơ sỡ dữ liệu quan hệ
LỜI MỞ ĐẦU
Trong thời đại bùng nổ thông tin số như hiện nay, chúng ta nghe rất nhiều các cụm từ liên quan đến “Data” hay “Dữ liệu” Theo xu hướng tất yếu, nền kinh tế hiện đại đang hướng tới nền kinh tế số và sản xuất thông minh, khi công nghệ số và
Trang 5trí tuệ nhân tạo được áp dụng vào mọi lĩnh vực kinh tế Việc áp dụng khoa học dữ liệu vào trong quy trình quản trị đã trở nên vô cùng cần thiết đối với các doanh nghiệp Khoa học dữ liệu rất có giá trị từ góc độ kinh doanh Bằng việc khai phá, phân tích dữ liệu thô từ đó đưa ra các thông tin có giá trị, giúp ích cho doanh nghiệptrong việc đưa ra quyết định thay vì đưa ra các chiến lược hành động dựa vào trực giác Khoa học dữ liệu đã cho thấy khả năng to lớn của mình, mở ra cánh cửa cơ hộicho các doanh nghiệp hiểu rõ hơn về thị trường, khách hàng và cả chính họ
Tuy nhiên, việc ứng dụng khoa học dữ liệu vào kinh doanh không chỉ mang lại cơ hội mà còn đầy rẫy những thách thức Phần lớn các hệ thống thông tin trong doanh nghiệp đều đòi hỏi phải duy trì toàn bộ dữ liệu ở quá khứ, không ngừng bổ sung thêm các dữ liệu mới được ghi nhận ở hiện tại, và dự đoán các kết quả sẽ xuất hiện trong tương lai Lượng dữ liệu sinh ra ngày càng lớn và phức tạp đòi hỏi các cơ
sở dữ liệu được xây dựng phải đáp ứng được những yêu cầu lưu trữ, quản lý, bảo mật từ “Dữ liệu lớn” hay “Big data” Đồng thời, việc tuyển dụng những nhân sự phù hợp vào các vị trí quan trọng trong ngành khoa học dữ liệu cũng không dễ dàng Đó là những thách thức lớn mà các doanh nghiệp phải đối mặt trong việc ứng dụng khoa học dữ liệu trong hoạt động kinh doanh của mình
Khi khoa học dữ liệu được đưa vào quy trình kinh doanh, nó đã mở ra vô số
cơ hội cho các doanh nghiệp Tuy nhiên, cùng với những cơ hội này, chúng cũng cónhững thách thức đáng kể Chính vì vậy, bài tiểu luận này chúng ta sẽ cùng đi sâu vào tìm hiểu và nghiên cứu những cơ hội và khó khăn mà khoa học dữ liệu mang lại Ngoài ra, bài luận này giúp cho người đọc có cái nhìn khách quan hơn về ngànhKhoa học dữ liệu và hiểu thêm cách một quy trình khoa học dữ liệu vận hành
Trang 6CHƯƠNG 1: KHÁM PHÁ ĐỊNH NGHĨA VÀ TẦM QUAN TRỌNG CỦA KHOA HỌC DỮ LIỆU TRONG KINH DOANH
1.1 Tổng quan về khoa học dữ liệu
1.1.1 Khái niệm khoa học dữ liệu
Trước tiên, ta hãy cùng nhau đi tìm hiểu về khái niệm khoa học dữ liệu Theo IBM – Một tập đoàn về công nghệ máy tính đa quốc gia có trụ sở tại Mỹ, khoa học dữ liệu được cho rằng là lĩnh vực có sự kết hợp giữa toán học và thống kê,lập trình chuyên biệt, phân tích nâng cao, trí tuệ nhân tạo (AI) và học máy phù hợp với chuyên môn về chủ đề cụ thể để khám phá những hiểu biết sâu sắc từ dữ liệu cógiá trị của tổ chức Những hiểu biết sâu sắc này có thể được sử dụng để hướng dẫn việc ra quyết định và lập kế hoạch chiến lược [CITATION IBM \l 1066 ]
Còn theo Microsoft, khoa học dữ liệu được giới thiệu là một lĩnh vực nghiên cứu khoa học về dữ liệu để thu thập kiến thức Lĩnh vực này kết hợp nhiều nguyên tắc để trích xuất kiến thức từ các bộ dữ liệu khổng lồ nhằm mục đích đưa ra các quyết định và dự đoán sáng suốt [ CITATION Mic24 \l 1066 ]
Nói một cách ngắn gọn, khoa học dữ liệu là lĩnh vực nghiên cứu liên quan đến việc trích xuất thông tin và tri thức từ dữ liệu thô Từ đó, các doanh nghiệp hay
tổ chức có thể ra các quyết định, hành động cụ thể đáp ứng mục tiêu đã đề ra dựa vào các thông tin, kiến thức đã rút ra được từ dữ liệu
1.1.2 Sự kết hợp giữa khoa học dữ liệu, dữ liệu lớn và học máy
Khoa học dữ liệu, Machine Learning (học máy) và Big Data (dữ liệu lớn) là các công cụ hiệu quả hỗ trợ việc giải quyết các vấn đề kinh doanh trong thời đại số hiện nay Vậy học máy và dữ liệu lớn là gì? Chúng có vai trò gì trong các dự án khoa học dữ liệu?
a) Học máy (Machine learning)
Theo Oracle – một công ty phần mềm và cơ sở dữ liệu lớn nhất thế giới cho rằng [ CITATION Ora24 \l 1066 ], học máy hay “ Machine learning” là một
Trang 7phương pháp cho phép bạn giải quyết các vấn đề kinh doanh quan trọng của doanh nghiệp, đồng thời đẩy nhanh quá trình phát triển và triển khai các giải pháp dựa trênkhoa học dữ liệu và máy học Hưởng lợi từ khả năng mở rộng, tự động hóa và bảo mật của máy học để đáp ứng các thách thức trong việc khám phá và chuẩn bị dữ liệu cũng như xây dựng, đánh giá và triển khai mô hình
Có thể hiểu đơn giản, học máy (Machine learning) tập trung vào việc phát triển các thuật toán nhằm cho phép máy tính có thể tự động học mà không phải cần thực hiện các thao tác cụ thể, được ứng dụng vào các dự án khoa học dữ liệu trong việc làm sạch, khai phá dữ liệu và xây dựng mô hình
b) Dữ liệu lớn (Big data)
Theo Chiradeep BasuMallick – một “technical writer” chuyên gia phiên dịch, nghiên cứu các lĩnh vực công nghệ, kỹ thuật nhận định rằng [CITATION Chi22 \l 1066 ], dữ liệu lớn là một tập hợp khổng lồ gồm các bộ dữ liệu có cấu trúc,không cấu trúc và bán cấu trúc, rất khó quản lý bằng các công cụ xử lý dữ liệu truyền thống Nó đòi hỏi các cơ sở hạ tầng dữ liệu đủ lớn để quản lý, phân tích và chuyển đổi thành thông tin chuyên sâu
1.1.3 Tính tất yếu của việc ứng dụng khoa học dữ liệu
Theo ông Nguyễn Huy Dũng, Thứ trưởng Bộ Thông tin và Truyền thông chia sẻ, dữ liệu là một cấu phần quan trọng được hình thành, tạo lập và trở thành một loại tài sản mới của doanh nghiệp [CITATION Lươ23 \l 1066 ]
Trong thời công nghệ thông tin phát triển đổi mới từng ngày, lượng dữ liệu cũng không ngừng tăng lên Lượng dữ liệu được sinh ra từng ngày, từng giờ, thậm chí là từng giây theo cấp lũy thừa Dữ liệu được sinh ra từ mọi hoạt động của con người, chẳng hạn đơn giản như chúng ta chụp một tấm hình, thả một trạng thái cảm xúc vào một bài viết ở trên mạng xã hội Tất cả những hành động đó đều được ghi nhận lại và được gọi là dữ liệu Lượng dữ liệu ngày càng cộng dồn tạo nên một khối
dữ liệu khổng lồ được gọi chung là “Dữ liệu lớn” hay “Big data” Dữ liệu càng lớn
Trang 8thì việc phân tích và lưu trữ dữ liệu càng khó khăn Tuy nhiên, chúng cũng mang lạinhiều lợi ích to lớn khi ta tận dụng được khối dữ liệu đồ sợ đó Ban đầu, lượng dữ liệu chưa được xử lí chắc chắn sẽ không có ý nghĩa, không có giá trị Nhưng sau khiứng dụng khoa học dữ liệu để xử lí, bộ dữ liệu sẽ được trích xuất thành những thôngtin mang giá trị đặc biệt giúp ích cho quá trình quản trị ra quyết định đối với các tổ chức và doanh nghiệp Chính vì thực tế đó, khoa học dữ liệu đã trở thành một yếu tốquan trọng không thể thiếu, giúp doanh nghiệp thích nghi và phát triển trong thế giới ngày càng số hóa.
Tại Hội thảo và Triển lãm quốc tế về An toàn không gian mạng (Vietnam Security Summit 2023) do Bộ Thông tin và Truyền thông và Ủy ban nhân dân thànhphố Hồ Chí Minh tổ chức mới đây, lãnh đạo Cục An toàn thông tin khẳng định, dữ liệu số chính là tài nguyên số quốc gia, là nguyên liệu đầu vào của nền kinh tế số, trong kỷ nguyên số Với lượng dữ liệu số dự kiến được tạo ra trong năm 2023 lên đến 120 Zettabyte, gấp 60 lần so với năm 2010 Đây được cho là "mỏ vàng" cho cácquốc gia, tổ chức, doanh nghiệp khai thác, tận dụng để đón đầu xu hướng vượt lên một các hợp pháp [CITATION Anh231 \l 1066 ] Mỗi doanh nghiệp hay tổ chức nào đều sở hữu một khối dữ liệu đồ sộ Để có thể tận dụng tối ưu nguồn tài sản dữ liệu này thì các doanh nghiệp, tổ chức phải không ngừng chuyển đổi nhờ vào công nghệ và dữ liệu số Chính vì thế, khoa học dữ liệu góp phần quan trọng trong việc giúp doanh nghiệp khai thác tối đa nguồn dữ liệu này Muốn vậy, mỗi doanh nghiệp
và tổ chức cần xây dựng cho mình một văn hóa làm việc với dữ liệu mạnh mẽ Đồng thời, các doanh nghiệp, tổ chức cần phải quản lý thông tin mình một cách cẩnthận và hiệu quả tạo điều kiện tốt nhất cho việc hỗ trợ ra quyết định
1.2 Ứng dụng khoa học dữ liệu trong kinh doanh
1.2.1 Quy trình khoa học dữ liệu
Khoa học dữ liệu đã và đang được áp dụng vào nhiều lĩnh vực trong nhiều doanh nghiệp và tổ chức Vậy khi muốn ứng dụng khoa học dữ liệu vào các hoạt động kinh doanh, chúng ta có những quy trình gì và phải trải qua những bước nào?
Trang 9Trong phần này, chúng ta sẽ cùng nhau đi tìm hiểu về một trong những quy trình khoa học dữ liệu được ứng dụng phổ biến trong hoạt động kinh doanh của các doanh nghiệp Đó là OSEMN, theo Nick Hotz [ CITATION NIC23 \l 1066 ] quy trình khoa học dữ liệu OSEMN gồm 5 bước, mỗi chữ cái trong tên đại diện cho mộtbước trong quy trình làm việc.
Hình 1.1 Quy trình khoa học dữ liệu OSEMN.
(Nguồn: web [CITATION Ama24 \l 1066 ])
Để hiểu thêm về cách hoạt động của quy trình khoa học dữ liệu OSEMN, chúng ta cùng nhau đi tìm hiểu từng bước trong quy trình này:
O – Thu thập dữ liệu (Obtain data)
Bước đầu tiên, đơn giản là chúng ta đi tìm và thu nhập dữ liệu cần thiết cho
dự án Có rất nhiều cách để lấy dữ liệu, chúng ta có thể lấy dữ liệu từ chính cơ sở
dữ liệu của doanh nghiệp hoặc dữ liệu từ các tổ chức, doanh nghiệp bên ngoài Chúng ta còn có thể tự thu thập dữ liệu bằng các khảo sát hoặc thí nghiệm Ngoài
ra, chúng ta có thể mua dữ liệu từ các nguồn đáng tin cậy khác [ CITATION NIC23
\l 1066 ]
S – Lọc sạch dữ liệu (Scrub data)
Dữ liệu sau khi được thu nhập thường không được như định dạng mong muốn để đánh giá Bộ dữ liệu vừa tìm được sẽ có những điểm dữ liệu không nhất
Trang 10quán, có sự sai sót hoặc không liên quan đến mục tiêu phân tích Nói một cách đơn giản, phần lớn những gì thu được là dữ liệu nhiễu Do đó, bước qua giai đoạn này chúng ta phải sàng lọc , định dạng dữ liệu thô sao cho phù hợp với mục tiêu của người sử dụng [ CITATION TOM23 \l 1066 ],[ CITATION Bảo23 \l 1066 ]
E – Khai phá dữ liệu (Explore data)
Bước đến giai đoạn này, chúng ta sẽ khám phá dữ liệu đã được định dạng bằng các phương pháp thống kê, sử dụng các biểu đồ và công cụ Từ đó, tìm ra được mối quan hệ và những đặc điểm đáng chú ý trong bộ dữ liệu Mục đích của giai đoạn này nhằm cho ta có cái nhìn tổng quan về dữ liệu, hiểu được cấu trúc, phân bố và biến động của dữ liệu, phát hiện ra các giá trị bất thường hoặc thiếu sót
Từ đó, giúp ta hiểu rõ hơn về ý nghĩa của dữ liệu làm tiền đề để xây dựng và thực hiện các bước tiếp theo [ CITATION Cha20 \l 1066 ]
M – Mô hình hóa dữ liệu (Model data)
Xây dựng mô hình dữ liệu là một bước quan trọng trong quy trình OSEMN Mục đích của giai đoạn này là để tạo ra được mô hình dự đoán tốt nhất, giúp đỡ các chủ doanh nghiệp trong việc ra quyết định Đến với bước này, chúng ta phải sử dụng các thuật toán và kỹ thuật máy tính từ đó xây dựng các mô hình dự phân tích
và phân tích Các mô hình này được xây dựng, huấn luyện, đánh giá dựa vào
phương pháp học máy Sau đó, các mô hình này phải được kiểm tra và tinh chỉnh nhiều lần để đưa ra được hiệu suất tốt nhất có thể [ CITATION NIC23 \l 1066 ]
N – Diễn giải kết quả (Interpret results)
Theo [ CITATION Ama24 \l 1066 ], các nhà khoa học dữ liệu hợp tác cùng các chuyên gia phân tích và doanh nghiệp để chuyển đổi thông tin chi tiết về dữ liệuthành hành động Họ tạo ra các sơ đồ, đồ thị và biểu đồ để thể hiện những xu hướng
và dự đoán Tóm tắt dữ liệu giúp các bên liên quan hiểu rõ và triển khai kết quả mộtcách hữu hiệu
Trang 11Vậy là chúng ta đã đi tìm hiểu tổng quan về từng bước trong quy trình
OSEMN Tuy nhiên, để quy trình có thể được áp dụng và vận hành không đơn giản như vậy mà còn phải trải qua những bước chi tiết phức tạp hơn Đồng thời, đòi hỏi các nhà khoa học dữ liệu cũng phải có trình độ kỹ thuật cao, vận dụng các công cụ
và thuật toán mới có thể xây dựng được một quy trình hoàn chỉnh
1.2.2 Ứng dụng quy trình khoa học dữ liệu OSEMN trong kinh doanh
Vậy là chúng ta đã đi tìm hiểu sơ lược từng bước trong quy trình khoa học
dữ liệu OSEMN, hiểu được ý nghĩa và cách thức vận hành của nó Nhưng chúng ta
sẽ đặt ra một câu hỏi, vậy quy trình OSEMN sẽ ứng dụng trong hoạt động kinh doanh vào những lĩnh vực nào ?
Trong phần này, chúng ta sẽ hiểu rõ hơn được vai trò và tầm quan trọng mà khoa học dữ liệu đóng góp trong các ngành kinh doanh Theo Ivan Reznikov
[CITATION Rez23 \l 1066 ]- một nhà khoa học dữ liệu nhận định rằng, OSEMN là một phương pháp phổ biến để tổ chức và thực hiện các dự án khoa học dữ liệu Quytrình OSEMN giúp xây dựng mô hình và định hình cách tiếp cận vấn đề kinh doanh
từ góc độ khoa học dữ liệu, từ việc gom nhặt dữ liệu cho đến việc ứng dụng kết quả vào quyết định kinh doanh Mỗi bước trong quy trình đều đóng vai trò quan trọng
và cần được thực hiện cẩn thận để đảm bảo chất lượng của kết quả cuối cùng Quy trình OSEMN có thể được áp dụng vào nhiều lĩnh vực trong kinh doanh như phân tích và dự đoán:
- Tối ưu hóa chuỗi cung ứng: Khoa học dữ liệu giúp các doanh nghiệp tối ưu hóa chuỗi cung ứng của mình, giảm thiểu lãng phí và tăng hiệu suất
- Hỗ trợ quyết định giá cả: Bằng cách phân tích dữ liệu về giá cả và hành vi mua hàng của khách hàng, ta có thể xây dựng một mô hình để tìm ra mức giátốt nhất cho từng sản phẩm, từ đó tối đa hóa lợi nhuận
- Phân loại khách hàng: Chúng ta còn có thể sử dụng dữ liệu về hành vi và đặcđiểm của khách hàng để phân loại họ vào từng nhóm khác nhau Từ đó, tạo
ra các chiến lược tiếp thị riêng biệt cho từng nhóm đó
Trang 12- Phân tích hành vi khách hàng: Ta có thể sử dụng quy trình OSEMN để thu thập và phân tích dữ liệu về hành vi mua hàng của khách hàng, từ đó tìm ra những xu hướng mua hàng và tối ưu hóa chiến lược tiếp thị.
- Dự đoán rủi ro: Đối với các công ty tài chính, quy trình OSEMN có thể được
sử dụng để phân tích dữ liệu về khách hàng và xây dựng mô hình dự đoán rủi
ro, giúp công ty đưa ra quyết định về các chiến lược đúng đắn
CHƯƠNG 2: CƠ HỘI TỪ VIỆC ÁP DỤNG KHOA HỌC DỮ LIỆU TRONG KINH DOANH
Qua chương đầu tiên, chúng ta nắm được định nghĩa của khoa học dữ liệu Đồng thời, giới thiệu tổng quan cho người đọc về cách quy trình khoa học dữ liệu hoạt động và các lĩnh vực kinh doanh được ứng dụng khoa học dữ liệu Nhưng việc ứng dụng khoa dữ liệu đó sẽ mở ra cho doanh nghiệp những cơ hội nào? Để tìm hiểu vấn đề này, chúng ta sẽ cũng nhau đi vào nghiên cứu về những lợi ích và cơ hội phát triển mà khoa học dữ liệu mang lại khi được áp dụng vào quá trình hoạt động kinh doanh của doanh nghiệp
2.1 Cải thiện hiệu quả kinh doanh
2.1.1 Tối ưu hóa chuỗi cung ứng
Bằng việc ứng dụng học máy để tối ưu hóa hoạt động của chuỗi cung ứng Đồng thời, phân tích tập dữ liệu lớn của doanh nghiệp Các nhà khoa học dữ liệu có thể xây dựng một quy trình chuỗi cung ứng tự động hóa, giảm thiểu các chi phí cho quá trình hoạt động từ sản xuất cho đến vận chuyển theo nhiều cách sau:
- Dự báo nhu cầu sản xuất: Bằng việc áp dụng các kỹ thuật phân tích và ứng dụng học máy để xây dựng mô hình dự báo Các nhà khoa học dữ liệu có thểcung cấp những số liệu cần thiết cho doanh nghiệp trong việc sản xuất Qua
đó, doanh nghiệp có thể sản xuất đúng số lượng sản phẩm cần thiết để đáp ứng nhu cầu, tối thiểu chi phí sản xuất
- Lựa chọn tuyến đường vận chuyển: Các nhà khoa học dữ liệu sẽ thu thập dữ liệu từ các tuyến đường, thời gian di chuyển trên từng tuyến đường đó, điều