Với sự phát triển của đữ liệu lớn, con người không chỉ chứng kiến sự thay đổi về quy m6 ma con dam chim trong lợi ích to lớn mà nó mang lại.. Đề thấy được sự phát triển của lĩnh vực này,
Trang 1NGAN HANG NHA NUGC VIET NAM BO GIAO DUC VA DAO TAO
TRUONG DAI HOC NGAN HANG TP HO CHi MINH
KHOA HE THONG THONG TIN QUAN LY
TIEU LUAN CA NHAN
DE TAI: DU LIEU LON (BIG DATA)
Sinh viên thực hiện: Nguyễn Dang Tan MSSV: 030238220228
Lớp: ITS329 231_1_D02 GVHD: Nguyễn Thị Thu Hà
Thành phố Hồ Chỉ Minh, tháng 11 năm 2023
Trang 2DANH MUC TU VIET TAT ooocccccsccsccssessesssssssssessecsscssssssesecsscsussesessessesessesseseeseesens I
DANH MUC HINH ANH, SO DO c.ccccccccsesscscccessessessessestssesesseesssessseatensseaeees I
I8 NA 1
1 Lý do chọn đề tài 2-52 ©2+2c2ExtEeSEEEkEEkvkrkrrrrerrrrrerrervee 1
2 Đối tượng và phạm vi nghiên cứu - 25s x+Se+xecxexerxerxerered 2
CHƯƠNG 1: TỎNG QUAN VỀ DỮ LIỆU LỚN (BIG DATA) - 3
1.1 Khái niệm, nguồn hình thành và đặc điểm của dữ liệu lớn 3
1.1.1 Khái niệm về dữ liệu lớn - -2- 5 5£ SE SevEeEereerrxersree 3 1.1.2 Các nguồn hình thành của dữ liệu - 25-55 ©5+55S+css<2 3
1.1.3 Quy mô, đặc điểm của Dữ liệu lớn - ¿5+ 5555555 ccssec 4
1.2 Sự Khác biệt giữa dữ liệu lớn và dữ liệu truyền thống 6 1.3 Ưu điểm, nhược điểm của dữ liệu lớn 22-5+©5s++x+cxecee 7
1.4 Các lĩnh vực ứng dụng dữ liệu lớn - 5 SĂ 5S 8
CHUONG 2: THUC TRANG VA GIAI PHAP PHAT TRIEN DU LIEU LON TẠI VIỆT NAM 25-55cSCS k2 2X TH E1 TH TH TH HH gi ước 9 2.1 Thực trạng về phát triển dữ liệu lớn tại Việt Nam 9
2.2 Trở ngại của doanh nghiệp khi ứng dụng đữ liệu lớn - 10
2.3 Ứng dụng dữ liệu lớn tại thành phố hồ chí minh - 11 2.4 Đề xuất giải pháp để phát triển dữ liệu lớn ở thành phố Hồ Chí Minh,
mở rộng phạm vi ở Việt Nam SÁT HH TH HH kt 12
Trang 3DANH MUC TU VIET TAT
DANH MUC HINH ANH, SO DO
Hinh 1 Dữ liệu lớn (Big Data)3
Hinh 2 Các đặc trưng của dữ liệu lớn - c2 2212211211211 121 1111151 11111181 1111111115281 1 28k rườ
Trang 4Loi Cam Doan
Tôi xin cam đoan kết quả đạt được trong bài viết này là kết quả của cá nhân tác giả Xuyên suốt bài viết này, nội dung trình bày là sự nghiên cứu, tong hop va tham khảo của cá nhân từ nhiều nguồn khác nhau Mọi tài liệu tham khảo đều được trích dẫn và liệt kê trong phần danh mục tài liệu tham khảo, có nguồn gốc, tên tác giả, nhà xuất bản rõ ràng
Tôi chấp nhận trách nhiệm về những cam kết của mình và sẽ chấp nhận mọi
hình thức xử lý ký luật theo yêu câu
Thành phố Hồ Chỉ Minh, tháng 1l năm 2023
Tác giả
Nguyễn Đăng Tấn
Trang 5Loi mé dau
1 Ly do chon dé tai
Trong thời đại của sự chuyên đổi kỹ thuật số, sự thay đổi của internet đã diễn
ra chóng mặt, mở ra một thê giới đầy thách thức và cơ hội Lượng dữ liệu ngày càng gia tăng theo cấp số nhân, đa dạng với nhiều định dạng không theo một cấu trúc cụ thê nảo, tạo nên một định nghĩa mới: Big Data ( Dịch là đữ liệu lớn ) Dữ liệu không chỉ là con số và chữ cái, mà là bức tranh đa sắc tố của cuộc sống hiện đại, nơi mà mọi hoạt động, mọi sự kiện được shi chú và phản ánh một cách không ngừng Với sự phát triển của đữ liệu lớn, con người không chỉ chứng kiến sự thay đổi về quy m6 ma con dam chim trong lợi ích to lớn mà nó mang lại Từ lĩnh vực giáo dục đến y tế, từ các ngành hàng bán lẻ đến thương mại điện tử, dữ liệu lớn không chỉ là một công cụ mạnh mẽ mà còn là nguồn động viên cho sự đổi mới và cải tiến Việc sử dụng và ứng dụng đữ liệu lớn đã mở ra khả năng đưa ra quyết định đúng đắn hơn, tối ưu hóa hiệu suất, và tạo ra những trải nghiệm người dùng tuyệt VOL
Tuy nhiên, những lợi ích lớn này không điều đến mà không có những thách
thức đây thách thức Nguồn lực cần thiết để quản lý và xử lý lượng dữ liệu lớn là một thách thức lớn đối với các tô chức Quản lý bảo mật thông tin, bảo vệ quyền riêng tư của người dùng là những vấn đề đòi hỏi sự chú ý kỹ lưỡng từ các chuyên gia Mặc dù dữ liệu lớn mang lại tiểm năng lớn, nhưng để thực sự khai thác được giá trị của nó, chúng ta cần đối mặt và vượt qua những thách thức này
Đề thấy được sự phát triển của lĩnh vực này, tac giả đã di sâu nghiên cứu về lịch sử hình thành và phát triển, cũng như cấu trúc, ứng dụng của dữ liệu lớn, và cudi củng là đánh ø1á những cơ hội và thách thức của dữ liệu lớn tại Việt Nam
Do thời gian nghiên cứu có hạn cùng với hạn chế về tải liệu tham khảo, bai
tiêu luận vẫn còn những thiếu sót, mong nhận được sự đóng góp của độc giả
Trang 62 Đối tượng và phạm vi nghiên cứu
- _ Đối tượng nghiên cứu:
Bao gồm khái niệm về dữ liệu lớn và các khái niệm liên quan; Các ứng dụng
dữ liệu lớn tại thành phố Hồ Chí Minh; Giải pháp phát triển xu hướng dữ liệu lớn tại thành phô Hồ Chí Minh và trên toản quốc
- _ Phạm vi nghiên cứu:
Tổng quan về dữ liệu lớn, các khái niệm cơ bản
Ứng dụng của dữ liệu lớn
Thực trạng về đữ liệu lớn tại Việt Nam
Giải pháp phát triển đữ liệu lớn tại thành phố Hồ Chí Minh và toản quốc.
Trang 7CHUONG 1: TONG QUAN VE DU LIEU LON (BIG DATA)
L1 Khai niém, nguon hinh thanh va dac diém của dữ liệu lớn
L1.1 Khai niém về dữ liệu lớn
Theo thông tin của trang web của Oracle (n.đ) cho biết: Dữ liệu 16n (Big Data)
là những tập dữ liệu lớn hơn, phức tạp hơn, đặc biệt là từ những nguồn đữ liệu mới Những tập dữ liệu này quá lớn đến mức mà phần mềm xử lý dữ liệu truyền thống không thế quản lý được Nhưng những khối lượng đữ liệu không lồ này có thế được
sử dụng để giải quyết những vẫn đề kinh doanh mà bạn không thẻ giải quyết trước đây
Hinh 1 Dữ liệu lớn (Big Data) I.1.2 Các nguồn hình thành của dữ liệu
Theo Nguyễn Công Doan va Nguyễn Công Hoan (2015) từng đề cập rằng:
đữ liệu được hình thành từ 6 nguồn cơ bản như sau:
Dữ liệu hành chính (phát sinh từ chương trình của một tô chức, có thể là chính phủ hay phi chính phú) Ví dụ, hồ sơ y tế điện tử ở bệnh viện, hồ sơ bảo hiểm,
ho sơ ngân hàng ;
Trang 8Dữ liệu từ hoạt động thương mại (phát sinh từ các giao dịch giữa hai thực thé) Ví dụ, các giao dịch thé tin dung, giao địch trên mạng, bao gồm cả từ các thiết
bị di động
Dữ liệu từ các thiết bị cảm biến như hình ảnh vệ tỉnh, cảm biến đường, cảm
biến khí hậu
Dữ liệu từ các thiết bị theo dõi, ví dụ theo dõi đữ liệu từ điện thoại di động, GPS
Dữ liệu từ các hành vi, ví dụ như tìm kiếm trực tuyến về một sản phâm, một dich vụ hay bắt kỳ loại thông tin khác, trang xem trực tuyến
Dữ liệu từ các thông tin ý kiến trên các phương tiện thông tin xã hội
I1.3 Quy mô, đặc điểm của Dữ liệu lớn
Tới đây, câu hỏi được đặt ra là “ Dữ liệu như thế nào sẽ được gọi là lớn, lớn thì
sẽ là lớn tới cỡ nào?”, vì khái niệm lớn với mỗi người là khác nhau, tùy vào lượng
dữ liệu họ xử lí và quản trị mỗi ngày, Theo Viện khoa học thống kê (2015) Dữ liệu lớn sẽ có 5 đặc trưng cơ bản như sau:
Hinh 2 Các đặc trưng của dữ liệu lớn
Trang 9Khối lượng Dữ liệu (Volume): Đặc điểm quan trọng nhất của dữ liệu lớn là khối lượng rất lớn Kích thước của đữ liệu lớn ngảy càng gia tăng, và tính đến năm
2023, nó có thế đạt đến hàng zettabytes ( 1 zettabyte = 1024 exabytes ) cho một bộ
dữ liệu duy nhất Dữ liệu truyền thống thường được lưu trữ trên các thiết bị đĩa mềm hoặc đĩa cứng, trong khi với đữ liệu lớn, chúng ta thường sử dụng công nghệ
"đám mây" dé đáp ứng khả năng lưu trữ của nó
Tốc độ (Velocity): Tốc độ có thế được hiểu theo hai khía cạnh: Khía cạnh đầu tiên đó là sự gia tăng nhanh chóng về khối lượng dữ liệu (ví dụ,ở năm 2015, mỗi giây có tới 72.9 triệu yêu cầu truy cập tìm kiếm trên trang web mua sắm của Amazon) O khia canh thir 2 đó chính là xử lý dữ liệu nhanh chóng ở mức thời gian thực, có nghĩa là đữ liệu được xử lý ngay lập tức sau khi nó phát sinh (tính đến theo mili giây) Trong nhiều lĩnh vực như Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y tế - Sức khỏe, hầu hết dữ liệu lớn được xử lý theo thời gian thực Công nghệ xử ly dữ liệu lớn hiện đại cho phép chúng ta xử lý dữ liệu trước khi nó được lưu trữ vào cơ sở dữ liệu
Da dang (Variety): Trong khi di liệu truyền thống thường là dạng cấu trúc, hơn 80% đữ liệu ngày nay là phi cầu trúc (ví dụ: văn ban, blog, hình ảnh, video, âm nhạc, dữ liệu từ các thiết bị cảm biến vật lý, thiết bị chăm sóc sức khỏe ) dữ liệu lớn cho phép liên kết và phân tích nhiều loại dữ liệu khác nhau
Độ tin cậy/Chính xác (Veracity): Một trong những đặc điểm phức tạp nhất của Dữ liệu lớn là độ tin cậy và chính xác của dữ liệu Với sự phô biến của phương tiện truyền thông xã hội và mạng xã hội ngày nay, cũng như sự tăng cường tương tác và chia sẻ từ người dùng di động, việc đảm bảo độ tin cậy và chính xác của dữ liệu ngày cảng trở nên khó khăn hơn Việc phân tích và loại bỏ dữ liệu không chính xác và nhiễu là một thách thức quan trọng trong lĩnh vực đữ liệu lớn
Giá trị (Value): Giá trị là đặc điểm quan trọng nhất của đữ liệu lớn Khi triển khai và phát triển dữ liệu lớn, việc xác định gia tri cua thong tin là quan trọng nhất Nếu chúng ta có một lượng lớn đữ liệu mà chỉ dem lai 1% lợi ích, thì việc đầu tư
Trang 10vào phát triên đữ liệu lớn có thể không hợp lý Sự chính xác trong dự báo là một chỉ
số rõ nét nhất về giá trị của dữ liệu lớn Ví dụ, dữ liệu phát sinh từ quá trình chăm sóc sức khỏe có thể giúp dự báo tỉnh trạng sức khỏe với độ chính xác cao, từ đó
giảm chi phí điều trị và các chi phi liên quan đến y tế
1.2 Sự Khác biệt giữa dữ liệu lớn và dữ liệu truyền thống
Khối lượng (Volume) : Dữ liệu truyền thông thường để cập đến các bộ đữ liệu nhỏ đến trung bình, có thể dễ dàng lưu trữ và phân tích bằng cách sử dụng công nghệ xử lý dữ liệu truyền thống Ngược lại, đữ liệu lớn đề cập đến các bộ dữ liệu cực kỳ lớn, không thê dễ dàng quản lý hoặc xử lý bằng cách sử dụng công nghệ truyền thống
Da dang (Variety) : Dữ liệu truyền thống thường có câu trúc, có nghĩa là được tổ chức theo một cách xác định trước như bảng, cột và hàng Ngược lại, dữ liệu lớn có thể có cấu trúc, không cầu trúc hoặc bán cấu trúc, có thê chứa văn bản, hình ảnh, video hoặc các loại dữ liệu khác
Tốc độ (Velocity): Dữ liệu truyền thống thường là tĩnh và được cập nhật định kỳ Ngược lại, dữ liệu lớn thay đổi liên tục và được cập nhật theo thời gian thực hoặc gan thoi gian thực
D6 phire tap (Complexity) : Quan lý và phân tích đữ liệu truyền thông tương đôi đơn giản Ngược lại, dữ liệu lớn là phức tạp và yêu cầu các công cụ và kỹ thuật
chuyên sâu đề quản lý, xử lý và phân tích
Giá trị (Value) : Dữ liệu truyền thống thường có giá trị tiềm năng thấp hơn so với dữ liệu lớn vì nó có phạm vị và kích thước hạn chế Ngược lại, dữ liệu lớn có thê cung cấp cái nhìn quan trọng vào hành ví của khách hàng, xu hướng thị trường
và thông tin quan trọng khác về doanh nghiệp
Phân Tích Dữ Liệu: Cả dữ liệu truyền thống va đữ liệu lớn đều yêu cầu một dạng phân tích đề trích xuất thông tin và kiến thức từ dữ liệu Các phương pháp phân tích đữ liệu truyền thông thường liên quan đến các kỹ thuật thống kê và các
Trang 11biêu đồ trực quan, trong khi phân tích dữ liệu lớn có thế đòi hỏi sử dụng máy học và các kỹ thuật tiên tiến khác
Lưu Trữ Dữ Liệu: Trong cả môi trường dữ liệu truyền thống và dữ liệu lớn, việc lưu trữ và quản lý dữ liệu một cách hiệu quả là cần thiết Dữ liệu truyền thông thường được lưu trữ trong cơ sở đữ liệu quan hệ, trong khi đữ liệu lớn có thé yéu cầu các công nghệ chuyên sâu như Hadoop, NoSQL, hoặc các hệ thống lưu trữ trên đám mây
Giá trị kinh doanh: Cả dữ liệu truyền thông và dữ liệu lớn đều có thể mang lại giá trị đáng kể cho các tô chức Dữ liệu truyền thống có thể cung cấp thông tin về
xu hướng và mô hình lịch sử, trong khi dữ liệu lớn có thể khám phá ra cơ hội mới
và giúp các tô chức đưa ra quyết định thông minh hơn (Satyabrata Jena, 2023) 1.3 Ưu điềm, nhược điểm của dữ liệu lớn
1.3.1 Ưu điểm
Nâng cao quyết định: Dữ liệu lớn mang lại quyền truy cập vào thông tin lớn
từ nhiều nguồn, hỗ trợ tổ chức đưa ra quyết định dựa trên dữ liệu Bằng cách phân tích xu hướng và mẫu số, doanh nghiệp có thể thu được thông tin chiến lược quan trọng
Nâng cao hiệu suất hoạt động: Phân tích dữ liệu lớn giup tô chức tối ưu hóa hoạt động của mình bằng cách xác định các lĩnh vực cần cải thiện và loại bỏ sự không hiệu quả Việc tối ưu hóa quy trình và luồng công việc giúp tăng năng suất và giảm chi phi
Cá nhân hóa và hiểu biết về khách hàng: Dữ liệu lớn cung cấp cái nhìn sâu sắc hơn về khách hàng Bằng cách phân tích đữ liệu khách hàng, doanh nghiệp có thé cá nhân hóa sản phâm, dịch vụ và chiến địch tiếp thi, nang cao trai nghiém
khách hảng.
Trang 12Loi thé canh tranh: Str dụng đữ liệu lớn một cách hiệu quả mang lại lợi thế cạnh tranh cho tổ chức Phân tích dữ liệu thị trường và cạnh tranh giup xác định cơ hội mới và duy trì sự cạnh tranh vượt trội
Quản lý rủi ro cải thiện: Phân tích dữ liệu lớn giúp tổ chức xác định và giảm thiểu các rủi ro Dự đoán rủi ro tiềm năng và triển khai biện pháp chủ động để giải quyết chúng.(Nora Ellis, 2023)
1.3.2 Nhược điểm
Môi quan tâm về quyền riêng tư và an ninh: Thu thập vả phân tích lượng lớn
dữ liệu đặt ra vấn đề về quyền riêng tư và an ninh, đòi hỏi các biện pháp bảo vệ mạnh mẽ để bảo vệ thông tin cá nhân
Chất lượng và đáng tin cậy của dữ liệu: Dữ liệu lớn đối mặt với thách thức
về chất lượng và đáng tin cậy Sự đa dạng và lượng lớn có thé gay ra vấn đề như dữ liệu không đầy đủ hoặc không nhất quán, ảnh hưởng đến độ chính xác và tính hợp
lệ của phân tích
Quá tải dữ liệu và sự phức tạp: Xử lý lượng lớn dữ liệu có thé gay ap luc, dat
ra yêu cầu cao về cơ sở hạ tầng, công cụ và chuyên gia
Chỉ phí triển khai và bảo trì cao: Triển khai giải pháp dữ liệu lớn có thê tốn
kém, đặc biệt là đối với các doanh nghiệp nhỏ và vừa
Yếu tố đạo đức: Sử dụng đữ liệu lớn đặt ra những vấn đề đạo đức liên quan đến quyền riêng tư và nguy cơ lạm dụng thông tin cá nhân
Quản trị dữ liệu và tuân thủ: Dữ liệu lớn đưa ra thách thức về quản trị dữ liệu
và tuân thủ quy định, đòi hỏi khung chính sách phức tạp và tuân thủ các quy định liên quan (Nora Ellis, 2023)
1.4 Các lĩnh vực ứng dụng dữ liệu lớn