1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận cá nhân Đề tài dữ liệu lớn (big data)

20 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 1,92 MB

Nội dung

Với sự phát triển của đữ liệu lớn, con người không chỉ chứng kiến sự thay đổi về quy m6 ma con dam chim trong lợi ích to lớn mà nó mang lại.. Đề thấy được sự phát triển của lĩnh vực này,

Trang 1

NGAN HANG NHA NUGC VIET NAM BO GIAO DUC VA DAO TAO

TRUONG DAI HOC NGAN HANG TP HO CHi MINH

KHOA HE THONG THONG TIN QUAN LY

TIEU LUAN CA NHAN

DE TAI: DU LIEU LON (BIG DATA)

Sinh viên thực hiện: Nguyễn Dang Tan MSSV: 030238220228

Lớp: ITS329 231_1_D02 GVHD: Nguyễn Thị Thu Hà

Thành phố Hồ Chỉ Minh, tháng 11 năm 2023

Trang 2

DANH MUC TU VIET TAT ooocccccsccsccssessesssssssssessecsscssssssesecsscsussesessessesessesseseeseesens I

DANH MUC HINH ANH, SO DO c.ccccccccsesscscccessessessessestssesesseesssessseatensseaeees I

I8 NA 1

1 Lý do chọn đề tài 2-52 ©2+2c2ExtEeSEEEkEEkvkrkrrrrerrrrrerrervee 1

2 Đối tượng và phạm vi nghiên cứu - 25s x+Se+xecxexerxerxerered 2

CHƯƠNG 1: TỎNG QUAN VỀ DỮ LIỆU LỚN (BIG DATA) - 3

1.1 Khái niệm, nguồn hình thành và đặc điểm của dữ liệu lớn 3

1.1.1 Khái niệm về dữ liệu lớn - -2- 5 5£ SE SevEeEereerrxersree 3 1.1.2 Các nguồn hình thành của dữ liệu - 25-55 ©5+55S+css<2 3

1.1.3 Quy mô, đặc điểm của Dữ liệu lớn - ¿5+ 5555555 ccssec 4

1.2 Sự Khác biệt giữa dữ liệu lớn và dữ liệu truyền thống 6 1.3 Ưu điểm, nhược điểm của dữ liệu lớn 22-5+©5s++x+cxecee 7

1.4 Các lĩnh vực ứng dụng dữ liệu lớn - 5 SĂ 5S 8

CHUONG 2: THUC TRANG VA GIAI PHAP PHAT TRIEN DU LIEU LON TẠI VIỆT NAM 25-55cSCS k2 2X TH E1 TH TH TH HH gi ước 9 2.1 Thực trạng về phát triển dữ liệu lớn tại Việt Nam 9

2.2 Trở ngại của doanh nghiệp khi ứng dụng đữ liệu lớn - 10

2.3 Ứng dụng dữ liệu lớn tại thành phố hồ chí minh - 11 2.4 Đề xuất giải pháp để phát triển dữ liệu lớn ở thành phố Hồ Chí Minh,

mở rộng phạm vi ở Việt Nam SÁT HH TH HH kt 12

Trang 3

DANH MUC TU VIET TAT

DANH MUC HINH ANH, SO DO

Hinh 1 Dữ liệu lớn (Big Data)3

Hinh 2 Các đặc trưng của dữ liệu lớn - c2 2212211211211 121 1111151 11111181 1111111115281 1 28k rườ

Trang 4

Loi Cam Doan

Tôi xin cam đoan kết quả đạt được trong bài viết này là kết quả của cá nhân tác giả Xuyên suốt bài viết này, nội dung trình bày là sự nghiên cứu, tong hop va tham khảo của cá nhân từ nhiều nguồn khác nhau Mọi tài liệu tham khảo đều được trích dẫn và liệt kê trong phần danh mục tài liệu tham khảo, có nguồn gốc, tên tác giả, nhà xuất bản rõ ràng

Tôi chấp nhận trách nhiệm về những cam kết của mình và sẽ chấp nhận mọi

hình thức xử lý ký luật theo yêu câu

Thành phố Hồ Chỉ Minh, tháng 1l năm 2023

Tác giả

Nguyễn Đăng Tấn

Trang 5

Loi mé dau

1 Ly do chon dé tai

Trong thời đại của sự chuyên đổi kỹ thuật số, sự thay đổi của internet đã diễn

ra chóng mặt, mở ra một thê giới đầy thách thức và cơ hội Lượng dữ liệu ngày càng gia tăng theo cấp số nhân, đa dạng với nhiều định dạng không theo một cấu trúc cụ thê nảo, tạo nên một định nghĩa mới: Big Data ( Dịch là đữ liệu lớn ) Dữ liệu không chỉ là con số và chữ cái, mà là bức tranh đa sắc tố của cuộc sống hiện đại, nơi mà mọi hoạt động, mọi sự kiện được shi chú và phản ánh một cách không ngừng Với sự phát triển của đữ liệu lớn, con người không chỉ chứng kiến sự thay đổi về quy m6 ma con dam chim trong lợi ích to lớn mà nó mang lại Từ lĩnh vực giáo dục đến y tế, từ các ngành hàng bán lẻ đến thương mại điện tử, dữ liệu lớn không chỉ là một công cụ mạnh mẽ mà còn là nguồn động viên cho sự đổi mới và cải tiến Việc sử dụng và ứng dụng đữ liệu lớn đã mở ra khả năng đưa ra quyết định đúng đắn hơn, tối ưu hóa hiệu suất, và tạo ra những trải nghiệm người dùng tuyệt VOL

Tuy nhiên, những lợi ích lớn này không điều đến mà không có những thách

thức đây thách thức Nguồn lực cần thiết để quản lý và xử lý lượng dữ liệu lớn là một thách thức lớn đối với các tô chức Quản lý bảo mật thông tin, bảo vệ quyền riêng tư của người dùng là những vấn đề đòi hỏi sự chú ý kỹ lưỡng từ các chuyên gia Mặc dù dữ liệu lớn mang lại tiểm năng lớn, nhưng để thực sự khai thác được giá trị của nó, chúng ta cần đối mặt và vượt qua những thách thức này

Đề thấy được sự phát triển của lĩnh vực này, tac giả đã di sâu nghiên cứu về lịch sử hình thành và phát triển, cũng như cấu trúc, ứng dụng của dữ liệu lớn, và cudi củng là đánh ø1á những cơ hội và thách thức của dữ liệu lớn tại Việt Nam

Do thời gian nghiên cứu có hạn cùng với hạn chế về tải liệu tham khảo, bai

tiêu luận vẫn còn những thiếu sót, mong nhận được sự đóng góp của độc giả

Trang 6

2 Đối tượng và phạm vi nghiên cứu

- _ Đối tượng nghiên cứu:

Bao gồm khái niệm về dữ liệu lớn và các khái niệm liên quan; Các ứng dụng

dữ liệu lớn tại thành phố Hồ Chí Minh; Giải pháp phát triển xu hướng dữ liệu lớn tại thành phô Hồ Chí Minh và trên toản quốc

- _ Phạm vi nghiên cứu:

Tổng quan về dữ liệu lớn, các khái niệm cơ bản

Ứng dụng của dữ liệu lớn

Thực trạng về đữ liệu lớn tại Việt Nam

Giải pháp phát triển đữ liệu lớn tại thành phố Hồ Chí Minh và toản quốc.

Trang 7

CHUONG 1: TONG QUAN VE DU LIEU LON (BIG DATA)

L1 Khai niém, nguon hinh thanh va dac diém của dữ liệu lớn

L1.1 Khai niém về dữ liệu lớn

Theo thông tin của trang web của Oracle (n.đ) cho biết: Dữ liệu 16n (Big Data)

là những tập dữ liệu lớn hơn, phức tạp hơn, đặc biệt là từ những nguồn đữ liệu mới Những tập dữ liệu này quá lớn đến mức mà phần mềm xử lý dữ liệu truyền thống không thế quản lý được Nhưng những khối lượng đữ liệu không lồ này có thế được

sử dụng để giải quyết những vẫn đề kinh doanh mà bạn không thẻ giải quyết trước đây

Hinh 1 Dữ liệu lớn (Big Data) I.1.2 Các nguồn hình thành của dữ liệu

Theo Nguyễn Công Doan va Nguyễn Công Hoan (2015) từng đề cập rằng:

đữ liệu được hình thành từ 6 nguồn cơ bản như sau:

Dữ liệu hành chính (phát sinh từ chương trình của một tô chức, có thể là chính phủ hay phi chính phú) Ví dụ, hồ sơ y tế điện tử ở bệnh viện, hồ sơ bảo hiểm,

ho sơ ngân hàng ;

Trang 8

Dữ liệu từ hoạt động thương mại (phát sinh từ các giao dịch giữa hai thực thé) Ví dụ, các giao dịch thé tin dung, giao địch trên mạng, bao gồm cả từ các thiết

bị di động

Dữ liệu từ các thiết bị cảm biến như hình ảnh vệ tỉnh, cảm biến đường, cảm

biến khí hậu

Dữ liệu từ các thiết bị theo dõi, ví dụ theo dõi đữ liệu từ điện thoại di động, GPS

Dữ liệu từ các hành vi, ví dụ như tìm kiếm trực tuyến về một sản phâm, một dich vụ hay bắt kỳ loại thông tin khác, trang xem trực tuyến

Dữ liệu từ các thông tin ý kiến trên các phương tiện thông tin xã hội

I1.3 Quy mô, đặc điểm của Dữ liệu lớn

Tới đây, câu hỏi được đặt ra là “ Dữ liệu như thế nào sẽ được gọi là lớn, lớn thì

sẽ là lớn tới cỡ nào?”, vì khái niệm lớn với mỗi người là khác nhau, tùy vào lượng

dữ liệu họ xử lí và quản trị mỗi ngày, Theo Viện khoa học thống kê (2015) Dữ liệu lớn sẽ có 5 đặc trưng cơ bản như sau:

Hinh 2 Các đặc trưng của dữ liệu lớn

Trang 9

Khối lượng Dữ liệu (Volume): Đặc điểm quan trọng nhất của dữ liệu lớn là khối lượng rất lớn Kích thước của đữ liệu lớn ngảy càng gia tăng, và tính đến năm

2023, nó có thế đạt đến hàng zettabytes ( 1 zettabyte = 1024 exabytes ) cho một bộ

dữ liệu duy nhất Dữ liệu truyền thống thường được lưu trữ trên các thiết bị đĩa mềm hoặc đĩa cứng, trong khi với đữ liệu lớn, chúng ta thường sử dụng công nghệ

"đám mây" dé đáp ứng khả năng lưu trữ của nó

Tốc độ (Velocity): Tốc độ có thế được hiểu theo hai khía cạnh: Khía cạnh đầu tiên đó là sự gia tăng nhanh chóng về khối lượng dữ liệu (ví dụ,ở năm 2015, mỗi giây có tới 72.9 triệu yêu cầu truy cập tìm kiếm trên trang web mua sắm của Amazon) O khia canh thir 2 đó chính là xử lý dữ liệu nhanh chóng ở mức thời gian thực, có nghĩa là đữ liệu được xử lý ngay lập tức sau khi nó phát sinh (tính đến theo mili giây) Trong nhiều lĩnh vực như Internet, Tài chính, Ngân hàng, Hàng không, Quân sự, Y tế - Sức khỏe, hầu hết dữ liệu lớn được xử lý theo thời gian thực Công nghệ xử ly dữ liệu lớn hiện đại cho phép chúng ta xử lý dữ liệu trước khi nó được lưu trữ vào cơ sở dữ liệu

Da dang (Variety): Trong khi di liệu truyền thống thường là dạng cấu trúc, hơn 80% đữ liệu ngày nay là phi cầu trúc (ví dụ: văn ban, blog, hình ảnh, video, âm nhạc, dữ liệu từ các thiết bị cảm biến vật lý, thiết bị chăm sóc sức khỏe ) dữ liệu lớn cho phép liên kết và phân tích nhiều loại dữ liệu khác nhau

Độ tin cậy/Chính xác (Veracity): Một trong những đặc điểm phức tạp nhất của Dữ liệu lớn là độ tin cậy và chính xác của dữ liệu Với sự phô biến của phương tiện truyền thông xã hội và mạng xã hội ngày nay, cũng như sự tăng cường tương tác và chia sẻ từ người dùng di động, việc đảm bảo độ tin cậy và chính xác của dữ liệu ngày cảng trở nên khó khăn hơn Việc phân tích và loại bỏ dữ liệu không chính xác và nhiễu là một thách thức quan trọng trong lĩnh vực đữ liệu lớn

Giá trị (Value): Giá trị là đặc điểm quan trọng nhất của đữ liệu lớn Khi triển khai và phát triển dữ liệu lớn, việc xác định gia tri cua thong tin là quan trọng nhất Nếu chúng ta có một lượng lớn đữ liệu mà chỉ dem lai 1% lợi ích, thì việc đầu tư

Trang 10

vào phát triên đữ liệu lớn có thể không hợp lý Sự chính xác trong dự báo là một chỉ

số rõ nét nhất về giá trị của dữ liệu lớn Ví dụ, dữ liệu phát sinh từ quá trình chăm sóc sức khỏe có thể giúp dự báo tỉnh trạng sức khỏe với độ chính xác cao, từ đó

giảm chi phí điều trị và các chi phi liên quan đến y tế

1.2 Sự Khác biệt giữa dữ liệu lớn và dữ liệu truyền thống

Khối lượng (Volume) : Dữ liệu truyền thông thường để cập đến các bộ đữ liệu nhỏ đến trung bình, có thể dễ dàng lưu trữ và phân tích bằng cách sử dụng công nghệ xử lý dữ liệu truyền thống Ngược lại, đữ liệu lớn đề cập đến các bộ dữ liệu cực kỳ lớn, không thê dễ dàng quản lý hoặc xử lý bằng cách sử dụng công nghệ truyền thống

Da dang (Variety) : Dữ liệu truyền thống thường có câu trúc, có nghĩa là được tổ chức theo một cách xác định trước như bảng, cột và hàng Ngược lại, dữ liệu lớn có thể có cấu trúc, không cầu trúc hoặc bán cấu trúc, có thê chứa văn bản, hình ảnh, video hoặc các loại dữ liệu khác

Tốc độ (Velocity): Dữ liệu truyền thống thường là tĩnh và được cập nhật định kỳ Ngược lại, dữ liệu lớn thay đổi liên tục và được cập nhật theo thời gian thực hoặc gan thoi gian thực

D6 phire tap (Complexity) : Quan lý và phân tích đữ liệu truyền thông tương đôi đơn giản Ngược lại, dữ liệu lớn là phức tạp và yêu cầu các công cụ và kỹ thuật

chuyên sâu đề quản lý, xử lý và phân tích

Giá trị (Value) : Dữ liệu truyền thống thường có giá trị tiềm năng thấp hơn so với dữ liệu lớn vì nó có phạm vị và kích thước hạn chế Ngược lại, dữ liệu lớn có thê cung cấp cái nhìn quan trọng vào hành ví của khách hàng, xu hướng thị trường

và thông tin quan trọng khác về doanh nghiệp

Phân Tích Dữ Liệu: Cả dữ liệu truyền thống va đữ liệu lớn đều yêu cầu một dạng phân tích đề trích xuất thông tin và kiến thức từ dữ liệu Các phương pháp phân tích đữ liệu truyền thông thường liên quan đến các kỹ thuật thống kê và các

Trang 11

biêu đồ trực quan, trong khi phân tích dữ liệu lớn có thế đòi hỏi sử dụng máy học và các kỹ thuật tiên tiến khác

Lưu Trữ Dữ Liệu: Trong cả môi trường dữ liệu truyền thống và dữ liệu lớn, việc lưu trữ và quản lý dữ liệu một cách hiệu quả là cần thiết Dữ liệu truyền thông thường được lưu trữ trong cơ sở đữ liệu quan hệ, trong khi đữ liệu lớn có thé yéu cầu các công nghệ chuyên sâu như Hadoop, NoSQL, hoặc các hệ thống lưu trữ trên đám mây

Giá trị kinh doanh: Cả dữ liệu truyền thông và dữ liệu lớn đều có thể mang lại giá trị đáng kể cho các tô chức Dữ liệu truyền thống có thể cung cấp thông tin về

xu hướng và mô hình lịch sử, trong khi dữ liệu lớn có thể khám phá ra cơ hội mới

và giúp các tô chức đưa ra quyết định thông minh hơn (Satyabrata Jena, 2023) 1.3 Ưu điềm, nhược điểm của dữ liệu lớn

1.3.1 Ưu điểm

Nâng cao quyết định: Dữ liệu lớn mang lại quyền truy cập vào thông tin lớn

từ nhiều nguồn, hỗ trợ tổ chức đưa ra quyết định dựa trên dữ liệu Bằng cách phân tích xu hướng và mẫu số, doanh nghiệp có thể thu được thông tin chiến lược quan trọng

Nâng cao hiệu suất hoạt động: Phân tích dữ liệu lớn giup tô chức tối ưu hóa hoạt động của mình bằng cách xác định các lĩnh vực cần cải thiện và loại bỏ sự không hiệu quả Việc tối ưu hóa quy trình và luồng công việc giúp tăng năng suất và giảm chi phi

Cá nhân hóa và hiểu biết về khách hàng: Dữ liệu lớn cung cấp cái nhìn sâu sắc hơn về khách hàng Bằng cách phân tích đữ liệu khách hàng, doanh nghiệp có thé cá nhân hóa sản phâm, dịch vụ và chiến địch tiếp thi, nang cao trai nghiém

khách hảng.

Trang 12

Loi thé canh tranh: Str dụng đữ liệu lớn một cách hiệu quả mang lại lợi thế cạnh tranh cho tổ chức Phân tích dữ liệu thị trường và cạnh tranh giup xác định cơ hội mới và duy trì sự cạnh tranh vượt trội

Quản lý rủi ro cải thiện: Phân tích dữ liệu lớn giúp tổ chức xác định và giảm thiểu các rủi ro Dự đoán rủi ro tiềm năng và triển khai biện pháp chủ động để giải quyết chúng.(Nora Ellis, 2023)

1.3.2 Nhược điểm

Môi quan tâm về quyền riêng tư và an ninh: Thu thập vả phân tích lượng lớn

dữ liệu đặt ra vấn đề về quyền riêng tư và an ninh, đòi hỏi các biện pháp bảo vệ mạnh mẽ để bảo vệ thông tin cá nhân

Chất lượng và đáng tin cậy của dữ liệu: Dữ liệu lớn đối mặt với thách thức

về chất lượng và đáng tin cậy Sự đa dạng và lượng lớn có thé gay ra vấn đề như dữ liệu không đầy đủ hoặc không nhất quán, ảnh hưởng đến độ chính xác và tính hợp

lệ của phân tích

Quá tải dữ liệu và sự phức tạp: Xử lý lượng lớn dữ liệu có thé gay ap luc, dat

ra yêu cầu cao về cơ sở hạ tầng, công cụ và chuyên gia

Chỉ phí triển khai và bảo trì cao: Triển khai giải pháp dữ liệu lớn có thê tốn

kém, đặc biệt là đối với các doanh nghiệp nhỏ và vừa

Yếu tố đạo đức: Sử dụng đữ liệu lớn đặt ra những vấn đề đạo đức liên quan đến quyền riêng tư và nguy cơ lạm dụng thông tin cá nhân

Quản trị dữ liệu và tuân thủ: Dữ liệu lớn đưa ra thách thức về quản trị dữ liệu

và tuân thủ quy định, đòi hỏi khung chính sách phức tạp và tuân thủ các quy định liên quan (Nora Ellis, 2023)

1.4 Các lĩnh vực ứng dụng dữ liệu lớn

Ngày đăng: 05/12/2024, 15:50

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN