1. Trang chủ
  2. » Luận Văn - Báo Cáo

đề tài big data dữ liệu lớn

32 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trang 1

BỘ TÀI CHÍNH TRƯỜNG ĐẠI HỌC TÀI CHÍNH - MARKETING KHOA : MARKETING O00 TRƯỜNG ĐẠI HỌC

TÀI CHÍNH - MARKETING

DEA TAI: BIG DATA - DỮ LIỆU LỚN

NHĨM 3

H OPHAAN: TIN HOC UNG DUNG

Giang vién giang day: Ths Huynh Ngoc Thanh Trung

TPHCM, ngày 7 tháng 11 năm 2023

Trang 2

DANH MUC BANG, HiNH ANH 3

DANH MUC VIET TAT „.3 L OM Q@AAU 4 CH UGGI.T @G QUAN VEA BIG DATA 1 Khai niém: 5 2 Nguơơn hình thành và phương pháp khai thác, quản lí dữ liệu lớn: 6 2.1 Nguơơn hình thành: 6

2.2 Phương pháp khai thác, quản lí dữ liệu lớn: . 6

CHƯƠNG II ĐẶC TRƯNG 7 “VS” CỦA BIG DATA - DỮ LIỆU LỚN 7

1 00) 0030000100 5111010 8

2 Velocity (vận tốc): 9

3 Variety (đa dạng): 9 4 Veracity (tính xác thực): 10

5 Value (giá trị): 10

6 Visualization (hình dung): „Ư„11

7 Variability (Tính khả biến): 11

CHƯƠNG III PHÂN LOẠI DỮ LIỆU LỚN -2 cccccszcccceeerree 12

1.D lữ uậruyêơn thống và d Wi ệ phi truyêơn thống: - 12

1.1.D Oi ệ phi truyêơn thống: 12

1.2.D Oi ệ truyêơn thống: 12

2.Đi ẩm ạhd ih ệ phi truyêơn thống: 12

3.So sánhd lữ uộậruyêơn thống và d i ệ phi truyêơn thống: 14

4 Dữ liệu cấu trúc và dữ liệu phi cấu trúc: 15

4.1 Định nghĩa: 15

4.2 So sánh dữ liệu cĩ cấu trúc và dữ liệu phi cấu trúc: 15

CHƯƠNG IV LỢI ÍCH VÀ THÁCH THỨC KHI SỬ DỤNG BIG DATA 17

1 Lợi ích và cơ hội khi sử dụng Big Data: 17

Trang 3

1.2 Tiết kiệm thời gian:

1.3 Nâng cao bảo mật - giảm thiểu rủi ro:

1.4 Tối ưu hĩa sản phẩm:

1.5 Hố trợ quyết định thơng minh:

1.7 Tạo sự cạnh tranh đột phá:

1.8 Năm bắt các giao dịch tài chính:

2 Thách thức khi sử dụng Big Data:

2.2 Quy mơ:

2.3 Yếu tố thời gian:

2.4 Tính cá nhân và bảo mật dữ liệu:

2.5 Thiếu chuyên gia cơng nghệ:

2.6 Địi hỏi thay đổi văn hĩa doanh nghiệp:

CHƯƠNG V BỨC TRANH TỔNG THỂ ỨNG DỤNG BIG DATA

1 Ứng dụng Big Data trên thế giới:

1.1 Dữ liệu lớn trong giao thơng:

1.2 Dữ liệu lớn trong y tế: 1.3 Dữ liệu lớn trong thể thao:

1.4 Dữ liệu lớn trong tài chính:

1.5 DỮ liệu lớn trong thương mại:

1.6 DỮ liệu lớn trong thống kê: 2 Ứng dụng dữ liệu lớn ở Việt Nam:

2.1 Quản lý Nhà nước trực tuyến: 2.2 Thương mại điện tử: 2.3 Tài chính - Ngân hàng:

TÀI LIỆU THAM KHẢO

Big Data — DỮ liệu lớn

Trang 4

DANH MỤC BẢNG, HÌNH Ả

B nả1:Sosánhd lữ uộruyêơn thống và phi truyêơn thống 14 Bang 2: So sánh dữ liệu cấu trúc và dữ liệu phi cấu trúc - 16 Y

Hình 1:Bi u đơ số li uệêêơ nguơơn hình thành của Big Data

Hình 2: Cấu trúc 7VS của Big Data 8

Hình 3.Bi ể đơơ thể hiện sự tăng trưởng dữ liệu lớn qua các năm 22 Hình 4: Tổng thống Mỹ Obama sử dụng ứng dụng dữ liệu lớn 23

Hình 5: Ứng dụng dữ liệu lớn trong giao thơng 24

Hình 6: Ứng dụng dữ liệu trong y học 24

Hình 7: Ứng dụng dữ liệu trong thể thao 25

Hình 8: Big Data đ ượs W ug nhié6u trong linh vực Tài chính - Ngân hàng 28 DANH MỤC VIẾT TẮT

STT | Kí hiệu chữ viết tắt Ch ữiết đâơy đú

l IDG International Data Group

2 CNTT Cơng nelé théng tin

3 PB Petabyte 4 TB Terabyte

5 GPS Global Positioning System 6 HDFS Hadoop Distributed File System 7 ICCR International committe on Credit

reporting

8 Al Artificial Intelligent 9 IoT Internet of Things

10 DBMS Database Management System

Trang 5

L OM @AAU

Trong 22 năm qua,d lữ uÊïã phat tri n 66 tarong nhiédu linh v tr Theo sdé li u@ad dlqphiểnc uf aÏDG- T pdoanD 1Ữữufuơốc têố, tính theo tồn cầƯu năm 2011 sơố lượng d Ữli Êu đ ƯŒ tạo ra và sao chép là I,8ZB, tăng kho ẩg chín lầƯn trong 5 năm Con sơố này đang khơng ng leh nhi ệvà đ ượd đáo seẽ ting gadp đơi trong th Ogiant G it nhadt là hai năm m $1a6n

Theo #' phát trỂn vƯỢ t bậc da CNTT và §f tăng trưởng bùng nổ của dữ li Ơi tồn cầƯu, thuật ng ữBig Data - DỮliệu lớn dang dắn dắn tO nén quen thudc và là cơng cụ đạt hi vộqu &@ đơt dtc đách hơống d Ữliệi lớn So với các bộ d liữu êuyèưn thơống tr ướđây, Big Data ngày nay bao gơồm các khơối dữ liệu phí

cầơu trúc yêu cầưu phân tích tổ sung theo thỜi gian thự Bên cạnh đĩ, Big Data đem đềưn nhiềều c Oh G giúp chúng ta khám phá và hi ểrõh ®Wvé6 nh Ữg giá tr Hềềm ẩn

cũng như những thách th ứ m ớ Một ví dụ cụ thể là cách tổ chỨc và quản lý hiệu quả các tập dữliệu đĩ

Nh 1i@ nam ga6n day, tié6m nang c ta d Gili ơi 1 ới đang dầŠn tr Ởthành mơối quan tam cUa nhiééu nganh céng nghiép Cac © quan chính phU da lén ké6 hoach 1én trong vé c phat tr€n nghién ctru va Ung dung Big Data Ngoai ra, cac van dé6 liền quan t đ Bip Data cũng đ ượ xuâốt hiện ph Obiéén trền các ph ương tỉ Ê truyềền

théng céng cOng nh UNew York Times, Nation Public Radio va Economist Hai tap

chi khoa h Qc dắu nganh 1a Nature va Science cing di m Odé6 tai riéng dé thao luan véo nb ng thach thie va tac Ong cla Big Data, mỞ ra kỷ nguyễn mới cho việc nghién c trvéé dirliéu 1én

Ngày nay, Big Data cĩ liền quan đềễn dchv tự alcac céng ty vé6 Internet dé6u

phat tri ổn chĩng m ä Ví dụ Facebook đã t @ rah @ 10 PB d (Hi & log mééi tháng, GoopleW lýữ i uklị ng hàng trăm Petabyte (PB) và Taobao - cơng ty con cỦa

Alibabat œxa hàngch c(erabyte(TB)d lữuêêð giao d chtr dfuyềỗn mơẽi ngày

Trang 6

CHUONGI.T @G QUAN VEA BIG DATA 1 Khai niém:

Khai ni r@ véd Big Data la m 6 dé6 tai tr th t UGig va da d ag, v @nhiédu dinh nghĩa khác nhau Dù đ u@ g Glad Ci & 1 & hay kh @g 166, Big Data chtta đựng nh the d& tr ig d @ bi ¢ phan bi énov 6"d Ữi 41 G@"ho 4"d ữi â rằốt lớn",

-_ DỮ liệu lớn cĩ thể được định nghĩa “là các tập dr 18 ukhéng tle dro ck

ly trong th gian chầốp nh & đ ượ băƯng cơng nghệ thơng tin và các cơng cụ phầƯn méom/pha6n c np truyéon thoong.”

Nhiềễu định nghĩa vềồ đĩ7 lệ u n đã đượ c các doanh nghiệp, tổ chỨc cơng nghệ nhà nghiền c Ứi, nhà phần tích d [ii ậ và nhà cơng ngh @ïfÈồ xuâốt, để a ra cái nhìn t neĐuáth n vồŠ ý nghĩa kinh té6 - x4 h iGné6n kinh tÈỗ và cơng ngh Ệ c Ủa nĩ Cĩ một sơơ đ hh nghĩa c ad i ệtI điền quan déén cac tac d Gg x h @ kinh têơ và cơng nghỆ rỘng lớn của nĩ nhƯ:

- Vao nam 2010, Apache Hadoop đã định nghĩa d liệu la “là các tập dữ liệu

khơng thê đ ược thu thập, quản lý và xr lý trong gớ ¡lạ n chằốp th mỹ ủc a các máy tính đa năng.”

- Cũng trên cƠsỞđĩ mà vào thang 5 nim 2011, céng ty t WAdén tồn cầƯu

Trang 7

2 Nguơơn hình thành và phương pháp khai thác, quản lí dữ liệu lớn:

2.1 Nguơơn hình thành:

D IWữưậ mã©ưn t ừác nguơơn sau: D Ữliệu hành chính (t ác sáng kiềễn cỦa t Och ứ, dù là chính ph Ủhay phi chính ph Ví d hơồ Ø bệnh án điện tỬ cỦa b tuvi tệ hơồ s Ơb ä hi ổn, hơồ Ø ngân hàng : đ7 lệ u từ hoạ t động thƯƠng mại ( các giao d ch ga hai đơn vị) Ví đỊ : giao d ch thỂ tín dụng, giao dịch trỰc tuyé6n (bao gơồmc @aodchit thiềốtb đi đ @);d tệt bác thiêốtb È ẩn biểốn nh hith nha tiểh c mỗổiềnđ tờ c n&biềơn khíh ậ v.v.; d Ữli ệi t ác thiềốt

bị theo dõi, chẳng hạn nhưtừđiện tho ạ di đ ng, GPS; dỮ liệu tỪ hành ví, chẳng

h ranh từn kiểm tr trtuyềơn cdc s & ph an, d th v Uho & bằốt kỳ lạ ¡ thơng tin nào

khac, xem tr c tiyềỗn;d tệđềơn t ừhơng tin ý kiềỗn trén mạng xã hội Sources of Big Data ERP 57% CRM or CX 38% Finance HR 35% 27% Supply Chain

Suppliers —] 21% Partners CT 21% Social Media Ld 17% Distributors C4 15%

Hinh 1: Bi_u 6 s66 li ệ vềồ nguơồn hinh thanh ai a Big Data

2.2 Phương pháp khai thác, quản lí dữ liệu lớn:

Vi ệ khai thác và qu älý d Gi @1 ớhi ệ nay đ ượthiềốt kề dƑa trên các nguơơn hình thành d lỮu nĨMơẽi nguơồn d ỮIi ội I Ới khác nhau seẽ cĩ những giải

Trang 8

pháp khai thác và quản lý dữ lỆu bn khác nhau Tuy nhiền, Hadoop ecosystem 1@ n dang la plo ng pháp đỂ khai thác và quản lý dữ liệu lớn được các tổ chức trên thềỗ gi ớs Ửi wg ph iéén

Hadoop giúp gi iaquyêêt vâên đê:

® Làmvi ệv khơơi lượng dỮliệu lớn (tính băơng Petabyte)

¢ D (ti di d u@ x Uli trong méi tr UGg phan tan, 1 wtr Cr éhiédu phadn cling khác nhau và yêu cầu x Uy dédng bé

© Cac 168i xudét hé n thơng thường

¢ Bang théng gila cdc phắn ding Wa t ly clỨứ a đ7 lỆ u phần tán cĩ giới hạn

H ucng gi 4 quyéét & a Hadoop:

- Qu ndaly file phan tán D f& uéseé d ượ h ệthơống HDFS (Hadoop Distributed File System) chia nh ởa thành nhiềều phầền Dữ liệu được qu â lý m ộ cách cĩ h êhơống

- MapReduce là mơ hình tổch ứ cỦa Hadoop, MapReduce seẽ tách nhỎ task

ra thành nhiều phầƯn riềng và xỬ lý song song trên các Node CPU khác

nhau, máy chủ là Master Node

CHƯƠNG II ĐẶC TRƯNG 7 “VS” CỦA BIG DATA - DỮ LIỆU LỚN

Cĩ rằốt nhiềều đïnh nghĩa khác nhau vẻồ đĩ lệ u 6 n (Big Data), theo thỜi gian d tinh c Big Data cũng đ tdợiềốp thêm nhiềều ch CV ha, t Ud inh nghia truyé6n

thééng Big Data = 3V (Volume, Variety, Velocity), dé6n SAS định nghĩa Big Data = 5V

(3V + Variability, Veracity), khid f uệbäốt đầều thành “m 6 vang”, thanh nguéén doanh thu m 6c mơẽi doanh nghi @ thì Big Data = 6V (5V + Value) Hiểu cách đ ri rổthì Big Data là khai ni nệđềư c đềưn việc thu th ậ›, Ì ưu tr Ữx Ửlý “dữliệu In cách thếÕng truyềịn thơống khơng x Ủ§ đ ượ V ậ d Ữii ệi thểố nào gọi là

Trang 9

7V CỦA BIG DATA

Hình 2: Cầơu trúc 7VS của Big Data 1 Volume (khối lượng):

Big Data là cái tần th ẩú & kich th UG1 ớ, khơối lƯỢng lớn ĐỂ xác định giá

te dé ald Uf ệkíchth ước aid Tt thi ta cầền đềốn Big Data

Ð €ĩ th ác diih giatr d ald Gf Bkichth usc ald Ut la cdén thiềốt và

quan tr ng Nédu khédil ud OF wkh 1 166 thi no chinh la Big Data Diééu này cĩ

nghia la m & d ỮIi ơi c ụth Ểcĩ th W s Ud UG coi la Big Data hay khong seẽ liền quan

đ°ĩn khơối lƯợng dữliệu đĩ

Khơái I ưỢng d Ữ1i ơi đ ưƯỢŒ t ạ ra, | ui tr Cwa x Uy Bao nhiéu thi là I ớ2 Ít nhằốt

nĩ nền đỢ c tinh bắng hang tram Terabyte, thơng thƯỜ ng thì nĩ là Petabyte hoặc

Exabyte, th ận chí Zettabyte.M ơsơố Ví đl: Facebook tạo ra khoảng 500TB dữliệu mơẽi ngày, con sơố này ỞIwitter là kho r §TB Vì thềố, để xem đĩ cĩ phải Big Data khơngtr &#ấÈốt cầền xác đ tịh khơối lượng dữỮliệu đĩ

Ví dự: Vào năm 2016, lưu lượng di động tồn cầƯu Ước tinh 1a 6,2 Exabyte (6,2

t WIB) mơẽi tháng Trong năm 2020, chúng ta seẽ cĩ khoảng 40000 ExaByte dữ liệu di đ n.M tÊon sơố kh ẩg lơồ và chứng tỏ đây là Big Data

Trang 10

2 Velocity (vận tốc):

Thơng qua tơốc đ tr@yédn đền c đỉluơồng d ii & d xác đĩh đ ượ s ttiềềm năng và độ khủng cỦa dỮliệu mà cho răƯng đĩ là Bip Data hay khơng Trong Bip Data,d lititéécd tậâyèưn đềơn t ác nguơồn như mạng, máy mĩc, di động

D &acdrihlo ad i ệ1 ớhaynh gh ườ d adrèn tơốc đ & Uyc Uludéng dữ liệu Thơng thường, d liệu chảy tr tiểếp vào lỘ nIỚớ nhanh hơn khi ghi vào dia D @ bi @v @s phát trí Ếc Bllnternet of Things, yêu cầu các nguơồn dỮ liệu truyéén đi v ớtơốc đỘ nhanh chĩng và ph ä đ ưŒ xỬlý kịp thời

Ví d :ĩ h Ø3,5t Ÿ UOtim kiềm mơẽi ngày trền Google Ngồi ra, người dùng FaceBook đang tăng khả ng 22% hàng năm

M) t vi dl _khac, các thơng báo (tweet, trang thai, v.v.) trén né6n tang Facebook tỪ vài giầy trước đã lơẽi tờ ¡ và khơng đfỢ c ng†Ờ ¡ dùng quan tầm Người dùng th Uườ xĩa nh tứ tin nhšÕn cũ và ch f ậtrung vào nh nữ tin nhšỗn gắn day nhadt Dữ lệ u chu n @ ng hệ n được tính tốn theo th gian th tự và tơốc đỘ cập nhật thơng tin đã gi ẩn xuơống cịn mili giây

3 Variety (da dang):

No dé c gậđềơn b @ chắt tinh đa dag, linh hoa, d li & phi cắu trúc (unstructured) nhu van ban (text), anh (pictures), video, audio, ; vả thậm chí cả d dy ban cắu tric (semi-structure) nh file json hay file xml, NO cing dé6 cap

đêơn các nguơơn khéng théong nhact

S Udad ag las Uuadt hi én cla d Crliéu t Ừcác nguơồn mới ä bền trong và bền ngồi doanh nghiép

D ữli â cĩ câêu trúc: Là dữ lỆ u cĩ Ổ chức, đã được xác đnh độ dài và định dạng của dỮliệu

Trang 11

D ữli ậ phi câêu trúc: Đây là loại dỮ liệu khơng được tổ chức, nĩ là dữ liệu

khơng v alkhit v i@a6u trúc hàng và c tẬruyèưn thơống c Ủa các c Ơs Ởởd Ữliệu Nĩ mang tính khơngth đểỗm đ Ượtrong cầÕu trúc Ví d văn b ẩ, hình ảh, viđeo

M t thong nh ngttdén dé6 ma Big Data cd6n ph 4 tư tiền gi ả quyêốt đĩ là sự ảnh h UGgc bitinh dad 1@ tac d nQ@ dé6n hi € sudét Tinh da dang c ủ các luơồng đỮ & ult doanh nghệ p hay lệ thơống càng cao thì càng làm tăng tính phỨc tạp cỦa dữliệu 4 Veracity (tính xác thực): Tính xác th khá khĩ khi d Ữii ơi hàng lo ạ cĩ th & @ras gihầƯm lầẽn trong khi đĩ đ Ữli ơu ít h œ thì truyé6n tai khong dU S thác nhau gi awÈơ chằốt lượng mà dỮliệu thu đ ưŒ cũng ảnh h ưởg rằốt nhiềều đền chính xác trong quá trình phần tích dỮliệu Cắu trúcm h hơống 6C cỦa các nhà máy hay các h ệthơơng khơng thự: - ảo bao gơơm:

= Kéét nddi (c an biédn va mang)

= Dam may (tinh tốn và d (ili 41 theo yêu cd6u)

" NỘ dung ở (mắu va b6 nhd)

= W idung/négr a nh (y nghia va uo ng quan) “_ Cộng đơơng (chia và dỘ ng tác)

“ Tuỳ ch nh (cá nhần hố và giá trị)

Dữ liệu phải được xử lý băồng các cơngg lệ n ¡ (phần tích và thuỆ t tốn) € cho ra các thơng tin cĩ giá tr jvềồ mặ t ý nghĩa Clổ ng hạn khi quản lý mỘ t nhà máy cầền ph ảxem xét c đhai m ặh ữ hình và vơ hình v ỐnhiễƯu thành phầƯn khác nhau Các thu tánt o iơng tinđ cựu cầễu nh nẩậhàếy va gi iayuyéét cdc vadn đềơ khơng phát hi nội th 47 xhơống cầốp cỦa máy, mài mịn lính ki Ơn,.v.v trong

nha may

Ngày đăng: 02/07/2024, 16:26

HÌNH ẢNH LIÊN QUAN

Hình  2:  Cầôu  trúc  7VS  của  Big  Data  1.  Volume  (khối  lượng): - đề tài big data dữ liệu lớn
nh 2: Cầôu trúc 7VS của Big Data 1. Volume (khối lượng): (Trang 9)
Mới  đượ  c  hình  thành  Có  |  ch  d7  hình  thành - đề tài big data dữ liệu lớn
i đượ c hình thành Có | ch d7 hình thành (Trang 15)
Hình  |trong  các  cỘt  này.  -  Thong  tin  c6  thé  được  lưu  trữ  Ởở  dữ  -  Tầết  a  cac  tan  shi  pha i  tuầncác  @  nh  @  ng  4  p  tin  khac  nhau - đề tài big data dữ liệu lớn
nh |trong các cỘt này. - Thong tin c6 thé được lưu trữ Ởở dữ - Tầết a cac tan shi pha i tuầncác @ nh @ ng 4 p tin khac nhau (Trang 17)
Hình  3.  BÉ  u  đôồi  fi  ms  tăngứở  ngid  di  a1  nquacac  nam - đề tài big data dữ liệu lớn
nh 3. BÉ u đôồi fi ms tăngứở ngid di a1 nquacac nam (Trang 24)
Hình  5Ứ  ng  ngữ  l§  uđ  ntrong  giao  thông  1.2.  DỮ  liệu  lớn  trong y  tế: - đề tài big data dữ liệu lớn
nh 5Ứ ng ngữ l§ uđ ntrong giao thông 1.2. DỮ liệu lớn trong y tế: (Trang 26)
Hình  6:  Ứ  ng dị  ng  đ  18  u trong  y  họ  c  1.3.  Dữ  liệu  lớn  trong  thể  thao: - đề tài big data dữ liệu lớn
nh 6: Ứ ng dị ng đ 18 u trong y họ c 1.3. Dữ liệu lớn trong thể thao: (Trang 27)
w