Nguơơn hình thành và phương pháp khai thác, quản lí dữ liệu lớn:.... Tài chính - Ngân hàng: TÀI LIỆU THAM KHẢO Big Data — DỮ liệu lớn Trang 4 DANH MỤC BẢNG, HÌNH Ả B nả1:Sosánhd lữ uộr
Nguôôn hình thành và phương pháp khai thác, quản lí dữ liệu lớn
Nguôôn hình thành: 6 2.2 Phương pháp khai thác, quản lí dữ liệu lớn
D IWữưậ móâửn t ừỏc nguụụn sau: D Ữliệu hành chớnh (t ỏc sỏng kiềễn cỦa t Och ứ, dự là chớnh ph Ủhay phi chớnh ph Vớ d hụồ ỉ bệnh ỏn điện tỬ cỦa b tuvi tệ hụồ s Ơb ọ hi ổn, hụồ ỉ ngõn hàng : đ7 lệ u từ hoạ t động thƯƠng mại ( các giao d ch ga hai đơn vị) Ví đỊ : giao d ch thỂ tín dụng, giao dịch trỰc tuyé6n (bao gôồmc @aodchit thiềốtb đi đ @);d tệt bác thiêốtb È ẩn biểốn nh hith nha tiểh c mỗổiềnđ tờ c n&biềôn khíh ậ v.v.; d Ữli ệi t ác thiềốt bị theo dõi, chẳng hạn nhưtừđiện tho ạ di đ ng, GPS; dỮ liệu tỪ hành ví, chẳng h ranh từn kiểm tr trtuyềôn cdc s & ph an, d th v Uho & bằốt kỳ lạ ¡ thông tin nào khac, xem tr c tiyềỗn;d tệđềôn t ừhông tin ý kiềỗn trén mạng xã hội
Hinh 1: Bi_u 6 s66 li ệ vềồ nguôồn hinh thanh ai a Big Data
2.2 Phương pháp khai thác, quản lí dữ liệu lớn:
Vi ệ khai thỏc và qu ọlý d Gi @1 ớhi ệ nay đ ượthiềốt kề dƑa trờn cỏc nguôôn hình thành d lỮu nÓMôẽi nguôồn d ỮIi ội I Ới khác nhau seẽ có những giải
Big Data — DỮ liệu lớn 6 pháp khai thác và quản lý dữ lỆu bn khác nhau Tuy nhiền, Hadoop ecosystem 1@ n dang la plo ng pháp đỂ khai thác và quản lý dữ liệu lớn được các tổ chức trên thềỗ gi ớs Ửi wg ph iéén
Hadoop giúp gi iaquyêêt vâên đê: ® Làmvi ệv khôôi lượng dỮliệu lớn (tính băông Petabyte) ¢ D (ti di d u@ x Uli trong méi tr UGg phan tan, 1 wtr Cr éhiédu phadn cling khác nhau và yêu cầu x Uy dédng bé © Cac 168i xudét hé n thông thường ¢ Bang théng gila cdc phaén ding Wa t ly clỨứ a đ7 lỆ u phần tán có giới hạn
- Qu ndaly file phan tán D f& uéseé d ượ h ệthôống HDFS (Hadoop Distributed File System) chia nh ởa thành nhiềều phầền Dữ liệu được qu â lý m ộ cách có h êhôống
- MapReduce là mô hình tổch ứ cỦa Hadoop, MapReduce seẽ tách nhỎ task ra thành nhiều phầện riềng và xỬ lý song song trờn cỏc Node CPU khỏc nhau, máy chủ là Master Node.
ĐẶC TRƯNG 7 “VS” CỦA BIG DATA - DỮ LIỆU LỚN
Velocity (vận tốc): 9 3 Variety (đa dạng): 9 4 Veracity (tính xác thực): 10 5 Value (giá trị): 10 6 Visualization (hình dung): „ệ„11 7 Variability (Tính khả biến): 11 CHƯƠNG III PHÂN LOẠI DỮ LIỆU LỚN .-2 cccccszcccceeerree 12
Thông qua tôốc đ tr@yédn đền c đỉluôồng d ii & d xác đĩh đ ượ s ttiềềm năng và độ khủng cỦa dỮliệu mà cho răệng đú là Bip Data hay khụng Trong Bip Data,d lititộộcd tậõyốửn đềụn t ỏc nguụồn như mạng, mỏy múc, di động
D &acdrihlo ad i ệ1 ớhaynh gh ườ d adrèn tôốc đ & Uyc Uludéng dữ liệu Thông thường, d liệu chảy tr tiểếp vào lỘ nIỚớ nhanh hơn khi ghi vào dia D @ bi @v @s phát trí Ếc Bllnternet of Things, yêu cầu các nguôồn dỮ liệu truyộộn đi v ớtụốc đỘ nhanh chúng và ph ọ đ ưŒ xỬlý kịp thời
Vớ d :ú h ỉ3,5t Ÿ UOtim kiềm mụẽi ngày trền Google Ngoài ra, người dùng FaceBook đang tăng khả ng 22% hàng năm
M) t vi dl _khac, các thông báo (tweet, trang thai, v.v.) trén né6n tang Facebook tỪ vài giầy trước đã lôẽi tờ ¡ và không đfỢ c ng†Ờ ¡ dùng quan tầm Người dùng th Uườ xóa nh tứ tin nhšÕn cũ và ch f ậtrung vào nh nữ tin nhšỗn gaén day nhadt
Dữ lệ u chu n @ ng hệ n được tính toán theo th gian th tự và tôốc đỘ cập nhật thông tin đã gi ẩn xuôống còn mili giây
No dé c gậđềôn b @ chaét tinh đa dag, linh hoa, d li & phi caéu trúc (unstructured) nhu van ban (text), anh (pictures), video, audio, ; vả thậm chí cả d dy ban caéu tric (semi-structure) nh file json hay file xml, NO cing dé6 cap đêôn các nguôôn khéng théong nhact
S Udad ag las Uuadt hi ộn cla d Crliộu t Ừcỏc nguụồn mới ọ bền trong và bền ngoài doanh nghiép
D ữli â có câêu trúc: Là dữ lỆ u có Ổ chức, đã được xác đnh độ dài và định dạng của dỮliệu
D tli ÿ bán có câêu trúc: Là đữ lỆ u rử a da tổ chức, là dạng dữ liệu không phù h @ v ớ cầu trúc chính thức của dữ liệu
D ữli ậ phi câêu trúc: Đây là loại dỮ liệu không được tổ chức, nó là dữ liệu khụng v alkhit v i@a6u trỳc hàng và c tẬruyốửn thụống c Ủa cỏc c Ơs Ởởd Ữliệu Nú mang tính khôngth đểỗm đ Ượtrong cầÕu trúc Ví d văn b ẩ, hình ảh, viđeo
M t thong nh ngttdén dé6 ma Big Data cd6n ph 4 tư tiền gi ả quyêốt đó là sự ảnh h UGgc bitinh dad 1@ tac d nQ@ dé6n hi € sudét Tinh da dang c ủ các luôồng đỮ
& ult doanh nghệ p hay lệ thôống càng cao thì càng làm tăng tính phỨc tạp cỦa dữliệu
Tớnh xỏc th khỏ khú khi d Ữii ụi hàng lo ạ cú th & @ras gihầệm lầẽn trong khi đó đ Ữli ôu ít h œ thì truyé6n tai khong dU
S thác nhau gi awÈô chằốt lượng mà dỮliệu thu đ ưŒ cũng ảnh h ưởg rằốt nhiềều đền chính xác trong quá trình phần tích dỮliệu
Caéu trúcm h hôống 6C cỦa các nhà máy hay các h ệthôông không thự: - ảo bao gôôm:
= Kéét nddi (c an biédn va mang)
= Dam may (tinh toán và d (ili 41 theo yêu cd6u)
" NỘ dung ở (maéu va b6 nhd)
= W idung/négr a nh (y nghia va uo ng quan)
“_ Cộng đôông (chia và dỘ ng tác)
“ Tuỳ ch nh (cá nhần hoá và giá trị)
Dữ liệu phải được xử lý băồng các côngg lệ n ¡ (phần tích và thuỆ t toán)
€ cho ra các thông tin có giá tr jvềồ mặ t ý nghĩa Clổ ng hạn khi quản lý mỘ t nhà mỏy cầền ph ảxem xột c đhai m ặh ữ hỡnh và vụ hỡnh v Ốnhiễệu thành phầện khỏc nhau Các thu tánt o iông tinđ cựu cầễu nh nẩậhàếy va gi iayuyéét cdc vadn đềô không phát hi nội th 47 xhôống cầốp cỦa máy, mài mòn lính ki Ôn,.v.v trong nha may
Big Data — DỮ liệu lớn 10
Seẽ không th #&ié6u Big Data nééu khong th €get value t td Ữi ệ Nhiềồu các công ty đã khai thác “mỎ vàng mới” đỮ lỆ u và phát tri ấn mạnh: Google, Facebook,
Doanh nghiệp caộn ha ch ủ nh đfợ c nIữ ng thụng tin hỮu ớch cỦa Big Data cho vằửn đềụ Cú nIỮ ng đĩ lỆ u khụng cú giỏ trị sử dụng và khụng cú lợi cho cụng ty thì cần đfợ c chuýể n đổ ¡ thành thứ có giá tr | đ trích xuằốt thông tin
Khong caén ban cai, kéét qu athu d ug t Uphan tich Big Data th Uiy raét hadp dầẽn và bằốt ng ỜNh ts đôối với các doanh nghi Ôb, phần tích Big Data ph @cung caép thong tin chi tié6t co € giúp các doanh nglỆ p tở nền nh tranh và linh hoạt h_ỉ- đụng thời ph vụ khỏch hàng c ủ h Qtụốt hơn Cỏc cụng nghệ Big Data hiện đại nở ra khổ năng thu thập và truy xuâốt dữ liệu có thể mang lại lợi ích có thể đo lường đ ượ cho c ảl Ợ nhu ận và kh ảnăng ph tụ hôồi hoạt động
Hình dung là rằốt quan @ ng giúp ng#Ờ ¡ dùng hỂ u rõ thông tin được phần tích, trích xuầốtt ho d di @ S ửi gs bi ể đôô, đôồ tị E ttc quan hoa mét I ượi rới Í tệnh dĩ pạ&eẽ hi ệqu ải @nhiềửu trong vi ệ truyềền đạt ý nghĩa so v ilỚngậớnh, bỏo cỏo ch a đẩệy cỏc con sụụ và cụng th_d#ruyờện thụống
Có 6 l u khái tệ m Data Visualization nỘ t cách đn gỗn là dùng các bi u d6d, b n@d6é, đôồ th jthay vì con sôố Giúp ngiờ ¡ dùng có thỂ hểu nỘ ¡ dung đang đ tf@uyốửn d tandộm badt thụng tin, khai thỏc tụụi ưu dỮliệu
M ộÔví d wh ude g pãlà khi viềốt báo cáo công vi ệ, đôối với phương pháp truyềễn thôống b naeé g cho sềốp mỘ b ảùg báo cáo "ng tràn" các con sôô Cũng v Gd Cli €u nay nh tig d UG "tr i quan" seé cho mt kéét qu hoàn toàn khác bit
Qu rồlý và bôối c ảnh hóa d Ữii ậi theo cách cung cdd6p caéu tric, ngay ca trong mụi tr ưồa d ủ ệ đềẽ biểụn đổ Ă và khụng thể đoỏn tr ước
Tính biềôn thiền dủa đỮ liệu phản ánh sự không nhằốt quán trong d liệu, đặc i tla trong 8 ly ngén nf w nhiền, cùng nộ tỪ wƒng những trong các ngỮ cảnh khỏc nhau nú seẽ mang cỏc ý nghĩa khỏc nhau Tớnh biềửn thiền của dữ liệu cũng còn đ tự hể nâua s biến thiển vẻồ kích th Ướ và tôốc độ dữ liệu được sinh ra, do d Ch ậ đ ượ thuth ật ựùhiềệu nguụồn khỏc nhau
Theo th _¡ gồn, chăốc chăÕn seẽ còn có th Ếcó nhiềều đã c tính của Big Data được đ nh nghĩa thềm, có thé là 8B hay thậm chí là 10V nữa
CHƯƠNG III PHÂN LOẠI DỮ LIỆU LỚN 1.D lữ uộruyêôn thống và d Ữi 4 phi truyêôn thống:
Thu tag ‘ad ir vphi truyềồn thôống” là d Ữli ậi thay thêó cho định nghĩa “đữ li u tậyờửn thụống” Khỏi ni rệ này nhằỗn m ậh tớnh chằốt m đ c ủ d ii ậi thay thờụ nh tig khụng xỏc đ ịh rừ đ ọđi c 8d Gh ờ đú (phớ truyềện thụống - hoặc chưa từng được sử đlng trước đây)
Dữ liệu cấu trúc và dữ liệu phi cấu trúc: 15 1 Định nghĩa: 15 2 So sánh dữ liệu có cấu trúc và dữ liệu phi cấu trúc
D ữli & có câêu trúc: Là thông tin, thƯỜ ng là các tệp văn bản, được hiển thị trong các c tỘa hàng có tiều đểô, có th és dang d ặ hàng và x Ửý băng các công c th kiếm d ti tệ Điềệu này cú th Ểđ UG hỡnh dung nh à m ột thdd so được tổ chức hoàn h , nơi mỢi th ứđ UG xác đ hh, đán nhãn và đềẽ đàng truy c ập Các ví d Udi & hinh c ọ lo ảd li ậi này bao gụồm cỏc bảng dỮliệu, cỏc tập tin Excel, và cỏch @u ủtr d @ đ ù (DBMS)nh LMySQL hoặc Oracle
D ữli & phi câêu trúc: Là nh [ng d Ữi ôi không d UG t ốch ứ theo m @ caéu tric & tk Thông thƯỜ ng, nó đfỢ c L u ữ dưới đạ ng tài liệu văn bản, hình ảnh, ầm thanh ho @ video, ch ang h anh Ucac bai viédt trén m ang, tweet, email, file PDF và các tài li @gi ftri, Diédu nay lam cho viéc truy cap va xU ly dt léu tr6 nén kho khinh @sov 6d Gi ậ có cầốu trúc, đặc bi ệ là khi cầền phổ ¡ thực hiện các tác vụ phần tích dỮliệu
4.2 So sánh dữ liệu có cấu trúc và dỮ liệu phi cấu trúc:
Dữ liệu phi cấu trúc - Các file văn bản, PDF, Audid, DỮ liệu có cấu trúc
- $66 thé tin dụng - Báo cáo
- Tên khách hàng - Tin nhaon
- Téns aph ấn và sôố lượng - Ảnh -_ Cỏc thụng tin giao dịch -_ Cỏc nỘi dung truyềện thụng trờn m ậng xã h Đặc Được xác đnh trước -_ Không được xác đi nh trước trưng | - Chỉ có đnh dạng văn bản - Có thể là dang văn bản, hình
- Déé tim kiểễm 4 nh video ầm thanh hoặc định dạng - Odag sôố, ngày tháng hodtkhac chuôẽi - Kho tim kié6m
- Chiéém khoảng 20% dữ liệu - Yéu cadu ít không gian lưu trữ - Dễẽ dàng qu aly vab @ v 4bady cac gi a phap kéé thlra
- Ở đạng hình ảnh, ầm thanh, video, file van ka n, email, trang tinh lứ- Chiộộm khoảng 80% dtrliộu
- Yêu câều nhiềều không gian IU tru
- Kho khan hon dé quan ly va bảo
Big Data — DỮ liệu lớn 15 v ddng cac gi ọ phỏp kờụ thỪa
-_ Liền quan đềôn các cơ sở dữ liệu - Kho dữ liệu - Không có c œ Ởd li ôi SỌL
- ĐIỢc trình bày dƯỚi dạng văn b ọ và sụố
- Trong mô hình dữ liệu, định tạng dỮ liệu được xác đ nh trước
- Có nhiềều hình dạng và kích c Xét khác nhau
-_ Không có bằốt kỳ mô hình dữ liệt nảo được xác định trước và được Định | - Định dang của nó được chuẩn|I ứ tr ữ ởđ hh d ậg gôốc (còn gọi lả dạng hóa và con ng Udi co thé doc được |đjh d ạg "gôốc") dữ - Nh nữ cái ph lổềễn nhằốt là CẬVW- Có thể là tệp ầm thanh (WAV, liệu |và XML MP3, OGG, v.v.) ho ặc tệp video (MPI,
WMV, v.v.), tài liệu PDE, hình ảnh (JPEG, PNG, v.v.), email, bai dang trềnm agxah Od th ệc & bidén V.V
- Kém linh hoạt - Tinh linh hcat và khả năng mở Mô - Các loại dỮ liệu được lưu girỘng cao hon hình |trong các cỘt này - Thong tin c6 thé được lưu trữ Ởở dữ - Tầết a cac tan shi pha i tuầncác @ nh @ ng 4 p tin khac nhau liệu = |theo cac yêu cầu rằốt nghiềm ngặk - Tuy nhiền, những dỮ liệu nay c 8l ượđôồ mang tính chủ quan, khó xửlý hơn
Tìm - Dễẽ dàng tìm kiểm và xử lý (ir Kho tim kiéém và phân tích kiếm, |đƯỢc xửỬ lí bởi con người hay các| - Sau khi được phát hiện, dữ liệu phân |thậ t toán Ệp trình phải được xử lí cẩn thận để hiểu tích và đfỢ c giá tị và khỔ năng Ứng dụng xử lý cỦa nó
- Đặ phòng tr tuyên - Nii n@ ng am thanh
- May ATM -_ Nhận dạng hình ảnh
Ví dụ | - H ệthôống kiến soát hàng tôẩn- Phần tích văn bản kho - Chatbots
- Ngan hang va ké6 toan Các - Kiến soát hàng tôôn kho - XU'ly van ban 7 ứng - H đhôông CRM -_ Phâôn môôm trình chicou dụng | ˆ H Qhôông ERP - Email ;
* - H &thddng dat vé may bay - Cac céng a hén thi va chinh chinh s Œ truyéon thông 3 AR QUA
Dược tạo Con ngƯỜi và máy móc bởi
Bang2: So sanhd th 6 câôu trúc
Big Data — DỮ liệu lớn và d ữÌI @ phi cadu truc