ht rekcrrt ớc gaybên rto gbộ hn ớ chí h.
Trang 1- - - - - - - - - - -
-g n ơ ư H h n i M g n à o H
C N Ê
M ố : 0 8 5
Ó
T M Ắ T T L U Ậ N V Ă N T H Ạ S C Ỹ
N À
H Ộ I- 0 2
Trang 2t ạ s c t ĩ ạ H i ọ ic ệv nCô gn hệ Bưuchí hViễ hn ô gt n
:cú
V ễnt ô g
Trang 3
t
ó
c ể ma g lạ h i ữn g t ô g itn hữu ích nếu đượ tc ậ hp ợ xp ử , lým
g
o
rt ộ tk oả gt hờ igiangiớ h i ạn Nhữ gt ô g itnnàyđượ ic ế tb
đến hưl à Dữ ilệ l u ớn (Bi data) ,c ú g ilênt ụ sc ản si h ,dướ m i ọ ih
n ệ iđ ện t oán đám mây Về lý t h yết ,điện t oán đám mây sẽ c o
ih
h ặcnâ gcấ p ứ dn ụg g ,k ô gđò ỏ ih in uồn hânl ự l nvàcót hể
dễ dà gt hayđổ iq ymô h icần T y hiên , h i uant âmt ớ d i ữ ilệ u
lớn được l ưu rtữ rtên đám mây ,mộ i t ềđ u uan rtọ g k ô g t hể bỏ
cg
a
o Chí h yếu tố ó làm tă g sự uan tâm đến cô g n hệ mãu
n ồn mở Ha o p ,cô gn hệ nàygi pc ccô gt yxử lýk ố l ợ g
h
t à
q ả vớ ich i h íthấp hơn V ì ậv y ,em chọn n hiên cứ đu ề ità
“ N h i ê n c ứ u c ô g n h ệ i đ ệ n t o n á m m â y ứ d n ụ g g t r o g u ả n l ý
dữ ilệ l u ớn“ ,n hiêncứ vu ề cô gn hệ iđ ệnt oánđámmây ,xử dl ữ ýilệ l u ớn rtên đám mây t ô g ua cô gn hệ Ha o p cù gkỹ ut ậ th
Trang 4o ạ dc ữ ilệ mu ạ g cảm ếbi n mô i rtườ g và cả h báo tạ C i ầ nd
“
ơ
h
T ựa rtên mô hì hk o dữ ilệu đámmây i Drag n ,mở đầuc oi
v ệ ic ảg iq yế tbà t oándữ ilệ l u ớ n ở iV ệ tNam
Trang 5H G N G N Ô C :
c
ó
N ấ t p ấ c t ả c c ít hnă g cần t hiế đ t ể hỗ rtợ c uh
ìr
t đầ đy ủ củ ia ệv c xây dự g và cu gcấ mp ộ tứ gdụ gn ,dị ch
Trang 6vụ webs ẵns à g rtênI nterne tmàk ô gcầ bn ấ tkìt haot ct ả ihayđ
i
à ặ h t ầ mp n ềm c o hữ g n ườ i há tt irển , uản lý itn họ ,cư
p ầ cn ứ gmáy ít h( máychủ ,cô gn hệ mạ g,l u rtữ vàk ô gd
m
á
Đ ộ g là hữ g đám mây mở c o n ườ ià
m
g
ù ứ dn ụg gl ưu rtữ ,c cn uồnt à i g yên h c có sẵnvàư
Trang 7l ia
l yâm
g
o
rt ạ g dựa t heo c c cấu hì h l u rtữ ảo và c c dị vch ụ dữ ilệu ilên uan ,rtêncơs ở đả bm ảoc cyêucầ vu ề cấ đp ộ dị vc ụ h ”
Trang 8ê
y ầ u uQ ảnl ýdữ ilệut ườ g ượ hc ự it c ệh nt heo hố c i ủac ci
l g
o
r
T ữ đám mâymộ v t ấ đn ề uan rtọ g ól àhiệ uu
q ả tố h t ấn ,t l àchấ ưt ợl gl u rtữ đ , ả bm ảon ucầ cu ủac c hàc
g
u
c ấ p ứ dn ụg g ,vừ ba ổ su gt hêm c cdị vc ụ dữ ilệ Bh u ằ gs
h
c
c ử dụ gc c ol ạ isiêudữ ilệu h c hau rto ggiaodiệnl ưurtữ đám mây ,có t hể tạor amộ tgiaodiệnc o hép đápứ gc cc
u
ê
y ầ du ị vc ụ h mà uảnl ýdữ ilệuk ô g hứ t c ạ p
Trang 9D :
c
h ớ d i ữ ilệu rt yề hn ố gt n : số ưl ợ g bản h ilớ cn ầ x , n ử lýh
t gôcccpigpo
a
H ử lýk ốil ợ gcỡt era ytevàh
t ậmchílàpeta yte sdữ ilệ hu ứ t p c ạpt ơ gđố i i ệ uh u ả vớq ich ih
l po
a
H
đpoaHeh
đ ạ n k á c h u , v à c á c h ầ n à y s ẽ ư đ ợ h c ạ c y s o g s o g t r ê n i
h
n ề o u n d e k á c h u T h ê m v o ó , H a o p c u g c ấ p 1 h ệ h t ố g
r
t u
l p é h o c ) S F D H
Trang 10tự độ g u ả n l ý đ ượ c c á c l ỗ i , c á c ư h ỏ v n ề h g p ầ c n ứ c n ủ g a c á c e
c ứ dn ụg g hântánbằ n mộ sg t ố g n gữ lậ rtp ì h h c hư
.lraP
g
u
rt ố iđa vào hầ n l gic củ a ứ g dụ g ,bỏ ua ượ mc ộ s t ố h
o
r
T ỗif liesẽ ưđ ợcchiar al àm mộ thay hiề ul
h
n ềuDatan de
Trang 11e
m
a
N ịu rt ch hiệm d yt ìr t ô g itnvề cấu rtúcn
â
h
y
â cấpc cf lie,t ưmụ cc ủ ha ệ ht ố gf lievàc cmetadatac
c
h ủ ha ệ ht ố gf lie
sednataD
F
D
H ra t hà h c c block ,và mỗ iblocknày sẽ ư
đ ợcl u rtữ rtênDatan det hà hmộtf lie irê gbiệ trtênhệ ht ố gc
e
li
f ụ bc ộ của ó Block si e mặ đc ị h của HD S là 4MB ,
ưt
b
ó
C ạ iq yền rt y cập :q yền ược hép đọc () ,y
q ền hi( w) ,vàq yề hn ựt ct hi( x
Mỗ iflie và t ư mục có chủ sở hữu (owne ) ,mộ tn ómh
Trang 12p
a
M ử dụ ghai t hao t c chí hc oviệ hc ựt c t h ii
v
g
ô
c ệcbanđầ t u ừ ưn ờg i ù g l àhàmmapvàhàm r e u e ,cóh
v ệ c
p M
t àv ,p
h ệ xn ử lý ósẽ rtả cr ặ da p ữ ilệu (key ,value ) ut u tcuố icù gư
Trang 13ì
H 6 mô tả cơ chế oh ạ đ t ộ g tổ g uá t củ a
cue
h ệnj bvàkèmt heol àdữ ilệui n u t ớiJ bTr cker ,s au ói n u t
syàn tilpsccàv tilpscchàh
t c
l ợ g splti C n đố v i ớ ire u e t ask ,số ưl ợ gre u e t ask ượ cđ
c
x ị bn ởh ich ơ g rtì hcilent
C : 6 2
h
n
ì
H ơ ế o c h h ạ đ t ộ n g H a d o p M a p R e d u e
Trang 14ht rekcr
rt ớc gaybên rto gbộ hn ớ chí h
ư
r
T ớc h i h i uố gl o a ldisk ,c cdữ ilệu ut u tnàysẽ ư
đ ợc hân chia vào c c par it n regi n )dựa vào hàm par it nđ
Trang 15i
h ên l o aldisk của c c maptask Do biế ư t ợ sđ c ố ưl ợ gmap
crTksaTnên ,ksate
c ứar egi nnày oànt hà hvào rto gbộ hn ớ
n ih
c ố icù g TaskTr cke rsẽ hc ạy ò g lặ đp ể lấ ty ừng r cord ra
s eue
r màh ,eue
r màho
đ ợc h i uố gHDFS
Trang 16đ ệnt oạ id iđộ g+ c c rtạm BTS ,hệ ht ố g uản l ýt uê bao ,c
g
u
c ấ dp ị vc ụh ,ít hcước ,ch yển ù g,…môhì hdị vc ụ h đám
ưndolC
Trang 17h p h à
t
á
s ằ g amerasẽ yrt ề du n ữ ilệu bao gồm c c t ô g số o đạ ,ch
i
ơ ảnl ý l ưu rtữ và chia sẽ dữ ilệ cu ảm ếbi n mô i rtườ g t heoh
h
t
c
c ế b t ị máy ít h( deskt p,l apt p,t ablet )
Trang 18x UBND , Sở TT&TT t ô g ua mạ g ch yên ù gc
n ờ i ù gcóx ct hự s c ẽ rt ycậpvàchỉ xemdữ ilệumô irtườ gh
rt ờn ạg t iTTDLMT củ Ca ần T ơ sẽ ưđ ợ đc ồ gbộ lên K o dữ ilệu ảc m biến mô i rtườ g rto g Data Cente r của Việ n
đS
đ
c
c ểmn ưs au:
S : 4 3 h n ì
H ơ ồ hệ h đ t ố C n g ầ n T ơ
Trang 19x Đ ểi m A :Hệ ht ố gt u há tsó g h ngdâyWiF i rteoc
K
h
i
N ều 1 ,c ch điểm D k oả g 7 0 m (Line o fsi h)t Hệ h
t ố n ở g đâyt ươ gt ự n ư hệ ht ốn ạ ig t i ểđ m B n ư gk ô g cói
h
t ế b t ị cảm ếbi n omự ưc ớ n c
x Đ ểi m D :Tru g t âm dữ ilệu mô i rtườ g ượ đc ặ t t ạ ii
rt ờ g rtên c c thiế b t ị máy ít h (deskt p ,lapt p ,tablet )t ô gh
Trang 20l ạ d i ữ ilệuvà 3c nsố làt hờ igianUNIX t ạ hi ờ it i ể dđ m ữ ilệ uư
R
p
a
M h ạ đo t ộ g bằ g c ch chia uá tìr h xử lýh
à
h
t ha igia i oạ :n gia i oạn pm àa v gia iđoạn re u e
Đầuvàogia i oạn pm của a c ú g at dl ữ ilệu củà ac cf liel
m
x Từ b n ảg n h icủ da ữ ilệu ut u tcócấu rtúcn ưsau :keyl à
mà
l e
,
6
(
) 3 3
7
,
7
(
Trang 21Đầ u ar từ c cchức nă gm ưap đ ợ xc ử ýl bở ik u n hổ e
v dụ , hc ứcnă gre u e sẽ đc ầ ó uvàos auđây:
)]
…
; 1 2 7
;
…
; 4 2 7
; 9 2 7
; 3 3 7
; 0 3 7
;
…
; 1 9 7
; 4 2 7
; 6 3 7
; 3 4 7
; 4 3 7
a
H ử dụ g mộ thàm combine rk
( ế h t ợ đp ể xử đ ) l ầý ur acủ da ữ ilệu ut u tcủahàmmap– đầur a
củahàm combine rnàysẽ dl ạ đà n ầg uvàoc ohàm r e u e Thự ch
Trang 22) 4 2
s i
k ế mm ự ưc ớ n csâu hấ tc omỗ d i ữ ilệ đu ầur amap ,hàmRe u em
; 4 2 7
; 9 2 7
; 3 3 7
; 0 3 7
(
x
M
(, ) 9 2 7
; 3 3 7
; 0 3 7 ((
x
m
3 3 7
= ) 4 2 7 , 3 3 7 ( x
c ế uq ản lý bên rto g ó Việ kc ế h t ợp MapRe u e vớ iHDFS
mìtn
Trang 23q ế tc c vấ đn ề ilên uan đế hn ạ tầ gcô g n hệ t ô g itnc og
h
n ềuh n
s ,óoàvm
ê
h
T ự ù g nổ về dữ ilệ u ih ện nay đ ã đặ trah
c
ít và xử lý n uồ dn ữ ilệu ó ,biến hữ g dữ ilệu t ô thà hh
n ữ gt ô g it ữnh uí chvớ m i ộ m t ứcch i h íhợp il ý.V ệ kc ế h t ợ pi
Trang 24c ế so gso g để xử dlý ữ ilệu rtên đám mây và cu g cấp giaoi
d ệnđ ngiả vn ớ icơs ở hạ tầ gđiệnt oán hânt ánvà hứ t c ạ p
Tạ i ệVi tNam ,vấ đn ề l l ũ ụt t hiên t a iđã ma g l ạ h i ữ n gi
h
t ệ h t ạ i ôcù gl ớ vn ề ưn ờg ivàt à isản V ìvậ vy ớ h , i ữ vn n ấ g n
đề ưa ra n ư rtên ,việc áp dụ g điện toán đám mây i(Drag n
hng
rt
i
ô
m ờ g ,cả hbáovàgiảm ẹ h thiênt ailàvi cl àmhếts ức ầni
h
t ế tđểgiảm hẹhậu uảvềbiến ổ imô irtườ gt oàncầut ạ iViệ tM
Trang 25I L I À
T Ệ U T H A M K H ẢO i
I
” s e r u t c u
t
n
a
S Barba “ gra B i D d a t a a n C l o d C o m u it g : C u r e n t e
Trang 26“ ồ g T ô g M i h ” i D r g n ” HàNội , 0 2.NISCI
[9] NISCI Tạ p c h í k h a h ọ c P h ầ m n ề m v à N ộ i u g
số ,NISCI