Bài viết tập trung nghiên cứu và so sánh hiệu suất hệ thống trong các trường hợp độ sao lưu dữ liệu có giá trị khác nhau, từ đó giúp người vận hành hệ thống Map-Reduce có thêm một tiêu chí để chọn các thông số hệ thống phù hợp. Mời các bạn cùng tham khảo!
Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) iu Phi Tác V Trong H Thng MAP-REDUCE Da Trên Tính a Phưng Ca D Liu Hunh Tn t Hc viên Khoa Công Ngh Thông Tin II Hc Vin Cơng Ngh Bưu Chính Vin Thơng Email: dathuynhtan@gmail.com Bùi Xuân Lc Khoa K Thut i Hc Tân To Email: locbui@ieee.org Abstract— Vn d liu a phưng mt vn quan trng cn xem xét thit k thut tốn iu phi cơng vic cho h thng Map-Reduce Gn ây, báo k thut [13] ã gii quyt ưc vn d liu a phưng bng vic xut mt kin trúc hàng i mi mt thut toán iu phi tác v ánh x (map task) da sách JSQ (Join the Shortest Queue) kt hp vi sách MaxWeight Tuy nhiên, báo [13] ch xem xét trưng hp lưu d liu mt giá tr c th bng Trên thc t, tu thuc vào cu hình h thng, lưu d liu có th ln hn hoc nh hn Trong báo này, m rng nghiên cu ca báo [13] so sánh hiu sut h thng trưng hp lưu d liu có giá tr khác nhau, t ó giúp ngưi vn hành h thng Map-Reduce có thêm mt tiêu chí chn thơng s h thng phù hp thêm to kt qu cui Khi thc hin tác v “map”, mt nhng xem xét quan trng vic phân b tác v gn vi máy tính lưu tr khi d liu u vào cho tác v ó; vn cịn ưc gi vn d liu a phưng i vi mi tác v, gi mt máy tính mt máy tính a phưng cho tác v nu on d liu liên quan n tác v ưc lưu tr ti máy tính ó, gi tác v mt tác v a phưng máy tính Trong trưng hp li (ngha d liu cn thit cho tác v không ưc lưu tr ti máy tính), máy tính ó ưc gi máy tính t xa cho tác v, tưng ng vi tác v ưc gi tác v t xa máy tính Tính a phưng nên ưc xem xét n vic phân b tác v “map” chy máy tính Vic ci thin tính a phưng có th gim thi gian x lý ca tác v “map” lưu lưng ti t mng mt vài tác v “map” cn ly d liu t xa Tuy nhiên, vic gán tt c tác v n máy tính a phưng có th dn n mt s phân phi không ng u ca tác v gia máy, tc mt s máy b tc nghn máy khác nhàn ri Vì vy cn phi cân bng gia d liu a phưng cân bng ti Map-Reduce ây ng lc thúc y nhà nghiên cu tìm hiu, ci tin, xut thut toán mi nhm nâng cao hiu qu s dng hiu sut h thng Mt s thut toán iu phi ưc xut trưc ây h thng Map-Reduce/Hadoop ci thin d liu a phưng Thut toán FIFO scheduler Hadoop [12] vi vic iu phi mt máy sn sàng phc v tác v “map” t công vic head-of-line vi d liu gn nht n máy tính Mc dù mt vài ti ưu hoá a phưng ã ưc thc hin, vn head-of-line blocking a phưng vn tn ti hiu sut thơng lưng vn b hn ch Thut tốn Fair Scheduler Hadoop [6] vi k thut iu phi chm tr ưc s dng ci thin a phưng Khi mt máy tính u cu mt tác v mi, nu cơng vic ưc iu phi tip cơng bng khơng có tác v a phưng sn có cho máy tính này, cơng vic tm thi b qua máy tính kim tra công vic tip theo danh sách K t máy tính ưc gii phóng nhanh, nhiu tác v a phưng ưc phc v Tuy nhiên, máy tính ang rnh s ưc gii thiu t mt máy sn sàng có th b qua tt c cơng vic khơng th tìm mt tác v a phưng vic cân bng gia thi gian rnh a phưng khơng rõ ràng Thut tốn iu phi Quincy ưc thit k cho Dryad [7] vi mt mô hình phân phi máy tính cho phép lưu d liu phc tp hn Map-Reduce Quincy s dng tng s d liu truyn n v o a Keywords- in toán ám mây, Map-Reduce, d liu a phưng, Hadoop I GII THIU Ngày nay, ang sng thi i thông tin, vi s tng trưng bùng n thông tin theo cp s nhân Nhng công ty hàng u v công ngh thông tin Google, Yahoo!, Amazon, Microsoft, Facebook, Twitter… ang i mt vi mt khi lưng d liu khng l S tng trưng òi hi chin lưc mi x lý phân tích d liu in toán ám mây ưc phát trin Map-Reduce/Hadoop ang mt mơ hình tính tốn mnh m ưc ng dng in toán ám mây Vic x lý tp d liu quy mô ln ã tr thành mt vn ngày quan trng y thách thc vi s lưng d liu ưc to bi mng xã hi trc tuyn, nghiên cu khoa hc… Map-Reduce/Hadoop [9]-[15] mt framework n gin mnh m x lý tp d liu quy mô ln môi trưng phân tán x lý song song, ang ưc s dng rng rãi thc t Mt cm máy tính Map-Reduce có th bao gm hàng chc ngàn máy tính [2] Các d liu ưc lưu tr thưng ưc t chc h thng phân phi tp tin (ví d h thng tp tin Google (GFS) [10], h thng tp tin phân tán Hadoop (HDFS) [4]) ó phân chia mt tp d liu ln thành nhiu on d liu lưu tr thành nhiu bn (mc nh bn sao) ca mi on d liu máy tính khác khau Mt yêu cu x lý d liu framework Map-Reduce ưc gi mt công vic (job) bao gm hai loi tác v: “map” (“ánh x”) “reduce” (“gim”) Mt tác v “map” c mt on d liu x lý to kt qu trung gian (các cp khoá – giá tr) Sau ó tác v “reduce” ly kt qu trung gian thc hin tính tốn ISBN: 978-604-67-0635-9 24 24 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Cơng Nghệ Thơng Tin (ECIT 2015) phưng mã hố vào mơ hình giá Sau ó, quyt nh iu phi ưc thc hin bng cách gii quyt vn chi phí thp nht Ngồi ra, cịn có rt nhiu cơng trình nghiên cu ã xut thut tốn iu phi gii quyt vn ci thin d liu a phưng Map-Reduce ưc trin khai thc t Tuy nhiên chưa có cơng trình nghiên cu ưa thut tốn iu phi cơng vic có th t ưc min dung lưng y (full capacity region) gim thiu thi gian ch i tc nghn mt cm máy tính Map-Reduce Vi tình hình ó, mt kin trúc hàng i mi mt thut toán iu phi tác v “map” ã ưc xut gn ây báo k thut [13] Kin trúc thut toán gii quyt ưc vn d liu a phưng bng vic t ưc min dung lưng y nhm gim thiu thi gian ch i tc nghn mt cm máy tính Map-Reduce Kin trúc hàng i gm mt hàng i a phưng tưng ng vi tng máy tính lưu tr tác v a phưng cho máy mt hàng i chung cho tt c máy tính Da kin trúc hàng i này, tác gi nghiên cu mt thut toán iu phi tác v ánh x (map) vi hai giai on: mt tác v mi n s ưc chuyn n mt hàng i tưng ng vi máy tính a phưng hoc hàng i chung bng sách Join the Shortest Queue (JSQ) mt máy tính rnh s chn mt tác v t hàng i a phưng tưng ng vi hoc hàng i chung bng cách s dng sách MaxWeight [14] Có th d dàng thy rng tác gi ca [13] ch xem xét trưng hp lưu d liu bng (ngha mi on d liu có bn ưc lưu tr máy tính khác nhau) Trên thc t, tu thuc vào cu hình h thng, lưu d liu có th ln hn hoc nh hn Trong báo này, m rng nghiên cu ca báo [13] bng vic xem xét so sánh hiu sut h thng trưng hp lưu d liu có giá tr khác C th, chng minh lý thuyt mô phng h thng dùng công c mô phng OMNeT++ cho trưng hp lưu d liu K có giá tr tng quát; ng thi so sánh hiu sut ca h thng vi trưng hp dưi ti (underload), gn ti (load), ti (overload) Chúng tin rng nhng kt qu có ưc s giúp ngưi vn hành h thng Map-Reduce có thêm mt tiêu chí chn thơng s h thng phù hp Phn li ca báo ưc t chc sau Trong phn II, miêu t mơ hình h thng Trong phn III, chúng tơi trình bày chng minh lý thuyt v ti ưu hố thơng lưng Phn IV cung cp kt qu mô phng Cui cùng, kt lun báo phn V II MƠ HÌNH H THNG Chúng tơi xem xét mt mơ hình thi gian ri rc cho mt cm máy tính bao gm M máy tính, ưc ánh s th t 1, 2, …, M Chúng gi nh rng mi công vic n yêu cu mt tác v “map”, mi tác v “map” yêu cu mt mu d liu u vào Chúng cng gi s rng mi mt mu d liu ưc lưu K (K > 1) máy tính khác Vì vy mi tác v liên quan n K máy tính a phưng Phi mt mt thi gian dài hn cho mt máy tính x lý mt tác v nu on d liu cn thit không ưc lưu tr ti a phưng k t máy tính cn ly d liu u tiên Các tác v có th phân loi theo máy tính a phưng mà chúng liên kt vi i vi mi tác v gán ch s ca K máy tính cc b theo mt trt t tng dn vào mt vector hình thành loi tác v: ∈ , , … , ∈ 1,2, … , , < < ⋯ < Các ký hiu ∈ ch rng máy tính m mt máy tính a phưng cho kiu tác v Chn ký hiu ℒ biu th cho tp hp kiu công vic tn ti cm = ℒ A Quá trình n trình phc v Cho biu din tng s lưng kiu công vic n h thng cho n thi im bt u ca khe thi gian t Chúng tơi gi s rng q trình n hàm tng theo thi gian vi tc n Ti mi máy tính thi gian phc v cơng vic ưc gi s tuân theo phân phi hình hc (geometric distribution) Tham s phân phi hình hc cho mt cơng vic ti mt máy tính a phưng ti máy tính t xa Q trình phc v ca mt cơng vic có th ưc xem mt chui s kin c lp vi xác sut thành công (hoc ) chui s kin s dng mt có mt s thành cơng tc mt cơng vic ã hồn thành Trong mơ hình chúng tơi gi s > , ngha là, thi gian phc v trung bình ca cơng vic a phưng hn thi gian phc v công vic t xa Chú ý rng giá tr khác ca th hin hiu qu x lý khác i vi d liu a phưng B Thut tốn iu phi cơng vic (task scheduling algorithm) iu phi công vic vic gán công vic n máy tính x lý Vi vn d liu a phưng, thut tốn iu phi cơng vic có th nh hưng áng k n hiu qu ca h thng Trong báo này, xem xét mt thut tốn iu phi cơng vic bao gm hai phn, nh tuyn iu phi, ưc xut báo k thut [13] H thng iu phi bao gm mt kin trúc hàng i ưc minh ho bi Hình Máy Master trì mt hàng i cơng vic cc b cho mi máy tính m, ưc ký hiu ưc gi hàng i cc b Có mt hàng i chung cho tt c máy tính ưc ký hiu (hoc ơi ngưi ta ký hiu ) ưc gi hàng i chung t xa (common remote queue) Chúng dùng mt vector chiu dài hàng i = , … , , ký hiu cho chiu dài dàng i ti thi im bt u ca khe thi gian t Khi mt công vic n, máy Master nh tuyn công vic n mt hàng i h thng hàng i Khi mt máy tính idle, chn mt cơng vic t hàng i a phưng tưng ng hoc hoc t hàng i chung t xa phc v Hai bưc ưc minh ho Hình Chúng ta gi bưc u tiên nh tuyn (routing) bưc th hai iu phi (scheduling) Thut toán c th sau Bưc - Join the Shortest Queue (JSQ) Routing: Khi mt cơng vic n, máy tính Master s so sánh chiu dài hàng i ca K hàng i cc b hàng i chung t xa sau ó nh tuyn n mt hàng i có chiu dài ngn nht Cho , 2525 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) nu máy tính m idle tc = , hoc ưc quyt nh bi máy tính Master bng thut tốn MaxWeight Chúng tơi dùng vector iu phi = , , … , biu din quyt nh iu phi cho tt c máy tính biu din công vic ưc giao tưng ng vi Các công vic ưc giao n cho mi hàng i có th ưc biu din bng vector n = , … , , ưc nh ngha sau: = ∈ , , = 1,2, … , , C ng hc hàng i (queue dynamics) Trong khe thi gian t, u tiên máy tính Master kim tra thông tin trng thái làm vic chiu dài hàng i Sau ó cơng vic n ti máy tính Master máy tính Master thc hin nh tuyn iu phi, cho ta thông tin Chúng nh ngha: = = = 1, = , = , = = Vi nh ngha trên, dch v t máy tính m cho hàng i a phưng hàng i t xa hai bin Bernoulli Do ó, dch v ưc áp dng cho mi hàng i có th ưc biu din , bng vector dch v = , … , vi tc dch v hoc Khi ó chiu dài hàng i tho mãn phưng trình sau: Hàng i a phưng (Local queues): vi m=1,2, …, M, , 1 = ó: Hình 1: Kin trúc hàng i thut toán iu phi 1, = = Bưc - MaxWeight Scheduling: Nu mt máy tính m va hồn thành mt cơng vic ti khe thi gian t-1, trng thái làm vic ca idle Nu khơng, máy tính phi thc hin mt cơng vic a phưng hoc mt công vic t xa Cho = , 1, biu din tưng ng cho trng thái: idle, ang thc hin mt công vic a phưng, ang thc hin mt công vic t xa Vector trng thái làm vic = , , … , vector chiu dài hàng i ưc báo cáo v cho máy tính Master ti thi im bt u ca khe thi gian t máy tính Master quyt nh iu phi cho tt c máy tính da Các máy tính idle ưc iu phi bi thut tốn MaxWeight: gi s máy tính m idle ti slot thi gian t, phc v mt cơng vic a phưng nu phc v mt công vic t xa cho trưng hp khác Các máy tính khác tip tc thc hin cơng vic chưa hồn thành tc thc hin cơng vic khơng ưu tiên Cho biu din quyt nh iu phi ca máy tính m ti slot thi gian t, mt hàm ca Hàng i t xa (Remote queue) 1 = ó: = , , ∈ vi là tp máy tính mà phc v mt vài cơng vic t hàng i t xa ti slot thi gian t Chú ý rng có th có mt vài máy tính c gng phc v hàng i t xa tht bi thiu cơng vic Chúng ta có th vit li phưng trình ng hc hàng i sau: 1 = , vi = , … , , (1) Trong trưng hp thi gian phc v xác nh, trình hàng i , chui Markov Tuy nhiên thi gian phc v mơ hình ngu nhiên không ng nht vn d liu a phưng Do ó cn xem xét thêm vector trng thái làm vic ; c th, vi s to thành chui Markov , , Chúng ta gi nh trng thái ban u , = , không gian trng thái ,1,2 bao gm tt c trng thái mà có th t ưc 1 , = 2 Lưu ý rng cho bit hàng i máy tính m ã ưc iu phi phc v Nó ch có giá tr hoc k t ưc iu phi phc v mt công vic a phưng hoc mt công vic t xa Nu máy tính m khơng idle tc = 12 , thit lp iu phi bng vi Tuy nhiên, 26 26 Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Hội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thơng Tin (ECIT 2015) chn ngồi Ʌ Do ó thut tốn ti ưu thơng lưng Ʌ cng min dung lưng ca h thng t trng thái ban u, vi tp s nguyên không âm D thy rng chui Markov ti gin (irreducible) khơng tun hồn (aperiodic) Chng minh: Chng minh tưng t chng minh ca nh lý báo k thut [13], nhiên, [13] ch xét trưng hp K=3 Vi trưng hp K tng quát, ta thy rng tp ℒ (tp hp kiu công vic) s thay i, = ℒ cng thay i Tuy nhiên, chng minh ca nh lý [13] vn có th ưc m rng cho trưng hp K tng quát Vì lý gii hn v dài báo, ch nêu ý tưng chng minh ây mi ngưi c tham kho báo [13] v chi tit Ý tưng ca chng minh sau: Vì , , mt chui Markov ti gin khơng tun hồn, s n nh ưc nh ngha s hi quy dưng (positive recurrence) ca chui Markov Da theo nh lý Foster-Lyapunov m rng, ta ch cn tìm mt s dưng T mt hàm Lyapunov cho trôi ca hàm Lyapunov (Lyapunov drift) sau T khe thi gian b chn nu bên mt tp hu hn ca không gian trng thái âm nu bên tp C th hàm Lyapunov ưc chn có dng: TI U HỐ THƠNG LNG III Trong phn này, chúng tơi s chng minh tính nng ti ưu hố thơng lưng ca thut tốn iu phi ưc trình bày phn trưc Chú ý rng tính nng ã ưc chng minh báo k thut [13] vi trưng hp K=3; phn m rng chng minh vi trưng hp K tng quát Ý tưng ca chng minh sau: Trưc tiên xác nh min chn (outer bound) ca min dung lưng ca h thng Sau ó chng minh rng thut tốn iu phi có th n nh hoá bt k vector tc n thuc min chn ngồi (n nh hố theo ngha hàng i u n nh không tng theo thi gian) iu ó có ngha thut tốn iu phi ti ưu thông lưng, min dung lưng cng trùng vi min chn A Min dung lng (capacity region) i vi bt k kiu công vic ∈ ℒ, gi nh rng s lưng kiu công vic n ưc phân b n máy m có tc , , vi = , , Tp tc , = = ∈ℒ,,…, Khi ó ta có th chng minh rng (tham kho chi tit [13]) trôi Lyapunov sau T khe thi gian t t0 ưc chn bi , ≤ 2 vi hng s > nh ưc gi mt phân tích (decomposition) ca vector tc = , , … , Vi vector tc n , xét mt máy tính m bt k, iu kin cn h thng ưc n nh lưng tác v trung bình ưc phân b cho máy tính m mt khe thi gian có th ưc phc v ht khe thi gian ó, có ngha là: ∈ , , ≤ 1, ngha tp ß = , ∈ ⋯ ≤ vi > bt k Khi ó ß mt tp hu hn ca không gian trng thái vi , ∈ ß , , ≤ , ∈ ß, , ≤ iu tho mãn nh lý Foster-Lyapunov m rng hoàn thành chng minh (2) ∉ IV ó v trái thi gian máy tính m cn có phc v lưng tác v trung bình phân b cho mt khe thi gian, vi tc dch v cho công vic a phưng cho công vic t xa Gi Ʌ tp giá tr tc n mà mi phn t phân tích ca tho mãn (2) C th: Ʌ = = , , … , = , , ∀ ∈ ℒ, Trong phn trưc chúng tơi ã chng minh tính ti ưu hố thơng lưng ca thut tốn iu phi ưc xut c vi lưu d liu K tng quát Tuy nhiên, câu hi ưc t hiu sut h thng ca thut toán iu phi thay i th vi giá tr K khác Chúng tơi s tr li câu hi ó phn vi kt qu mô phng Chúng tơi mơ phng thut tốn vi giá tr lưu d liu: K = 2, 3, 4, 6, 8, 10, so sánh hiu sut ca h thng vi trưng hp dưi ti (underload), ti (load) ti (overload) Tiêu chun ánh giá da vào tng s lưng tác v tn ti hàng i a phưng hàng i t xa sau mi khe thi gian (3) , , ∀ ∈ ℒ, ∀ = 1, … , ∈ , ∉ , ≤ 1, ∀ = 1, … , KT QU MƠ PHNG Chúng tơi thc hin mơ phng h thng vi 400 máy tính mt tp d liu ưc phân b ng u 320 máy s ó Thi gian phc v cho tác v a phưng tác v t xa tuân theo phân phi hình hc vi tham s tưng ng = .8 = .2 Vì vy tng dung lưng ca h thng (tính theo s tác v n mt n v thi gian) bng = 320 α + 80γ = 272 Tng thi gian chy ca h thng 2000 n v thi gian D thy rngɅ min chn ngồi ca min dung lưng ca h thng B Tính ti u thơng lng (throughput optimality) nh lý 1: Thut tốn iu phi ưc xut Phn II.B có th n nh h thng vi vector tc n bt k thuc min 27 27 HộiHội Thảo Quốc GiaGia 2015 Công CôngNghệ NghệThông Thông (ECIT 2015) Thảo Quốc 2015vềvềĐiện ĐiệnTử, Tử,Truyền TruyềnThông Thông TinTin (ECIT 2015) Bng cho thy kt qu trung bình theo thi gian ca tng s lưng tác v hàng i (tưng ng vi tng chiu dài ca tt c hàng i) vi giá tr khác ca tc tác v n () lưu d liu (K) Kt qu cng ưc th hin th Hình C th, Hình biu din s bin thiên ca tng chiu dài trung bình hàng i theo s thay i ca tc tác v n ng vi trưng hp K = 2, 3, 4, 6, 8, 10 Ta có th thy rng tc n nh (dưi ti – underload), tng chiu dài trung bình hàng i tng dn K tng dn, ngha giá tr K nh s có hiu sut cao hn trưng hp Tuy nhiên, tc n tng dn (ti tng dn), tng chiu dài trung bình hàng i ng vi giá tr K nh tng nhanh hn tng chiu dài trung bình hàng i ng vi giá tr K ln c bit, tc n gn ti (gn dung lưng h thng), tng chiu dài trung bình hàng i gim dn K tng dn, ngha giá tr K ln s cho hiu sut cao hn A Trng hp di ti (underload) Vi trưng hp cho h thng chy vi tc tác v n = 100 (tác v mt n v thi gian) Chy vi K = 2, 3, 4, 6, 8, 10 vi thi gian 2000 n v thi gian Chúng ta theo dõi tng s lưng tác v tc thi h thng quan sát s n nh Hình cho thy s i din n nh theo thi gian, qua ó thy rõ s n nh ca h thng Vi kt qu Hình thy rng hiu sut h thng vi chép d liu K = 2, 3, 4, 6, 8, 10 luôn n nh theo thi gian Tuy nhiên vi trưng hp chép d liu K = tt hn trưng hp khác Hình 3: Kt qu trưng hp = 100 B Trng hp gn ti (load) Vi trưng hp cho h thng chy vi tc tác v n ln lưt = 200 (tác v mt n v thi gian), = 250 (tác v mt n v thi gian), = 260 (tác v mt n v thi gian), = 270 (trong mt n v thi gian) Chy vi K = 2, 3, 4, 6, 8, 10 vi thi gian 2000 n v thi gian Hình 2: Hiu sut thông lưng h thng Bng 1: Kt qu s lưng cơng vic trung bình h thng CCCCCCSSCC K 100 120 140 160 180 200 220 230 240 250 260 272 300 K=2 K=3 K=4 K=6 K=8 K=10 42 65 114 371 503 596 713 798 937 1613 8277 22941 57792 48 66 89 122 330 445 530 584 663 849 7673 22514 57420 55 75 96 122 159 347 444 490 555 690 7608 22456 57438 68 90 113 138 166 203 344 390 444 544 7209 22042 57050 77 101 127 153 180 211 270 349 398 482 7280 22205 57246 85 110 136 163 191 220 258 316 371 437 6788 21752 56792 Vi kt qu Hình 4, Hình thy rng tng s lưng tác v tc thi h thng vn n nh theo thi gian Kt qu Hình 6, Hình cho thy tng s lưng tác v tc thi h thng có chiu hưng ti Tuy nhiên vi trưng hp chép d liu K = 10 tt hn trưng hp khác K tip, chúng tơi xem xét q trình thay i ca tng chiu dài hàng i theo thi gian ng vi giá tr khác ca K Hình 4: Kt qu trưng hp = 200 28 28 HộiHội Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) Thảo Quốc Gia 2015 Điện Tử, Truyền Thông Công Nghệ Thông Tin (ECIT 2015) V KT LUN Trong báo ã k tha m rng kt qu nghiên cu ca tác gi W Wang, K Zhu, L Ying, J Tan, L Zhang báo k thut [13] cho trưng hp lưu d liu có giá tr tng quát Trong h thng Map-Reduce thc t, lưu d liu mt thông s quan trng tin rng nhng kt qu có ưc báo s giúp ngưi vn hành h thng Map-Reduce có thêm mt tiêu chí chn thơng s h thng phù hp TÀI LIU THAM KHO Hình 5: Kt qu trưng hp = 250 [1] [2] [3] [4] [5] Hình 6: Kt qu trưng hp = 260 [6] [7] [8] [9] [10] Hình 7: Kt qu trưng hp = 270 [11] C Trng hp ti (overload) Vi trưng hp cho h thng chy vi tc tác v n ln lưt = 272 (tác v mt n v thi gian), = 300 (tác v mt n v thi gian) Chy vi K = 2, 3, 4, 6, 8, 10 vi thi gian 2000 n v thi gian [12] [13] Vi kt qu Bng thy rng ng vi c hai giá tr trưng hp tng s lưng tác v trung bình theo thi gian tưng ưng cho tt c giá tr ca K, h thng luôn ti [14] [15] [16] 29 29 C Abad, Y Lu, and R Campbell (2011), “DARE: Adaptive data replication for efficient cluster scheduling” in IEEE Int Conf Cluster Computing (CLUSTER), pp 159–168 G Ananthanarayanan, S Agarwal, S Kandula, A Greenberg, I Stoica, D Harlan, and E Harris (2011), “Scarlett: coping with skewed content popular in MapReduce clusters” in Proc European Conf Computer Systems (EuroSys), pp 287–300 J Dean and S Ghemawat (2008), “MapReduce: simplified data processing on large clusters” ACM Commun, vol 51 (no 1), pp 107– 113 K Shvachko, H Kuang, S Radia, and R Chansler (2010), “The hadoop distributed file system” in IEEE Symp Mass Storage Systems and Technologies (MSST), pp 1–10 L Tassiulas and A Ephremides (1992), “Stability properties of constrained queueing systems and scheduling policies for maximum throughput in multihop radio networks” IEEE Trans Autom Control, vol 4, pp 1936–1948 M Zaharia, D Borthakur, J Sen Sarma, K Elmeleegy, S Shenker, and I Stoica (2010), “Delay scheduling: a simple technique for achieving locality and fairness in cluster scheduling” in Proc European Conf Computer Systems (EuroSys), pp 265–278 M Isard, V Prabhakaran, J Currey, U Wieder, K Talwar, and A Goldberg (2009), “Quincy: fair scheduling for distributed computing clusters” in Proc ACM Symp Operating Systems Principles (SOSP), Big Sky, MT, pp 261-276 S T Maguluri and R Srikant (2013), “Scheduling jobs with unknown duration in clouds” in Proc IEEE Int Conf Computer Communications (INFOCOM), Turin, Italy S T Maguluri, R Srikant, and L Ying (2012), “Heavy traffic optimal resource allocation algorithms for cloud computing clusters” in Int Teletraffic Congr (ITC), Krakow, Poland S Ghemawat, H Gobioff, and S.-T Leung (2003), “The google file system” in Proc ACM Symp Operating Systems Principles (SOSP), pp 29–43 S Kavulya, J Tan, R Gandhi, and P Narasimhan (2010), “An analysis of traces from a production MapReduce cluster” in Proc IEEE/ACM Int Conf Cluster, Cloud and Grid Computing (CCGRID), pp 94–103 T White (2010), Hadoop: The definitive guide, Yahoo Press W Wang, K Zhu, L Ying, J Tan, and L Zhang, (2013), “MapTask scheduling in MapReduce with data locality: Throughput and heavytraffic optimality”, in Proc IEEE Int Conf Computer Communications (INFOCOM), Turin, Italy L Tassiulas and A Ephremides (1993), “Dynamic server allocation to parallel queues with randomly varying connectivity” IEEE Trans Inf Theory, vol 39, pp 466–478 http://hadoop.apache.org https://omnetpp.org ... nghn mt cm máy tính Map-Reduce Kin trúc hàng i gm mt hàng i a phưng tưng ng vi tng máy tính lưu tr tác v a phưng cho máy mt hàng i chung cho tt c máy tính Da kin trúc... d liu ưc lưu K (K > 1) máy tính khác Vì vy mi tác v liên quan n K máy tính a phưng Phi mt mt thi gian dài hn cho mt máy tính x lý mt tác v nu on d liu cn thit... ti a phưng k t máy tính cn ly d liu u tiên Các tác v có th phân loi theo máy tính a phưng mà chúng liên kt vi i vi mi tác v gán ch s ca K máy tính cc b theo mt trt