136 http://www.thuvienvatly.info | © hiepkhachquay C máy tính hadron ln Các kế hoạch xử lí luồng thác dữ liệu từ các máy dò hạt của Máy Va chạm Hadron Lớn khiến cho phòng thí nghiệm vật lí hạt CER, lại một lần nữa, trở thành một nhà tiên phong về điện toán cũng như vật lí. Andreas Hirstius mô tả những thách thức của việc xử lí và lưu trữ thông tin trong kỉ nguyên khoa học petabyte. Vào gia thp niên 1990, khi các nhà vt lí CERN ưa ra nhng ưc tính mang tính cnh báo u tiên ca h v lưng d liu mà các thí nghim ti Máy Va chm Hadron Ln (LHC) s to ra, thì nhà sn sut linh kin máy tính Intel mi ch tung ra b x lí Pentium Pro. Windows ã là h iu hành thng tr, du cho Linux vn ang so tài. CERN gn y ã ưa World Wide Web thành công cng, nhưng h thng ó còn lâu mi hoàn thin như nó ngày nay. Và mt gigabyte (10 9 byte) không gian ĩa tiêu tn n vài trăm ô la. Toàn b các kt ni trong h tng in toán ca CERN phi hot ng ng b LHC thành công. Môi trưng in toán này có mt s thách thc gay gt i vi các nhà khoa hc máy tính làm vic LHC. Trưc ht, các ưc tính ban u ca các nhà vt lí kêu gi cho LHC là to ra vài ba triệu gigabyte – mt vài petabyte (10 15 byte) – d liu mi năm. Ngoài giá thành ln ca vic lưu tr nhng d liu này, thì công sut in toán cn thit x lí chúng s òi hi gn mt triu PC ca thi kì thp niên 1990. úng vy, kh năng in toán ưc trông i tăng lên 100 ln vào lúc LHC cui cùng ã i vào hot ng, nh nh lut Moore, phát biu rng công sut in toán i khái s tăng gp ôi mi hai năm. Tuy nhiên, tht khó mà d oán trưc các thí nghim LHC s cn bao nhiêu công sut in toán trong tương lai và các nhà khoa hc máy tính CERN phi 137 Tuyn Physics World 2008 | © hiepkhachquay quan tâm n vic nhu cu in toán có th tăng trưng nhanh hơn nh lut Moore. Phân phi d liu sang nhng v trí khác rõ ràng là mt phn ca li gii, nhưng tc truyn d liu vn tương i thp – năm 1994, tng kt ni ra bên ngoài ca CERN tương ương vi ch mt kt ni băng rng ngày nay, ch là 10 megabit mi giây. Các ngun ch yu ca cơn lũ d liu LHC là hai c máy dò ht ln, ATLAS và CMS, mi máy có hơn mưi t kênh c liu. Vi 40 triu chùm ht ct qua mi giây, vic c liu liên tc toàn b máy dò s to ra hơn mt petabyte d liu mi giây. May thay, a s các va chm chng áng chú ý, bng cách lc và loi b chúng bng phương tin in t, chúng ta có th gim bt lung d liu mà không ánh mt nhng s kin hp dn. Tuy vy, ATLAS, CMS và hai thí nghim LHC khác, ALICE và LHCb, s cùng nhau to ra 10-15 petabyte d liu mi năm phi x lí, lưu tr vĩnh vin và ng thi gi cho có th truy xut bt c lúc nào vi các nhà nghiên cu trên khp th gii. Vic x lí nhng lưng d liu khng l như vy ưc t tên là “thách thc LHC” do khoa IT ti CERN và các trưng vic khác làm vic gii quyt vn . Xây dựng trên những nỗ lực trong quá khứ Nhu cu ưc tính ca các thí nghim LHC ln hơn ti 10.000 ln dung lưng d liu và công sut máy tính ca nhng tin thân ca chúng c máy va chm Electron Positron Ln (LEP) mà CERN ã óng ca hi năm 2000. Trong khong thi gian gia lúc kt thúc LEP và lúc khi ng LHC, ã có mt s thí nghim trên Super Proton Synchrotron (SPS) ánh du nhng bưc tin quan trng hưng ti in toán cho LHC. Ví d, ngay trưc khi LEP b tháo d dn ưng cho LHC, thí nghim NA48 v ngành vt lí kaon ã to ra d liu tc cc i khong 40 megabyte/s – ch nh hơn khong 5 n 8 ln so vi cái chúng ta mong i t các thí nghim LHC trong các va chm proton-proton. Vic bit ưc phn cng có sn trên th trưng có th x lí nhng tc d liu ó tht vng d, vì nó nghĩa là lúc LHC i vào hot ng, phn cng s ưc ci tin nm bt nhng tc cao hơn. Cho va chm các ion nng to ra nhiu ht hơn khong hai bc ln so vi các va chm proton-proton, và vì th tc d liu trong các va chm ion tương ng s cao hơn. Vào cui năm 2002 và u năm 2003, các chi tit kĩ thut cho thí nghim ALICE, s s dng c hai loi va chm nghiên cu lc ht nhân mnh, yêu cu nó thu thp d liu tc khong 1,2 gigabyte/s. Vì nhu cu cho ALICE ln hơn quá nhiu so vi các thí nghim khác, nên rõ ràng nu thit b in toán có th làm ch ALICE, thì nó có th làm ch hu như bt c thí nghim nào – và chc chn d liu t nhng thí nghim khác s không thành vn . gii quyt thách thc này, các nhà khoa hc máy tính CERN và các thành viên ca i ALICE ã hp tác thit k mt h thng có th nhn d liu tc 1,2 gigabyte/s t mt thí nghim và x lí chúng chính xác. Nguyên mu c ln u tiên ã ưc ch to hi năm 2003 và ưc cho là có kh năng làm ch tc d liu 100 megabyte/s trong vòng vài gi. K hoch ã phá sn hu như ngay tc thì. Các nguyên mu sau này ã ưa vào thêm nhng bài hc t nhng tin thân ca chúng và có th làm ch tc d liu ngày càng cao hơn. 138 http://www.thuvienvatly.info | © hiepkhachquay Mt d án khác t thi kì LEP ã giúp các nhà khoa hc máy tính xây dng môi trưng in toán LHC là thit b tích hp không ng nht linh hot, hay SHIFT, phát trin vào u thp niên 1990 bi các thành viên ca t chc in toán ca CERN cng tác vi thí nghim OPAL trên LEP. Lúc y, in toán ti LHC hu như hoàn toàn ưc thc hin bi các máy ch tt c trong mt. Nguyên tc cơ s ca SHIFT là chia tách các ngun da trên nhim v mà chúng thc hin: in toán; lưu tr ĩa; hoc lưu tr băng. Tt c các ngun khác nhau này ưc ni vi nhau thông qua mt mng. H thng này tr thành cơ s cho cái ngày nay gi là in toán d liu vào cao. S khác bit gia in toán d liu vào cao và in toán hiu sut cao quen thuc hơn có th hiu bng cách xem xét mt xa l y xe hơi, trong ó các xe biu din cho nhng ng dng in toán khác nhau. Trong in toán hiu sut cao, mc tiêu là i t A n B càng nhanh càng tt – như trong mt chic Ferrari, có l vy, trên mt con ưng vng. Khi mt xe dng li, thì cuc ua kt thúc cho n khi chic xe ưc sa xong. Trong in toán d liu vào cao, trái li, vn duy nht là cho càng nhiu xe i t im A n im B càng tt. Cho dù mt xe có dng li, thì iu ó tht ra chng là vn gì, vì dòng xe vn tip tc chy và chic xe khác có th băng trên ưng. in toán d liu vào cao trên lí tưng thích hp cho ngành vt lí năng lưng cao, vì các “s kin” do các thí nghim ghi li hoàn toàn c lp vi nhau và do ó có th x lí c lp nhau. iu này có nghĩa là phép phân tích hay mô phng d liu có th tin hành trên mt s lưng ln máy tính hot ng c lp trên nhng mnh nh ca d liu: ngưi ta nói khi lưng công vic ó là “song song ri”. Ngưc li, các ng dng trên mt siêu máy tính tt, kiu cũ là song song “cao”: toàn b các ngun in toán sn có, có l hàng nghìn b vi x lí, ưc s dng cho mt nhim v in toán duy nht. Vic phân tách các ngun khác nhau làm cho SHIFT rt linh hot: mi ngun có th phát trin c lp theo nhng nhu cu mi. ng thi, cơ s vt lí ca tng ngun không có liên quan gì ln vi h xem như mt tng th. Ví d, có th thêm các băng vào h thng mà không cn”t ng” thêm không gian ĩa, và các nút máy tính cũ có th d dàng cho ngh vic và các nút mi ưc lp t mà không làm xáo trn n toàn h thng. Các khía cnh này ca SHIFT – mt mng song song ri các máy tính, mi máy tính có th nâng cp khai thác li th ca nh lut Moore, tt c hot ng c lp trên các bit d liu khác nhau – t ra là cơ s tt nht có th có cho in toán trong thi i LHC. Điện toán phân phối: mạng lưới LHC Trong khi các nhà nghiên cu ang phát trin và kim nghim các khuôn kh phn mm tương ng ca h cho vic thu nhn d liu, phân tích và mô phng d liu, thì môi trưng in toán CERN và mi nơi liên tc trưng thành. Hu như ngay tc thì sau khi lên k hoch cho LHC vào gia thp niên 1990, cái tr nên rõ ràng vi các nhà khoa hc máy tính là công sut in toán ti CERN bn thân nó nh hơn nhiu công sut in toán cn thit phân tích d liu LHC 139 Tuyn Physics World 2008 | © hiepkhachquay và tin hành nhng mô phng cn thit. Vì th, công sut in toán phi làm cho sn dùng mi nơi. Thách thc là xây dng mt h thng cho phép các nhà vt lí d dàng truy cp công sut in toán phân phi khp th gii. H thng ó ngày nay gi là Mng in toán LHC Toàn cu (WLCG). WLCG ưc xây dng là mt cu trúc phân cp. Trung tâm in toán CERN là Cp 0, và toàn b d liu thô ưc lưu tr vĩnh vin ó. Có 11 trm mng Cp 1 bên ngoài CERN, trong ó có Phòng Rutherford Appleton ca Anh, Fermilab Mĩ, và Trung tâm in toán Mng Hàn lâm Sinica ài Loan. Tt c các trm Cp 1 này u có không gian cho lưu tr băng t vĩnh vin, và các thí nghim LHC xut d liu thô ca chúng t CERN n nhng trm Cp 1 này. a phn các phân tích và mô phng d liu tht s ưc tin hành khong 130 trm Cp 2. Tng cng, CERN s xut 2-5 gigabyte d liu thô n các trm Cp 1 trong mi giây. Khi k hoch cho LHC khi ng, nhng tc ó dưng như không th nào t ưc. Tuy nhiên, sang u th k này, công ngh si quang ã phát trin xa làm cho các ưng truyn mng xuyên lc a và (c bit) xuyên i dương 10 gigabit có giá tr thương mi. áp li, CERN hp tác vi các trưng vin và nhà cung cp mng khác thành lp d án DataTAG kho sát tim năng ca nhng ưng truyn nhanh như vy. Kt qu hp tác ã lp mt s k lc tc trong vic truyn d liu trên nhng khong cách dài, bt u vi 5,44 gigabit/s gia Geneva và Sunnyvale, California, vào tháng 10 năm 2003 (Vì nhng lí do lch s, các chuyên gia mng o d liu theo bit/s, còn các chuyên gia truyn s liu o theo byte/s. Mt byte gm tám bit). Trong vòng mt năm, tc truyn ã t 7,4 gigabit/s, hoc khong 9 ĩa DVD mi phút, i vi s truyn s liu t b nh chính ca mt server n b nh chính ca mt server khác. Tc này b hn ch không phi bi mng mà bi năng lc ca các server. S truyn b-nh- n-b-nh ch mi bt u, vì d liu tht s s ưc truyn t ĩa. ây là mt òi hi kht khe hơn nhiu; tuy vy, năm 2004, s dng các server ni vi mt h thng ĩa thc nghim, ngưi ta ã có th truyn 700 megabyte, hay mt ĩa CD d liu, mi giây t Geneva dn California vi mt s c lung t ĩa – nhanh hơn 10 ln so vi ĩa cng chuNn trong máy tính bàn ngày nay. iu này cho phép các kt ni mng s chng là vn gì và d liu tht s có th truyn t CERN n các trm Cp 1 vi tc d liu mong mun. CERN hin kt ni vi tt c các trm Cp 1 vi ít nht mt kt ni mng có kh năng truyn s liu tc 10 gigabit/s. 140 http://www.thuvienvatly.info | © hiepkhachquay Các thí nghim LHC s to ra quá nhiu d liu cho CERN x lí mt mình. Vì th, nhim v phân tích và lưu tr d liu s ưc phân phi cho nhiu a im khác nhau trên khp th gii thông qua mt mng gi là Mng in toán LHC Toàn c. T trung tâm máy tính CERN (cp 0 ca mng), d liu va chm ht s ưc truyn ti 11 trung tâm Cp 1 theo các ưng truyn quang si quang siêu nhanh 10 gigabit/s. Nhng trm quc gia này s lưu tr khong hai phn ba d liu thô trong nhng thư vin băng t khng l, còn phn còn li ưc gi CERN. a s phép phân tích d liu s ưc thc hin trên các máy tính ti khong 130 trung tâm vùng Cp 2. Tng nhà vt lí có th khai thác công sut in toán ca các trung tâm Cp 2 bng ưng truyn gia các trung tâm, các cm in toán trưng i hc (Cp 3), và máy tính bàn và laptop ca h (Cp 4). Làm gì với mớ dữ liệu đó ? Các thách thc ca bài toán in toán LHC cũng bao gm nhng vn mang tính trn tc hơn nhiu, như ch ra làm th nào cài t và cu hình hiu qu mt s lưng ln máy móc, theo dõi chúng, tìm hng hóc và trc trc, và cui cùng là làm th nào cho ngng hot ng hàng nghìn c máy. Lưu tr d liu là mt nhim v có v “bình thưng” khác òi hi phi xem xét nghiêm túc ngay trong pha lp k hoch. Mt yu t quan trng trong vic lp k hoch là i vi CERN, và ngành vt lí năng lưng cao nói chung, lưu tr vĩnh vin không tht s nghĩa là “vĩnh vin”. Sau khi LEP ngng hot ng, các nhà vt lí ã chu khó phân tích li toàn b 11 năm s liu thô quý giá mà nó ã to ra. LHC có th phát sinh 300-400 petabyte d liu thô trong khong thi gian tn ti ưc tính 15 năm ca nó, và các nhà vt lí mong rng toàn b d liu vn có th truy cp ưc trong vài năm sau khi c máy va chm ngng hot ng. 141 Tuyn Physics World 2008 | © hiepkhachquay D liu có ích trong vic tính toán ưc lưu tr trên ĩa, tt nhiên, nhưng trong thi gian dài, d liu lưu tr trên băng t mi ưc xem là “an toàn”. Không có công ngh nào khác t ra lưu tr ưc nhng lưng d liu khng l mt cách áng tin cy trong nhng khong thi gian dài và vn có giá thành có th chp nhn ưc. Nhng băng này ưc cha trong các thư vin có th gi ti 10.000 băng và ti 192 băng mi thư vin. Robot c băng tìm ưng i trong thư vin y d liu m bo d liu vn có th truy cp ưc, toàn b d liu thô ưc copy sang mt dòng phương tin băng mi khi nó có khai thác. V mt lch s, vic này din ra mi ba n bn năm, mc dù tc thay i gn ây ã tăng tc. Ngoài vic bo v d liu thô quý giá khi b tn hi thưng nht và b rách trên tng băng t, nhng t nâng cp thưng xuyên như vy cũng gim i s lưng băng t, vì các phiên bn mi hơn thưng có dung lưng ln hơn. Truy xut d liu tr nên nhanh hơn vi tng t nâng cp liên tip, vì tc ca các băng mi nhanh hơn. Băng cũ ưc t lên giá, bc trong plastic và lưu tr cùng vi mt vài băng mi m bo ngưi ta có th truy xut băng gc mt ln na. Các băng sao lưu cũng ưc lưu tr nhiu a im và nhiu tòa nhà khác nhau, nhm gim ti thiu mt mát nu có bt kì thm ha nào xy ra. Ngoài d liu thc v các va chm ht, các thí nghim LHC còn phi lưu tr “sc khe” ca máy dò ht (tc là các chi tit v bn thân máy dò ht, như thông tin ch to và sp xp) có th thc hin phân tích và mô phng thích hp. Thông tin này ưc lưu tr trong cái gi là cơ s d liu iu kin trung tâm in toán CERN và sau ó truyn ti n các trm Cp 1. Các thí nghim LHC yêu cu gây ra các bin i i vi cơ s d liu 200.000 ln mi giây, nhưng nguyên mu có chc năng x lí d liu trn vn u tiên ch có th x lí 100 thay i mi giây. 142 http://www.thuvienvatly.info | © hiepkhachquay Sau mt s n lc mnh m nhm gii quyt vn này, Oracle, nhà sn sut cơ s d liu quan h cung cp cho CERN, tht s ã thay i phn mm cơ s d liu ca mình cho các thí nghim LHC áp ng yêu cu ó. Mt iu mà các i tác công nghip nói v CERN và ngành vt lí năng lưng cao là các yêu cu ó i trưc vài năm so vi bt kì nơi nào khác. Pat Gelsinger, mt nhân viên lâu năm trong nhóm kinh doanh kĩ thut s ti Intel (ngưi trưc ây ã tng làm vic vi i IT CERN), nói rng CERN gi vai trò ca “chim hoàng yn trong m than”. n vi CERN và hp tác vi các nhà vt lí nghiên cu các thí nghim hay vi b phn IT, ngành công nghip có th x lí, và gii quyt, nhng bài toán ca ngày mai trong ngày hôm nay. Thách thc LHC t ra trưc các nhà khoa hc máy tính CERN to ln như thách thc t ra vi các kĩ sư và nhà vt lí ca nó. Các kĩ sư ã xây dng c máy và nhng máy dò ht ln nht và phc tp nht trên hành tinh, cng vi nhng thành tu khác ch có th mô t vi s tt bc. Trong phn vic ca mình, các nhà khoa hc máy tính ã làm ch ưc vic phát trin mt h tng kĩ thut có th x lí nhng lưng d liu khng l, t ó áp ng ưc toàn b yêu cu ca các nhà vt lí và trong mt s trưng hp còn i xa hơn h. H tng kĩ thut này có WLCG, mng ln nht ang tn ti và s có nhiu ng dng trong tương lai. Gi thì các nhà vt lí ã có trong tay nhng công c mà h mong ch by lâu nay, cuc truy lùng ca h nhm khám phá thêm mt vài bí Nn na ca t nhiên ã có th bt u. Andreas Hirstius, mt nhà vt lí ã chuyn sang nghiên cu in toán. Ông hin là trưng phòng kĩ thut ca CERN Openlab và Khoa in toán CERN. hiepkhachquay dch Ngun: The large hadron computer (Physics World, tháng 11/2008) An Minh, ngày 02/11/2008, 16:40 . http://www.thuvienvatly.info | © hiepkhachquay C máy tính hadron ln Các kế hoạch xử lí luồng thác dữ liệu từ các máy dò hạt của Máy Va chạm Hadron Lớn khiến cho phòng thí nghiệm vật lí hạt CER,. CERN ưa ra nhng ưc tính mang tính cnh báo u tiên ca h v lưng d liu mà các thí nghim ti Máy Va chm Hadron Ln (LHC) s to ra, thì nhà sn sut linh kin máy tính Intel mi ch tung. nút máy tính cũ có th d dàng cho ngh vic và các nút mi ưc lp t mà không làm xáo trn n toàn h thng. Các khía cnh này ca SHIFT – mt mng song song ri các máy tính, mi máy tính