Đề tài Grid computing & E-science
Trường Đại Học Bách Khoa TP.HCM Khoa : Khoa Học Máy Tính BÁO CÁO MƠN HỌC Đề tài : GRID COMPUTING & e-SCIENCE o0o Giảng viên : TS Phạm Trần Vũ Nhóm thực : Ngô Quang Huy Nguyễn Ngọc Lễ Mai Phúc Tiến TP Hồ Chí Minh: 6-2010 09070444 09070448 09070468 Grid Computing & e-Science Mục lục Chương 1: e-Science gì? 1.1 Nguồn gốc 1.2 Máy tính trở thành phần khoa học 1.3 e-Science gì? 1.4 e-Science, CyberInfrastructure, hay e-Research? 1.5 Sự hoạt động e-Science .8 1.6 Khát vọng mở rộng kho tri thức khoa học 10 1.7 Động lực cho phát triển 10 Chương 2: Mục tiêu e-Science gì? .11 2.1 Mục tiêu e-Science gì? 11 2.2 Các mục tiêu 11 2.3 Các hệ tương lai .11 Chương 3: e-Science giới 13 3.1 e-Science UK .13 3.1.1 Các nhóm e-Science UK 13 3.1.2 Các dự án e-Science UK .15 3.2 e-Science US 16 3.2.1 CyberInfrastructure 16 3.2.2 Các dự án e-Science US: 16 3.3 Chi tiết số dự án tiêu biểu 17 3.3.1 RealityGrid 17 3.3.2 Comb-e-Chem 18 3.3.3 Distributed aircraft maintenance environment (DAME) 19 3.3.4 myGrid .19 3.3.5 GridPP .20 3.3.6 AstroGrid 21 3.3.7 BIOGRID 21 3.3.8 Dự án DOE Science Grid Bộ Năng lượng, Hoa Kỳ 22 3.4 e-Science Core Programme 22 3.4.1 Hiện thực hạ tầng mạng kết nói e-Science Centres 23 Grid Computing & e-Science 3.4.2 Định hướng cho phát triển Grid middleware .23 3.4.3 Interdisciplinary Research Collaboration (IRC) .24 3.4.4 Hỗ trợ dự án e-Science 24 3.4.5 Sự hợp tác toàn cầu 24 3.4.6 Hạ tầng mạng 24 3.4.7 Demonstrator projects 25 3.5 Grids cơng nghiệp phủ 25 3.5.1 Phát triển Grid công nghiệp 25 3.5.2 Phát triển Grid phủ 26 Chương 4: Tương lai e-Science 27 4.1 Tương lai e-Science 27 Chương 5: Cơ sở hạ tầng cho e-Science .28 5.1 Tính tốn tình nguyện (Opinion -Volunteer computing) 28 5.1.1 Giới thiệu 28 5.1.2 Đặc điểm 29 5.2 Tính tốn lưới 30 5.3 Cloud computing (Điện toán đám mây) .30 5.3.1 Cloud computing gì? 30 5.3.2 Các nhánh cloud computing 31 Chương 6: Các vấn đề liên quan 33 6.1 Little Science & Big Science 33 6.2 Semantic e-Science 33 Grid Computing & e-Science Chương 1: e-Science gì? Thuật ngữ e-Science xuất Anh từ năm 2000, qua trình trao đổi, giao lưu nhiều Hội thảo quốc tế đến trở thành khái niệm phổ biến số nước thức sử dụng từ năm 2004, có nhiều quốc gia khu vực Đông nam Á Singapore, Thái land, Theo GS Tony Hey, Giám đốc dự án, e-Science hạ tầng sở cho ngành khoa học phát triển (e-Infrastructure), nhờ vào khả cung cấp kết nối dịch vụ tính tốn, truy cập thông tin, ứng dụng ngày rộng lớn mà CNTT đem lại cho nhà khoa học Theo nghĩa đó, hạ tầng e-Science đồng nghĩa với mạng lưới (Grid), tập hợp dịch vụ trung gian, vận hành tảng hệ thống mạng tồn cầu, băng thơng rộng, hiệu cao, có khả hỗ trợ cộng đồng nghiên cứu phát minh, sáng tạo 1.1 Nguồn gốc Từ máy tính xuất lần đầu tiên, người ln ln cố gắng cải tiến, nâng cấp, biến thành cỗ máy ngày mạnh mẽ Đây mong muốn người sử dụng máy tính cá nhân, mong muốn tổ chức với máy tạo để dùng cho nghiên cứu khoa học Một máy tính, nó, khơng thể đảm đương việc thu thập, lưu trữ, phân tích liệu thu thập nghiên cứu khoa học Do đó, phát triển eScience quan trọng Mối liên hệ thơng tin khoa học địi hỏi lượng lớn liệu, điều có eScience có khả đáp ứng Khi loài người cố gắng khám phá tri thức mới, hay hiểu rõ họ nghiên cứu, u cầu cơng nghệ ngày cao 1.2 Máy tính trở thành phần khoa học Mối liên hệ KHMT, CNTT ngành khoa học khác Grid Computing & e-Science Máy tính khơng cơng cụ phục vụ khoa học Nó trở thành phần khoa học Khoa học máy tính khơng nói phần cứng hay phần mềm mà cịn đại dương, sao, tế bào ung thư, protein mạng lưới bạn bè Ken Birman, Giáo sư khoa học máy tính Đại học Cornell (Mỹ), nói ngành học ông đường trở thành “một ngành khoa học vũ trụ”, cấu làm tảng cho ngành khác, bao gồm ngành khoa học xã hội Bản chất vấn đề ông Birman khẳng định máy tính biến đổi từ công cụ phục vụ khoa học thành phần khoa học Và diễn tiến gần giới khoa học phần cho thấy điều “Các nhà sinh vật học hệ thống” trường Y Harvard phát triển “ngơn ngữ máy tính” gọi “Little b” dùng để lập mơ hình tiến trình sinh học Ngôn ngữ biết suy luận liệu sinh học, học hỏi từ tích hợp học vào mơ hình dự báo hành vi tế bào Các tác giả gọi loại ngôn ngữ “người cộng tác khoa học” Trong đó, phận nghiên cứu Microsoft – Microsoft Research (MSR) – hỗ trợ nhóm trường đại học Mỹ Canada xây dựng trạm quan sát khổng lồ biển khơi gần bờ biển bang Washington (Mỹ) Dự án Neptune kết nối hàng ngàn cảm biến hóa học, địa lý sinh vật học 1.600 km sợi cáp quang liên tục truyền liệu đến nhà khoa học khoảng thời gian đến 10 năm Các nhà khoa học kiểm chứng học thuyết cách xem xét liệu thu thập được, bên cạnh đó, cơng cụ phần mềm mà MSR phát triển tìm kiếm khn mẫu kiện mà nhà khoa học không tiên liệu được, gửi cho họ phát Dự án Neptune hỗ trợ phận nghiên cứu Microsoft – Microsoft Research (MSR) Các nhà nghiên cứu trường Y Harvard Đại học California, nghiên cứu, dùng phương pháp phân tích thống kê để tìm kiếm liệu bệnh tim 12.000 người biết chứng béo phì “lây lan” thông qua mối quan hệ xã hội Trong đó, nhà khoa học máy tính sinh vật học trồng Đại học Cornell phát triển thuật tốn để lập phân tích đồ ba chiều protein khoai tây Grid Computing & e-Science Những ứng dụng nói khơng có điểm chung nào, chúng đại diện cho loại vấn đề khoa học liên quan đến khối lượng lớn liệu thực nghiệm phức tạp Trong thực tế, loại thông tin thô nhiều nhà khoa học thường khơng biết bắt đầu tìm hiểu từ đâu Khoa học máy tính cho họ đường 1.3 e-Science gì? Có nhiều định nghĩa, quan điểm khác e-Science Chúng trình bày quan điểm nhiều chuyên gia e-Science để người đọc có nhìn rộng khái niệm mà chúng tơi trình bày Theo wikipedia: “e-Science khoa học địi hỏi tính tốn với cường độ cao, thực thi thông qua môi trường mạng phân tán khoa học sử dụng tập liệu khổng lồ, địi hỏi tính tốn lưới e-Science bao gồm công nghệ cho phép cộng tác phân tán” Thuật ngữ e-Science John Taylor, tổng giám đốc Phịng khoa học cơng ghệ Liên Hiệp Anh đưa vào năm 1999 dùng để mô tả dự án với số vốn lớn Liên Hiệp Anh, tháng 11-2000 Theo Taylor: “e-Science cộng tác toàn cầu lĩnh vực khoa học, sở hạ tầng tính tốn hệ cho phép thực điều đó.” Theo giáo sư Malcolm Atkinson, giám đốc NeSC Edinburgh trung tâm e-Science quốc gia Liên Hiệp Anh: “e-Science phát triển có hệ thống phương pháp nghiên cứu đòi hỏi nhiều tính tốn.” Theo ơng, e-science thay đổi cách người làm việc, giúp giải vấn đề nhanh Con người tập trung nỗ lực cộng đồng khoa học, huy động liệu chia sẻ sức mạnh tính toán để đối mặt với thách thức cấp bách Một trang web cho phép chia sẻ thông tin, khoa học điện tử cho phép nhóm nghiên cứu cộng tác để biến liệu thành thông tin kiến thức Grid Computing & e-Science Các cơng việc nghiên cứu phức tap, địi hỏi nhiều thời gian nỗ lực Giáo sư Jon Kleinberg, Đại học Cornell, nói : “Một xu hướng ngày trở nên rõ ràng khoa học máy tính khơng cịn ngành cung cấp cơng cụ máy tính cho nhà khoa học Nó thực trở thành phần cách thức nhà khoa học xây dựng học thuyết suy nghĩ vấn đề họ.” Theo ơng Kleinberg, vai trị thuật tốn máy tính khoa học kỷ 21 tương tự vai trị tốn học (đối với khoa học) kỷ 20 Giáo sư Kleinberg nói thêm kho liệu khổng lồ Internet thay đổi thực tiễn ngành khoa học liên quan đến hành vi người Theo lý giải ông, số lượng liệu khổng lồ phương pháp phân tích đồng nghĩa với việc nhà khoa học khơng cịn phải lập công thức chi tiết học thuyết mơ hình kiểm chứng chúng liệu thực nghiệm Tony Hey, Phó chủ tịch phận nghiên cứu bên ngồi Microsoft, nói e-Science tập hợp công nghệ dùng để hỗ trợ dự án khoa học có lượng liệu khổng lồ (thường phân phối), có liệu nhiều người cộng tác kết nối với nhau, hay có tham gia nhiều ngành khoa học, bao gồm ngành khoa học máy tính Những dự án này, theo ơng, thường phức tạp, cơng cụ, thuật tốn, học thuyết khoa học máy tính giúp xếp làm rõ chúng Ông Hey cho tiến vào kỷ nguyên “khoa học tập trung vào liệu” (data-centric science) Bản chất ngành khoa học tập hợp liệu, thường với số lượng lớn từ nhiều nguồn khác nhau, khai thác chúng để biết nội dung vốn không xuất công việc làm thủ cơng từ việc phân tích nguồn liệu đơn lẻ Grid Computing & e-Science Kỷ nguyên khoa học tập trung vào liệu Roger Barga, nhà nghiên cứu MSR, phát triển công cụ cho e-Science – ngành mà ông gọi “in silico science” (tạm dịch khoa học thực bên máy tính”) Theo ơng, có hai diễn tiến cơng nghệ thúc đẩy khoa học điện tử phát triển Trước hết, khả thu thập liệu vượt xa khả phân tích chúng cơng cụ truyền thống Thứ hai xuất công cụ cải thiện khả nhận biết khuôn mẫu học hỏi máy – thuật toán cải thiện theo thời gian chúng tiếp xúc ngày nhiều với liệu mà không cần đến lập trình người – cách thức để tổ chức, truy xuất khai thác lượng liệu khổng lồ Tổng kết lại, e-Science khái niệm dựa khoa học làm để phát minh mới, cải tiến, phát triển vấn đề ngành, lĩnh vực Khi công nghệ mà nhà khoa học sử nghiên cứu ngày quy mô, phức tạp, yêu cầu khả lưu trữ liệu phát triển tương ứng e-Science công cụ cho phép nhà khoa học lưu trữ, biểu diễn, phân tích chia sẻ liệu họ với nhóm nghiên cứu khác eScience giữ vai trị qua trọng mặt nghiên cứu khoa học, bắt đầu với nghiên cứu dựa giả thiết tiềm năng, thử nghiệm thông qua mô phỏng, thử nghiệm có điều khiển cách hệ thống, thu thập liệu từ phận cấu thành giải thích liệu khác biệt, khơng mong muốn 1.4 e-Science, CyberInfrastructure, hay e-Research? Thuật ngữ e-Science gần như, khơng hồn tồn, đồng nghĩa với thuật ngữ CyberInfrastucture Trong e-Science xuất xứ từ UK châu Âu, CyberInfrastucture bắt nguồn từ US Cả hai thuật ngữ đề cập đến việc sử dụng cơng nghệ tính tốn dựa môi trường mạng để hỗ trợ cộng tác cải tiến phương pháp nghiên cứu khoa học Trong e-Science trọng đến nghiên cứu khoa học, CyberInfrastructure bao gồm Grid Computing & e-Science lĩnh vực khoa học, nhấn mạnh đến kết hợp nguồn tài nguyên siêu tính tốn cách tân Một số nhà nghiên cứu khác lại thích sử dụng thuật ngữ khác: e-Research e-Research mở rộng e-Science CyberInfrastructure, bao gồm lĩnh vực khác khoa học xã hội người e-Research nhấn mạnh đến việc sử dụng công nghệ thông tin để hỗ trợ phương thức nghiên cứu tương lai Các đặc điểm e-Research bao gồm: Sự cộng tác Sử dụng cơng nghệ tính tốn lưới Tập trung vào liệu 1.5 Sự hoạt động e-Science e-Science không phương thức gộp cá nhân lại để hoàn thành mục tiêu Khi phần mềm máy tính trở nên phức tạp liệu cần cho nghiên cứu khoa học lớn, cần có dự án e-Science với nhiều nhóm lớn, bao gồm cá nhân từ nhiều ngành khác Các nhóm điển hình bao gồm trường đại học, quan phủ, phịng nghiên cứu Dự án e-Science Liên Hiệp Anh ví dụ, với nhóm National Grid Service The North-East Regional e-Science Centre cung cấp móng cho phát triển khoa học Nâng cao khả máy tính cách giúp nghiên cứu khoa học phát triển e-Science Portal Grid Computing & e-Science Những đặc điểm, tính chất mà ứng dụng e-Science cần có: Lưu trữ: Một hệ thống cần phải có khả lưu trữ xử lý lượng liệu khổng lồ cách hiệu với thời gian hợp lý Quyền sở hữu: Các bên liên quan cần bảo lưu quyền sở hữu nội dung khả xử lý họ Tuy nhiên cần phải cho phép người khác truy cập điều kiện hoàn cảnh thích hợp Nguồn gốc: Việc lưu trữ thơng tin đáng tin cậy cho phép sử dụng lại kết quả, thử nghiệm, hay cung cấp chứng việc có thơng tin Trong suốt: Người dùng cần có khả tìm ra, truy cập xử lý nội dung liên quan chúng xuất Grid mà không cần biết nằm đâu Cộng đồng: Phải cho phép hình thành, hoạt động, giải tán cộng đồng ảo với tiêu chuẩn giới hạn thành viên điều khoản hoạt động Kết hợp: Thông tin cần phải kết hợp từ nhiều nguồn, nhiều cách khác theo nhu cầu người dùng Các mô tả nguồn gốc, nội dung dùng để kết hợp nên thông tin đầy đủ nghĩa Hội nghị: Đôi việc nhìn thấy thành viên khác hội nghị, mơ hình,sự hiển thị thảo luận hữu dụng Chú giải: Từ việc ghi nhận thông tin xuất phân tích, cần thiết phải có giải để làm giàu thêm mô tả nội dung số Các siêu nội dung áp dụng cho liệu, thông tin, hay tri thức phụ thuộc vào cách diễn giải quy ước Quy trình: Để hỗ trợ q trình ban hành tự động hóa xử lý, hệ thống cần mô tả xử lý Thơng báo: lời nhắc việc có thông tin tới cho phép thông báo cho người dùng bắt đầu trình xử lý tự dộng Hỗ trợ định: Các kỹ thuật viên, nhà khoa học cần cung cấp thông tin gợi ý xác đáng vấn đề họ Bảo lưu tài nguyên: Cần làm cho trình bảo lưu tài nguyên trở nên dễ dàng Điều áp dụng cho dụng cụ thí nghiệm, cộng tác (hội nghị…), xếp tài ngun cho q trình mơ An ninh: Có yêu cầu xác thực, mã hóa, tính riêng tư với tham gia nhiều tổ chức Và yêu cầu cần xử lý với can thiệp thấp người Tin cậy: Hệ thống trơng có vể đáng tin cậy thật có cần xử lý lỗi ngoại lệ nhiều mức khác nhau, bao gồm quy trình thực Video: Cả video trực tiếp lưu trữ có vai trị định, video làm giàu thêm siêu nội dung liên quan tạm thời Phịng thí nghiệm thơng minh: Một ví dụ: dụng cụ dò mẫu (như thẻ barcode hay thẻ RFID), nhà khoa học dùng thiết bị di Grid Computing & e-Science Comb-e-Chem 3.3.3 Distributed aircraft maintenance environment (DAME) Đây dự án theo dõi độ an tồn chuyến bay thơng cách lắp đặt thiết bị cảm ứng động máy bay Các thiết bị liên tục gửi liệu cho trạm (Grid node) mặt đất để tiến hành xử lý cho biết thông tin (real-time) máy bay Đây dự án có tài trợ Rolls-Royce Chi tiết dự án trình phần sau báo cáo DAME 3.3.4 myGrid Dự án có tham gia nhiều thành viên bao gồm trường Đại học Manchester, Southampton, Nottingham, Newcastle, Sheffield hợp tác với viện công nghệ sinh học Châu Âu Mục tiêu myGrid phát triển hạ tầng (infrastructure) phía bên hạ tầng Grid (Grid infrastructure) nhằm giúp cho nhà khoa học dễ dàng sử dung hệ thống tài nguyên phân bố Grid Một workbench riêng cho nhà khoa học (e-Scientist’s workbench) phát triển, workbench thay đổi tùy theo nhu cầu thực nghiên cứu Vì myGrid thiết kế phát triển nhằm cho ứng dụng cộng nghệ sinh học nên phải cung cấp hai môi trường ứng dụng, dùng để hỗ trợ trình phân tích liệu gen, hai dùng để giải thích cho mẫu liệu GSK, AstraZeneca, IBM and SUN doanh nghiệp cộng tác phát triển dự án myGrid 19 ... tìm hiểu học tập Dự án e-Science UK bao gồm nhiều nhóm đề cập đến 3.1.1 Các nhóm e-Science UK Các thành viên dự án e-Science UK 13 Grid Computing & e-Science Các nhóm dự án e-Science UK bao gồm:... nhánh cloud computing 31 Chương 6: Các vấn đề liên quan 33 6.1 Little Science & Big Science 33 6.2 Semantic e-Science 33 Grid Computing & e-Science. .. tử e-Science ứng dụng sinh tin học Reality Grid http://www.realitygrid.org/ Hỗ trợ UK e-Science Program Hỗ trợ mơ hình hố mô thực khối vật chất đặc mức phân tử hạt tử 15 Grid Computing & e-Science