Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 33 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
33
Dung lượng
3,23 MB
Nội dung
ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY GVHD:PGS.TS.NGUYỄN PHI KHỨ LỜI NÓI ĐẦU Trong vài thập kỷ qua, sinh học phân tử đã có nhiều bước phát triển mạnh mẽ, một loạt các công cụ ứng dụng sinh học ra đời góp phần thúc đẩy quá trình giải mã một số lượng lớn trình tự bộ gene ở nhiều loài sinh vật. Có thể nói chưa bao giờ thông tin sinh hoc trở nên phong phú và đa dạng như hiện nay. Để ứng phó với khối lượng thông tin đồ sộ như vậy, công nghệ thông tin đã được ứng dụng vào sinh học một cách khá triệt để. Từ đó, một ngành khoa học hoàn toàn mới ra đời, đó là Sinh tin hoc (Bioinformatics). Thực chất Sinh tin hoc gắn liền với nhiều ngành khoa học khác nhau, nghiên cứu trên nhiều lĩnh vực khác nhau. Nhằm thu thập, lưu trữ và phân tích các dữ liệu sinh học. Khi đó, vai trò của các thuật toán, hệ thống xử lý dữ liệu, môi trường mạng hết sức quan trọng. Kết quả của những nghiên cứu này là tạo ra các phần mềm giúp giải quyết một số vấn đề xung quanh việc tìm hiểu về gene, protein và một số vấn đề khác liên quan đến sinh học phân tử. Những thành tựu của lĩnh vực này hỗ trợ mạnh mẽ đến việc đưa sinh học, y học vào giải quyết của những công việc của thực tiễn. Đặc biệt đóng góp nhiều thành tựu khoa học mới, như việc tìm ra các giống cây trồng và vật nuôi mới cho năng suất cao; thúc đẩy nhanh quá trình chẩn đoán bệnh, tìm ra các loại thuốc chữa bệnh mới, Bên cạnh đó, với khối lượng lớn dữ liệu sinh học tác động qua lại lẫn nhau cũng đặt ra nhiều vấn đề. Chẳng hạn, bộ gene người đã được giải mã, tuy nhiên để hiểu và sử dụng được bộ mã này cần phải có những kiến thức về cấu trúc, chức năng của protein, từ đó mới vận dụng được những kiến thức của bộ gene vào thực tế, tác động vào sự di truyền. Bên cạnh đó số protein trong cơ thể người gấp nhiều lần số gene. Bộ gene được lưu giữ như nhau trong các tế bào nhưng kết quả mã hoá, biểu hiện của nó là bộ protein trong mỗi bộ phận, tế bào lại không giống nhau. Bộ protein thay đổi theo tình trạng của tế bào và phản ứng lại với những tác động bên ngoài. Bản đồ gene có thể ghi chép lại trong những tài liệu in ấn, nhưng bản đồ protein không thể ghi chép. Chỉ có thể ghi lại bản đồ protein như một tài liệu điện tử, do không phải vì quá lớn mà do sự liên lạc giữa protein này với protein khác chỉ mang tính ước lệ và liên tục xảy ra trong sự tiến hoá.Một trong những ứng dụng của công nghệ thông tin đặc biệt là Grid computing vào công nghệ sinh học đó là nghiên cứu sự phát triển của virus cúm. HV:NGUYỄN THU THỦY TRANG 1 ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY GVHD:PGS.TS.NGUYỄN PHI KHỨ MỤC LỤC LỜI NÓI ĐẦU 1 MỤC TIÊU ĐỀ TÀI 3 CHƯƠNG 1 GIỚI THIỆU VỀ E-SCIENCE 3 1 Nguồn gốc của e-Science 3 2 e-Science là gì? 5 3 Dự án tiêu biểu-myGrid 7 4 e-Science core programme 7 CHƯƠNG 2 VAI TRÒ CỦA GRID COMPUTING ĐỐI VỚI TÍNH TOÁN KHOA HỌC 8 1 Chia sẻ tài nguyên bên trong tổ chức ảo (Virtual Organization) 8 2 Giao tiếp với những công việc đang được thực thi trên hệ thống lưới 9 3 Tính toán phân bố 11 4 Quản lý dữ liệu 12 CHƯƠNG 3 GIỚI THIỆU VỀ SINH HỌC PHÂN TỬ VÀ TIN - SINH HỌC 14 1 Giới thiệu về Sinh học phân tử 14 2 Giới thiệu về Tin-sinh học 16 a. Sắp hàng đa chuỗi 16 b. Cây tiến hóa 17 3 Bài toán Tin-sinh học trên môi trường tính toán lưới 18 CHƯƠNG 4 NGHIÊN CỨU SỰ PHÁT TRIỂN CỦAVIRUS CÚM 19 1 Giới thiệu về Virus cúm 19 2 Phương pháp nghiên cứu 22 3 Thiết kế một cơ sở dữ liệu VIRUSBANK chứa thông tin về virus cúm chi tiết hóa đến mức độ tỉnh thành ở Việt Nam 23 a. Mô hình quan niệm dữ liệu 23 b. Diễn giải 25 c. Mô hình logic dữ liệu 29 4 Module tự động download dữ liệu từ ngân hàng dữ liệu NCBI 29 5 Module tự động cập nhật dữ liệu vào cơ sở dữ liệu VIRUSBANK 30 6 Công cụ cung cấp thông tin Virus cúm 30 CHƯƠNG 5 KẾT LUẬN 31 1 KẾT QUẢ ĐẠT ĐƯỢC 31 2 HƯỚNG PHÁT TRIỂN 31 TÀI LIỆU THAM KHẢO 32 MỤC TIÊU ĐỀ TÀI Việc áp dụng Công nghệ thông tin (CNTT) vào giải quyết các bài toán trong Công nghệ sinh học là một lĩnh vực mới trên thế giới cũng như ở Việt Nam. Nhờ sự phát triển của Công nghệ sinh học, hiện nay chúng ta đã có khả năng trích chọn dữ liệu HV:NGUYỄN THU THỦY TRANG 2 ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY GVHD:PGS.TS.NGUYỄN PHI KHỨ sinh học phân tử(trình tự DNA, hay trình tự amino acid) từ virus qua đó giúp chúng ta phân tích sự phát triển và lan rộng của virus cúm. Mặc dù nhiều nghiên cứu về virus cúm đã được tiến hành ở Việt Nam, các nghiên cứu chủ yếu tập trung vào việc giải mã các trình tự DNA và protein, qua đó tiến hành một số phân tích để tìm hiểu mối quan hệ giữa chúng. Tuy nhiên, hiện nay chúng ta còn thiếu một hệ thống thông tin giúp các nhà quản lý (bộ, ngành y tế); các nhà chuyên môn và người dân có được thông tin, dữ liệu, cũng như những công cụ phân tích (thống kê, mô hình) về virus cúm trên thế giới, đặc biệt chi tiết hóa cho virus cúm ở Việt Nam. Đề tài này tập trung xây dựng công cụ cung cấp thông tin về virus cúm bao gồm các chức năng: + Thiết kế một cơ sở dữ liệu chứa thông tin về virus cúm trên thế giới và chi tiết hóa dữ liệu virus cúm ởViệt Nam cho đến mức độ tỉnh thành + Tự động cập nhật dữ liệu từ ngân hàng dữ liệu NCBI. + Xây dựng công cụ cung cấp thông tin virus cúm CHƯƠNG 1 GIỚI THIỆU VỀ E-SCIENCE 1 Nguồn gốc của e-Science Thuật ngữ e-Science xuất hiện đầu tiên ở Anh từ năm 2000, qua quá trình trao đổi, giao lưu tại nhiều Hội thảo quốc tế đến nay đã trở thành một khái niệm khá phổ biến được một số nước chính thức sử dụng từ năm 2004, trong đó có nhiều quốc gia khu vực Đông nam Á như Singapore, Thailand Theo GS. Tony Hey-giám đốc dự án,thì e-Science chính là một hạ tầng cơ sở cho các ngành khoa học phát triển (eInfrastructure), nhờ vào khả năng cung cấp kết nối và các dịch vụ tính toán, truy cập thông tin, ứng dụng ngày càng rộng lớn mà CNTT đang đem lại cho các nhà khoa học. Theo một nghĩa nào đó, hạ tầng e-Science có thể đồng nghĩa với mạng lưới (Grid), đó là tập hợp của các dịch vụ trung gian, vận hành trên nền tảng của hệ thống mạng toàn cầu, băng thông rộng, hiệu năng cao, có khả năng hỗ trợ cộng đồng nghiên cứu và các phát minh, sáng tạo. Từ khi máy tính xuất hiện lần đầu tiên, con người luôn luôn cố gắng cải tiến, nâng cấp, biến nó thành các cỗ máy ngày càng mạnh mẽ. Đây là mong muốn của mọi người sử dụng máy tính cá nhân, và cũng là mong muốn của các tổ chức với những chiếc máy được tạo ra chỉ HV:NGUYỄN THU THỦY TRANG 3 ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY GVHD:PGS.TS.NGUYỄN PHI KHỨ để dùng cho nghiên cứu khoa học. Một chiếc máy tính, một mình nó, không thể đảm đương việc thu thập, lưu trữ, và phân tích dữ liệu được thu thập bởi một nghiên cứu khoa học. Do đó, sự phát triển của e-Science là rất quan trọng. Mối liên hệ của các thông tin khoa học đòi hỏi một lượng lớn dữ liệu, đây là điều chỉ có e-Science mới có khả năng đáp ứng. Khi loài người cố gắng khám phá những tri thức mới, hay hiểu rõ về những gì họ đang nghiên cứu, yêu cầu về công nghệ cũng ngày càng cao.Máy tính giờ đây không chỉ là một công cụ phục vụ khoa học. Nó đã trở thành một phần của khoa học. Khoa học máy tính hiện không chỉ nói về phần cứng hay phần mềm mà còn về các đại dương, ngôi sao, tế bào ung thư, protein và mạng lưới bạn bè. Ken Birman, Giáo sư khoa học máy tính Đại học Cornell (Mỹ) nói : ngành học Grid Computing & eScience của ông đang trên đường trở thành “một ngành khoa học của vũ trụ”, một cơ cấu làm nền tảng cho mọi ngành khác, bao gồm các ngành khoa học xã hội. Bản chất của vấn đề ông Birman khẳng định là máy tính đã biến đổi từ một công cụ phục vụ khoa học thành một phần của khoa học. Và những diễn tiến gần đây trong giới khoa học phần nào đã cho thấy điều này. “Các nhà sinh vật học hệ thống” tại trường Y Harvard đã phát triển một “ngôn ngữ máy tính” gọi là “Little b” dùng để lập mô hình các tiến trình sinh học. Ngôn ngữ này biết suy luận về dữ liệu sinh học, học hỏi từ nó và tích hợp những gì đã học vào trong những mô hình mới và những dự báo về hành vi của tế bào. Các tác giả gọi loại ngôn ngữ này là một “người cộng tác khoa học”. Trong khi đó, bộ phận nghiên cứu của Microsoft – Microsoft Research (MSR) – đang hỗ trợ một nhóm trường đại học Mỹ và Canada xây dựng một trạm quan sát khổng lồ dưới biển ở ngoài khơi gần bờ biển bang Washington (Mỹ). Dự án Neptune này sẽ kết nối hàng ngàn bộ cảm biến hóa học, địa lý và sinh vật học trên hơn 1.600 km sợi cáp quang và sẽ liên tục truyền dữ liệu đến các nhà khoa học trong khoảng thời gian đến 10 năm.Các nhà khoa học sẽ có thể kiểm chứng những học thuyết của mình bằng cách xem xét dữ liệu thu thập được, bên cạnh đó, những công cụ phần mềm mà MSR đang phát triển sẽ tìm kiếm những khuôn mẫu và sự kiện mà các nhà khoa học không tiên liệu được, và gửi cho họ những phát hiện này. Các nhà nghiên cứu tại trường Y Harvard và Đại học California, trong một cuộc HV:NGUYỄN THU THỦY TRANG 4 ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY GVHD:PGS.TS.NGUYỄN PHI KHỨ nghiên cứu, đã dùng phương pháp phân tích thống kê để tìm kiếm dữ liệu về bệnh tim của 12.000 người và biết rằng chứng béo phì có vẻ “lây lan” thông qua các mối quan hệ xã hội. Trong khi đó, các nhà khoa học máy tính và sinh vật học cây trồng tại Đại học Cornell phát triển một thuật toán để lập và phân tích bản đồ ba chiều của protein khoai tây.Những ứng dụng nói trên hầu như không có điểm chung nào, nhưng chúng đại diện cho một loại vấn đề khoa học liên quan đến một khối lượng lớn dữ liệu thực nghiệm phức tạp. Trong thực tế, những loại thông tin thô này quá nhiều đến nỗi các nhà khoa học thường không biết bắt đầu tìm hiểu từ đâu. Khoa học máy tính đang chỉ cho họ đường đi. 2 e-Science là gì? Có nhiều định nghĩa khác nhau về e-Science.Theo wikipedia: “e-Science là khoa học đòi hỏi sự tính toán với cường độ cao, được thực thi thông qua môi trường mạng phân tán hay là khoa học sử dụng các tập dữ liệu khổng lồ, đòi hỏi tính toán lưới. e-Science bao gồm các công nghệ cho phép sự cộng tác phân tán”. Thuật ngữ e-Science được John Taylor, tổng giám đốc của Phòng khoa học và công nghệ của Liên Hiệp Anh đưa ra vào năm 1999 và được dùng để mô tả một dự án với số vốn lớn tại Liên Hiệp Anh, bắt đầu từ tháng 11-2000. Theo Taylor: “e- Science là sự cộng tác toàn cầu trong các lĩnh vực chính của khoa học, và cơ sở hạ tầng tính toán thế hệ kế tiếp cho phép hiện thực điều đó.” Theo giáo sư Malcolm Atkinson, giám đốc NeSC tại Edinburgh và trung tâm eScience quốc gia của Liên Hiệp Anh: “e-Science là sự phát triển có hệ thống của các phương pháp nghiên cứu đòi hỏi nhiều sự tính toán” . Theo ông, e-science sẽ thay đổi cách con người làm việc, giúp giải quyết các vấn đề nhanh hơn. Con người sẽ tập trung những nỗ lực của các cộng đồng khoa học, huy động những dữ liệu được chia sẻ và sức mạnh tính toán để đối mặt với những thách thức cấp bách. Một khi các trang web cho phép chúng ta chia sẻ thông tin, khoa học điện tử sẽ cho phép các nhóm nghiên cứu cộng tác để biến dữ liệu thành thông tin và kiến thức. Giáo sư Jon Kleinberg, Đại học Cornell, nói : “Một xu hướng đang ngày càng trở nên rõ ràng là khoa học máy tính không còn là ngành cung cấp công cụ máy tính cho các nhà khoa học. Nó thực sự trở thành một phần của cách thức các nhà khoa HV:NGUYỄN THU THỦY TRANG 5 ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY GVHD:PGS.TS.NGUYỄN PHI KHỨ học xây dựng học thuyết và suy nghĩ về những vấn đề của họ.” Theo ông Kleinberg, vai trò của thuật toán máy tính đối với khoa học trong thế kỷ 21 cũng sẽ tương tự như vai trò của toán học (đối với khoa học) trong thế kỷ 20. Giáo sư Kleinberg nói thêm rằng kho dữ liệu khổng lồ trên Internet sẽ thay đổi thực tiễn của những ngành khoa học liên quan đến hành vi con người. Theo lý giải của ông, số lượng dữ liệu khổng lồ và các phương pháp phân tích mới hiện nay đồng nghĩa với việc các nhà khoa học sẽ không còn phải lập công thức chi tiết về những học thuyết và mô hình rồi kiểm chứng chúng trên dữ liệu thực nghiệm. Tony Hey, Phó chủ tịch bộ phận nghiên cứu bên ngoài của Microsoft, đã nói về e-Science như một tập hợp những công nghệ dùng để hỗ trợ những dự án khoa học có lượng dữ liệu khổng lồ (thường được phân phối), có dữ liệu và nhiều người cộng tác kết nối với nhau, hay có sự tham gia của nhiều ngành khoa học, bao gồm ngành khoa học máy tính. Những dự án này, theo ông, thường rất phức tạp, và các công cụ, thuật toán, học thuyết của khoa học máy tính có thể giúp sắp xếp và làm rõ chúng. Ông Hey cho rằng chúng ta hiện đang tiến vào kỷ nguyên “khoa học tập trung vào dữ liệu” (data-centric science). Bản chất của ngành khoa học này là tập hợp dữ liệu, thường với số lượng lớn và từ nhiều nguồn khác nhau, rồi khai thác chúng để biết được những nội dung vốn sẽ không bao giờ xuất hiện nếu công việc này được làm thủ công hoặc từ việc phân tích bất kỳ một nguồn dữ liệu đơn lẻ nào. Tony Blair, thủ tướng nước Anh năm 2002 đã nói về eScience như sau: “eScience được định hướng làm cho việc tận dụng nguồn lực to lớn của ngành khoa học máy tính, hệ thống tài nguyên dữ liệu khoa học và những thiết bị thực nghiệm tối tân dễ dàng như Web để truy cập thông tin”. Tổng kết lại, e-Science là một khái niệm dựa trên những gì khoa học đang làm để phát minh ra những cái mới, cải tiến, phát triển những vấn đề hiện tại trong mọi ngành, lĩnh vực. Khi công nghệ mà các nhà khoa học sử trong nghiên cứu ngày càng quy mô, phức tạp, yêu cầu về khả năng lưu trữ dữ liệu cũng phát triển tương ứng. e-Science là một công cụ cho phép các nhà khoa học lưu trữ, biểu diễn, phân tích và chia sẻ dữ liệu của họ với các nhóm nghiên cứu khác. e-Science giữ một vai trò qua trọng trong mọi mặt của nghiên cứu khoa học, bắt đầu với các nghiên cứu dựa trên các giả thiết tiềm năng, thử nghiệm thông qua mô phỏng, thử nghiệm có HV:NGUYỄN THU THỦY TRANG 6 ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY GVHD:PGS.TS.NGUYỄN PHI KHỨ điều khiển một cách hệ thống, thu thập dữ liệu từ các bộ phận cấu thành và giải thích các dữ liệu khác biệt, không mong muốn. 3 Dự án tiêu biểu-myGrid Dự án này có sự tham gia của nhiều thành viên nhất bao gồm các trường Đại học Manchester, Southampton, Nottingham, Newcastle, và Sheffield hợp tác với viện công nghệ sinh học Châu Âu. Mục tiêu của myGrid là phát triển một hạ tầng (infrastructure) phía bên hạ tầng của Grid (Grid infrastructure) nhằm giúp cho các nhà khoa học có thể dễ dàng sử dung các hệ thống tài nguyên được phân bố trên Grid. Một workbench riêng cho các nhà khoa học (e-Scientist’s workbench) sẽ được phát triển, workbench sẽ thay đổi tùy theo nhu cầu của thực nghiên cứu. Vì myGrid được thiết kế và phát triển nhằm cho các ứng dụng về cộng nghệ sinh học nên phải cung cấp hai môi trường ứng dụng, một dùng để hỗ trợ quá trình phân tích dữ liệu gen, hai là dùng để giải thích cho các mẫu dữ liệu. GSK, AstraZeneca, IBM and SUN là các doanh nghiệp cộng tác phát triển dự án myGrid. 4 e-Science core programme e-Science Core Programme được phát triển như là một cơ sở hạ tầng Grid chung cho các dự án được miêu tả ở trên (pilot projects). Với sự cộng tác của các nhà khoa học, khoa học máy tính, và các doanh nghiệp nhằm xây dựng và phổ biến một framework có thể đáp ứng được các ứng dụng trong nhiều lĩnh vực khoa học khác nhau cũng , thích hợp với các ứng dụng trong công nghiệp. Cấu trúc của e-Science Core Programme bao gồm sáu thành phần. Một trong sáu thành phần là định hướng cho sự phát triển Grid Middleware: Nhằm thuyết phục các công ty và tổ chức tài trợ cho sự phát triển của Grid middleware bằng cách định hướng xây dựng các middleware mới sẽ có nhiều chức năng hay dịch vụ mà các doanh nghiệp có thể sử dụng. Irving Wladawsky-Berger: “all of our systems will be enabled to work with the Grid, and all of our middleware will integrate with the software”. Tuy nhiên, công việc quan trọng nhất của middleware này là hỗ trợ các yêu cầu nảy sinh từ các dự án pilot như khả năng tính toán, không gian lưu trữ và phải đáp ứng được các chức năng của một middleware cần có. Middleware này sẽ được phát triển dưới dạng mã nguồn mở với sự cộng tác của cộng đồng Globus HV:NGUYỄN THU THỦY TRANG 7 ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY GVHD:PGS.TS.NGUYỄN PHI KHỨ (www.globus.org) và có sự thảo luận với IBM, Oracle, Microsoft về các vấn đề đặc biệt là về DBMS. CHƯƠNG 2 VAI TRÒ CỦA GRID COMPUTING ĐỐI VỚI TÍNH TOÁN KHOA HỌC 1 Chia sẻ tài nguyên bên trong tổ chức ảo (Virtual Organization) Một tổ chức ảo là một tập hợp các tài nguyên được quản lý một cách độc lập,tất cả được hợp tác, tập hợp lại để cộng đồng dùng nó giải quyết một mục tiêu chung. Việc tổ chức và sử dụng tài nguyên một cách hiệu quả rất quan trọng đối với cộng đồng người sử dụng.Kịch bản sử dụng đơn giản và quan trọng nhất trong tính toán khoa học dựa trên Grid là khám phá tài nguyên (resource discovery) và nhờ hệ thống lưới thực thi một công việc nào đó (job submission). Một nhà khoa học ở Châu Âu đã chuẩn bị một file thực thi và các tham số đầu vào để giả lập việc trộn lẫn vào nhau giữa các lỗ đen,việc giả lập sử dụng nhiều tài nguyên phân bố ở khắp nơi trên thế giới, thông thường việc truy xuất tài nguyên ở mỗi nơi cần có một tài khoản, password , hàng đợi, hệ thống file… khác nhau.Điều này gây khó khăn rất lớn cho cho các nhà khoa học có thể tiến hành các thí nghiệm, các mô phỏng với quy mô lớn. Ngay cả việc đơn giản là chọn một nơi nào đó để thực thi quá trình mô phỏng cũng đã rất phức tạp.Nhưng với công nghệ Grid quá trình truy xuất những tài nguyên này sẽ trở nên đơn giản. Việc xác nhận dựa trên certificate cho phép người sử dụng truy xuất tất cả hệ thống trong tổ chức ảo với chỉ một lần log-in, ID và password khi log-in vào tổ chức ảo sẽ được ánh xạ vào tài khoản của người sử dụng đó. Đồng thời mô hình Grid cũng sẽ loại bỏ đi những đặc tính riêng của từng tài nguyên, tạo ra interface chung cho hệ thống file, cách nén dữ liệu… và do đó cho phép người sử dụng dùng các câu lệnh truy xuất thống nhất cho tất cả các tài nguyên. Hiện tại Globus Tookit đã phát triển tốt và vững chắc các quá trình trên. Việc xây dựng những cổng thông tin dựa trên web ( web-based portal) cho phép người dùng truy xuất dễ dàng và thân thiện tất cả tài nguyện trong một tổ chức ảo. Sau khi log-in vào, người dùng về nguyên tắc có thể nhìn thấy được tất cả các tài nguyên sẵn có và có thể submit một công việc trên một máy nào. HV:NGUYỄN THU THỦY TRANG 8 ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY GVHD:PGS.TS.NGUYỄN PHI KHỨ Mối quan hệ chia sẻ bên trong tổ chức ảo 2 Giao tiếp với những công việc đang được thực thi trên hệ thống lưới Trước đây, một nhà khoa học khi muốn chạy một ứng dụng mô phỏng lớn thì trước tiên phải thông báo và chuyển công việc vào một hệ thống trên một máy ở xa và sau đó cứ một khoảng thời gian lại log in vào máy từ xa đó để kiểm tra trạng thái của công viêc. Công việc đó có thể vẫn còn trong hàng đợi hoặc có thể công việc đó đang được thực thi và cũng thường xuyên xảy ra trường hợp công việc đó đã bị kết thức vì một lý do nào đó. Có những trường hợp công việc nằm trong hàng đợi cả ngày, nhưng khi được thực thi thì thất bại chỉ vì một lỗi đơn giản trong quá trình khởi động hay có những công việc đã chạy cả 100.000 giờ của CPU những cuối cùng lại trả ra kết quả sai chỉ vì tham số đầu vào sai. Những trường hợp như thế đã làm nảy sinh nhu cầu cần phải phát triển cơ chế giao tiếp , quản lý và chuyển hướng những công việc tốt hơn, đò hỏi độ phức tạp hơn. Cactus là một ứng dụng Grid cho phép người dùng thông qua trình duyệt web có thể giáo tiếp với các công việc đang thực thi. HTTPD Cactus thorn là một web server cho phép thể hiện tất cả thông tin của một công việc đang thực thi bao gồm chương trình con đang tích cực, phiên bản, thời gian ước lượng hoàn tất, file dữ liệu nào được ghi. Các tham số được khai báo steerable có thể được thay đổi thông qua giao diện web , tần suất I/O, variable output, downsampling… cũng có thể được thay đổi nếu cần, cho phép người sử dụng sửa lại chương trình mà không phải bắt đầu lại. Khi một công việc bắt đầu, URL của nó được phát tán đến một cổng HV:NGUYỄN THU THỦY TRANG 9 ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY GVHD:PGS.TS.NGUYỄN PHI KHỨ thông tin (portal), cổng thông tin này sẽ thông báo đến một nhóm người cùng hợp tác trong công việc này thông qua email hoặc tin nhắn SMS cùng với những thông tin để họ có thể truy xuất quá trình mô phỏng từ trình duyệt. Những sự kiện mô phỏng quan trọng, như việc trộn lẫn hai lỗ đen có thể được lập trình để kích hoạt thông báo đến một người sử dụng nào đó hoặc là một nhóm người cùng cộng tác trong việc giả lập đó.Công nghệ thông tin vì vậy trở thành công cụ tổ chức cho khoa học tính toán hợp tác. Công việc có thể được phân loại theo trạng thái, theo chủ đề hoặc theo sự cộng tác. Đường liên kết (hyperlink) đến dữ liệu sinh ra từ quá trình giả lập. Khi nhưng đường liên kết này được click vào dữ liệu bên trong một file được download về từ máy ở xa và một chương trình client thích hợp sẽ đọc dữ liệu này và hiển thị trực quan cho người dùng. Nếu dữ liệu nằm trong bộ nhớ cấp phát cho quá trình mô phỏng thi thông qua socket chương trình client có thể hiển thị trưc quan kết quả cho người dùng. Công thông tin hỗ trợ dich vụ tính toán lưới Những công nghệ này đang được sử dụng rất nhiều trong các dự án khoa học. Tuy nhiên vẫn còn một số vấn đề cần giải quyết đối với những công nghệ này. HV:NGUYỄN THU THỦY TRANG 10 [...]... triển khai Tính toán lưới trong việc giải quyết một số vấn đề của tin sinh học , với Bioinformatics Grid Portal đặt tại địa chỉ http://biogrid.ioit-hcm.ac.vn Hệ thống Grid của Phân viện Công nghệ thông tin tại TPHCM cũng đã kết nối với hệ thống Grid của KISTI (Korea Institute of Science and Technology Information) trong hệ thống K *Grid của Hàn Quốc CHƯƠNG 4 : NGHIÊN CỨU SỰ PHÁT TRIỂN CỦA VIRUS CÚM... để tăng không chỉ khả năng tính toán của hệ thống mà còn tăng tính sẵn có của hệ thống Ví dụ quá trình HV:NGUYỄN THU THỦY TRANG 11 ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY GVHD:PGS.TS.NGUYỄN PHI KHỨ tính toán cần 1024 bộ xử lý nhưng không có một máy nào có sẵn chừng đó bộ xử lý, thì có thể dùng 4 máy với 256 bộ xử lý mỗi máy để tính toán Sự khả thi của metacomputing đã được chứng minh với những ứng dụng thực tế Ví... quyết các bài toán Sinh học Dự án BioGrid Project of Indiana University, USA với tên gọi“Bioinformatics data and compute grids for bioscientists” được thực hiện từ 12/2002 đến 11/2006 Nhằm qua đó tạo môi trường tính toán lưới cho các nhà nghiên cứu Sinh học Cũng tại Đại học Indiana này có dự án 1 triệu USD thực hiện trong 4 năm nhằm xây dựng mạng lưới tính toán với tên gọi “An e-Science Grid for Indiana... Bài toán Tin-sinh học trên môi trường tính toán lưới Trên thế giới cũng có nhiều dự án về tính toán lưới (Grid Computing) liên quan đến Sinh tin hoc Chẳng hạn, các dự án sau đây của những trung tâm nghiên cứu lớn myGrid của UK e-Science được hỗ trợ các trường đại học Anh, Viện Sinh tin hoc Châu Âu (EBT) và nhiều phòng thí nghiệm công nghiệp lớn trên thế giới Dự HV:NGUYỄN THU THỦY TRANG 18 ĐIỆN TOÁN... nguồn gốc (tỉnh thành) của ổ bệnh đó để có phương pháp đối phó HV:NGUYỄN THU THỦY TRANG 32 ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY GVHD:PGS.TS.NGUYỄN PHI KHỨ TÀI LIỆU THAM KHẢO [1] Nguyễn Phi Khứ Bài giảng CGrid Computing, 2013 [2] MyGrid www.mygrid.org.uk Hỗ trợ bởi U.K eScience Program Phát triển và ứng dụng khoa học điện tử eScience trong các ứng dụng sinh tin học [3] eScience and Grid Computing, Prof Mike Giles,... North Carolina BioGrid nhằm nghiên cứu và hiện thực các công nghệ mạng lưới phục vụ cho các nhà nghiên cứu, đào tạo có điều kiện nghiên cứu cơ chế bộ gene Khu vực Châu á Thái Bình dương, có sáng kiến “Asia Pacific BioGrid” nhằm tạo ra ảnh của cơ sở dữ liệu phân tán phát triển từ các khuôn mẫn của dự án DataGrid Trong nước việc triển khai các bài toán sinh học trên hệ thống tính toán lưới hoàn toàn... kết quả này về GridFTP server là một công cụ cho việc thao tác dữ liệu từ xa đã được sử dụng bởi các nhà thiên văn học GridFTP server là sự mở rộng của dự án Đức GriKSL Khi GridFTP server chạy trên hệ thống file của máy đang có dữ liệu, nó cho phép file dữ liệu HDF5 được phân tích với hệ thống hiển thị trực quan ở local Bất kỳ hệ thống hiển thị trực quan nào tích hợp GridFTP client cùng với chương trình... Nhóm nghiên cứu của TS Lê Sỹ Vinh ở Trường Đại học Công nghệ, thuộc Đại học Quốc gia Hà Nội tiến hành phát triển các phương pháp và công cụ tin sinh học để phân tích dữ liệu virus cúm thu được − Nhóm nghiên cứu của PGS Trần Văn Lăng ở Phân viện Công nghệ thông tin tại TPHCM trước đây, nay là Viện Cơ học và Tin học ứng dụng (Institute of Mechanics and Informatics – IAMI) thuộc Viện Khoa học và Công nghệ... 12/02/03 [4] What is Grid Computing? , Richard Hopkins, NGS Induction – Rutherford Appleton Laboratory, 2nd / 3rd November 2005 [5] What is e-Science and Grid computing? Dave Berry, NeSC [6] The Encyclopedia Wikipedia, http://en.wikipedia.org/wiki/ [7] E-Science Grid, http://www.escience -grid. org.uk/ [8] Trần Văn Lăng Ứng dụng Tin học trong việc giải một số bài toán thuộc Sinh học phân tử, Nxb Giáo... 12 ĐIỆN TOÁN LƯỚI VÀ ĐÁM MÂY GVHD:PGS.TS.NGUYỄN PHI KHỨ Một ví dụ cho thấy vấn đề quản lý dữ liệu là cần thiết và quan trọng thế nào đối với việc nghiên cứu khoa học là quá trình mô phỏng 3D trong khoa học Việc mô phỏng 3D sinh ra một lượng lớn dữ liệu, dữ liệu này phải được phân tích, hiển thị trực quan và lưu trữ cho những lần sử dụng sau Mỗi một lần giả lập có thể sinh ra hàng trăm file với những . KHỨ học xây dựng học thuyết và suy nghĩ về những vấn đề của họ.” Theo ông Kleinberg, vai trò của thuật toán máy tính đối với khoa học trong thế kỷ 21 cũng sẽ tương tự như vai trò của toán học (đối. biểu-myGrid 7 4 e-Science core programme 7 CHƯƠNG 2 VAI TRÒ CỦA GRID COMPUTING ĐỐI VỚI TÍNH TOÁN KHOA HỌC 8 1 Chia sẻ tài nguyên bên trong tổ chức ảo (Virtual Organization) 8 2 Giao tiếp với những. nối với nhau, hay có sự tham gia của nhiều ngành khoa học, bao gồm ngành khoa học máy tính. Những dự án này, theo ông, thường rất phức tạp, và các công cụ, thuật toán, học thuyết của khoa học