Nghiên cứu phát triển phần mềm dịch vụ nền tảng trên nền điện toán đám mây tính toán hiệu năng cao để triển khai một cách hiệu quả cho các ứng dụng quan trọng
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 110 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
110
Dung lượng
3,48 MB
Nội dung
ỦY BAN NHÂN DÂN TP.HCM SỞ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC QUỐC GIA TP.HCM TRƢỜNG ĐẠI HỌC BÁCH KHOA BÁO CÁO TỔNG HỢP NGHIÊN CỨU PHÁT TRIỂN PHẦN MỀM DỊCH VỤ NỀN TẢNG TRÊN NỀN ĐIỆN TOÁN ĐÁM MÂY TÍNH TỐN HIỆU NĂNG CAO ĐỂ TRIỂN KHAI MỘT CÁCH HIỆU QUẢ CHO CÁC ỨNG DỤNG QUAN TRỌNG Chủ nhiệm: PGS TS TRẦN VĂN HỒI THÀNH PHỐ HỒ CHÍ MINH THÁNG 07/2017 ỦY BAN NHÂN DÂN TP.HCM SỞ KHOA HỌC VÀ CÔNG NGHỆ BÁO CÁO TỔNG HỢP NGHIÊN CỨU PHÁT TRIỂN PHẦN MỀM DỊCH VỤ NỀN TẢNG TRÊN NỀN ĐIỆN TỐN ĐÁM MÂY TÍNH TỐN HIỆU NĂNG CAO ĐỂ TRIỂN KHAI MỘT CÁCH HIỆU QUẢ CHO CÁC ỨNG DỤNG QUAN TRỌNG CHỦ NHIỆM ĐỀ TÀI (Ký tên) CƠ QUAN QUẢN LÝ CƠ QUAN CHỦ TRÌ (Ký tên/đóng dấu xác nhận) (Ký tên/đóng dấu xác nhận) THÀNH PHỐ HỒ CHÍ MINH THÁNG 07/2017 i TÓM TẮT NỘI DUNG NGHIÊN CỨU Ngày nay, việc ứng dụng máy tính khoa học công nghệ sản xuất ngày phổ biến đa dạng Việc sử dụng máy tính để giải vấn đề, toán thực tế thực suốt nửa kỷ qua Khi sống ngày phát triển đặt nhiều vấn đề, nhiều toán lớn, phức tạp để máy tính giải Có thể kể số thách thức u cầu khối lượng tính tốn lớn như: ứng dụng mơ tác động biến đổi khí hậu, toán di truyền sinh học, ứng dụng mô sản xuất, v.v… Những ứng dụng có chung đặc điểm liên quan đến liệu lớn khối lượng tính tốn lớn Do máy tính đơn xử lý truyền thống cần thời gian dài giải Trong vài năm gần đây, công nghệ điện toán đám mây dần áp dụng rộng rãi lĩnh vực tính tốn hiệu cao Việc quản lý khai thác tốt hạ tầng phần cứng, việc hỗ trợ tác vụ tính tốn song song mức ứng dụng giúp cơng nghệ điện tốn đám mây giải hiệu ứng dụng liên quan đến liệu lớn khối lượng tính tốn lớn khoa học lẫn công nghiệp Như kết tất yếu, cơng nghệ điện tốn đám mây giới công nhận sức mạnh vượt trội Từ yêu cầu thực tiễn Việt Nam xu công nghệ giới, đề tài tập trung vào hai mục tiêu sau Mục tiêu 1: nghiên cứu triển khai mơi trường điện tốn đám mây sở hạ tầng phần cứng trang bị trường Đại Học Bách Khoa Tp HCM Mục tiêu 2: khai thác mơi trường điện tốn đám mây triển khai để giải hai tốn khó liên quan đến liệu lớn khối lượng tính tốn lớn bao gồm: Bài tốn phân loại trình tự sinh học - tốn khó thuộc lớp tốn tối ưu tổ hợp Bài tốn mơ lũ sơng Mê Kơng - tốn khó thuộc lớp tốn mơ tác động biến đổi khí hậu ii SUMMARY OF RESEARCH CONTENT Today, the applications of computer science to orther science fields and production is increasingly widespread and diverse The use of computers to solve real-world problems has been exploited in the past few decades Since living standard is improving, there are several complex problems which need to be tackled by computers Several challenges involve big data and high computational complexity, such as applications simulating the impact of climate change, problems of genetic analysis in biology, applications of simulation in manufacturing, and so on Generally, these applications have the same characteristics: big data and high computational complexity Thus, to solve these applications, the traditional computers with a single processor need a long-time execution For recent years, cloud computing technology has gradually been widely applied in fields relating to high performance computing The big advantage of cloud computing technology is that it supports well to manage and exploit hardware resources Moreover, the robust support of parallel computing tasks makes the cloud computing technology be able to tackle effectively applications involving big data and high computational complexity As a result, the cloud computing technology with outstanding strength has attracted several scientists, researchers in the world Regarding to practical demand in Vietnam and the general trends of technology, this research focuses on two main objectives as follows Objective 1: Research and implement a cloud computing environment based on open sources and hardware resources at Ho Chi Minh City University of Technology Objective 2: Exploit the cloud computing environment to deal with two difficult problems involving big data and high computational complexity as follows The problem of classification of biological sequences - a hard problem classified into the problems of combinatorial optimization The problem of simulating flood on the Mekong River - a hard problem classified into the problems of simulating climate-change impacting iii MỤC LỤC TÓM TẮT NỘI DUNG NGHIÊN CỨU II MỤC LỤC IV DANH SÁCH CÁC CHỮ VIẾT TẮT VII DANH SÁCH BẢNG VIII DANH SÁCH HÌNH IX QUYẾT TOÁN KINH PHÍ XIII PHẦN MỞ ĐẦU 1 Tên đề tài dự án: Mục tiêu Nội dung đề tài 3.1 Nội dung thực 3.2 Sản phẩm đạt Sản phẩm đề tài/dự án 4.1 Sản phẩm 4.2 Sản phẩm CHƢƠNG 1: TỔNG QUAN 1.1 Tổng quan tình hình nghiên cứu thuộc lĩnh vực đề tài 1.1.1 Ngoài nước 1.1.2 Trong nước 1.2 Tính cấp thiết đề tài 10 1.3 Ý nghĩa tính khoa học thực tiễn 11 CHƢƠNG 2: NỘI DUNG NGHIÊN CỨU 12 2.1 Phân tích u cầu tốn tổng quan nội dung nghiên cứu 12 2.1.1 Lớp quản lý ứng dụng (Application) 12 2.1.2 Phần mềm lớp PaaS 13 2.1.2.1 Bộ quản lý ứng dụng (Application Manager) 13 2.1.2.2 Bộ lập lịch tài nguyên chung (Cross-Resource Scheduler) 14 2.1.3 Phần mềm quản lý sở hạ tầng hệ thống điện toán đám mây 15 2.1.4 Hạ tầng phần cứng sử dụng đề tài 19 2.2 Phân tích tìm hiểu vấn đề liên quan 21 2.2.1 Bộ quản lý ứng dụng (Application Manager) 21 2.2.1.1 2.2.1.2 2.2.1.3 2.2.1.4 2.2.1.5 2.2.1.6 Chức đăng nhập - xác thực 22 Chức quản lý project 22 Chức quản lý task 23 Chức quản lý ứng dụng 23 Chức quản trị người dùng 23 Chức thống kê 23 iv 2.2.2 Bộ lập lịch tài nguyên chung (Cross-Resource Scheduler) 24 2.2.2.1 Giải thuật lập lịch 24 2.2.2.2 Mơ hình dự báo thời gian chạy 30 a Thuật toán định ID3 32 b Mơ hình mạng neuron MLP 33 c Mơ hình SVR 39 d Mơ hình 2-Phase-KNNs 43 2.3 Ngôn ngữ mô tả ứng dụng 45 2.3.1 Ngôn ngữ mô tả ứng dụng PSSP 45 2.3.2 Ngữ nghĩa key-point cấu trúc JSON 47 2.3.3 Định nghĩa ngôn ngữ mô tả ứng dụng chung 49 CHƢƠNG 3: HIỆN THỰC HỆ THỐNG 51 3.1 Kiến trúc hệ thống 51 3.2 Hệ thống website quản lý ứng dụng 52 3.2.1 Đăng nhập – xác thực 54 3.2.2 Quản lý project 54 3.2.3 Quản lý task 56 3.2.4 Quản lý ứng dụng 59 3.2.5 Giám sát thống kê máy ảo hệ thống 60 3.2.6 Trang quản lý phân quyền 62 3.3 Đánh giá mơ hình dự báo xếp lịch hệ thống cloud 63 3.3.1 Mơ hình dự báo 64 3.3.1.1 Mạng MLP 64 3.3.1.2 SVR 65 3.3.2 Xếp lịch 66 3.3.1.3 3.3.1.4 3.3.1.5 3.3.1.6 Phương pháp đánh giá 66 Benchmark 67 Kết 68 Nhận xét 72 CHƢƠNG 4: BÀI TOÁN ỨNG DỤNG 74 4.1 Bài tốn phân loại trình tự sinh học 74 4.1.1 Giới thiệu toán 74 4.1.2 Thách thức khía cạnh chi phí tính tốn tốn 75 4.1.3 Phương pháp tính tốn 76 4.1.3.1 Thuật toán gom cụm 76 4.1.3.2 Thuật toán phân loại trình tự 78 4.1.4 Nhu cầu hạ tầng thiết bị 79 4.1.5 Kết thực nghiệm 80 4.2 Bài tốn mơ lũ theo kịch biến đổi khí hậu 82 v 4.2.1 4.2.2 4.2.3 4.2.4 4.2.5 Giới thiệu tốn mơ khí hậu 82 Các công cụ mô tốn mơ khí hậu 83 Mơ hình Telemac-2D 83 Cơ sở lý thuyết mơ hình Telemac-2D 85 Đầu đầu vào mơ hình 85 4.2.5.1 Hệ thống Steering file 86 4.2.5.2 Hệ thống Geometry file 86 4.2.5.3 Hệ thống Boundary file 86 4.2.6 Các kịch mô OpenTelemac hệ thống PSSP 86 4.2.7 Mô dòng chảy 2D vùng ven biển khu vực ĐBSCL 87 CHƢƠNG 5: KẾT QUẢ VÀ KIẾN NGHỊ 89 5.1 Kết đạt 89 5.1.1 Xây dựng hệ thống điện toán đám mây 89 5.1.2 Giải toán thực tế 89 5.1.3 Cơng trình cơng bố 90 5.2 Hạn chế đề tài 90 5.3 Kết luận 91 5.4 Kiến nghị 92 TÀI LIỆU THAM KHẢO 94 vi DANH SÁCH CÁC CHỮ VIẾT TẮT VIẾT TẮT THUẬT NGỮ TIẾNG VIẾT HaaS Hardware as a Service IaaS Infrastructure as a Service PaaS Platform as a Service SaaS Software as a Service DaaS Data as a Service RFNN Recurrent Fuzzy Neural Network MLP MultiLayer Perceptron SVR Support Vector Regression MiMLP Mixture of MultiLayer Perceptron vii DANH SÁCH BẢNG SỐ TÊN BẢNG SỐ LIỆU TRANG 3.1 Hiệu suất dự báo mơ hình MLP MiMLP 64 3.2 Hiệu suất dự báo mơ hình SVR 65 3.3 Makespan dự báo hệ thống xếp lịch (giây) 68 3.4 Makespan thực tế xếp lịch tác vụ (giây) 68 3.5 Thời gian thực thi thuật toán (mili-giây) 68 4.1 Thời gian chạy MEGAN, SOrt-ITEMS, and SeMeta 80 viii DANH SÁCH HÌNH TÊN HÌNH ẢNH SỐ TRANG 2.1 Tổng quan phần mềm lõi hệ thống 12 2.2 Phần mềm lớp PaaS 13 2.3 Quản lý sở hạ tầng 15 2.4 Mơ hình tổng qt Open Stack 16 2.5 Kiến trúc cloud hệ thống 20 2.6 Minh họa hoạt động phần mềm hệ thống đám mây 21 2.7 Cơ chế xếp lịch phương pháp MCT 26 2.8 Lược đồ thực thi giải thuật meta-heuristics dựa việc 27 dịch chuyển 2.9 Giải thuật First Next việc lựa chọn lân cận 29 2.10 Giải thuật Global Next việc lựa chọn lân cận 30 2.11 Mô hình dự báo bước 31 2.12 Các thành phần mạng Neural Network 33 2.13 Kiến trúc mạng Feedforward tầng 37 2.14 Thủ tục huấn luyện thuật giải Back-Propagation 38 2.15 Mơ hình MiMLP 39 2.16 Thiết lập suy giảm với biên mềm cho máy SV tuyến tính 41 ix Hình 4.5 So sánh thời gian thực thi ParSeMeta hệ thống cloud với số lƣợng máy o khác cho kịch b n RAM 3GB 6GB 4.2 Bài tốn mơ lũ theo kịch b n biến đổi khí hậu 4.2.1 Giới thiệu tốn mơ khí hậu Hiện cơng cụ cho nghiên cứu vấn đề liên quan đến biến đổi khí hậu chủ yếu mơ hình số mơ hình thống kê Nếu mơ hình thống kê dựa số liệu lịch sử để đưa quy luật mơ hình số dựa hệ thống phương trình tốn lý Hàng loạt q trình liên quan tượng biến đổi khí hậu mà cơng cụ mơ hình số mơ bao gồm: q trình thay đổi mực nước trung bình, trình xâm nhập mặn, tượng nước dâng bão, v.v… Trên tất cả, mô hình số thiết lập với độ phân giải cao quy trình kiểm định chặt chẽ có khả dự báo tượng thời tiết cực đoan xảy tương lai Một yêu cầu đòi hỏi việc tính tốn số máy tính với hiệu cao Tùy theo độ phân giải không gian thời gian độ phức tạp tốn cần mơ mà thời gian tính tốn gia tăng cách tương ứng Việc thực thi tốn mơ kéo dài từ hàng đến hàng tháng điều bình thường tốn dự báo khí tượng thủy hải văn Hệ thống máy tính với khả tính tốn song song với số lượng node tính tốn lớn nhớ phân bố đảm đương cơng việc hiệu rút ngắn thời gian mô Tuy nhiên việc trang bị hệ thống máy tính hiệu cao khơng đơn 82 giản, địi hỏi chi phí mua sắm trang thiết bị, chi phí cho việc vận hành bảo trì 4.2.2 Các cơng cụ mơ tốn mơ khí hậu Như kết phát triển phần cứng thuật tốn, mơ số nhanh chóng trở thành ngành nghiên cứu thủy văn Trong lúc đó, gia tăng vấn đề liên quan đến môi trường vấn đề sử dụng nước đặc thù, gia tăng câu hỏi ngày liên quan đến nhiều ngành phức tạp Do đó, khoảng ứng dụng cho giải tích số ngày mở rộng yêu cầu độ xác nhiều Tốc độ nhanh phát triển bao hàm cố gắng quan trọng nhằm vào bốn mục tiêu chính: 1/ Mơ q trình vật lý nghiên cứu thuật toán 2/ Giao diện người dùng thích nghi cho phát triển cơng nghệ 3/ Tài liệu điều khiển chất lượng 4/ Kiểm định mô hình 4.2.3 Mơ hình Telemac-2D Sự tiến triển đáng kể tin học thủy lực thường có kinh phí cao thời gian mà chương trình máy tính viết người khoảng thời gian học làm luận văn qua Trong tương lai phải làm với tầm nhìn xa làm để giữ gìn kinh nghiệm có nắm bắt nhanh chóng thuận lợi tiến gần khoa học tiếp cận người từ nhiều ngành khác thiết lập giao tiếp bên ứng dụng: khái niệm hệ thống mơ hình nhanh chóng xuất Hệ thống TELEMAC phần mềm mơi trường vậy, phát triển kết nghiên cứu Hệ thống TELEMAC bao gồm tồn chuổi xử lý cho việc tính tốn nước, chất hịa tan chuyển tải trầm tích miền thuộc sông, ven bờ, cửa sông, vùng hồ nước ngầm Thơng thường, bao gồm q trình tiền xử lý để số hóa liệu mơ tả tốn, chương trình mơ hậu xử lý cho việc biểu diển phân tích số liệu Một chìa khóa có giá trị hệ thống lý 83 thuyết phần tử hữu hạn, bao gồm tảng lý thuyết chặt chẽ linh hoạt để biểu diễn miền tính phức tạp Mã nguồn TELEMAC-2D dùng để giải hệ phương trình bề mặt tự trung bình theo độ sâu, hệ phương trình cịn gọi hệ phương trình SaintVenant theo tên nhà tốn học người Pháp ơng đưa chúng năm 1871 Kết node lưới tính tốn độ sâu mực nước thành phần vận tốc trung bình theo độ sâu Ứng dụng TELEMAC-2D hàng hải thuỷ lực vùng sơng Chương trình tích hợp tượng sau đây: Sự truyền song dài bao gồm ảnh hưởng phi tuyến Ma sát bề mặt đáy Ảnh hưởng lực Coriolis Ảnh hưởng tượng khí tượng áp suất khí quyển, mưa, bốc gió Q trình rối Dịng tới hạn tới hạn Ảnh ưởng nhiệt độ theo phương dứng gradient mặn lên mật độ Hệ toạ độ Descartes toạ độ cầu miền tính lớn Diện tích khơ việc tính tốn mặt phẳng triều bề mặt ngập Sự hội tụ khuyếch tán dòng chảy, bao gồm chất phân huỷ v.v… Phần mềm có nhiều lĩnh vực ứng dụng Trong hải văn, đặc biệt thiết kế chiều dài cảng, nghiên cứu tác động xây dựng dê chìm nạo vét, tác động chất thải thải từ sông ven biển, xâm nhập mặn nhiệt độ nước biển Trong thuỷ văn, nghiên cứu tác động cơng trìh xây dựng (cầu, đập tràn, ống), việc tràn đập, lũ lụt việc lan truyền chất không phân huỷ phân huỷ 84 4.2.4 Cơ sở lý thuyết mơ hình Telemac-2D Hệ phương trình TELEMAC-2D bao gồm phương trình động lực sau đây: ⃗( ) ⃗ ⃗( ) ( ⃗ ( )), ⃗ ⃗( ) ( ⃗ ( )), ⃗ ⃗( ) (⃗ ) , (⃗ ) ( ⃗ ( )), bao gồm phương trình liên tục, phương trình bảo tồn momentum theo hai trục phương trình bảo tồn theo đại lượng T Các đại lượng h (m) chiều sâu cột nước, u, v (m/s) thàh phần vận tốc, T (g/l C) nhiệt độ khống lượng, g (m/s2) gia tốc trọng trường, vt vT hệ số khuếch tán moment đại lượng T, Z bề mặt tự do, t thời gian, x, y toạ độ theo phương, Sh nguồn giếng dòng chảy, Sx, Sy số hạn nguồn giếng phương trình động lực, ST số hạng nguồn giếng chất cần truy vết, h, u, v, T ẩn phương trình 4.2.5 Đầu đầu vào mơ hình Tập hợp file dung đầu vào đầu TELEMAC-2D bao gồm: Steering file: chứa file thiết lập để tính tốn Geometry file: chứa thơng tin lưới tính Boundary condition file: chứa tin điều kiện biên biên Result file: Chứa thơng tin kết tính tốn Log file: hệ thống ghi lại trình chạy hệ thống 85 4.2.5.1 Hệ thống Steering file Đây dạng file tạo dạng ASCII, biên tập với công cụ FUDAA-PREPRO Tất hệ số file trình bày dạng tự diển Nếu hệ số không mô tả file chúng gán với giá trị mặc định Nếu hệ số yêu cầu cần phải đặc tả, không đặc tả chương trình báo lỗi Luật thiết lập hệ số toán theo nguyên tắc sau: Các hệ số số nguyên, số thực, dạng logic dạng ký tự Thứ tự thiết lập hệ số không quan trọng Mỗi dòng giớ hạn với 72 ký tự, nhiên tiếp tục với dịng cần Ngồi cịn có thêm luật định khác người dung tham thảo sách tài liệu hướng dẫn TELEMAC 4.2.5.2 Hệ thống Geometry file Với file đặc tả lưới tính, chúng thiết lập dạng nhị phân Thông tin chứa file bao gồm điểm lưới, phần tử thông tin node phần tử, toạ X, Y tất node mạng IKLE chứa bảng tất thông tin kết nối File cần chứa thơng tinh hình của đáy hệ số ma sát điểm lưới Ngoài kết tính tốn xuất dựa geometry file 4.2.5.3 Hệ thống Boundary file Những file tạo cách tự động ứng dụng MATISSE, FUDAA-PREPRO STBTEL tất nhiên chúng biên tập trình biên tập ASCII Mỗi hàng file đặc tả điểm biên tính 4.2.6 Các kịch b n mơ OpenTelemac hệ thống PSSP Trên tảng cloud computing hệ thống PSSP, nhóm nghiên cứu triển khai mơi trường tính tốn cho toán liên quan đến tài nguyên nước biến đổi khí hậu ứng dụng mã nguồn mở TELEMAC Thực tế ứng dụng TELEMAC tập nhiều module khác phục vụ cho việc tính tốn tồn vấn đề liên quan đến thủy động lực học bao gồm việc phân tích liệu Trong hai module tảng để thực thi tính tốn 86 chuyên sâu TELEMAC 2D TELEMAC 3D Với module TELEMAC 3D, hệ thống phương trình chủ đạo cho việc mô phương Navier-Stoke với module TELEMAC 2D hệ phương trình chủ đạo hệ phương trình nước nơng Mỗi module có ưu điểm điểm hạn chế khác giới hạn nghiên cứu nhóm nghiên cứu đào sâu toán liên quan đến module TELEMAC2D với 56 kịch hổ trợ sẵn kịch đặc biệt khu vực đồng sông Cửu Long nhóm tác giả khoa Cơng Trình, Đại học Bách Khoa TP.HCM thực 4.2.7 Mô dòng ch y 2D vùng ven biển khu vực ĐBSCL Kiểm soát lưu lượng mực nước vị trí quang vùng đồng sơn Cửu Long mùa lũ quan trọng nhằm giảm thiểu thiệt hại lũ gây Hệ thống cơng trình thủy lợi nhằm chủ động lũ biển Tây nhũng biện pháp dược xem xét thực bước theo hoạch định Bên cạnh xem xét khả phương án tạm trữ nước vị trí hợp lý khu vực ĐBSCL khả xem xét Với phương án việc giảm đỉnh lũ cho vùng hạ lưu, dung tích tạm trữ khu vực tích hợp cho vùng ĐBSCL cịn có tác dụng điều hịa dịng chảy vào mùa nước Miền nghiên cứu lấy tồn vùng ĐBSCL Giới hạn phía thượng lưu sơng Mekong có vị trí khoảng 200 km kể từ Châu Đốc Phía hạ lưu miền tính lấy rộng khơi cách bờ trung bình khoảng 60 km để giảm để giảm thiểu ảnh hưởng đáy biển vùng ven bờ lên triều thiên văn Tại vị trí ngồi khơi miền tính giá trị triều thiên văn áp dụng xem điều kiện biên cho mơ Diện tích miền tính khoảng 80850 km2 (Hình 4.6) Tồn miền tính mơ hình hóa 716 nghìn phần tử tam giác phi cấu trúc với phần tử tam giác nhỏ khoảng 20m mô tả hai chiều vùng sông phần tử lớn có cạnh khoảng 6000m mơ tả phần tử ngồi vùng biển miền tính Miền nghiên cứu giới hạn biên thượng luu biên hạ lưu cụ thể sau: Biên Q(t) nhập lưu tràn từ biên giới Campuchia qua vùng Đồng Tháp Mười 87 Biên Q(t) sơng Mekong Biên Z(t) & U, V biển (biên hở) xác định từ sở liệu triều thiên văn Địa hình khu vực đất liền lấy từ đồ ETOPO có khoảng cách trung bình điểm 1800m Hình 4.6 Miền lƣới tính 2D 88 CHƢƠNG 5: KẾT QUẢ VÀ KIẾN NGHỊ 5.1 Kết qu đ t đƣợc 5.1.1 Xây dựng hệ thống điện tốn đám mây Nhóm nghiên cứu xây dựng thành cơng hệ thống điện tốn đám mây nhỏ, bao gồm nút, có khả cung cấp máy ảo, cho phép cung cấp dịch vụ (PaaS) hỗ trợ cho việc giải toán phân loại trình tự sinh học mơ lũ Xây dựng cổng thông tin (website) cho phép người dùng thực thi ứng dụng (bài toán) cách tự động Các giải thuật dự báo thời gian chạy (3 giải thuật), giải thuật xếp lịch (2 giải thuật) triển khai đầy đủ kiểm tra chi tiết hiệu Đây đóng góp đề tài sở để việc thực thi ứng dụng theo yêu cầu người dùng cách tự động, hiệu Việc đề xuất nhiều thuật giải dự báo nhóm đề tài dị tìm thuật giải phù hợp cho tập liệu, mang tính chất thủ cơng Tuy nhiên sở để nhóm đề tài định hướng xây dựng mơ hình dự báo theo phương pháp ensemble learning, phương pháp tổng hợp từ nhiều phương pháp dự báo khác nhằm cho kết dự báo tốt Ngoài ra, hạn chế điều kiện, private cloud public cloud triển khai kiểm tra đánh giá chủ quan (cả hệ thống cloud nhóm tự triển khai) Vì cần phải có kết nối thực với hệ thống cloud khác HPC Cloud hay Amazon Cloud để việc đánh giá hệ thống xây dựng khách quan Tuy nhiên thời gian hạn chế khó khăn khách quan, nhóm đề tài chưa thể thực yêu cầu 5.1.2 Gi i toán thực tế Hiện hệ thống cho chạy thử nghiệm hai toán toán: phân loại trình tự sinh học mơ lũ ứng dụng Telemac2D, cho kết khả quan Trong tương lai nhóm đăng ký ứng dụng bao gồm ứng dụng liên quan học sâu (deep learning) để giải vấn đề thực tiễn y tế, nơng nghiệp 89 5.1.3 Cơng trình công bố Vinh Van Le, Lang Van Tran, Hoai Van Tran, A novel semi-supervised algorithm for the taxonomic assignment of metagenomic reads BMC Bioinformatics, Jan 2016, DOI: 10.1186/s12859-015-0872-x (IF: 2.567) Duong Ngoc Hieu, et al., A Machine Learning-Based Approach for Predicting the Execution Time of CFD Applications on Cloud Computing Environment Proc of FDSE, pp 40-52, Vietnam, 2016, DOI: 10.1007/9783-319-48057-2_3 (Springer) Nguyen Cao Tri, et al., A Novel Framework Based on Deep Learning and Unmanned Aerial Vehicles to Assess the Quality of Rice Fields Proc of ICTA, pp 84-93, Vietnam, 2016, DOI: 10.1007/978-3-319-49073-1_11 (Springer) Tong Duc Phong, et al., Brain Hemorrhage Diagnosis by Deep Learning, Proc of ICMLSC, pp 34-39, Vietnam, 2017, DOI: 10.1145/3036290.3036326 (ACM) H n chế đề tài 5.2 Mặc dù đề tài đạt kết đăng ký thuyết minh đề tài hợp đồng đề tài hạn chế định cần xem xét giải thời gian tương lai - Đề tài tập trung giải hai tốn mơ lũ phần mềm Telemac2D phân loại trình tự sinh học Điều kiện cần để vận hành hai ứng dụng hạ tầng điện toán đám mây (ĐTĐM) xây dựng hai ứng dụng phải thực trước nhiều lần hạ tầng phần cứng ĐTĐM để tạo tập liệu huấn luyện; công đoạn thực thủ công, chưa tự động Dữ liệu huấn luyện sở để xây dựng dự báo thời gian chạy ứng dụng Vì cần có chiến lược cụ thể công đoạn thủ công phải bán tự động hoá, nhằm giúp người sử dụng hệ thống ĐTĐM dễ dàng thao tác triển khai ứng dụng hai ứng dụng triển khai đề tài - Cần khoanh vùng ứng dụng khác ứng dụng cài đặt để giúp định hướng cho người dùng sử dụng hệ thống ĐTĐM xây dựng Những ứng dụng phù hợp để triển khai ứng dụng có dạng cần nhiều thơng số cấu hình cho mơ hình sử dụng, tính tốn cần nhiều tài 90 ngun phần cứng song song hố Ngồi thời gian thực thi ứng dụng phụ thuộc vào kích thước liệu sử dụng mà khơng phụ thuộc nhiều vào tính chất liệu (ví dụ liệu ảnh y khoa hay ảnh lúa không ảnh hưởng đến thời gian thực thi mơ hình học sâu; thời gian thực thi phụ thuộc vào kích thước tập ảnh sử dụng) - Nhóm đề tài đề xuất số ứng dụng có khả triển khai hệ thống ĐTĐM ứng dụng máy học (machine learning) liên quan đến phân tích liệu chuỗi thời gian, ảnh; ứng dụng học sâu (deep learning) phân tích liệu ảnh Ví dụ nhóm đề tài triển khai thử nghiệm thành công ứng dụng học sâu phân tích ảnh lúa ảnh y khoa (kết trình bày báo số số mục 5.1.3) Ngoài mơ hình mơ vật lý triển khai ứng dụng Telemac2D để mô lan truyền mặn, ứng dụng AERMOD mô lan truyền ô nhiễm khơng khí, v.v… - Trong thực tế, có nhiều ứng dụng giải toán phức tạp với thời gian tính tốn lớn Sự bùng nổ độ phức tạp tính tốn phụ thuộc vào kích thước liệu, thơng số mơ hình sử dụng, v.v… Vì việc giới hạn tốn cài đặt hệ thống ĐTĐM mà nhóm đề tài xây dựng tương đối khó Những ứng dụng nhóm đề tài đề xuất vào tương tự tính chất tốn, mơ hình (vật lý hướng liệu) sử dụng kinh nghiệm nhóm 5.3 Kết luận Trong thời gian thực đề tài, nhóm nghiên cứu gặp phải số khó khăn định ảnh hưởng đến tiến độ thực hiện: - Do tốn mơ lũ ứng dụng Telemac2D có liệu khối lượng tính tốn lớn, địi hỏi nhiều tài ngun tính toán, thời gian để chạy thử nghiệm lâu (thời gian thực thi trung bình thực kịch thiết lập cấu hình tài nguyên xấp xỉ 58 phút), nên số trường hợp thử nghiệm cho kết chưa nhiều, khoảng gần 400 trường hợp (tổng thời gian thực thi 22.344 phút, tương đương 372 giờ) 91 Đối với tập liệu thứ (tham số ứng dụng chi tiết hoá), thời gian thực thi ứng dụng nhỏ hơn, nhiên nhóm đề tài tốn nhiều thời gian cho việc thực thi ứng dụng (kích thước tập liệu khoảng 1.600) Tương tự, tốn phân loại trình tự sinh học gặp phải khó khăn - Việc xây dựng dịch vụ PaaS hệ thống điện toán đám mây gặp số khó khăn định chưa có kinh nghiệm thực tế Cụ thể nhóm bỏ qua khoảng thời gian thực tế để hệ thống giải phóng tài nguyên sau máy ảo bị xóa khỏi hệ thống Điều khiến hệ thống trục trặc giai đoạn đầu tiên: hệ thống sử dụng cạn tài ngun, khơng thể cung cấp máy ảo sau vừa xóa máy ảo cũ; thực tế hệ thống cần khoảng thời gian định để giải phóng tài nguyên máy ảo bị xóa khỏi hệ thống Tuy nhiên, kết khoa học đề tài đạt được, theo kịp tiến độ đề Cụ thể, nhóm hồn thành kết hợp đồng bao gồm: - báo khoa học có cơng bố hội nghị tạp chí uy tín Springer, ACM xuất Trong có báo tập chí với IF 2.567 Hiện nhóm đề tài viết thêm chuẩn bị nộp chuẩn bị thảo 5.4 - 40 báo cáo chuyên đề - Báo cáo kỹ thuật tổng hợp báo cáo tóm tắt - Tài liệu hướng dẫn sử dụng cài đặt hệ thống Kiến nghị Trong hai năm qua, nhóm đề tài nỗ lực việc thực đề tài đạt đầy đủ nội dung chuyên môn hợp đồng Vì nhóm thực đề nghị đề tài nghiệm thu Những kinh nghiệm thu từ phía đề tài nhiều hữu ích, đặc biệt bối cảnh điện toán đám mây xu chung tồn giới nói chung Việt Nam nói riêng Gần Cơng nghiệp 4.0, IoT, Smart City khái niệm, 92 giải pháp khơng nhà khoa học mà cịn nhà lãnh đạo quan tâm Những khái niệm, giải pháp sử dụng điện toán đám mây cơng nghệ tảng Ngồi ra, năm gần đây, biến đổi khí hậu tác động lớn đến mơi trường, tài ngun Việt Nam Có nhiều nhóm sử dụng phần mềm mơ SWAT, Telemac, MIKE, v.v… để mơ tượng tự nhiên dịng chảy sơng, lũ, lan truyền mặn Việc vận hành mơ hình cần địi hỏi nhiều tài ngun tính tốn cơng sức Vì kết đề tài cần cơng bố rộng rãi chuyển giao cho nhóm nghiên cứu có nhu cầu sử dụng 93 TÀI LIỆU THAM KHẢO [Hargrove et al 1999] W.W.Hargrove F.M Hoffman, „Cluster Computing : Linux Taken to the Extreme‟, Linux Magazine, 1999 [Foster2002] I Foster, „The Grid : A New Infrastructure for 21th Century Science‟, Physics Today, vol.55, no.2, pp 4247, 2002 [Buyya et al 2008] R Buyya et al, „Market-Oriented Cloud Computing : Vision, Hype, and Reality for Delivering IT Services as Computing Utilities’, IEEE International Conference on High Performance Computing and Communications, pp 1-9, 2008 [Hayes2008] B Hayes, „Cloud Computing’, Commun ACM, vol.51, no.7, pp.43-51, 2009 [JoséFortes2009] J Fotes, „Sky Computing : When Multiple Clouds Become One’, IEEE/ACM International Conference on Cluster, Cloud and Grid Computing, pp.4, 2010 [Amazon] Amazon Elastic http://aws.amazon.com.ec2/ [GoGrid] GoGrid, http://www.gogrid.com/ [EHosts] ElasticHosts, http://www.elastichosts.com/ [Contrail] Contrail, http://contrail-project.eu/ [Harness] Harness, http://www.harness-project.eu/ [Fernandez2014] H Fernandez, G Pierre, T Kielmanm, „Autoscaling Web Applications in Heterogeneous Cloud Infrastructures‟, In Proc of the IEEE International Conference on Cloud Engineering, 2014 [Oneill2014] E O‟Neill, J McGlone, P Miligan, P Kilpatrick, „SHEPARD : Scheduling on Heterogeneous Platform Using Application Resource Demands’, In Proc of the 22th Euromicro International Conference on Parallel, Distributed, and Network-Based Processing (PDP), 2014 [Minh2014] T.N Minh G Pierre, „Failure Analysis and Modeling in Large Multi-Site Infrastructures‟, In Proc of the 13th 94 Compute Cloud, International IFIP Conference on Distributed Applications and Inter-operable Systems (DAIS), 2013 [SupernodeI 1998-2000] Supernode I, Nghiên cứu xây dựng mơi trường phát triển lập trình xử lý song song hệ đa xử lý Supernode – Đề tài cấp TP HCM Nguyễn Thanh Sơn chủ nhiệm, 1998-2000 [SupernodeII 2004-2006] Supernode II, Nghiên cứu xây dựng phần mềm hệ thống trang bị cho hệ thống tính tốn hiệu cao – Đề tài cấp ĐHQG TP HCM Thoại Nam chủ nhiệm, 2004-2006 [PRAGMA] Pacific Rim Applications and Grid Assembly, http://www.pragma-grid.net/ [HPC Cloud 2012-2014] Nghiên cứu xây dựng hệ thống đám mây tính tốn hiệu cao nhằm phục vụ nhóm nghiên cứu khoa học vừa nhỏ PGS.TS Thoại Nam chủ nhiệm, 20122014 [KHTNHN] Trung tâm tính http://chpc.vnu.edu.vn/ [Daniel2007] Daniel H Huson et al (2007) „MEGAN analysis of metagenomic data‟ Genome Research [Altchul1990] Altschul S F et al (1990) „Basic Local Alignment Search Tool‟ J Mol Biol 215 403 – 410 [Le2015] Le Van Vinh, Tran Van Lang, Le Thanh Binh, Tran Van Hoai (2015) „A two-phase binning algorithm using lmer frequency on groups of non-overlapping reads‟, Journal of Algorithms of Molecular Biology, ISSN: 1478-7188 [Lee2010] Lee C H, Teng C C „Identification and control of dynamic systems using recurrent fuzzy neural networks‟ IEEE Transactions on Fuzzy Systems 2000, 8(4), 349366 [Quinlan1986] Quinlan, J R 1986 „Induction of Decision Trees‟ Mach Learn 1(1), 1986, 81-106 [EddyCaron2013] Eddy Caron, Lamiel Toch, Jonathan Rouzaud-Cornabas, „Comparison on OpenStack and OpenNebula performance to improve multi-Cloud architecture on 95 toán hiệu Middleware cao, cosmological simulation use case‟, RR-8421, INRIA 2013, pp.23 [Horowitz 1978] E Horowitz and S Sahni, Fundamentals of Computer Algorithms, Pitman Publishing, 1978 [Frank, R 1958] Frank, R.: The perceptron: A probabilistic model for information storage and organization in the brain, cornell aeronautical laboratory Psychological Review 65, 386-408 (1958) [Duong Ngoc Hieu 2016] Duong Ngoc Hieu et al.: A Machine Learning-Based Approach for Predicting the Execution Time of CFD Applications on Cloud Computing Environment Proc of FDSE Conference 2016, pp 40-52, Vietnam (2016) [Cortes C 1995] Cortes, C and Vapnik, V : "Support-vector networks" Machine Learning 20 (3): 273–297 (1995) [U Honig 2006] U Honig and W Schiffmann, “A Meta-algorithm for Scheduling Mul- tiple DAGs in Homogeneous System Environments, ” In Proceedings of the 18th International Conference on Parallel and Distributed Computing and Systems (PDCS‟06) IEEE, 2006 [H Zhao 2006] H Zhao and R Sakellariou, “Scheduling Multiple DAGs onto Hetero- geneous Systems, ” In Proceedings of the 15th Heterogeneous Computing Workshop (HCW), April 2006 96