Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 173 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
173
Dung lượng
15,19 MB
Nội dung
ỦY BAN NHÂN DÂN TP.HCM SỞ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA BÁO CÁO NGHIỆM THU Đề tài: NGHIÊN CỨU THIẾT KẾ HỆ THỐNG TÍNH TỐN HIỆU NĂNG CAO 50-100 TFLOPS PGS TS THOẠI NAM THÀNH PHỐ HỒ CHÍ MINH THÁNG 11/2016 ỦY BAN NHÂN DÂN TP.HCM SỞ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA BÁO CÁO NGHIỆM THU Đề tài: NGHIÊN CỨU THIẾT KẾ HỆ THỐNG TÍNH TỐN HIỆU NĂNG CAO 50-100 TFLOPS CHỦ NHIỆM ĐỀ TÀI (Ký tên) CƠ QUAN QUẢN LÝ (Ký tên/đóng dấu xác nhận) CƠ QUAN CHỦ TRÌ (Ký tên/đóng dấu xác nhận) THÀNH PHỐ HỒ CHÍ MINH THÁNG 1/2017 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs TĨM TẮT NỘI DUNG NGHIÊN CỨU Thiết kế xây dựng hệ thống máy tính hiệu cao đòi hỏi phải sử dụng số kỹ thuật đặc biệt hệ thống máy tính nhỏ địi hỏi cao tính tốn vào giao tiếp ứng dụng Việc khảo sát, phân tích đánh giá kết từ hệ thống máy tính mạnh xây dựng TOP500 hữu ích cho việc xây dựng hệ thống Các kỹ thuật xử lý Intel Xeon, đồng xử lý Intel Xeon Phi/card gia tốc GPU NVIDIA kỹ thuật mạng nội truyền liệu tốc độ Infiniband trình bày Hướng đến đánh giá hiệu cho hệ thống cụ thể, công cụ đánh hiệu tính tốn giao tiếp giới thiệu Các công cụ đánh giá sử dụng công cụ dùng đánh giá cho hệ thống máy tính TOP500, Graph500 HPL, Graph500 Benchmark công nghiệp sử dụng Iperf/Netperf Ngoài ra, hệ thống lưu trữ iSCSI (Internet Small Computer System Interface), NFS (Network File System) Lustre nghiên cứu đánh giá Kỹ thuật ảo hoá máy ảo Docker cải tiến nhiều thời gian gần Chúng cho phép xây dựng hệ thống tính tốn hiệu cao theo u cầu ứng dụng chia sẻ tài nguyên nhiều người sử dụng Một trở ngại hiệu kỹ thuật ảo hố dùng cho tính toán Vấn đề nghiên cứu giải đề tài II Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs SUMMARY OF RESEARCH CONTENT Designing and building a High Performance Computing systems require advanced techniques, which are not used in small computing systems because of the demands on computing power and communication The study, analysis and evaluation from experiences of buliding supercomputers in TOP500 are helpful for bulding new systems in the next step Techniques in Intel Xeon, coprocessors Intel Xeon Phi/ Nvidia GPU accelerators and the high-speed network communication Ininiband are studied In order to evaluating a specific computing system, performance tools on computing power and communication are integrated These tools are used in TOP500, Graph500 to tuning performance of supercomputers like HPL and Graph500 Benchmark 1, and used in companies like Iperf/Netperf Moreover, the storage systems like iSCSI (Internet Small Computer System Interface), NFS (Network File System) and Lustre file system are studied and evaluated in performance Virtualization technologies like Virtual Machine and Docker have been improved much in recently They allow us to build HPC systems that are able to provide resources based on application requriments and share resources among many users One problem is performance of these virtualization techniques when applying in computing This problem is dicussed and answered in this project III Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs Mục lục TĨM TẮT NỘI DUNG NGHIÊN CỨU II SUMMARY OF RESEARCH CONTENT III Mục lục IV Danh mục hình VII Danh mục bảng XI Danh mục chữ viết tắt XII Một số thuật ngữ XIII QUYẾT TỐN KINH PHÍ XIV BÁO CÁO NGHIỆM THU Chương Giới thiệu Chương Kỹ thuật công nghệ liên quan 2.1 TOP500: Kỹ thuật công nghệ 2.2 Nút tính tốn 10 2.3 Bộ đồng xử lý & Card gia tốc 11 2.3.1 Intel Xeon Phi 11 2.3.2 Graphic Processing Unit (GPU) 15 2.4 Infiniband Gigabit Ethernet 21 2.4.1 Gigabit Ethernet 10 Gigabit Ethernet 21 2.4.2 Infiniband 21 2.5 Mơ hình thiết kế tổng quan hệ thống tính tốn hiệu cao 25 2.6 Kết luận 29 Chương Công cụ đánh giá hiệu 30 3.1 Lựa chọn công cụ đánh giá hiệu 30 3.2 Nghiên cứu công cụ đánh giá hiệu tính tốn 33 3.2.1 Công cụ High Performance Linpack (HPL) 33 3.2.2 Phân tích & đánh giá HPL 34 3.3 Nghiên cứu công cụ đánh giá hiệu truy xuất liệu nhớ 40 3.3.1 Công cụ Graph500 Benchmark 40 3.3.2 Phân tích & đánh giá 43 3.4 Công cụ đánh giá hiệu tự động 44 IV Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs 3.4.1 Lý cần đánh giá hiệu tự động 44 3.4.2 Giải pháp điều chỉnh tham số tự động cho việc đo đạc hiệu suất dùng HPL 44 3.4.3 Kiểm tra tính đắn giải thuật 50 3.5 Kết luận 51 Chương Công cụ đánh giá hiệu giao tiếp 53 4.1 Mục tiêu tiêu chí đánh giá 53 4.2 Công cụ đánh giá hiệu giao tiếp 53 4.2.1 Iperf & Netperf 53 4.2.2 RDMA Communication Benchmarks 55 4.2.3 MVAPICH OSU Micro-Benchmarks 58 4.3 Đánh giá hiệu suất giao tiếp điểm – điểm chương trình MPI 59 4.4 Phương pháp đánh giá hiệu suất giao tiếp nhóm chương trình MPI 60 4.5 Kết luận 61 Chương Triển khai máy ảo Docker 62 5.1 Kỹ thuật ảo hố dùng tính tốn 62 5.1.1 Nghiên cứu, lựa chọn triển khai mơ hình dùng máy ảo hệ thống thử nghiệm 63 5.1.2 Phân tích, đánh giá lựa chọn máy ảo 66 5.2 Mơ hình ảo hố triển khai hệ thống 68 5.3 Kết luận 69 Chương Triển khai thực nghiệm 70 6.1 Đánh giá hiệu tính tốn truy xuất liệu 70 6.1.1 Môi trường thử nghiệm 70 6.1.2 Công cụ sử dụng 70 6.1.3 Kịch đo đạc 70 6.1.4 Kết đánh giá hiệu 72 6.2 Đánh giá hiệu truyền liệu 79 6.2.1 Môi trường thử nghiệm 79 6.2.2 Đánh giá hiệu suất giao tiếp mạng Gigabit Ethernet 80 6.2.3 Đánh giá hiệu suất giao tiếp mạng Infiniband dủng RDMA 82 6.2.4 Kết thực nghiệm hệ thống SuperNode-XP 89 6.3 Kết luận 91 V Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs Chương Hệ thống lưu trữ 92 7.1 Hệ thống lưu trữ tập trung 92 7.1.1 SANs (Storage Area Networking) 92 7.1.2 Network File System (NFS) 95 7.2 Hệ thống lưu trữ phân tán 97 7.2.1 Tổng quan 97 7.2.2 Thành phần Lustre 98 7.3 Hệ thống lưu trữ tập trung: So sánh SAN (iSCSI) NFS 103 7.4 Đánh giá hệ thống Lustre NFS 109 7.5 Kết luận 155 Chương Kết luận 156 VI Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs Danh mục hình Hình 2.1 Thị phần nhà cung cấp hệ thống Hình 2.2 Thị phần xử lý Hình 2.3 Thị phần đồng xử lý Hình 2.4 Thị phần kỹ thuật kết nối mạng Hình 2.5 Nút tính tốn Thiên Hà 10 Hình 2.6 Kiến trúc MIC 13 Hình 2.7 Kiến trúc MIC phần core 13 Hình 2.7 Thứ tự thực thi thread core 14 Hình 2.8 NVIDIA Tesla P100 với Pascal GP100 GPU 16 Hình 2.9 GPU Pascal GP100 với 60 SMs 17 Hình 2.10 Kiến trúc SM 17 Hình 2.11 Kiến trúc Warp Scheduler Unit 18 Hình 2.12 Một số tác vụ sử dụng lệnh Shuffle 19 Hình 2.13 Các loại ngơn ngữ giao diện lập trình CUDA hỗ trợ 19 Hình 2.14 Khả mở rộng cách tự động CUDA 20 Hình 2.15 Card Gigabit Ethernet 21 Hình 2.16 Mạng cục hệ thống IBA 22 Hình 2.17 Mạng IBA 23 Hình 2.18 Các phần tử mạng IBA 23 Hình 2.19 Các phần tử IBA Subnet 24 Hình 2.20 Processor Node 24 Hình 2.21 Sơ đồ khối kiến trúc tổng quan hệ thống tính tốn lớn 26 Hình 2.22 Sơ đồ tổng quan hệ thống SuperNode-XP nhìn từ bên ngồi 27 Hình 2.23 Sơ đồ kết nối bên hệ thống node tính tốn 28 Hình 2.24 Các thành phần bên node tính tốn 29 Hình 3.1 Quá trình phân chia ma trận thành block size với NB = 36 Hình 3.2 Quá trình xếp block size cho process với PxQ = 2x3 37 Hình 3.3 Phân rã LU theo phương pháp Right-Looking 37 Hình 3.4 Giải thuật Increasing-2-ring trao đổi data process 38 Hình 3.5 Giải thuật Increasing-2-ring modified trao đổi data process 38 VII Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs Hình 3.6 Giải thuật Long (bandwidth reducing) trao đổi data process 38 Hình 3.7 Các giai đoạn thực thi Graph500 Benchmark 40 Hình 3.8 Minh họa chi tiết giai đoạn xử lý đồ thị 41 Hình 3.9 Phương pháp thực thi Simple Graph500 Benchmark 42 Hình 3.10 Phương pháp thực thi replicated-csr Graph500 Benchmark 42 Hình 3.11 Phương pháp thực thi replicated-csc Graph500 Benchmark 43 Hình 3.12 Các loại hình dạng khác tập S 45 Hình 3.13 Quá trình Reflection với tốn có tham số 47 Hình 3.14 Q trình Expansion với tốn tham số 47 Hình 3.15 Q trình Outside contraction với tốn tham số 48 Hình 3.16 Quá trình Inside contraction với toán tham số 48 Hình 3.17 Q trình Shrink với tốn tham số 49 Hình 3.18 Flowchart mã giả áp dụng giải thuật Nelder-Mead HPL 49 Hình 3.19 So sánh phương pháp tuning 51 Hình 4.1 Cơng cụ Iperf 54 Hình 4.2 Kết xuất Iperf 54 Hình 4.3 Giao tiếp dạng Pingpong 59 Hình 4.4 Đo tốc độ truyền liệu điểm - điểm 60 Hình 4.5 Đo độ trễ giao tiếp nhóm sử dụng hàm MPI_Bcast 60 Hình 5.1 Hai loại mơ hình máy ảo sử dụng 63 Hình 5.2 Kiến trúc hạ tầng cung cấp máy ảo Amazon EC2 64 Hình 5.3 Kỹ thuật ảo hoá Docker 65 Hình 5.4 Kiến trúc máy ảo Docker 65 Hình 5.5 Kết đo đạc băng thơng loại module ảo hóa network bên máy ảo dùng Netperf Iperf 66 Hình 5.6 Kết đo đạc băng thông máy ảo hệ điều hành Ubuntu & CentOS, so sánh với máy vật lý 67 Hình 5.7 Mơ hình máy tính 50 TFLOPs với node 68 Hình 6.1 Đo máy ảo máy vật lý 71 Hình 6.2 Đo máy ảo/máy vật lý với nhiều máy vật lý 71 Hình 6.3 Đo nhiều máy ảo/máy vật lý với nhiều máy vật lý 72 VIII Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs Hình 6.4 HLP chạy VM, Docker với máy vật lý 72 Hình 6.5 Graph500 Benchmark chạy VM, Docker với máy vật lý 73 Hình 6.6 HPL chạy VM, Docker với máy vật lý 73 Hình 6.7 Graph500 Benchmark chạy VM, Docker với máy vật lý 74 Hình 6.8 HPL máy ảo Docker container với số lượng thực thể tạo tăng dần 74 Hình 6.9 Graph500 Benchmark máy ảo Docker container với số lượng thực thể tạo tăng dần 75 Hình 6.10 Khả tính toán CPU node thuộc hệ thống SuperNodeXP 76 Hình 6.11 Khả tính tốn MIC node hệ thống SuperNode-XP 77 Hinh 6.12 Khả tính tốn CPU MIC node tính tốn SuperNode-XP 77 Hình 6.13 Khả tính tốn PM, VM Docker node tính tốn 78 Hình 6.14 Khả tính toán PM, VM Docker node SuperNode-XP 78 Hình 6.15 Kết đo băng thông khả dụng trường hợp extra-connection 81 Hình 6.16 Kết đo băng thông khả dụng trường hợp inter-connection 81 Hình 6.17(a) Độ trễ giao tiếp RDMA client – server 84 Hình 6.17(b) Độ trễ giao tiếp RDMA client – server 84 Hình 6.18 Băng thơng giao tiếp client-server dùng ib_read_bw 84 Hình 6.19a So sánh hiệu suất nội ngoại kết nối giao tiếp MPI point-topoint sử dụng RDMA 86 Hình 6.19b So sánh hiệu suất nội ngoại kết nối giao tiếp MPI point-topoint sử dụng RDMA 86 Hình 6.20a So sánh độ trễ giao tiếp point-to-point Docker máy ảo 87 Hình 6.20b So sánh độ trễ giao tiếp point-to-point Docker máy ảo 87 Hình 6.21 Độ trễ giao tiếp nhóm ứng dụng MPI 89 Hình 6.22 Băng thơng tối đa kênh truyền InfiniBand 90 IX Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs o 24 clients Hình 7.67 Tốc độ đọc 1GB liệu 24 máy client đến hệ thống file với Lustre stripcount =3 o 36 clients Hình 7.68 Tốc độ đọc 1GB liệu 36 máy client đến hệ thống file với Lustre stripcount =3 144 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs o 48 clients Hình 7.69 Tốc độ đọc 1GB liệu 48 máy client đến hệ thống file với Lustre stripcount =3 Kết luận: từ kết đọc song song file có kích thướt 1GB từ đến 48 máy client đến mơ hình hệ thống ta kết luận đọc file có kích thướt 1GB có xfersize xfersize từ 64KB trở tốc độ Lustre khơng thua hệ thống lại Trường hợp 10: tốc độ đọc hệ thống NFS, iSCSI Lustre, hệ thống Lustre dùng OST (StripeCount = 1) file size 3GB 145 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs o client Hình 7.70 Tốc độ đọc 3GB liệu máy client đến hệ thống file với Lustre stripcount =1 o clients Hình 7.71 Tốc độ đọc 3GB liệu máy client đến hệ thống file với Lustre stripcount =1 146 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs o 12 clients Hình 7.72 Tốc độ đọc 3GB liệu 12 máy client đến hệ thống file với Lustre stripcount =1 o 24 clients Hình 7.73 Tốc độ đọc 3GB liệu 24 máy client đến hệ thống file với Lustre stripcount =1 147 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs o 36 clients Hình 7.74 Tốc độ đọc 3GB liệu 36 máy client đến hệ thống file với Lustre stripcount =1 o 48 clients Hình 7.75 Tốc độ đọc 3GB liệu 48 máy client đến hệ thống file với Lustre stripecount =1 148 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs Kết luận: Với file có kích thướt lớn 3GB trở lên tốc độ đọc Lustre hồn tồn thua lớn so với mơ hình hệ thống tập trung NFS iSCSI Tiếp theo kết đọc hệ thống Lustre sử dụng thêm OST Trường hợp 11: tốc độ đọc hệ thống NFS, iSCSI Lustre, hệ thống Lustre dùng OST (StripeCount = 2) file size 3GB client Hình 7.76 Tốc độ đọc 3GB liệu máy client đến hệ thống file với Lustre stripecount =2 o clients Hình 7.77 Tốc độ đọc 3GB liệu máy client đến hệ thống file với Lustre stripecount =2 149 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs 12 clients Hình 7.78 Tốc độ đọc 3GB liệu 12 máy client đến hệ thống file với Lustre stripecount =2 24 clients Hình 7.79 Tốc độ đọc 3GB liệu 24 máy client đến hệ thống file với Lustre stripecount =2 150 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs 36 clients Hình 7.80 Tốc độ đọc 3GB liệu 36 máy client đến hệ thống file với Lustre stripecount =2 48 clients Hình 7.81 Tốc độ đọc 3GB liệu 48 máy client đến hệ thống file với Lustre stripecount =2 Trường hợp 12: tốc độ đọc hệ thống NFS, iSCSI Lustre, hệ thống Lustre dùng OST (StripeCount = 3) file size 3GB 151 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs client Hình 7.82 Tốc độ đọc 3GB liệu máy client đến hệ thống file với Lustre stripecount =3 clients Hình 7.83 Tốc độ đọc 3GB liệu máy client đến hệ thống file với Lustre stripecount =3 152 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs 12 clients Hình 7.84 Tốc độ đọc 3GB liệu 12 máy client đến hệ thống file với Lustre stripecount =3 24 clients Hình 7.85 Tốc độ đọc 3GB liệu 24 máy client đến hệ thống file với Lustre stripecount =3 153 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs 36 clients Hình 7.86 Tốc độ đọc 3GB liệu 36 máy client đến hệ thống file với Lustre stripecount =3 48 clients Hình 7.87 Tốc độ đọc 3GB liệu 48 máy client đến hệ thống file với Lustre stripecount =3 Kết luận tốc độ đọc: Như ta thấy kết đọc Lustre hoạt động với OST hồn tồn thua với iSCSI NFS Nhưng sử dụng OST Lustre cho kết tương đồng 154 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs 7.5 Kết luận Hệ thống lưu trữ cho hệ thống máy tính lớn cần thiết ứng dụng lớn cần không gian lưu trữ lớn Hai giải pháp lưu trữ tập trung phân tán phân tích đánh giá NFS SANs hai giải pháp đại diện cho giải pháp tập trung hai giải pháp sử dụng phổ biến Trong Lustre hệ thống file phân tán quan tâm có triển khai số hệ thống Kết luận chung toàn trình đo đạt hệ thống: ü Đối với tốc độ ghi: o Khi thực ghi file có kích thướt nhỏ khoảng 1GB hiệu suất iSCSI tốt iSCSI sử dụng tập lệnh iSCSI để ghi trực tiếp vào đĩa Tiếp đến Lustre NFS o Khi file có kích thướt lớn khoảng 3GB trở lên hiệu suất iSCSI giảm đáng kể khả đáp ứng đĩa cứng không đủ Và Lustre có tốc độ ghi tốt hệ thống file o Từ đưa nhận xét nhu cầu ghi liệu có kích thướt file lớn Lustre lựa chọn tốt ü Đối với tốc độ đọc Khi Lustre dùng OST tốc độ đọc thua xa hệ thống cịn lại, ưu điểm Lustre phân tán nên dùng OST điều tất yếu Lustre khơng thể so sánh với mơ hình lưu trữ liệu tập trung Nhưng Lustre sử dụng thêm OST tốc độ đọc cải thiện ngang với hệ thống file tập trung iSCSI NFS Khi chúng tơi thấy từ hiệu đọc Lustre ứng viên lựa chọn Khi xây dựng mơ hình file lưa trữ ta nên xây dựng mơ hình lưu trữ phân tán với ưu điểm kiến trúc tận dụng dư thừa tài nguyên server riêng lẻ Về mặt hiệu suất đọc ghi Lustre hồn tồn cạnh tranh hay nói tốt hệ thống file tập trung 155 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs Chương Kết luận Các hệ thống máy tính mạnh ln địi hỏi thiết kế hợp lý để chạy ứng dụng lớn hiệu Việc đạt hiệu suất cao tốn khó hệ thống máy tính mạnh giới đa số đạt 30%-70% Các vấn đề liên quan đến việc xây dựng máy tính mạnh xây dựng nút tính tốn, thiết kế phận giao tiếp nút hệ thống lưu trữ liệu trình bày thảo luận đề tài Để kiểm chứng thực tế hệ thống máy tính mạnh có hoạt động hiệu khơng, cơng cụ đánh giá hiệu tính tốn, giao tiếp xây dựng Đề tài không chọn hướng xây dựng riêng cho cơng cụ mà lựa chọn sử dụng công cụ đánh giá hiệu tiến cộng đồng sử dụng TOP500 Graph500 HPL Graph500 Benchmark để đánh giá hiệu tính tốn (có phần giao tiếp), Iperf & Netperf để đánh giá hiệu giao tiếp cho kết nối mạng Gigabit Ethernet công cụ nằm gói perftest, cài đặt với driver OFED dùng đánh giá cho giao tiếp dùng Infiniband Vấn đề phải chạy công cụ HPL nhiều lần đo hiệu tính tốn cải tiến đáng kể với giải thuật đo thông minh Các kiểm chứng thực tế cho thấy hiệu giải thuật Ngoài ra, hệ thống lưu trữ liệu quan tâm đánh giá đề tài Giải pháp lưu liệu tập trung SAN phân tán gồm NFS & Lustre lựa chọn Các giải pháp đo đạc, đánh giá cụ thể Riêng tốn tính tốn lớn cần nhiều trình/tiến trình giải pháp lưu trữ phân tán Lustre cho thấy hiệu Một đóng góp quan trọng đề tài việc đề xuất ứng dụng kỹ thuật ảo hoá máy ảo Docker phục vụ cho việc tính tốn Điều cho phép xây dựng hệ thống mềm dẽo, chia sẻ cho nhiều người sử dụng, nhiều ứng dụng hướng đến nâng cao hiệu suất sử dụng hệ thống máy tính Việc đánh giá hiệu chạy ứng dụng máy ảo/Docker xem xét đánh giá chi tiết đề tài Ngoài ra, việc giao tiếp máy ảo Docker xem xét đánh giá Kết cho thấy việc ứng dụng Docker cho hệ thống máy tính mạnh có tiềm lớn Các kết đo đạc đề tài thực môi trường thực hệ thống máy tính TFLOPs xây dựng dựa CPUs & mạng Infiniband; hệ thống máy tính 156 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs mạnh 50 TFLOPs xây dựng có nút tính tốn kết hợp CPUs & Xeon Phi mạng Infiniband Các kết có đề hữu ích việc hiểu hệ thống triển khai ứng dụng xây dựng hệ thống máy tính mạnh khác tương lại Các kết đề tài đáp ứng tất yêu cầu thuyết minh hợp đồng Hơn kết giúp cho việc xây dựng hệ thống máy tính mạnh 50 TFLOPs hiệu Tuy nhiên lĩnh vực tính tốn hiệu cao quan tâm đầu tư phát triển mạnh thập niên hẳn giai đoạn trước tương lai gần có số công nghệ quan trọng ứng dụng Việc xây dựng một hệ thống máy tính mạnh hiệu cần cặp nhật kiến thức liên tục nhiều vấn đề đặt cho giới nghiên cứu công ty công nghệ Tài liệu tham khảo [1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] Top 500 Available: http://www.top500.org Graph 500 Available: http://www.graph500.org Docker - Build, Ship, and Run Any App, Anywhere Available: https://www.docker.com R C W A Petitet, J Dongarra, A Cleary HPL - A Portable Implementation of the High-Performance Linpack Benchmark for Distributed-Memory Computers Available: http://www.netlib.org/benchmark/hpl R C Murphy, K B Wheeler, B W Barrett, and J A Ang, "Introducing the graph 500," Cray User’s Group (CUG), 2010 Iperf Available: https://iperf.fr Netperf Available: http://www.netperf.org NVIDIA Available: http://www.nvidia.com Intel Xeon Phi Available: http://www.intel.com/content/www/us/en/processors/xeon/xeon-phicoprocessor-overview.htm "Deploying 10 Gigabit Ethernet into HPC Clusters,Server-to-Server/Server-toStorage Infrastructure and Workstations over CX4 Copper Interconnects." I T Association, "InfiniBandTM architecture Specification Volumen Release 1.3," ed, 2015 M Sindi Top500 HPL Calculator Available: http://hplcalculator.sourceforge.net 157 Đề tài Nghiên Cứu Thiết Kế Hệ Thống Tính Tốn 50-100TFLOPs [13] [14] [15] [16] [17] [18] [19] [20] [21] [22] R Chen, "Automatic Tuning of the High Performance Linpack Benchmark," The Department of Computer Science, Australian National University, 2011 T Suzumura, K Ueno, H Sato, K Fujisawa, and S Matsuoka, "Performance characteristics of Graph500 on large-scale distributed environment," in Workload Characterization (IISWC), 2011 IEEE International Symposium on, 2011, pp 149-158 F Gao and L Han, "Implementing the Nelder-Mead simplex algorithm with adaptive parameters," Computational Optimization and Applications, vol 51, pp 259-277, 2012 J A Nelder and R Mead, "A simplex method for function minimization," The computer journal, vol 7, pp 308-313, 1965 MVAPICH OSU Micro-Benchmarks Available: http://mvapich.cse.ohiostate.edu Linux Containers Available: https://linuxcontainers.org SANs Available: https://en.wikipedia.org/wiki/Storage_area_network iSCSI Available: http://linux-iscsi.sourceforge.net R Sandberg, D Goldberg, S Kleiman, D Walsh, and B Lyon, "Design and implementation of the Sun network filesystem," in Proceedings of the Summer USENIX conference, 1985, pp 119-130 Lustre Available: http://lustre.org 158