Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 75 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
75
Dung lượng
2,66 MB
Nội dung
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI ĐẠI HỌC BÁCH HÀ NỘI THÔNG VIỆN TRƯỜNG CÔNG NGHỆ THÔNG TINKHOA VÀ TRUYỀN VIỆN CÔNG -* NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG -* - NGUYỄN VĂN QUYẾT ĐÁNH GIÁ HIỆU NĂNG PHẦN MỀM XỬ LÝ SONG SONG TRÊN HỆ THỐNG KẾT HỢP CPU VÀ GPU ĐỀ TÀI TIỂU LUẬN AN TOÀN CÁC HỆ THỐNG THÔNG TIN LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG TÊN NGHỆ ĐỀTHÔNG TÀI TIN TẤN CÔNG SQL INJECTION Nhóm thực hiện: Chu Bá Thành Nguyễn Văn Quyết NGƯỜI HƯỚNG DẪN Lớp: Cao học 2011A PGS.TS HUỲNH QUYẾT THẮNG Giảng viên hướng dẫn: PGS.TS Nguyễn Linh Giang LỜI NÓI ĐẦU HƯNG YÊN - 2012 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU LỜI CẢM ƠN Để hoàn thành luận văn tốt nghiệp “Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU”, lời em xin gửi lời cảm ơn sâu sắc tới PGS.TS Huỳnh Quyết Thắng, người hướng dẫn bảo em tận tình suốt thời gian làm khóa luận Em xin chân thành cảm ơn TS Hồ Khánh Lâm, Trưởng môn KTMT – Khoa CNTT – Trường ĐHSP Kỹ Thuật Hưng Yên, cung cấp cho em kiến thức tảng để thực đề tài Em xin gửi lời cảm ơn tới TS Nguyễn Hữu Đức cán Trung tâm tính toán hiệu cao – Trường ĐHBK Hà Nội, dành thời gian hướng dẫn cho em cách thử nghiệm chương trình đánh giá hiệu hệ thống xử lý song song Cuối cùng, em xin gửi lời cảm ơn sâu sắc tới thầy cô, đồng nghiệp người thân gia đình động viên, khích lệ em trình thực luận văn Học viên Nguyễn Văn Quyết Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU LỜI CAM ĐOAN Với mục đích học tập, nghiên cứu để nâng cao trình độ chuyên môn nên làm luận văn cách nghiêm túc hoàn toàn trung thực Trong luận văn, có sử dụng tài liệu tham khảo số tác giả, nêu phần tài liệu tham khảo cuối luận văn Tôi xin cam đoan chịu trách nhiệm nội dung, trung thực luận văn tốt nghiệp Thạc sĩ Hà Nội, tháng 12 năm 2012 Học viên Nguyễn Văn Quyết Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU MỤC LỤC DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT DANH MỤC CÁC BẢNG DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ MỞ ĐẦU 10 Lý chọn đề tài 10 Lịch sử nghiên cứu 10 Mục đích nghiên cứu 11 Đối tƣợng nghiên cứu 11 Phạm vi nghiên cứu 11 Phƣơng pháp nghiên cứu 12 CHƢƠNG 1: TỔNG QUAN VỀ HỆ THỐNG XỬ LÝ SONG SONG VÀ ĐÁNH GIÁ HIỆU NĂNG 13 1.1 Tính toán song song 13 1.1.1 Khái niệm tính toán song song 13 1.1.2 Các hình thức song song 14 1.1.3 Tăng tốc tính toán song song sử dụng GPU 16 1.2 Máy tính song song 21 1.2.1 Mô hình máy tính song song 21 1.2.2 Phân loại máy tính song song 22 1.3 Lập trình song song với CUDA 26 1.3.1 Môi trường phát triển CUDA 26 1.3.2 Mô hình lập trình 30 1.3.3 Lập trình song song với CUDA C/C++ 37 1.3.4 Nguyên tắc tối ưu hóa hiệu 37 1.4 Vấn đề đánh giá hiệu phần mềm xử lý song song 39 1.4.1 Định nghĩa đánh giá hiệu phần mềm 39 1.4.2 Mục đích việc đánh giá hiệu phần mềm xử lý song song 40 1.4.3 Yêu cầu toán đánh giá hiệu 40 CHƢƠNG 2: GIẢI PHÁP KỸ THUẬT ĐÁNH GIÁ HIỆU NĂNG PHẦN MỀM XỬ LÝ SONG SONG 42 2.1 Kỹ thuật phân tích mô hình toán 42 2.2 Kỹ thuật mô chương trình 43 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU 2.3 Kỹ thuật đo lường 44 2.3.1 Đo hiệu tính toán 44 2.3.2 Đo hiệu truy cập nhớ 45 2.3.3 Đo hiệu truyền thông 46 2.4 Đánh giá kết đo hiệu 46 2.4.1 Đánh giá tốc độ xử lý 46 2.4.2 Đánh giá hiệu xử lý 48 CHƢƠNG 3: ÁP DỤNG ĐÁNH GIÁ HIỆU NĂNG VÀO BÀI TOÁN N-BODY 49 3.1 Mô tả toán N-Body 49 3.2 Phân tích mô hình toán N-Body 50 3.3 Song song hóa toán N-Body hệ thống kết hợp CPU GPU 51 3.3.1 Tính lực hạt-hạt (body-body) 51 3.3.2 Tính toán lớp luồng (Tile Caculation) 53 3.3.3 Hợp lớp luồng vào Thread Blocks 53 3.3.4 Định nghĩa mạng lưới khối luồng (Grid of Thread Block) 54 3.3.5 Mô toán với chế độ đồ họa 55 3.4 Thực đo hiệu toán N-Body 58 3.4.1 Môi trường thử nghiệm 58 3.4.2 Đo hiệu tính toán với chế độ benchmark 59 3.4.3 Phân tích hiệu ứng dụng với Visual Profiler 61 CHƢƠNG 4: ĐÁNH GIÁ KẾT QUẢ ĐO HIỆU NĂNG 66 4.1 Đánh giá tốc độ xử lý 66 4.2 Đánh giá hiệu xử lý 67 4.3 Kết luận hiệu 69 KẾT LUẬN 71 Kết đạt đƣợc đề tài 71 Hạn chế đề tài 71 Hƣớng phát triển đề tài 71 PHỤ LỤC 73 TÀI LIỆU THAM KHẢO 75 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT Từ viết tắt Từ đầy đủ Giải thích ALU Arithmetic Logic Unit Bộ xử lý số học logic CPU Central Processing Unit Đươn vị xử lý trung tâm CUDA Compute Unified Device Kiến trúc thiết bị tính toán hợp Architecture GPU Graphics Processing Unit SISD Single Instruction Stream, Máy tính dòng lệnh, dòng số liệu Single Data Stream SIMD Single Instruction Stream, Máy tính dòng lệnh, nhiều dòng Multiple Data Stream MISD SM số liệu Multiple Instructions Stream, Máy tính nhiều dòng lệnh, dòng Single Data Stream MIMD Bộ xử lý đồ họa số liệu Multiple Instructions Stream, Máy tính nhiều dòng lệnh, nhiều Multiple Data Stream dòng số liệu Streaming Multiprocessors Bộ đa xử lý luồng Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU DANH MỤC CÁC BẢNG Bảng 1: So sánh số đặc điểm CPU GPU 19 Bảng 2: Các đặc điểm môi trường lập trình với CUDA 30 Bảng 3: Kết thời gian xử lý CPU GPU toán N-Body 66 Bảng 4: Kết đo tốc độ tính toán trung bình chế độ xử lý đồ họa 68 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ Hình 1: Mô hình kiến trúc SISD 22 Hình 2: Mô hình kiến trúc SIMD 23 Hình 3: Mô hình kiến trúc MISD 23 Hình 4: Mô hình kiến trúc MIMD 24 Hình 5: Mô hình kiến trúc máy tính song song chia sẻ nhớ 25 Hình 6: Mô hình kiến trúc máy tính song song phân tán 26 Hình 7: Mô hình kiến trúc Fermi 17 Hình 8: Minh họa số ghi ALU GPU 18 Hình 9: So sánh tăng tốc tốc độ xử lý CPU GPU 20 Hình 10: Minh họa tăng tốc băng thông nhớ CPU GPU 21 Hình 11: Mô hình kiến trúc CUDA 28 Hình 12: Môi trường phát triển phần mềm với CUDA 29 Hình 13: Grid of Thread Blocks 33 Hình 14: Mô hình phân cấp nhớ 35 Hình 15: Mô hình lập trình không đồng 36 Hình 16: Mô hình tương quan tốc độ xử lý số xử lý 47 Hình 17: Minh họa hệ N-Body không gian 3D 49 Hình 18: Minh họa Grid of Thread Blocks 55 Hình 19: Minh họa toán N-Body CPU với độ xác đơn 56 Hình 20: Minh họa toán N-Body CPU với độ xác kép 56 Hình 21: Minh họa toán N-Body CPU&GPU với độ xác đơn 57 Hình 22: Minh họa toán N-Body CPU&GPU với độ xác kép 57 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU Hình 23: Visual Profiler - Công cụ phân tích hiệu phần mềm xử lý song song 62 Hình 24: Cấu hình tham số đầu vào cho phần mềm Visual Profiler 63 Hình 25: Giao diện kết chạy phân tích hiệu ứng dụngN-Body 63 Hình 26: Chi tiết phân tích kết xử lý ứng dụng N-Body 64 Hình 27: Kết chi tiết xử lý song song với N=4096 toán N-Body 65 Hình 28: Minh hoạ kết đo thời gian xử lý CPU & GPU 67 Hình 29: Minh họa kết đo hiệu xử lý chế độ đồ họa với GPU 68 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU MỞ ĐẦU Lý chọn đề tài Với phát triển công nghệ thách thức lớp toán lớn cần giải nhiều lĩnh vực đời sống xã hội như: khai phá liệu, mô tượng khoa học vũ trụ, Các lớp toán vừa đòi hỏi đáp ứng thời gian thực vừa yêu cầu xử lý khối liệu lớn Để giải toán đòi hỏi xử lý phải có hiệu cao Và hệ thống máy tính song song đời với mục đích làm tăng khả tính toán máy tính cách kết hợp nhiều xử lý tham gia đồng thời vào trình xử lý Đó kết hợp xử lý CPU GPU Hiện nay, việc xử lý song song thực siêu máy tính mà thực trạm làm việc, máy tính cá nhân, mạng máy tính Nhưng hầu hết phần mềm chạy máy tính phần mềm xử lý Bởi cần xây dựng phần mềm, cấu trúc liệu cho phép xử lý cách song song Để sử dụng cách hiệu ứng dụng phần mềm này, cần có giải pháp đánh giá hiệu chúng hệ thống máy tính song song Trong khuôn khổ khóa luận, áp dụng xử lý song song vào việc giảm thời gian tính lực tương tác body hệ mô N-body thực đánh giá hiệu toán Lịch sử nghiên cứu Hiện giới, với phát triển mạnh mẽ công nghệ cao, xây dựng hệ thống máy tính có khả tính toán lớn siêu máy tính (xem phụ lục 1), tính toán lưới phục vụ cho việc nghiên cứu khoa học ứng dụng thực tế Bên cạnh nhà sản xuất máy tính thay đổi công nghệ, cho hệ máy tính có khả tính toán với tốc độ nhanh Hệ thống máy tính với chip đa lõi ngày nhiều, kết hợp với đời thiết bị GPU hỗ trợ xử lý đồ họa tính toán song song Để khai thác sử dụng cách hiệu phần mềm xử lý song song hệ thống cần phải có giải pháp nhằm đánh giá hiệu hệ thống Từ nhu cầu đó, giới từ có nhiều nhà khoa học, hãng phần mềm nghiên 10 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU Kết quả: 4096 bodies, total time for 10 iterations: 479.572 ms 0.350 billion interactions per second 10.495 double-precision GFLOP/s at 30 flops per interaction [nbody] test results PASSED Nbody –benchmark –n=16384 Kết quả: 16384 bodies, total time for 10 iterations: 908.327 ms 2.955 billion interactions per second 59.105 single-precision GFLOP/s at 20 flops per interaction [nbody] test results PASSED Nbody –benchmark –n=10240 –fp64 Kết quả: 10240 bodies, total time for 10 iterations: 2993.848 ms 0.350 billion interactions per second 10.507 double-precision GFLOP/s at 30 flops per interaction [nbody] test results PASSED 3.4.3 Phân tích hiệu ứng dụng với Visual Profiler Trong phần tác giả sử dụng công cụ Visual Profiler để phân tích hiệu ứng dụng xử lý song song hãng NVIDIA 61 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU Hình 23: Visual Profiler - Công cụ phân tích hiệu phần mềm xử lý song song Visual Profiler thực phân tích hiệu ứng dụng từ việc đọc tệp biên dịch với phần mở rộng *.EXE Sau đó, công cụ đưa thông số cách chi tiết về: Thông lượng trung bình, kích thước liệu, thời gian xử lý đánh giá kết ứng dụng Sau mô tả phân tích hiệu toán N-Body: 62 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU Hình 24: Cấu hình tham số đầu vào cho phần mềm Visual Profiler Chạy chương trình với chế độ phân tích hiệu ứng dụng ta có bảng kết giao diện sau: Hình 25: Giao diện kết chạy phân tích hiệu ứng dụngN-Body 63 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU Trên Hình 25 mô tả kết thực phân tích hiệu toán N-Body với kích thước toán N=1024 (bodies) thời gian khoảng 11 giây Trong giao diện mô tả thời gian tính toán, thời gian xử lý tương tác thông số xử dụng đến phần cứng như: số Grid Block Thread Chi tiết kết minh họa hình sau: Hình 26: Chi tiết phân tích kết xử lý ứng dụng N-Body Kết chi tiết Hình 26, phân tích tác vụ xử lý hệ thống với toán NBody Công việc việc Copy liệu từ nhớ Host vào nhớ Device Sau việc tính toán cập nhật thống số hạt sau tương tác Trong kết chi tiết trên, Gird Size = (4,1,1) Block Size (256,1,1), kích thước thay đổi ta thay đổi kích thước toán Giả sử, thay N=4096, ta có kết chi tiết tương tự sau: 64 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU Hình 27: Kết chi tiết xử lý song song với N=4096 toán N-Body Như khẳng định trên, trường hợp N=4096, Grid Size thay đổi thành (16,1,1) Sự thay đổi thông số tính toán lập trình cho phù hợp với thay đổi kích thước toán để tận dụng khả xử lý song song GPU Ngoài ta đo thông lượng copy nhớ từ Host vào Device: Nhỏ Lớn 65 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU CHƢƠNG 4: ĐÁNH GIÁ KẾT QUẢ ĐO HIỆU NĂNG Sau áp dụng kỹ thuật đo hiệu trình bày phần 3.4 ta tiến hành giai đoạn cuối đánh giá kết Trong phần tác giả đưa đánh giá tốc độ, hiệu xử lý kết luận hiệu toán N-Body hệ thống hỗ trợ CPU GPU 4.1 Đánh giá tốc độ xử lý Tác giả thực đo hiệu tính toán với chế độ Benchmark bảng thời gian tính toán với hệ thống sử dụng CPU hệ thống kết hợp CPU & GPU đây: Kích thước toán (N) Thời gian xử lý CPU Thời gian xử lý kết hợp CPU GPU (ms) (ms) 1024 325 3.6 2048 1272 14 3072 2899 32 4096 5122 57 5120 8103 90 6144 11594 129 7168 16082 175 8192 20711 228 9216 26448 289 10240 32831 356 11264 39547 421 12288 46950 512 13312 55709 600 14336 696 15360 798 16384 83061 908 Bảng 3: Kết thời gian xử lý CPU GPU toán N-Body 66 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU Thời gian xử lý (ms) 90000 80000 70000 60000 50000 CPU & GPU 40000 CPU 30000 20000 10000 1024 2048 4096 8192 16384 Số phần tử N-Body Hình 28: Minh hoạ kết đo thời gian xử lý CPU & GPU Kết luận: Nhìn vào bảng kết đo thời gian xử lý đồ thị Hình 28 cho thấy khả tính toán GPU nhanh gấp nhiều so với CPU Đặc biệt với kích thước N >=4096, xử lý liệu với CPU thời gian tính toán lớn tăng nhanh Trên thực tế, với cấu hình phần cứng trình bày trên, kết test FAILED N>8192 độ xác kép 4.2 Đánh giá hiệu xử lý Tác giả thực chạy toán môi trường đồ họa với nhiều kích thước khác hai chế độ: sử dụng CPU sử dụng kết hợp CPU GPU để đo tốc độ tính toán trung bình hệ thống với toán N-Body, kết mô tả bảng hình đây: Kích thước Tốc độ tính toán trung bình chế độ đồ họa toán (GFLOP/s) N-Body Hệ thống kết hợp CPU GPU Hệ thống sử dụng CPU 1024 3.2 2048 10 3072 18 0.2 0.2 0.2 67 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU 4096 27 5120 31 6144 36 7168 41 8192 45 9216 47 10240 48 11264 49 12288 50 13312 51 14336 52 15360 53 16384 54 Bảng 4: Kết đo tốc độ tính toán trung bình chế độ xử lý đồ họa 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 0.2 60 Tốc dộ tính toán trung bình (GFLOP/s) 50 40 30 20 10 Số phần tử N toán N-Body Hình 29: Minh họa kết đo hiệu xử lý chế độ đồ họa với GPU Kết luận: Với bảng kết tốc độ tính toán trung bình tăng dần số lượng phần tử N toán N-Body ta thấy: tốc độ xử lý trung bình CPU dường không thay 68 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU đổi chế độ đồ họa; với hệ thống kết hợp CPU & GPU, tốc độ tính toán tăng nhanh phải xử lý số lượng lớn điểm giao diện đồ họa 4.3 Kết luận hiệu Từ kết đo hiệu tính toán Bảng 3, sử dụng công thức (1) ta có bảng mức tăng tốc xử lý ứng với ứng với tăng kích thước khác toán sau: N 1024 2048 4096 8192 16384 T1 (ms) 325 1272 5122 20711 83061 Tp (ms) 3.6 14 57 228 908 Sp 90 91 90 91 91 Bảng 5: Mức tăng tốc xử lý chương trình xủ ly song song N-Body Kết luận: Với kết thu Bảng 5, ta thấy chương trình xử lý song song hệ thống kết hợp CPU GPU tăng tốc xử lý liệu gấp 90 lần so với chương trình xử lý chạy CPU Các kết luận khác hiệu toán N-Body hệ thống kết hợp CPU GPU: Kích thước tối đa toán chế độ đồ họa hỗ trợ môi trường phần cứng trình bày là: với độ xác đơn với độ xác kép Thông qua việc phân tích hiệu ta thấy toán N-Body lập trình cho việc trao đổi liệu Host Device thực cần thiết Trong môi trường đồ họa kết vẽ với hỗ trợ GPU, không cần chép lại cho CPU nên tiết kiệm thời gian hiệu ứng hình ảnh mượt Khi kích thước toán lớn ( >= 65.536 phần tử), thể tăng tốc xử lý GPU với việc tận dụng đến 99% khả tính toán chịu tải Trong CPU hệ thống sử dụng đến cho hoạt động máy tính thời điểm 69 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU Bài toán N-body cài đặt áp dụng nguyên tắc tối ưu hóa hiệu lập trình cho phép tính toán động số luồng thực Bởi vậy, tốc xử lý hiệu sử dụng cao, đặc biệt môi trường đồ họa 70 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU KẾT LUẬN Kết đạt đƣợc đề tài Sau thời gian nghiên cứu thực hiện, đề tài hoàn thành nhiệm vụ ban đầu đặt ra, với kết đạt sau: Thứ nhất, đề tài trình bày kiến thức tổng quan hệ thống xử lý song song: tính toán song song, mô hình máy tính song song lập trình song song với CUDA Đề tài đưa tảng lập trình song song nguyên tắc tối ưu hóa hiệu toán Từ tác giả cài đặt số toán xử lý song song liên quan đến Vector, Matrix Thứ hai, đề tài xây dựng giải pháp kỹ thuật nhằm đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU bao gồm kỹ thuật: phân tích mô hình, mô chương trình, đo lường đánh giá kết Thứ ba, đề tài áp dụng kỹ thuật đánh giá hiệu vào toán mô NBody hệ thống kết hợp CPU & GPU Và kết thực nghiệm thu đề tài thông qua việc sử dụng công cụ đo phân tích hiệu phản ánh trung thực với phần sở lý thuyết trình bày Hạn chế đề tài Bên cạnh kết đạt được, khuôn khổ đề tài số việc chưa làm được, cụ thể như: Đề tài chưa thử nghiệm đánh giá hiệu phần mềm hệ thống đa xử lý đồ họa, hệ thống máy tính song song phân cụm (Cluster) Bởi kết đánh giá hiệu trường hợp nhỏ hệ thống kết hợp CPU GPU Hƣớng phát triển đề tài Việc giải hạn chế nêu hướng phát triển đề tài tương lai Tác giả sớm triển khai thực nghiệm hệ thống đa lõi đa luồng, hệ thống 71 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU siêu máy tính Từ đưa luận điểm đánh giá hiệu nhằm nâng cao hiệu việc áp dụng xử lý song song vào toán thực tế Xây dựng công cụ phân tích đánh giá hiệu phần mềm xử lý song song khía cạnh như: khả tính toán, hiệu truyền thông khả truy cập nhớ 72 PHỤ LỤC Phụ lục 1: Top 10 siêu máy tính nhanh giới Rank Cores Rmax (TFlop/s) Rpeak Power (TFlop/s) (kW) Site System DOE/SC/Oak Ridge National Laboratory United States Titan - Cray XK7, Opteron 6274 16C 2.200GHz, Cray Gemini interconnect, NVIDIA K20x Cray Inc 560640 17590.0 27112.5 8209 DOE/NNSA/LLNL United States Sequoia - BlueGene/Q, Power BQC 16C 1.60 GHz, Custom IBM 1572864 16324.8 20132.7 7890 RIKEN Advanced Institute K computer, SPARC64 VIIIfx for Computational Science 2.0GHz, Tofu interconnect (AICS) Fujitsu Japan 705024 10510.0 11280.4 12659.9 DOE/SC/Argonne National Laboratory United States Mira - BlueGene/Q, Power BQC 16C 1.60GHz, Custom IBM 786432 8162.4 10066.3 3945 Forschungszentrum Juelich (FZJ) Germany JUQUEEN - BlueGene/Q, Power BQC 16C 1.600GHz, Custom Interconnect IBM 393216 4141.2 5033.2 1970 Leibniz Rechenzentrum Germany SuperMUC - iDataPlex DX360M4, Xeon E5-2680 8C 2.70GHz, Infiniband FDR IBM 147456 2897.0 3185.1 3422.7 73 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU Rank Cores Rmax (TFlop/s) Rpeak Power (TFlop/s) (kW) Site System Texas Advanced Computing Center/Univ of Texas United States Stampede - PowerEdge C8220, Xeon E5-2680 8C 2.700GHz, Infiniband FDR, Intel Xeon Phi Dell 204900 2660.3 3959.0 National Supercomputing Center in Tianjin China Tianhe-1A - NUDT YH MPP, Xeon X5670 6C 2.93 GHz, NVIDIA 2050 NUDT 186368 2566.0 4701.0 4040 CINECA Italy Fermi - BlueGene/Q, Power BQC 16C 1.60GHz, Custom IBM 163840 1725.5 2097.2 821.9 10 IBM Development Engineering United States DARPA Trial Subset - Power 775, POWER7 8C 3.836GHz, Custom Interconnect IBM 63360 1515.0 1944.4 3575.6 74 TÀI LIỆU THAM KHẢO [1] Ahmed Mohamed Hassan Abdalla, “Applications Performance on GPGPUs with the Fermi Architecture”, MSc in High Performance Computing, The University of Edinburgh, August 2011 [2] Alexey Borisenko, “Performance Evaluation in Parallel Systems”, School of Information Technology, University of Ottawa, abori021@uottawa.ca [3] Atul Kumar, “A Performance Evaluation and Benchmarking Tool, Department of Computer Science & Engineering”, Indian Institute of Technology, Kanpur January 1998 [4] Đào Ngọc Quý, Luận văn “Nghiên cứu mô hình lập trình song song sử dụng công nghệ CUDA card đồ họa (GPU), tính toán hiệu cao”, Đại Học Bách Khoa Hà Nội, 2009 [5] Francisco Chinchilla, Todd Gamblin, Morten Sommervoll, Jan F Prins, “Parallel N-Body Simulation using GPUs”, Department of Computer Science University of North Carolina at Chapel Hill, Technical Report TR04-032 December, 2004 [6] Horn, “Stream reduction operationsfor GPGPU applications,” in GPU Gems 2, M Pharr, Ed Addison Wesley, Mar 2005 [7] Lars Nyland, Mark Harris, Jan Prins, “Fast N-Body Simulation with CUDA”, GPU Gems 3, Chapter 31 [8] Massimiliano Fatica, “Accelerating Linpack with CUDA on heterogeneous clusters”, NVIDIA Corporation, 2701 San Tomas Expressway, Santa Clara CA 95050, mfatica@nvidia.com [9] NVIDIA Corporation, http://www.nvidia.com/object/cuda_home_new.html [10] Paul W.A Stallard Henk L Muller David H.D Warren, “Performance Evaluation of Parallel Programs on the Data Diffusion Machine”, PEPS’93, University of Warwick, UK, 1993 75 ... GPU CPU 19 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU Hình 3: So sánh tăng tốc tốc độ xử lý CPU GPU 20 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU Hình... quan hệ thống xử lý song song lập trình song song với CUDA C 11 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU Xây dựng giải pháp kỹ thuật đánh giá hiệu phần mềm xử lý song song... Mô xử lý song song toán N-Body Xây dựng giải pháp đánh giá hiệu toán mô 12 Đánh giá hiệu phần mềm xử lý song song hệ thống kết hợp CPU GPU CHƢƠNG 1: TỔNG QUAN VỀ HỆ THỐNG XỬ LÝ SONG SONG VÀ ĐÁNH