6. Bố cục của luận án
4.1.2 Ảnh hưởng của trễ truyền thông đến hiệu năng
Trên các hệ thống tính toán song song lớn loại ứng dụng thứ hai mà thuật toán song song tạo ra các nhiệm vụ cần đồng bộ trao đổi dữ liệu với nhau có trễ truyền thông đáng kể và chiếm tỷ lệ lớn trong trễ song song.
Để phân tích ảnh hưởng của cấu hình mạng liên kết các nút đến trễ song song, ở đây mặc định rằng các nhiệm vụ có được sự cân bằng tải chạy trên các nút server xử lý tương đồng nhau về tài nguyên và thời gian xử lý, do đó về lý tưởng không có thời gian chờ đợi xử lý của các nút khi thực hiện truyền thông với nhau và có thể coi trễ truyền thông chỉ phụ thuộc vào kích thước bản tin, cấu hình mạng liên kết các nút xử lý (giá trị khoảng cách trung bình của định tuyến), trễ ở nút switch/router. Khi đó được xác định bằng công thức mà luận án đề xuất là:
(4.5)
Trong đó, khoảng cách trung bình của định tuyến từ switch/router (hop) của nút server xử lý nguồn đến nút đích (Hai nút liền kề nhau thì có khoảng cách là 1 hay hop = 1). Các giá trị H của một số mạng liên kết được sử dụng phổ biến trong các hệ thống song được cho ở Bảng 4.2. Chúng được xác định qua các nghiên cứu và được tổng hợp từ các tài liệu [12,51,58,84]. trễ ở nút switch/router: là trễ LIFO (Last-in, first-out hay port-to-port trên switch) được xác định theo RFC 1242. Các infiniband witch/router của Mellanox hay của Cisco có trễ này trong khoảng ~ 0ns đến ~165 ns tùy theo kích thước bản tin đi qua [86], ví dụ, Mellanox Grid Director 4036 36-Port QDR (40 Gb/s) InfiniBand Switch - Part ID: VLT-30111 có trễ port-to-port là 100 ns. thời gian khởi tạo truyền thông, đôi khi được gọi là trễ bản tin (message latency), khi không có dữ liệu thì là trễ truyền thông nhỏ nhất. được cho là không thay đổi (constant). thời gian truyền một từ dữ liệu, cũng được cho là không đổi vì phụ thuộc vào công nghệ mạng (ví dụ, ethernet, infiniband, FDDI,...), Kích thước của bản tin (số bytes) (khoản dữ liệu), số lượng các bản tin (mỗi bản tin kích thước w từ) được gửi đi trong toàn bộ tiến trình thực hiện ứng dụng song song. Xác định Tlink (tsw tstartup wtdata)- trễ liên kết (link latency) sử dụng infiniband interconnect DDR (Double Data Rate) 12X tốc độ dữ liệu (Data Rate) 48 Gb/s hay 6GB/s cho thời gian truyền 1 byte dữ liệu là (=10-9/6). Trễ port-to-port của giao tiếp (hay switch) infiniband lấy tối thiểu với kích thước 1 byte của bản tin trong giải ~0ns đến 165ns là . Với các số liệu mặc định này, tính trễ liên kết
) ( sw startup data
link t t wt
T với các kích thước bản tin theo byte (Bảng 4.1)
) , ( ) , (p n T p n TO commO ) ( ) ,
( net sw startup data
commO p n kHT kH t t wt T H sw t startup t startup t startup t tdata w k ns tdata 0.167 ns t tsw startup 0.1
85
Bảng 4.1 Tlink = tsw + tstartup + wtdata với Infiniband DDR 12x
Message Size (bytes) 1 2 4 8 16 32 64 Tlink (ns) 0.367 0.534 0.868 1.536 2.872 5.544 10.888 Message Size (bytes) 128 256 512 1024 2048 4096 8192 Tlink (ns) 21.576 42.952 85.704 171.208 342.216 684.232 1368.264 Xác định Tnet= HTlink = H(tsw + tstartup + wtdata) - thời gian trễ (interconnect latency) của mạng liên kết với kích thước bản tin (tính theo số byte) khác nhau;
Bảng 4.2 Một số cấu hình mạng kết nối trong các máy tính song song
Network Degree(d) Diameter(D) Av.distance (H) distance(H) Bisection(B)
2D Mesh 4 2(N1/2-1) (2/3)N1/2 N1/2
2D Torus 4 N1/2 (1/2)N1/2 = (1/4)p 2N1/2
3D Mesh 6 3(N1/3-1) N1/3 N2/3
3D Torus 2N (3/2)N1/3 (3/4)N1/3 2N2/3
Hypercube
(n-cube) log2N log2N log2N N/2
Bảng 4.3Tnet= H(tsw + tstartup + wtdata) với Infiniband DDR 12x, n=64 nút
Message size (bytes) 64 128 256 512 1024 2048 4096 8192 2DMesh Tnet (ns) 58.07 115.07 229.08 457.09 913.11 1825.15 3649.24 7297.41 2DTorus Tnet (ns) 43.55 86.30 171.81 342.82 684.83 1368.86 2736.93 5473.06 3DTorus Tnet (ns) 32.66 64.73 128.86 257.11 513.62 1026.65 2052.70 4104.79 Hypercube Tnet (ns) 64.33 129.46 257.71 514.22 1027.25 2053.30 4105.39 8209.58
Bảng 4.4 Tnet= H(tsw + tstartup + wtdata) với Infiniband DDR 12x, n=9 nút
Message size (bytes) 64 128 256 512 1024 2048 4096 8192 2DMesh Tnet (ns) 21.78 43.15 85.90 171.41 342.42 684.43 1368.46 2736.53 2DTorus Tnet (ns) 16.33 32.36 64.43 128.56 256.81 513.32 1026.35 2052.40 3DTorus Tnet (ns) 17.15 33.98 67.65 134.98 269.65 538.99 1077.67 2155.02 Hypercube Tnet (ns) 34.51 68.40 136.16 271.68 542.73 1084.82 2169.02 4337.40
86
Hình 4.2 So sánh trễ truyền thông của một số cấu hình mạng liên kết sử dụng Infiniband DDR 12X và n=64 processor nodes
Hình 4.3 So sánh trễ truyền thông của một số cấu hình mạng liên kết sử dụng Infiniband DDR 12X và n 9 processor nodes
Nhận xét kết quả:
Từ công thức (4.5) mà luận án đề xuất, sử dụng các số đo H phụ thuộc số nút xử lý và cấu hình mạng liên kết, phụ thuộc công nghệ mạng (infiniband, ethernet,...), kích thước bản tin (message size), các Bảng 4.3, 4.4 và đồ thị cho ở hình 4.2 cho kết quả tính Tnet của một số cấu hình mạng liên kết sử dụng trong các hệ thống tính toán song song nhiều máy tính, với số lượng nút server xử lý n=64 và
87
kiến trúc tính toán song song được liệt kê trong Bảng 4.2, thì cấu hình 3DTorus cho trễ truyền thông thấp nhất khi số nút xử lý lớn (n=64) và kích thước bản tin tăng lên, 2DTorus cho trễ thấp nhất khi số nút xử lý nhỏ (n=9). Như vậy, có thể các loại ứng dụng có dữ liệu kích thước lớn chạy trên các hệ thống tính toán song nhiều nút xử lý sử dụng mạng liên kết 3DTorus cho tốc độ xử lý cao. Trễ
) ( sw startup data
link t t wt
T có thể thay đổi tùy chọn bởi các trễ tsw,tstartup,tdata phụ thuộc các vào công nghệ mạng liên kết áp dụng, nhưng đây là thay đổi tuyến tính. Mục tiêu của luận án là xác định ảnh hưởng của cấu hình mạng liên kết đến tổng trễ truyền thông của mạng liên kết.
Thực tế, không tìm thấy nghiên cứu nào có sự so sánh về các cấu hình mạng liên kết của các kiến trúc song song nhiều nút xử lý dựa trên một công thức đề xuất cụ thể tính đến trễ truyền thông. Luận án này đề xuất công thức (4.5) để tính trễ truyền thông và so sánh được hiệu năng của các cấu hình mạng liên kết. Đây chính là điểm mới và khác biệt. Kết quả tính đến 64 nút xử lý cũng cho thấy được một kiến trúc song song nhiều máy tính. Thực tế, nếu thực hiện kiến trúc cụm infiniband 2DTorus với 8 nút máy tính PC sử dụng kết hợp Intel CPU 6-core và đồng xử lý tăng tốc Nvidia GPU M2090 có thể đạt tới 15Tflops/s. Ý nghĩa của công thức đề xuất và kết quả tính có thể cho ta xây dựng một siêu máy tính 64 nút PC (Intel CPU + Nvidia GPU) kết nối cụm theo cấu hình 3DTorus để có trễ truyền thông thấp nhất.
Công thức (4.5) có thể tính trễ truyền thông cho bất kỳ cấu trúc mạng liên kết đa xử lý nào với số lượng nút xử lý tùy ý và kết quả tính toán này có thể là khuyến nghị cho các thiết kế siêu máy tính cỡ nhỏ đang rất cần thiết hiện nay cho nhiều ứng dụng quan trọng ở Việt Nam cũng như nhiều nước đang phát triển.