Nghiên cứu và đánh giá ảnh hưởng của cấu trúc mạng kết nối đến hiệu năng của siêu máy tính (tt)

HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG - NGUYỄN ĐỨC KIỂN NGHIÊN CỨU VÀ ĐÁNH GIÁ ẢNH HƯỞNG CỦA CẤU TRÚC MẠNG KẾT NỐI ĐẾN HIỆU NĂNG CỦA SIÊU MÁY TÍNH Chun nghành: Khoa học máy tính Mã số: 60.48.01.01 TÓM TẮT LUẬN VĂN THẠC SĨ HÀ NỘI - 2013 Luận văn hồn thành tại: HỌC VIỆN CƠNG NGHỆ BƯU CHÍNH VIỄN THƠNG Người hướng dẫn khoa học: TS Hồ Khánh Lâm Phản biện 1: ………………………………………………………………… Phản biện 2: …………………………………………………………………… Luận văn bảo vệ trước Hội đồng chấm luận văn thạc sĩ Học viện Công nghệ Bưu Viễn thơng Vào lúc: ngày tháng năm Có thể tìm hiểu luận văn tại: - Thư viện Học viện Cơng nghệ Bưu Viễn thơng MỞ ĐẦU Đã từ lâu, kèm với đời phát triển mạnh mẽ phần cứng máy tính, đem lại lợi ích to lớn cho người sử dụng xuất siêu máy tính đơn xử lý đạt tốc độ hiệu mạnh mẽ, đáng kinh ngạc đạt tới giới hạn mặt phần cứng, mặt vật lý cơng nghệ sản xuất Điều đóng lại xu đơn xử lý địi hỏi phải có kỹ thuật xử lý tiên tiến khác thay để nâng cao khả tính tốn hệ thống xử lý Hiện giới, xử lý tiên tiến, hệ thống tính tốn tích hợp, phức tạp có tốc độ cao áp dụng kỹ thuật xử lý song song, coi kỹ thuật tiên tiến, khả thi, có tính mở cao Từ phân tích thấy, giải pháp hiệu để nâng cao hiệu xử lý ứng dụng siêu máy tính Đây mục đích đề tài “Nghiên cứu đánh giá ảnh hưởng cấu trúc mạng kết nối đến hiệu siêu máy tính” luận văn Nội dung luận văn bao gồm ba chương:  Chương 1: Tổng quan siêu máy tính  Chương 2: Cấu trúc mạng kết nối hệ thống đa xử lý ảnh hưởng đến hiệu siêu máy tính  Chương 3: Đánh giá ảnh hưởng cấu trúc mạng kết nối đến hiệu siêu máy tính Chương – TỔNG QUAN VỀ SIÊU MÁY TÍNH 1.1 Sự phát triển cơng nghệ siêu máy tính Một siêu máy tính máy tính vượt trội khả tốc độ xử lý Thuật ngữ Siêu Tính Tốn dùng lần đầu báo New York World vào năm 1920 để nói đến bảng tính (tabulators) lớn IBM làm cho trường Đại học Columbia Siêu máy tính có tốc độ xử lý hàng trăm teraflop (một teraflop tương đương với hiệu suất nghìn tỷ phép tính/giây) hay tổng hiệu suất 6.000 máy tính đại gộp lại (một máy có tốc độ khoảng từ 3-3,8gigaflop) Có thể hiểu siêu máy tính hệ thống máy tính làm việc song song Cơng nghệ siêu máy tính giới thiệu năm 1960 thiết kế Seymour Cray CDC (Control Data Corporation), sau Cray Research CDC 6600 chế tạo năm 1964 coi siêu máy tính Các siêu máy tính năm 1970 sử dụng xử lý Cray với 80 MHz xuất năm 1972 siêu máy tính thành cơng Năm 1985, Cray với xử lý làm lạnh chất lỏng, thực tính tốn với tốc độ 1.9 Gflops (1.9 tỷ phép tính số dấu phẩy/giây), siêu máy tính nhanh giới 1990 Các siêu máy tính sử dụng tới vài trăm ngàn xử lý Tốc độ tính tốn hệ thống siêu máy tính ngày tăng nhanh Theo thống kê website top500.org, sau khoảng thời gian tháng, tổng lực tính tốn 500 máy tính mạnh Giới tăng trung bình 50%, lớn tăng tốc độ vi xử lý đơn theo định luật Moore (2 lần sau 18 tháng) Tính đến tháng 6/2010 1.2 Phần cứng kiến trúc siêu máy tính Xét theo cơng suất (tốc độ tính tốn, độ rộng từ xử lý, không gian đánh địa nhớ) siêu máy tính loại mạnh chi phí cao (hàng trăm nghìn, hàng triệu USD) Trong năm 70 hầu hết siêu máy tính vector (vector supercomputer) chuyên ứng dụng để thực tính tốn vector liên quan đến cấu trúc liệu ma trận mảng đa chiều Các hệ thống với số lượng lớn xử lý thường tạo hai cách: Một là: Ví dụ, tính tốn lưới (Grid computing) cơng suất tính tốn số lượng lớn máy tính phân tán, thuộc nơi quản trị khác nhau, thích hợp sẵn sàng Hai là: Một số lớn xử lý sử dụng kết hợp với cụm nút máy tính Mỗi nút máy tính sử dụng xử lý đa lõi (Multi-Core processors) kết hợp thành xử lý trung tâm hướng phát triển cơng nghệ siêu máy tính nay, cho phép kết hợp đến hàng trăm ngàn xử lý Hệ thống tính tốn song song ghép cụm hệ thống máy tính song song xây dựng từ nút tính tốn thiết bị mạng thơng dụng Mỗi nút tính tốn đóng vai trị điều khiển vào/ra hệ thống hồn chỉnh, có khả làm việc độc lập Hệ thống tính tốn song song ghép cụm máy tính song song, đó: Các tài ngun tính tốn bao gồm vi xử lý nhớ nút máy tính, tài ngun tính tốn kết nối qua mạng (Interconnect network) truyền thông với Mạng kết nối giới hạn mạng cục (LAN) có nhiều lựa chọn cấu hình khác nhau, có máy tính đóng vai trị máy chủ (Server), máy tính cịn lại đóng vai trị nút tính tốn (Computing node) Sự thiết lập hệ thống tính tốn song song ghép cụm từ máy tính có cấu trúc đơn giản sử dụng cơng nghệ mạng phổ biến năm 1994 với mơ hình Beowulf Cluster Thomas Sterling Donal Becker Hệ thống tính tốn song song ghép cụm rẻ nhiều so với siêu máy tính sức mạnh Điều làm cho hệ thống tính toán song song ghép cụm ngày phổ biến đặc biệt phù hợp cho nước phát triển, trường đại học Tất siêu máy tính có kiến trúc song song mức độ khác nhau, hầu hết có: Kiến trúc đường ống, nhớ chia sẻ nhớ phân tán, truy nhập nhớ không thống NUMA (Non-Uniform Memory access), tổ chức đĩa cứng độc lập kết nối theo RAID (Redundant Array of Independent Disks), xử lý Vector SIMD, hệ thống tệp tin song song (Parallel filesystems) Hầu hết siêu máy tính đại thiết kế riêng sử dụng xử lý thương mại kết hợp với mạng liên kết thiết kế riêng (Custom interconnects) như: Siêu cúp (Hypercube), mạng hình lưới (Mesh) chiều, mạng lưới khối lập phương chiều (3D cubic grid – mạng torus) (trong nút kết nối với nút lân cận) (IBM Gene Blue/L, Cray T3E) Các kết nối mạng tĩnh động thơng các chuyển mạch Có hai xu hướng thiết kế siêu máy tính nay: Sử dụng hoàn toàn nút CPU – xử lý đa đa lõi đa luồng (PowerPC, AMD Opteron, Intel Xeon, Intel Core i7, ) sử dụng kết hợp CPU + GPU cho nút máy tính Các GPU NVIDIA ATI (AMD) đối thủ cạnh tranh thị trường chip đồ họa ứng dụng không riêng cho xử lý đồ họa mà cho chế tạo siêu máy tính Các bàn chơi game sử dụng mở rộng SIMD hệ thống trờ chơi điện tử Các nhà sản xuất thiết bị trò chơi điện tử cho máy trò chơi điện tử siêu máy tính, thực vậy, số card đồ họa có tốc độ xử lý đến vài TFLOPS Cạnh tranh với GPU NVIDIA AMD, kế hoạch nhằm trang bị cho siêu máy tính tiết kiệm điện vào năm 2018, Intel trình bày Chip Knights Corner lần Hội nghị siêu máy tính SC11, có thiết kế 50-lõi để phục vụ cho cơng việc tính tốn chun dụng Intel nói Chip máy chủ Xeon E5 tới, dựa vi cấu trúc Sandy Bridge 1.3 Năng lượng sử dụng quản lý nhiệt siêu máy tính Làm mát tất hệ thống siêu máy tính vấn đề lớn, siêu máy tính tiêu thụ điện lớn, vượt ngưỡng Megawatt Có nhiều phương pháp làm mát quản lý nhiệt siêu máy tính, phụ thuộc vào mức độ phát triển cơng nghệ siêu máy tính  Làm mát chất lỏng  Hệ thống làm mát Flourinert  Làm mát nước ấm  Làm mát mơi trường khơng khí tự nhiên 1.4 Hiệu siêu máy tính 1.4.1 Năng lực khả tính tốn Các siêu máy tính có mục tiêu tối đa lực tính tốn (Capability computing) khả tính tốn (Capacity computing) Năng lực tính tốn thường cho sử dụng tối đa cơng suất tính tốn để giải toán lớn quãng thời gian ngắn Một hệ thống có lực giải tốn có kích thước độ phức tạp mà khơng máy tính khác giải Ví dụ, ứng dụng mơ thời tiết phức tạp Trái lại, khả tính tốn thường cho sử dụng hiệu chi cơng suất tính tốn để giải số nhỏ toán lớn số lớn tốn nhỏ Ví dụ, nhiều truy nhập người dùng đến sở liệu web site 1.4.2 Các số đo hiệu Thông thường, tốc độ siêu máy tính đo FLOPS (FLoating Point Operations Per Second) Các số đo FLOPS cho cấp tốc độ là: GFLOPS (GigaFLOPS) = 109FLOPS, TFLOPS (TeraFLOPS) = 1012FLOPS, PFLOPS (PetaFLOPS) = 1015FLOPS, Petascale = 1015(1000 trillion)FLOPS, Exascale = 1018FLOPS (1 quintillion FLOPS = million teraflops) ZettaFLOPS = 1021FLOPS (1 sextillion FLOPS) Khơng có số đo riêng biệt phản ảnh hiệu toàn hệ thống máy tính Linpack Benchmark cơng cụ đo xấp xỉ máy tính nhanh giải số tốn nhanh sử dụng rộng rãi công nghiệp 1.5 Các ứng dụng siêu máy tính Siêu máy tính sử dụng cho nhiệm vụ tính tốn siêu nhanh tốn có khối lượng liệu lớn, như: Vật lý lượng tử, dự báo thời tiết, nghiên cứu khí hậu, khai thác dầu khí, mơ hình hóa phân tử (Tính tốn cấu trúc đặc tính thành phần hóa học, phân tử macro (Macromolecules) sinh học, polymer, tinh thể), mô vật lý (Như mô máy bay ống gió, mơ vụ nổ vũ khí hạt nhân, nghiên cứu hỗn hợp hạt nhân, nghiên cứu khơng gian vũ trụ Ngồi ra, nhà cung cấp dịch vụ viễn thông, internet lớn giới sử dụng hệ thống siêu máy tính cho trung tâm liệu đảm bảo dịch vụ điện toán đám mây 1.6 Kết luận chương Thông qua nội dung chương 1, luận văn đề cập đến kiến thức loại siêu máy tính Một siêu máy tính máy tính vượt trội khả tốc độ xử lý Có thể hiểu siêu máy tính hệ thống máy tính làm việc song song Xét theo cơng suất (tốc độ tính tốn, độ rộng từ xử lý, khơng gian đánh địa nhớ) siêu máy tính loại mạnh chi phí cao (hàng trăm nghìn, hàng triệu USD) Siêu máy tính sử dụng cho nhiệm vụ tính tốn siêu nhanh tốn có khối lượng liệu lớn, như, vật lý lượng tử, dự báo thời tiết, nghiên cứu khí hậu, khai thác dầu khí, mơ hình hóa phân tử Chương – CẤU TRÚC CÁC MẠNG KẾT NỐI CỦA HỆ THỐNG ĐA XỬ LÝ ẢNH HƯỞNG ĐẾN HIỆU NĂNG SIÊU MÁY TÍNH 2.1 Phân loại theo Flynn 2.1.1 Một chuỗi lệnh chuỗi liệu SISD SISD (Single instruction stream single data stream) có M I = 1, M D = Đây hệ thống đơn xử lý, máy tính kiến trúc Von Neumann cổ điển với xử lý Các lệnh thực gối chồng theo đường ống Hầu hết hệ thống SISD có đường ống lệnh, số đơn vị chức năng, đồng xử lý toán học bổ xung, đơn vị tính vector, xử lý đồ họa xử lý vào/ra Thường phân máy tính SISD thành hai nhóm:  SISD với đơn vị chức hay máy tính hướng (Serial scalar computer  SISD có nhiều đơn vị chức Tốc độ thực máy tính SISD đo MIPS (Million of instructions per second) 2.1.2 Một chuỗi lệnh nhiều chuỗi liệu SIMD SIMD (Single instruction stream multiple data stream) có M I = 1, M D > Trong hệ thống máy tính SIMD có nhiều xử lý làm việc song song với nhau, thực mệnh lệnh giống với liệu khác Mỗi xử lý (Pi, i = 1, 2,…, n) có nhớ cục riêng (Mi, i=1, 2, …n) 2.1.3 Nhiều chuỗi lệnh chuỗi liệu MISD MI > 1, MD = Trong hệ thống dạng này, chuỗi liệu từ nhớ chung M chuyển đến chuỗi xử lý điều khiển điều khiển CU riêng thực chuỗi lệnh khác Khơng có nhiều xử lý song song phù hợp với nhóm Có thể máy tính Cray-1 CYBER 205 Control Data Corporation có tính xử lý đường ống (Pipeline processing) liệt vào nhóm MISD 2.1.4 Nhiều chuỗi lệnh nhiều chuỗi liệu MIMD M I > 1, M D > Trong hệ thống MIMD có tập hơp n xử lý thực đồng thời n chuỗi lệnh chuỗi liệu khác MIMD thường gọi hệ thống đa xử lý nhớ chia sẻ Các hệ thống có nhớ chia sẻ (SIMD MIMD) cịn có thêm phân chia nhỏ:  SM-R : nhớ chia sẻ cho phép nhiều đọc đến chỗ  SM-W : nhớ chia sẻ cho phép ghi nhiều đến chỗ  SM-RW: nhớ chia sẻ cho phép nhiều ghi đọc đến chỗ  SM: nhớ chia sẻ không cho phép nhiều ghi đọc  TC: kết nối cặp chặt chẽ (phụ thuộc vào nhau): C.mmp, Burroughs D825, Cray-2, S1, Cray X-MP, HEP, PluribusC  LC : kết nối cặp lỏng lẻo: IBM 370/168 MP, Univac 1100/80, Tandem/16, IBM 3081/3084, C.m*, BBN Butterfly  UC : không kết nối: Meiko Computing Surface, FPS T/40000, iPSC Với MIMD có thêm phân chia:  Bit-sliced MIMD: máy tính loại MIMD với xử lý thực bit chu kỳ lệnh: Bit-sliced machines include; STARAN, MPP, DAP, CM-1  Word-sliced MIMD: máy tính loại MIMD với xử lý thực toàn từ chu kỳ lệnh: ILLIAC-IV, PEPE, BSP 2.2 Các loại kết nối tĩnh mạng kết nối Các loại cấu hình kết nối tĩnh mạng kết nối N Phân biệt kết nối tĩnh(cố định) động(nhờ chuyển mạch) Một số thông số cấu hình cấu hình mạng kết nối  Độ phức tạp liên kết: toàn số liên kết mạng  Cấp độ nút (node degree): Số nút liên kết với nút (number of incident nodes)  Đường kính mạng (network diameter): khoảng cách định tuyến dài mạng nút (hay độ dài tuyến dài mạng (maximum routing distance, hay maximum hop distance)  Khoảng cách trung bình (average distance): khoảng cách định tuyến trung bình tất cặp nút (average routing distance hay average hop distance)  Độ rộng chia đôi (bisection width): số tối thiểu liên kết mà lấy chúng khỏi mạng tách mạng cắt mạng thành nửa  Độ phức tạp sinh trưởng (growth complexity): số nút bổ xung thêm Bus chia sẻ đơn (single shared bus) Kiểu bus đơn sử dụng nhiều hệ thống máy kiến trúc Von Neumann cổ điển với bus hệ thống Nhưng nhược điểm lớn số lượng thành phần xử lý thành phần nhớ tăng lên làm tăng đụng độ cạnh tranh chiếm bus, dẫn đến tăng thời gian chờ đợi phục thành phần xử lý thành phần nhớ, tốc độ truyền thông bị suy giảm Khi cần phải tăng tốc độ bus Độ sẵn sàng kết nối bus thấp Nhiều Bus (multi-bus) Mạng nhiều Bus khắc phục nhược điểm Bus đơn, đó, số thành phần xử lý thành phần nhớ kết nối với Bus, thành phần xử lý thành phần nhớ khác lại kết nối với Bus khác, có chúng kết nối số Bus, giảm tải cho Bus, đụng độ truy nhập Bus giảm tối thiểu Nhược điểm mạng: có cố xảy Bus đó, hiệu xuất mạng giảm rõ rệt lỗi tăng lên Các Bus giao (crossbar buses) Trong cấu trúc kết nối Bus giao nhau, thành phần xử lý kết nối với tất thành phần nhớ tương tự, thành phần nhớ kết nối với tất thành phần xử lý Như ta có kết nối kiểu ma trận hai chiều n x m Cấu trúc khắc phục nhược điểm cấu trúc nhiều Bus Trường hợp xấu xảy ra: tất thành phần xử lý truy nhập vào thành phần nhớ Kết nối áp dụng số hệ thống máy tính lớn Chuỗi (Linear Array): Cấu trúc chuỗi (chain) mảng tuyến tính (linear array) xử lý (gồm CPU, memory, I/O), nên thường 10 nhị phân nhược điểm lớn lại lên cao gia tăng chậm chế nghẽn nút cổ chai  Cây béo: Cây béo cách khắc phục nhược điểm nghẽn nút nhị phân, tam phân cách bổ xung thêm kết nối nút tầng (trừ nút cành ngoài) thuộc nút cha khác tầng  Cây X: Cây X cách khắc phục nghẽn nút cổ chai bổ xung thêm kết nối nút tầng thuộc nút cha tầng Các X béo khơng cịn rẽ nhánh (disjoint) có vịng lặp  Cây hình chuỗi hạt: Một vấn đề lớn cấu trúc tìm kiến phân loại (sort) Các thuật tốn tìm kiếm thực tốt hình chuỗi hạt (diamon tree) Trong chuỗi hạt, số lượng nút N thỏa mãn công thức tổng cấp số nhân (sum of geometric progression): N = (dW - 1)/(d - 1) Trong số lượng nút N tăng theo độ sâu (hay chiều cao) W, hay theo tăng hệ số phân đầu nút (fan-out), d Số lượng liên kết chuỗi hạt tính bằng: L = (dW - d)/(d - 1) Độ phức tạp sinh trưởng G tính theo : G = (d-1)/(N+1) Độ phức tạp sinh trưởng loại cao so với cấu trúc khác  Cây có cấu trúc khơng thống nhất: Các cấu trúc kim tự tháp (pyramid) tập hợp cấu trúc Kim tự tháp có từ vẽ lại tứ phân (quaternary tree) Tất đặc tính cấu hình kim tự tháp tương tự tứ phân Vòng (1D-Torus): Nhược điểm cấu chuỗi khắc phục cấu trúc vòng (Ring) Tất nút xử lý truyền thơng với tin chuyển theo hướng Nếu vịng có N nút có N liên kết (hay độ phức hợp liên kết N), nghĩa độ phức tạp liên kết phụ thuộc số nút, O(N) Vịng vận chuyển tin theo hai hướng vịng chiều Thường có tuyến dài tuyến ngắn nút truyền thơng với Thuật tốn định tuyến thực định tuyến theo tuyến ngắn tuyến rỗi Vịng có mức phức tạp O(N) Đường kính mạng vòng D = N/2 liên kết chiều (số N chẵn), D = N-1 lên kết 11 chiều (số N lẻ) Cấp tất nút mạng vòng Khoảng cách trung bình (N +1)/3, độ rộng chia đơi (bisection width): Vịng có đặc tính tương tự chuỗi khơng phù hợp cho hệ thống máy tính song song với nhiều xử lý Nó phù hợp cho kết nối LAN xử lý có kết nối lỏng lẻo truyền thông không thường xuyên Vòng sợi dây: Vòng sợi dây (chordal ring) cấu hình mở rộng thêm kết nối cặp nút tập hợp gồm nút cách xa Các cấu hình lưới: Vịng sợi dây có ưu điểm so với vịng chiều có ‘cắt ngắn’ (short cut) đường dẫn nút khác Đường kính vịng sợi dây hàm phụ thuộc vào số nút vòng ‘độ dài’ dây Có số tuyến cho tin tới đích, thuật tốn định tuyến phức tạp Nếu vịng sợi có tổng số nút n tổng số liên kết 2n Máy tính song song ILLIAC-IV có mạng kết nối cấu trúc vịng sợi gồm 64 nút, sợi dây kết nối cặp nút cách xa nút Các cấu hình lưới kết nối nút theo mẫu đan lưới theo 2, hướng Có nhiều loại cấu hình lưới: luới vng (grid, mesh), lưới cạnh (hexagonal grid), lưới vòng (torus), lưới toroidal (toroidal grid), lưới chiều (3-D grid),…  Lưới vuông (2D mesh): Tổng số nút lưới vuông N, n=2, số chiều, p số nút chiều lưới, N  pn  p2 , p  N / Số liên kết L  p ( p  1)  N / ( N /  1) , đường kính D  n ( p  1)  ( p  1)  ( N /  1) , khoảng cách trung bình np /  p /  1/ N , độ rộng chia đôi p d 1  p  N / Cấp độ nút từ d  2n Độ phức tạp sinh trưởng N 1/  Ví dụ, với p = 5, ta có N   25 , L  p( p  1)  40 , D  Vì có nhiều đường dẫn nguồn đích nên mạng có độ sẵn sàng cao, thuật tốn định tuyến có nhiều lựa chọn đường dẫn tối ưu Mạng cho dễ dàng mở rộng nút kết nối thay đổi phần cứng  Lưới vịng (2D Torus): Lưới vịng có cấu hình gồm lưới vng 2D thêm cạnh bổ xung vịng quanh, cịn gọi Torus hay 2D Torus Trong lưới vòng (2D Torus) tất nút có cấp độ d = (4 kết nối) nằm giao điểm đường vòng quấn xung quanh từ xuống dưới, từ phải sang trái Nó có số nút ít, băng thông cao, tăng không gian sử dụng cho chip xử lý, vịng thống 12 nên thuật toán định tuyến đơn giản Nếu số nút N, n số hướng, p số nút chiều lưới, 2D torus có: N  p n  p , n  , số liên kết L  p  N , cấp độ nút d=2n=4, đường kính D  p  N / , khoảng cách trung bình 1/ N , độ rộng chia đôi (bisection width) p  N / Ví dụ, với p =5, với 2D Torus có N   25 , L  p  50 , D  N /   Lưới cạnh: Lưới cạnh có đặc điểm tương tự lưới vng, khác chỗ tất nút có cấp độ 3, ngoại trừ nút biên chúng có cấp độ Độ phức hợp nút N = 2p2+4p, đó, p số khối cạnh (hexagon) dọc theo góc Độ phức hợp liên kết L = N+p2-1 = 3p2+4p-1 Đường kính D = 4p-1 Mỗi lần tăng theo p bổ xung thêm 4p+6 nút (độ phức hợp sinh trưởng)  Luới 3D (3D mesh)  Lưới vòng 3D (3D torus) 10 Hình sao: Cấu trúc hình trường hợp phát sinh từ cấu trúc cây, có độ sâu (hay chiều cao) Nút gốc trở thành nút trung tâm cấu trúc hình Nút trung tâm hoạt động nút chuyển mạch thực định tuyến chuyển tiếp tin từ nút đến nút khác Các nút đầu cuối liên kết với qua nút trung tâm, chúng có cấp độ 1, cố nút gốc làm mạng hoạt động Nếu tổng số nút mạng n nút gốc có cấp độ n-1 Thuật tốn định tuyến đơn giản Để tăng độ sẵn sàng cần tăng độ tin cậy khả chịu lỗi nút trung tâm 11 Mạng kết nối siêu lập thể n chiều (n-dimensional hypercube): Kiến trúc kết nối lập thể gọi kết nối lập phương-n nhị phân (binary n-cube), có n chiều có 2n mặt N = 2n nút kết nối khối lập phương, hay n  log N , đường kính D  log N , số liên kết L  N log N , độ rộng chia đôi N/2 Cấp độ nút d  log N Trong siêu lập thể, nút (hay đỉnh) 0-D (hay 0-cube), đường nối đỉnh 1D (hay 1-cube), mạng vuông nối nút gọi 2D (2-cube), lập thể chiều 3D (3cube), hai 3-cube nối với gọi 4D (4-cube),v.v 12 Kết nối đầy đủ: Trong kết nối đầy đủ FCN (full connected network), nút xử lý có liên kết với tất nút lại Như vậy, số lượng nút tăng số lượng liên kết tăng nhiều nhanh Nếu mạng có N nút, tổng số liên kết L = N(N-1)/2 Tất 13 nút có cấp độ N-1 Đường kính 1, khoảng cách trung bình 1, độ rộng chia đôi bằng: (N / 2) N chẵn, ( N / 4) N lẻ 13 Các kết nối trực tiếp: Ngoài kết nối có định dạng cấu hình nêu trên, thực tế cịn có kết trực tiếp khơng có dạng tắc, kết nối trực tiếp, kết nối đua tranh (Hash-net) hay tuỳ tiện Những cấu trúc làm khó khăn cho thuật tốn định tuyến, sử dụng Tuy nhiên chúng thiết kế cho toán đặc thù riêng 2.3 Các loại cấu hình kết nối động mạng kết nối 2.3.1 Các thành phần chuyển mạch: Cấu trúc kết nối động xây dựng sử dụng thành phần chuyển mạch 4-trạng thái Mỗi thành phần chuyển mạch có đường vào đường để kết nối với thành phần chuyển mạch lân cận Tất đường (buses) giống làm việc liên kết xử lý với (processor-to-processor) hay thành phần xử lý với thành phần nhớ (procesor-to-memory) Trạng thái thành phần chuyển mạch điều khiển tín hiệu C, có trạng thái:  Trạng thái thông hay trực tiếp (direct): Z1 = X1, Z2 = X2  Trạng thái đấu chéo (cross) : Z1 = X2, Z2 = X1  Trạng thái quảng bá dưới: Z1 = Z2 = X1  Trạnh thái quảng bá dưới: Z1 = Z2 = X2 Thành phần chuyển mạch với cấu trúc chuyển mạch biến đổi sử dụng mạng chuyển mạch chịu lỗi Một cặp ghép kênh (multiplexer) M tách kênh (demultiplexer) D thêm vào cho thành phần chuyển mạch S 2x2, điều khiển để bỏ qua cho phép thành phần chuyển mạch S tham gia vào mạng chuyển mạch Mạng chuyển mạch hệ thống đa xử lý sử dụng kỹ thuật chuyển mạch để chuyển gói tin từ nguồn tới đích:  Chuyển mạch lưu chuyển tiếp (store-and-forward switching)  Chuyển mạch kênh (circuit switching)  Chuyển mạch qua mặt cắt ảo (virtual cut-through switching)  Định tuyến lỗ sâu (wormhole routing) 14 Chuyển mạch lưu chuyển tiếp kỹ thuật chuyển mạch gói cổ điển, đó, gói đến nút trung gian, tồn gói lưu đệm gói nút trung gian Ngay kênh nút gian sẵn sàng gói đẩy chuyển tiếp đến nút Kỹ thuật đơn giản, có nhược điểm: Trước hết, việc lưu đệm gói địi hỏi phải bổ xung nhớ đệm nút chuyển mạch chi phí thêm thời gian lưu; thứ hai, trễ tin tỷ lệ với khoảng cách nguồn đích, số nút trung gian nhiều trễ lớn Trong chuyển mạch kênh, kênh thiết lập nguồn đích trước truyền tin Ngay kênh thiết lập, tin truyền mà khơng có cạnh tranh thời gian trễ thấp Khoảng cách nguồn đích khơng ảnh hưởng đáng kể đến trễ tin mạng chuyển mạch kênh Trong chuyển mạch qua mặt cắt ảo, gói lưu nút trung gian kênh chưa sẵn sàng cho chuyển tiếp, không, gói chuyển tiếp mà khơng lưu đệm trung gian Như giảm đáng kể trễ tin Trong kỹ thuật chuyển mạch qua mặt cắt ảo sử dụng định tuyến lỗ sâu (wormhole routing), đó, gói chia số chỗ di chuyển (flit) Một flit đầu dẫn dẫn tuyến đường 2.3.2 Mạng chuyển mạch nhiều tầng Bằng cách thiết lập tín hiệu điều khiển cho thành phần chuyển mạch S, ta có số lượng lớn mẫu kết nối mạng (mẫu kết nối động) Số lượng mẫu kết nối động phụ thuộc vào số tầng (cột) kết nối trạng thái thành phần chuyển mạch 2.3.3 Mạng chuyển mạch chịu lỗi 2.3.4 Mạng chuyển mạch đấu chéo: Mạng chuyển mạch đấu chéo sử dụng thành phần chuyển mạch giao điểm liên kết dọc ngang Các trạng thái thành phần chuyển mạch điều khiển để đáp ứng yêu cầu kết nối cặp thành phần xử lý thành phần nhớ Ví dụ, máy tính BBN TC-2000, IBM RP3 sử dụng kết nối mạng chuyển mạch động nhiều tầng Các siêu máy tính máy tính Cray Y-MP/816, Fujitsu VPP500 sử dụng mạng chuyển mạch kết nối chéo 2.4 Kết luận chương: Qua chương này, có nhìn chi tiết cấu trúc mạng kết nối hệ thống đa xử lý ảnh hưởng đến hiệu siêu máy tính, cách phân loại loại cấu trúc theo Flynn, loại kết nối tĩnh mạng kết nối, loại cấu hình kết nối động mạng kết nối 15 Chương – ĐÁNH GIÁ ẢNH HƯỞNG CỦA CẤU TRÚC MẠNG KẾT NỐI ĐẾN HIỆU NĂNG SIÊU MÁY TÍNH 3.1 Luật Amdahl 3.1.1 Công thức Luật Amdahl tổng quát Luật Amdahl (lấy theo tên Gene Myron Amdahl, nhà kiến trúc máy tính Mỹ gốc NaUy, nhân viên IBM từ 1970, đưa luật năm 1967) để tìm kiếm cải thiện mong đợi tối đa toàn hệ thống phần hệ thống cải thiện Luật Amdahl thường sử dụng tính tốn song song để dự đốn tăng tốc tối đa lý thuyết nhờ sử dụng nhiều xử lý Thời gian thực chương trình gồm có thành phần: Tseq(p) – thời gian thực phần vốn có chương trình Tpar(p) – thời gian thực phần chương trình thực song song k(p,n) – overhead truyền thông (communication overhead) là: Thời gian liên quan cho thực song song (parallel overhead) như: thao tác truyền thông (thời gian khởi tạo kết thúc trình hay luồng, đồng trình hay luồng, truyền thơng q trình hay luồng), thời gian chờ đợi xử lý tính tốn dư thừa Overhead xử lý song song thường hàm tăng số lượng xử lý Nó tăng theo số xử lý p – kích thước chương trình n – số lượng xử lý thực chương trình T ( p,1)  Tseq ( p)  T par ( p) - Tổng thời gian thực chương trình máy tính (một xử lý) T ( p, n)  Tseq ( p)  T par ( p) n   ( p, n) - Tổng thời gian thực chương trình máy tính song với n xử lý Biểu thức mức tăng tốc là: Tseq ( p )  T par ( p ) T par ( p ) Tseq ( p )    ( p, n) n Hiệu E( p, n) : S ( p, n)  16 - Là số đo mức sử dụng xử lý - Là tỷ số mức tăng tốc S(p,n) n xử lý sử dụng chương trình kích thước p: E( p, n)  S ( p, n) / n xác định bằng: E ( p, n)  E ( p, n)  Tseq ( p )  T par ( p ) n(Tseq ( p )  T par ( p ) / n   ( p, n)) Tseq ( p )  T par ( p ) nTseq ( p )  T par ( p )  n ( p, n) Dễ dàng nhận thấy :  E( p, n)  Vì  ( p, n)  nên từ công thức S ( p, n)  S ( p, n)  Tseq ( p )  T par ( p ) ta có : T par ( p ) Tseq ( p )    ( p, n) n Tseq ( p )  T par ( p ) Tseq ( p )  T par ( p )  T par ( p ) Tseq ( p )  T par ( p ) / n Tseq ( p )    ( p, n) n (3.1) Cho f phần vốn có chương trình (phải thực tuần tự), 0 f  Tseq ( p) Tseq ( p)  T par ( p)  1; Tseq ( p)  T par ( p)  Tseq ( p) f 1  ; T par ( p)  Tseq ( p)  1 f  overhead truyền thơng k ( p, n)  , Luật Amdahl xác định mức tăng tốc S ( p, n) tối đa đạt nhờ thực máy tính song song với n xử lý là: S ( p, n)  f  (1  f ) / n (3.2) Và số xử lý n   mức tăng tốc cực đại đạt : lim S ( p , n )  n f (3.3) Biểu thức mức tăng tốc tối đa (3.3) phụ thuộc vào kích thước phần chương trình, giảm phần tăng lên 17 Luật Amdahl tổng quát: Luật Amdahl xác định mức tăng tốc chương trình chương trình có số phần là: Speedup  n  P k 0  Sk  k    (3.4) Trong đó: Pk phần trăm lệnh nâng tốc độ (hoặc chậm đi) S k số nhân tăng tốc (trong khơng thay đổi tốc độ: khơng nhanh không chậm đi) k số phần chương trình n số phần chia chương trình Ví dụ, chương trình thực chia phần: P1 = 0,11 hay 11%, P2 = 0,18 hay 18%, P3 = 0,23 hay 23%, P4 = 0,48 hay 48% Cho rằng, phần P1 không thực tăng tốc, S1 = hay 100%, P2 tăng tốc lên 5x, S2 = hay 500%, P3 tăng tốc lên 20x, S3 = 20 hay 2000%, P4 tăng tốc lên 1,6x, S4 = 1,6 hay 160% Từ ta có thời gian chạy thực tăng tốc là:   Pk  k 1   Sk n4  P1 P P3 P 0,11 0,18 0,23 0,48           0,4575 20 1,6  S1 S S S Như vậy, với Luật Amdahl (3.10) xác định mức tăng tốc độ 1/0,4575 = 2,186 gấp đôi chút tốc độ nguyên gốc (không thực tăng tốc) 3.1.2 Luật Amdahl với tăng tốc chương trình Cho chương trình thực (task) có hai phần độc lập, A B Phần B chiếm tới 25% thời gian thực toàn task Có hai cách tăng tốc độ nhờ thực song song phần chương trình: cách thực song song phần B để tăng tốc lên 5x, cách không làm tăng đáng kể tốc độ Cách thứ hai thực song song phần A để tăng tốc lên 2x, ta đạt tăng tốc task lên đáng kể Mức tăng tốc tối đa đạt chương trình (task) nhờ phần f chương trình thực tăng tốc lên s lần là: S f (1  f )  s (3.5) 18 Như vậy, f nhỏ mức tăng tốc đạt khơng cao Nếu s   mức tăng tốc đạt tới /(1  f ) Nếu có hai chương trình X Y, ta nói chương trình X chạy T% nhanh chương trình Y nếu: CPU execution time of Y T  1 CPU execution time of X 100 (3.6) Đối với trường hợp sử dụng n xử lý (hay lõi xử lý) để thực song song phần f để đạt mức tăng tốc s  n , giữ nguyên phần (1  f ) cơng thức (3.12) viết là: S f (1  f )  n (3.7) Luật Amdahl mức tăng tốc tối đa (công thức 3.7) bỏ qua thành phần trễ truyền thông Thực tế hệ thống siêu máy tính có hàng trăm nghìn nút xử lý, tính tốn ứng dụng song song tiến trình nằm nút phải trao đổi liệu cho điều phải tính đến trễ truyền thơng chúng Trễ truyền thơng ứng dụng tính tốn song song siêu máy tính thành phần ảnh hưởng đến tốc độ thực chương trình Vì đánh giá hiệu hệ thống siêu máy tính có nhiều cơng trình nghiên cứu xét đến vấn đề Do đó, phần tơi muốn đưa giải pháp đánh giá hiệu siêu máy tính với ảnh hưởng cấu trúc mạng liên kết nút xử lý nhờ sử dụng luật Amdahl mở rộng 3.1.3 Hiệu ứng Amdahl Đối với số lượng cố định n xử lý, mức tăng tốc thường coi hàm tăng kích thước chương trình Đó hiệu ứng Amdahl  Thời gian  ( p, n) có phức hợp thấp so với T par ( p)  Sự tăng kích thước n chương trình làm tăng thời gian thực nhanh tăng thời gian truyền thông  ( p, n)  Sự tăng kích thước p chương trình làm tăng mức tăng tốc, phần f giảm 19 3.2 Ứng dụng luật Amdahl để đánh giá hiệu kiến trúc siêu máy tính Một kiến trúc siêu máy tính phổ biến kiến trúc nhóm Destop Server CPU + GPU Do đó, để minh họa cho giải pháp sử dụng luật Amdahl mở rộng, chọn đánh giá ảnh hưởng mạng liên kết nút xử lý CPU + GPU liên kết nhóm Một chương trình gồm phần thực song song phần vốn có Tỷ lệ thời gian thực phần 1-f tỷ lệ thời gian thực phần song song f Khi T - tồn thời gian thực chương trình nút xử lý, T  sT  (1  s )T Trong đó, sT thời gian thực phần (1  s)T thời gian thực phần song song Trên hệ thống tính tốn song song gồm nhiều nút xử lý phần song song phân n module chạy song song n nút xử lý, thời gian thực phần song song (1  s )T / n Tổng thời gian thực chương trình hệ thống gồm n nút xử lý phải T P  sT  (1  s )T / n Khi đó, Luật Amdahl xác định mức tăng tốc tối đa khơng tính đến overhead song song: S T sT  (1  s)T   TP sT  (1  s)T / n s  (1  s) / n Overhead song song, gọi TO - (3.8) khơng phải thời gian tính tốn hữu ích mà gồm: thời gian khởi động nhiệm vụ (tạo nhiệm vụ song song chuyển đến nút xử lý song song), đồng (thiết lập điểm đồng chương trình mà nhiệm vụ khơng tiếp tục nhiệm vụ khác đạt điểm đồng Sự đồng kéo theo chờ đợi nhiệm vụ, nhiệm vụ chạy xử lý phân tải khơng đều, làm cho thời gian thực chương trình từ thời điểm bắt đầu thực xử lý thời điểm kết thúc thực xử lý cuối tăng lên – thời gian tường chắn – wall time), thời gian truyền liệu trình, overhead phần mềm phát sinh trình biên dịch song song, thư viện, hệ điều hành, tính tốn dư thừa, thời gian kết thúc nhiệm vụ Thơng thường chương trình chạy hệ thống song song mà phần song song gồm nhiệm vụ chạy xử lý chúng trao đổi liệu với cách đồng Loại chương trình phí nhiều overhead Lấy ví dụ minh họa chương trình có mơ đun song song chạy số nút xử lý (P0 P7) cho hình 3.4 20 P0 Chờ đợi đồng bắt tay truyền thông P1 t syn Rec ack P2 t sw  t data Thời gian tính tốn Thời gian truyền thơng P3 P4 P5 P6 P7 Thời gian thực hiện Hình 3.4 Overhead truyền thơng nút xử lý qua mạng liên kết Nút xử lý P0 đảm nhiệm tính tốn kết cuối sau nhận kết tính trung gian từ nút xử lý khác qua mạng liên kết Overhead song song TO gồm: trễ phải chờ đợi đồng nhiệm vụ thực nút xử lý, thủ tục thiết lập truyền liệu (thể mũi tên) nút xử lý Do thời gian thực chương trình hệ thống tính tốn song song là: TP  sT  (1  s ) T  TO n (3.9) Và mức tăng tốc- mở rộng Luật Amdahl: S T  TP 1  s TO s  n T (3.10) Trong đó, n số nút xử lý, s – tỷ lệ thời gian thực phần tuần tự, T- thời gian thực chương trình nút xử lý, TO  overhead song song hệ thống Đối với xử lý CPU+GPU, mức tăng tốc tốc đạt nhờ GPU – đóng vai trị tăng tốc nhờ chúng có số lõi luồng lớn Như hệ thống song song gồm có N CL  cluster cluster có N CPU GPU / CL nút xử lý CPU+GPU, nút có số lượng GPU N GPU / Node , GPU có N Cores / GPU lõi xử lý, cơng thức mức tăng tốc đề xuất với tổng số nút n  N CL N CPU GPU / CL N GPU / Node N Cores / GPU có dạng: S  1 s s   N N CL CPU GPU / CL N GPU / Node N Cores / GPU   TO   T  (3.11) 21 Đối với cluster có S cluster  N CPU GPU / CL nút xử lý, mức tăng tốc đạt được:  1 s s   N CPU GPU / CL N GPU N Cores / GPU  (3.12)  TOIntra cluster   T  Trong đó, TOIntra cluster  overhead cluster Ví dụ, nút xử lý CPU+GPU sử dụng Fermi GPU M2070 với 448 lõi cuda, cluster có N CPU GPU / CL  32 n  N CL N CPU GPU / CL N GPU / Node N Cores / GPU  (1)(32)( 2)( 448) Một hệ thống có nhiều cluster liên kết với theo cấu hình mạng kết nối nhiều switch, cluster lại gồm hay số switch liên kết theo cấu hình khác giống liên kết cluster Overhead song song phụ thuộc vào công nghệ mạng (ethernet, infiniband, ), cấu hình đấu nối (cây nhị phân, béo, 2D-mesh, 2D-Torus, 3D-mesh, 3D-Torus, Hypercube, ), kích thước tin (dữ liệu truyền), giao thức truyền thông (MPI, ) Do tơi đề xuất cơng thức tính overhead song song cluster sau: TOIntracluster  H Intracluster NW w(t syn  t sw  t data ) (3.13) Trong đó, N- tổng số switch mạng cluster; degree (d): cấp độ nút- số nút (N) liên kết với nút (bảng 1); Average distance (H) - khoảng cách định tuyến trung bình tất cặp nút switch (average routing distance -hay average hop distance); Bisection width (B) - độ rộng chia đôi số lượng liên kết lát cắt nhỏ mà tách mạng thành hai nửa Cơng thức (3.13) cho thấy phụ thuộc overhead đến cấu hình mạng liên kết ( H Intra cluster  khoảng cách định tuyến trung bình cluster), kích thước tin liệu (w, Nw), công nghệ mạng ( t sw  trễ nút switch; số lượng switch cluster, t data  thời gian truyền từ liệu), giao thức truyền thông ( t syn  trễ chờ đợi đồng bắt tay truyền thơng) Ví dụ, cho thuật tốn song song chương trình đảm bảo có cân tải nên t syn bỏ qua, sử dụng Mellanox SX6036 36-port FDR 56Gb/s infiniBand/VPI Switch Systems [8] có t sw  170ns ; tdata   0.018ns , 56Gbps 22 bỏ qua t data , trễ truyền thông chủ yếu rơi vào t sw  0.17 s Khi cơng thức (4.6) áp dụng cho cluster sử dụng Mellanox Infiniband switch xấp xỉ bằng: TOIntra  cluster  (0.17 s )( H Intra  cluster NW w) (3.14) Nếu cluster dùng switch giá trị H Intra cluster  , cấu hình mạng cluster star, đó, TOStarIntra  cluster  (0.17 s )( NW w) Nếu có N cluster đấu nối với theo cấu hình liên kết tổng overhead tồn hệ thống gồm hai cấp mạng liên kết clusster đề xuất là: TO  H OInter  clusterTOIntra  cluster (3.15) Cho có N cluster  16 cluster đấu nối cấu hình 3D-torus, cluster có switch (cấu hình liên kết star), đó: 3  TO  H D  torusTOStarIntra  cluster   16 (0.17)( NW w)  (0.32)( NW w) 4  (3.16) Nếu cluster có cấu hình 2D-mesh gồm switch tất 16 cluster nối theo cấu hình 2D-torus thì: 1  2  TO  H Dtorus (0.17)( H Dmesh NW w)   16 (0.17) ( NW w)  0.45 NW w 2  3  Mạng liên kết cấu hình 3D-torus cho trễ nhỏ cấu hình ring cho trễ cao so với mạng lại, điều cho thấy số siêu máy tính sử dụng cấu hình (Cray T3E) Tùy thuộc vào số nút xử lý CPU+GPU, lựa chọn cấu hình liên kết cluster lớp khác để đạt overhead nhỏ tối ưu cho hệ thống tính tốn song song Cho chương trình có tỷ lệ thực phần 0.01, chạy hệ thống song song gồm 16 cluster 3D-torus cluster có kết nối N CPU  GPU / CL  32 nút xử lý với Fermi GPU M2070 448 lõi cuda, cơng thức (3.11) viết thành: S 0.01  0.99 T T  D  torus OStarIntra  cluster (16)(32)( 2)( 448) T Cho chương trình có thời gian thực nút xử lý CPU+GPU T = ms, thuật toán song song chạy hệ thống song song mà trao đổi liệu luồng/nút xử lý CPU+GPU tin có w = 1, Nw = 64, thì: 23 S 0.01  ( 2.17 )(10) 6  (0.32)(64)(us ) 10 (us )   33 0.03048217 (3.17) Công thức (3.17) cho thấy mức tăng tốc đạt 33 lần so với mức tăng tốc đạt gần 100 lần bỏ qua overhead Nếu thuật toán song song chương trình đảm bảo thời gian T nút xử lý CPU+GPU cho đạt tỷ lệ To/T tỷ lệ s nhỏ đạt mức tăng tốc lớn 3.3 Kết luận chương Với việc đưa vào công thức Luật Amdahl trễ interconnect chip đa lõi, xác suất định tuyến truyền thơng lõi, ta thấy ảnh hưởng lớn đến hiệu chip đa lõi Xét mức ứng dụng, cõ thể thiết kế chương trình kiểm thử chạy hệ thống CPU đa lõi với tỷ lệ phần (1-f) phần song song f phù hợp 24 KẾT LUẬN Nghiên cứu siêu máy tính nói chung cấu trúc mạng kết nối hệ thống đa xử lý ảnh hưởng đến hiệu siêu máy tính nói riêng nghiên cứu thực thời gian tương đối dài, quan tâm tầm quan trọng, cần thiết nhiều lĩnh vực như: Kinh tế, An ninh quốc phòng, dự báo thời tiết, thiên tai Luận văn đạt số kết sau:  Giới thiệu tổng quan siêu máy tính, phát triển siêu máy tính  Đưa khái niệm, cách phân loại lực, khả tính toán số đo hiệu  Đưa giới thiệu loại cấu trúc mạng kết nối hệ thống đa xử lý ảnh hưởng đến hiệu siêu máy tính  Xây dựng chương trình mơ để đánh giá hiệu kiến trúc siêu máy tính Trong tương lai, luận văn phát triển theo hướng sau:  Nghiên cứu sâu ảnh hưởng tất thiết bị phần cứng đến hiệu siêu máy tính  Xây dựng chương trình tổng quan để đánh giá hiệu siêu máy tính nhiều cơng cụ khác ... Tổng quan siêu máy tính  Chương 2: Cấu trúc mạng kết nối hệ thống đa xử lý ảnh hưởng đến hiệu siêu máy tính  Chương 3: Đánh giá ảnh hưởng cấu trúc mạng kết nối đến hiệu siêu máy tính 2 Chương... trúc theo Flynn, loại kết nối tĩnh mạng kết nối, loại cấu hình kết nối động mạng kết nối 15 Chương – ĐÁNH GIÁ ẢNH HƯỞNG CỦA CẤU TRÚC MẠNG KẾT NỐI ĐẾN HIỆU NĂNG SIÊU MÁY TÍNH 3.1 Luật Amdahl 3.1.1... phân tích thấy, giải pháp hiệu để nâng cao hiệu xử lý ứng dụng siêu máy tính Đây mục đích đề tài ? ?Nghiên cứu đánh giá ảnh hưởng cấu trúc mạng kết nối đến hiệu siêu máy tính? ?? luận văn Nội dung

Định dạng
Số trang	26
Dung lượng	223,4 KB