1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu và đề xuất thiết kế hạ tầng tính toán hiệu năng cao phục vụ cho thành phố hồ chí minh

351 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 351
Dung lượng 14,04 MB

Nội dung

ỦY BAN NHÂN DÂN ĐẠI HỌC QUỐC GIA TP.HCM THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA SỞ KHOA HỌC VÀ CÔNG NGHỆ BÁO CÁO TỔNG HỢP Nghiên cứu đề xuất thiết kế hạ tầng tính tốn hiệu cao phục vụ cho Thành phố Hồ Chí Minh Cơ quan chủ trì nhiệm vụ: Trường Đại học Bách Khoa - ĐHQG HCM Chủ nhiệm nhiệm vụ: PGS TS Thoại Nam Thành phố Hồ Chí Minh - 2023 ỦY BAN NHÂN DÂN ĐẠI HỌC QUỐC GIA TP.HCM THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA SỞ KHOA HỌC VÀ CƠNG NGHỆ CHƯƠNG TRÌNH KHOA HỌC VÀ CÔNG NGHỆ CẤP THÀNH PHỐ BÁO CÁO TỔNG HỢP KẾT QUẢ NHIỆM VỤ NGHIÊN CỨU KHOA HỌC VÀ CÔNG NGHỆ NGHIÊN CỨU VÀ ĐỀ XUẤT THIẾT KẾ HẠ TẦNG TÍNH TOÁN HIỆU NĂNG CAO PHỤC VỤ CHO THÀNH PHỐ HỒ CHÍ MINH Chủ nhiệm nhiệm vụ: (ký tên) Thoại Nam Cơ quan chủ trì nhiệm vụ (ký tên đóng dấu) Thành phố Hồ Chí Minh- 2023 MỤC LỤC Danh mục hình 12 Danh mục bảng 19 Danh mục chữ viết tắt 20 Một số thuật ngữ dùng phổ biến 21 Chương Giới Thiệu 22 Chương Giải pháp hạ tầng tính tốn hiệu cao 27 1.1 Đặt vấn đề 27 1.2 Tổng quan tính tốn hiệu cao, liệu lớn trí tuệ nhân tạo 30 1.3 Nghiên cứu liên quan giới 34 1.3.1 Nghiên cứu liên quan nước 37 1.3.2 Nghiên cứu phát triển công nghệ lõi ứng dụng Trí tuệ nhân tạo: .38 1.3.2.1 Bài toán liệu: .39 1.3.2.2 Bài toán kiến trúc nơron: 40 1.3.2.3 Bài tốn lực tính tốn: 40 1.3.2.4 Bài toán người: .41 1.3.3 Hạ tầng tính tốn hiệu cao phục vụ phát triển AI: 42 1.4 Tổng hợp phân tích số liệu khảo sát trạng ứng dụng AI hệ thống máy tính phục vụ nghiên cứu phát triển ứng dụng TP.HCM 43 1.5 Phương án nâng cấp, kết nối chia sẻ hạ tầng tính tốn hiệu cao 51 1.5.1 Giải pháp kết nối chia sẻ hạ tầng tính tốn giới 51 1.5.1.1 Liên minh Châu Âu: 51 1.5.1.2 Cấp quốc tế 51 1.5.2 Giải pháp kết nối chia sẻ hạ tầng tính tốn hiệu cao cho thành phố 52 1.5.2.1 Giai đoạn I - Hạ tầng tính tốn hiệu cao thành phố 53 1.5.2.2 Giai đoạn II - Hạ tầng tính tốn hiệu cao quốc gia 54 1.5.2.3 Giai đoạn III - Tham gia hạ tầng tính tốn hiệu cao khu vực quốc tế 54 1.5.3 Đầu tư triển hạ tầng tính tốn hiệu cao cho thành phố 54 1.5.3.1 Phát triển Trung tâm tính tốn Hiệu cao Lớp II 54 1.5.3.2 Phát triển mạng lưới hệ thống máy tính mạnh Lớp III 55 1.5.3.3 Nghiên cứu xây dựng sách liên minh hạ tầng tính tốn hiệu cao 57 1.5.3.4 Chương trình Nghiên cứu phát triển hạ tầng tính tốn hiệu cao 58 1.6 Kết luận kiến nghị 59 Chương Kỹ thuật cơng nghệ tiên tiến tính tốn hiệu cao 60 2.1 Nghiên cứu, đánh giá kỹ thuật công nghệ xử lý tính tốn hiệu cao 60 2.1.1 Bộ xử lý tính tốn hiệu cao (HPC) từ Intel 61 2.1.2 Bộ xử lý tính tốn hiệu cao (HPC) từ AMD 65 2.1.3 Chip xử lý IBM POWER9 mang tính cách mạng 68 2.1.4 Khai phá tiềm ARM cho khối lượng công việc HPC 70 2.2 Nghiên cứu, đánh giá kỹ thuật cơng nghệ tính tốn gia tốc phổ dụng GPUs, Xeon Phi tính tốn hiệu cao AI 73 2.2.1 NVIDIA tăng tốc AI, Digital Twins, Máy tính lượng tử Edge HPC 73 2.2.2 AMD Instinct™ MI200 Series .78 2.2.3 Intel® GPU Xe 82 2.2.4 Sản phẩm Prodigy Tachyum 84 2.3 Nghiên cứu, đánh giá kỹ thuật công nghệ tính tốn tăng tốc chun dụng TPU, FPGAs tính tốn hiệu cao AI 86 2.3.1 Intel® FPGA để tăng tốc HPC .88 2.3.2 AMD Xilinx 90 2.4 Nghiên cứu, đánh giá kỹ thuật công nghệ NVM (Non-Volatile Memory) 93 2.4.1 Đặt vấn đề .93 2.4.2 Tổng quan cơng nghệ tính tốn nhớ khơng bốc Intel® Optane™ 97 2.4.3 Intel® Optane™ Persistent Memory 200 Series: 101 2.4.4 Thử nghiệm Optane DC .103 2.4.4.1 Thử nghiệm nhớ Optane Bộ nhớ (Main memory) 104 2.4.4.2 Thử nghiệm nhớ Optane Persistent Storage 106 2.4.4.3 Mơ-đun Bộ nhớ khơng bốc Intel® Optane ™ DC 108 2.4.5 Các hệ thống tính tốn hiệu cao sử dụng công nghệ nhớ NVM 113 2.4.6 Kết luận 114 2.5 Nghiên cứu mơ hình kết nối nút tính tốn đại cho hệ thống tính tốn hiệu cao 115 2.5.1 Các công nghệ kết nối mạng sử dụng HPC 115 2.5.2 Ethernet 115 2.5.3 InfiniBand 117 2.5.4 Các công nghệ khác 120 2.5.5 Các loại mơ hình kết nối mạng (InfiniBand Fabrics) 122 2.6 Nghiên cứu đề xuất mô hình kết nối nút tính tốn cho hệ thống tính toán hiệu cao 126 2.6.1 Cơ sở hạ tầng cho hệ thống tính tốn hiệu cao, phân tích liệu lớn trí tuệ nhân tạo .126 2.6.2 Công nghệ InfiniBand 128 2.6.3 Đặc điểm công nghệ InfiniBand 129 2.6.4 Mơ hình kết nối nút tính tốn đại cho hệ thống tính tốn hiệu cao Cấu trúc liên kết (Fabric) 132 2.6.4.1 Cấu trúc liên kết Fat-tree .133 2.6.4.2 Quy tắc thiết kế cụm Fat-Tree .133 2.6.4.3 Các tình chặn cho cụm quy mô nhỏ .134 2.6.5 Các thành phần phần cứng 135 2.6.5.1 Bộ chuyển mạch 135 2.6.5.2 Bộ điều hợp kênh (HCA) .136 2.6.5.3 Cáp 136 Chương Nghiên cứu đề xuất thiết kế phần cứng hệ thống tính tốn hiệu cao 137 3.1 Giải pháp hệ thống HPC kích thước nhỏ: “cỡ S” (Class S) 137 3.2 Giải pháp hệ thống HPC kích thước trung bình: “cỡ M” (Class M) 140 3.3 Giải pháp hệ thống HPC kích thước lớn: “cỡ L” (Class L) 144 3.4 Các giải pháp hệ thống HPC kích thước siêu lớn: “cỡ LL” (Class LL) 152 3.5 Thiết kế phần cứng module phân tích liệu lớn 152 3.5.1 Kiến trúc giải pháp .153 3.5.2 Cơ sở hạ tầng máy chủ 156 3.5.3 Kết luận 159 3.6 Nghiên cứu đề xuất thiết kế phần cứng module tính tốn trí tuệ nhân tạo 159 3.6.1 Kiến trúc hệ thống 160 3.6.1.1 Tăng tốc tính tốn dùng GPU 160 3.6.1.2 Huấn luyện suy luận 161 3.6.1.3 Kiến trúc lưu trữ 161 3.6.1.4 Kết nối mạng 162 3.6.2 Một số cấu hình Nút AI hệ thống đề nghị xác thực công ty công nghệ lớn hay nhà cung cấp 164 3.6.2.1 Một vài cấu hình xác thực Dell Technologies 164 3.6.2.2 Giải pháp tăng tốc AI HPE, Red Hat NVIDIA 165 3.6.3 Cấu hình đề xuất cho hệ thống HPC-BDA-AI .166 Chương Hệ lưu trữ cho hệ thống tính tốn hiệu cao 167 4.1 Hệ thống lưu trữ cho mơ-đun tính tốn hiệu cao 167 4.1.1 Yêu cầu 167 4.1.2 Khảo sát số hệ thống lưu trữ tiên tiến tương thích cho mơ-đun tính toán hiệu cao 168 4.1.2.1 Hệ thống lưu trữ Validated Designs Dell 168 4.1.3 Giải pháp lưu trữ liệu cho hệ thống tính tốn hiệu cao HPE 177 4.1.4 Đánh giá hiệu đề xuất .178 4.2 Hệ lưu trữ cho mơ-đun tính tốn liệu lớn 180 4.2.1 Yêu cầu 180 4.2.2 Hadoop 181 4.2.3 Apache Hadoop Distributed File System (HDFS) .182 4.2.4 Apache Spark .187 4.2.5 Data Lake .191 4.2.6 Kết luận 195 4.3 Hệ lưu trữ cho mơ-đun tính tốn trí tuệ nhân tạo 195 4.3.1 Yêu cầu 196 4.3.2 Dell EMC Isilon F800 197 4.3.3 Hệ thống lưu trữ Cray ClusterStor E1000 207 4.3.3.1 So sánh hiệu suất I/O: F800 so với Luster NFS .207 4.4 Kết luận 210 Chương Phần mềm hệ thống công cụ trang bị cho hệ thống tính tốn hiệu cao 211 5.1 Nghiên cứu đề xuất yêu cầu tổng thể lớp phần mềm hệ thống cho hệ thống tính tốn hiệu cao 211 5.1.1 Lớp phần mềm HPC .212 5.2 Hệ quản lý tài ngun cho hệ thống tính tốn hiệu cao 216 5.2.1 Bài tốn quản lý tài ngun hệ thống tính tốn hiệu cao .216 5.2.1.1 Tài ngun tính tốn 217 5.2.1.2 Công việc .218 5.2.1.3 Trình định thời .221 5.2.2 Vai trò việc quản lý tài nguyên cho hệ thống tính tốn hiệu cao .222 5.3 Nghiên cứu đề xuất yêu cầu cho giải pháp phần mềm quản lý tài ngun cho hệ thống tính tốn hiệu cao 223 5.3.1 Các yêu cầu giải pháp phần mềm quản lý tài ngun cho hệ thống tính tốn hiệu cao 224 5.3.2 Phân tích giải pháp phần mềm quản lý tài nguyên cho hệ thống tính tốn hiệu cao 228 5.3.2.1 Altair Grid Engine 228 5.3.2.2 PBS Professional 230 5.3.2.3 Slurm 234 5.3.2.4 LoadLeveler 235 5.3.2.5 IBM Spectrum LSF .237 5.3.3 Tổng kết 239 5.4 Dịch vụ tiện ích cho hệ thống tính tốn hiệu cao 240 5.4.1 Dịch vụ tiện ích cài đặt 240 5.4.2 Dịch vụ tiện ích quản trị 240 5.4.3 Dịch vụ tiện ích bảo mật 240 5.4.4 Dịch vụ tiện ích đánh giá hiệu hệ thống 240 5.4.5 Dịch vụ tiện ích điều hướng ứng dụng 241 5.5 Yêu cầu thư viện cơng cụ cho module tính tốn hiệu cao 241 5.5.1 Thư viện 241 5.5.1.1 Thư viện nâng cao 241 5.5.1.2 Thư viện chuyên biệt .241 5.6 Nghiên cứu đề xuất yêu cầu ảo hố cho hệ thống tính tốn hiệu cao 242 5.6.1 Giới thiệu ảo hóa hình thức ảo hóa 243 5.6.1.1 Ảo hóa sử dụng máy ảo (virtual machine) 246 5.6.1.2 Ảo hóa sử dụng container (ảo hóa hệ tiếp theo) 247 5.6.1.3 So sánh đánh giá ảo hóa máy ảo container .248 5.6.2 Các yêu cầu chung ảo hóa cho hệ thống tính tốn hiệu cao .249 5.6.3 Tổng kết 251 Chương Nghiên cứu đề xuất u cầu mơ-đun hỗ trợ cho hệ thống tính toán hiệu cao 252 6.1 Kết nối người dùng từ xa vào hệ thống tính toán hiệu cao 252 6.1.1 Quản lý tài khoản người dùng cho phép người dùng truy cập vào hệ thống .252 6.1.2 Giải pháp hệ thống SuperNode-XP .254 6.1.2.1 Mơ hình hệ thống chức cần thiết .254 6.1.2.2 Giải pháp cấp tài khoản node tính tốn vật lý SuperNode-XP .255 6.1.2.3 Giải pháp cấp quản lý tài khoản máy ảo 257 6.1.2.4 Giải pháp cấp quản lý tài khoản Docker 258 6.1.3 Đánh giá hiệu suất hệ thống quản trị tài khoản người dùng 258 6.1.3.1 Đánh giá giải pháp máy vật lý kết hợp với chức truy xuất liệu: 258 6.1.3.2 Đánh giá giải pháp máy ảo kết hợp với chức truy xuất liệu: .263 6.1.3.3 Đánh giá giải pháp Docker kết hợp với chức truy xuất liệu: .264 6.1.4 Cách thức kết nối từ xa hệ thống tính tốn hiệu cao 265 6.1.4.1 Đăng nhập từ xa dùng chương trình ssh 265 6.1.4.2 Mật 266 6.1.4.3 Giao diện Login-Web 266 6.2 Yêu cầu kết nối liệu vào hệ thống tính toán hiệu cao 267 6.2.1 Quản lý tập tin I/O 267 6.2.2 Giải pháp hạn ngạch đĩa .269 6.2.3 Sao lưu 269 6.2.4 Hiệu suất I/O 270 6.2.5 Truyền liệu 271 6.2.5.1 Lệnh scp 271 6.2.5.2 Lệnh rsync .271 6.2.5.3 SSHFS 271 6.2.6 Cân nhắc hiệu suất 272 6.3 Yêu cầu bảo mật hệ thống tính tốn hiệu cao 272 6.3.1 Đặt vần đề 272 6.3.2 Triển khai vận hành giải pháp bảo mật hệ thống 273 6.3.3 Tổng quan bảo mật mơi trường tính toán hiệu cao (HPC) 273 6.3.4 Rủi ro bảo mật mơi trường tính tốn hiệu cao (HPC) 274 6.3.5 Kế hoạch thực cho bảo mật hệ thống tính tốn hiệu cao .276 6.3.5.1 Các trường hợp sử dụng HPC 277 6.3.6 Các biện pháp bảo mật HPC 278 6.3.6.1 Quản lý rủi ro 279 6.3.6.2 Thách thức mối đe dọa nội 281 6.3.6.3 Các chiến lược để thu hẹp lỗ hổng bảo mật HPC 282 6.3.7 Chương trình khung cho bảo mật hệ thống HPC .283 6.3.7.1 Phân tích mối đe dọa chia sẻ thơng tin .284 6.3.7.2 Làm việc với danh mục mối đe dọa 284 6.3.7.3 Các phương pháp đề xuất học kinh nghiệm .284 6.3.8 An ninh hệ thống Trung tâm HPC 285 6.3.9 Các công nghệ, kỹ thuật sử dụng để bảo mật trung tâm liệu 286 6.3.9.1 Tường lửa mạng cục 286 6.3.9.2 Phần mềm diệt virus 287 6.3.9.3 Hệ thống phát xâm nhập cục / ngăn chặn xâm nhập 287 6.3.9.4 Bảo vệ từ chối dịch vụ phân tán 288 6.3.9.5 Honeypots 289 6.3.9.6 Phần mềm ngăn ngừa liệu / Rò rỉ liệu 289 6.3.9.7 Phân đoạn mạng - Khu phi quân sự, Mạng LAN ảo .290 6.3.9.8 Xác thực 291 6.3.9.9 Quy trình ứng phó cố 291 6.3.9.10 Thực tiễn tại trung tâm HPC 291 6.3.10 Khuyến nghị 292 6.3.11 Các mối đe dọa bảo mật hệ thống HPC 294 6.3.12 Các thách thức bảo mật hệ thống HPC 294 6.3.13 Các giải pháp bảo mật hệ thống HPC 295 6.3.14 Đề xuất 295 6.4 Kết luận 297 6.5 Nghiên cứu đề xuất yêu cầu hạ tầng lắp đặt hệ thống tính tốn hiệu cao 298 6.5.1 Các yêu cầu cụ thể đề xuất hệ thống .299 6.5.1.1 Hạ tầng kỹ thuật phòng máy chủ 299 6.5.1.2 Hệ thống sàn nâng 300 6.5.1.3 Tác dụng sàn nâng 301 6.5.1.4 Hệ thống đèn chiếu sáng ổ cắm điện 302 6.5.1.5 Hệ thống tủ chứa thiết bị RACK & PDU 302 6.5.1.6 Các hạ tầng khác 303 6.6 Nghiên cứu đề xuất hạ tầng điện cho trung tâm liệu lắp đặt hệ thống tính tốn hiệu cao 304 6.6.1 Hệ thống điện phòng máy chủ .304 6.6.2 Hệ thống chống sét lan truyền nguồn điện 305 6.7 u cầu hạ tầng làm mát hệ thống tính tốn hiệu cao 306 6.7.1 Hệ thống máy lạnh .306 6.7.1.1 Hệ thống giải nhiệt cho máy chủ .306 6.7.1.2 Hệ thống chữa cháy báo cháy tự động 308 6.7.1.3 Hệ thống giám sát môi trường .308 6.7.1.4 Hệ thống kiểm soát vào Accesscontrol .309 6.7.1.5 Hệ thống Camera giám sát 310 6.7.2 Cơng tác bảo trì bảo đưỡng 311 6.7.2.1 Với hệ thống điện: 311 6.7.2.2 Với hệ thống lạnh: 311 6.7.2.3 Các hệ thống báo cháy, báo trộm 311 6.7.2.4 Hệ thống máy chủ 311 Chương Nghiên cứu đề xuất chế vận hành hệ thống tính tốn hiệu cao & phát triển nhân lực 312 7.1 Đặt vấn đề 312 7.2 Phân tích đề xuất giải pháp sử dụng hệ thống tính tốn hiệu cao 313 7.2.1 Chính sách sử dụng phù hợp 313 7.2.2 Nhóm người dùng việc tạo tài khoản 313 10 Các khoá học hoạt động liên quan HPC phát triển hàng năm qua hội thảo quốc tế: EduHPC, EduPAR, EuroEduPAR Kết tăng thêm số lượng khố học chương trình đào tạo, hoà nhập chuyên gia lĩnh vực khác việc chạy mô hệ thống HPC Đa số chương trình mơ HPC sử dụng thư viện sẵn có GROMACS [56], LAMMPS [57], OpenFOAM [58], ANSYS [91], v.v Hiện có nhu cầu cao chương trình đào tạo cơng nghệ tính tốn gia tốc GPU sử dụng HPC phân tích liệu (HPDA) Kiến thức đào tạo đề xuất cho nhóm AE sau: Nội dung HPC Application HPC application domains C, C++, Fortran, Java HPC system Portal HPC system policies User support tools Processing service AI Big Data AI application domains Python, R Big data application domains Scala PETSc, ANSYS, GROMACS, OpenFOAM TensorFlow, PyTorch, Caffee, GNN CUDA, OpenACC ML tools: Scikit-learn, BigDL Map/Reduce & Hadoop Spark Communication OpenMP MPI, PGAS RDMA Machine Learning Scaling Library (MLSL) Numerical libs (dense LA) NumPy Data streaming Kafka Resource Management PBS Pro, Slurm, Kubernetes Storage NFS, GFS, PFS, Luster, BeeGFS System OS (Linux), script language, process & threads, compilers FTP, SSH, HTTP, WinSCP, PuTTy Infastructure CPUs (multi-core) GPUs (many-core) Background P&D computing Simulation Virtualization: VMs, Containers Computer network & Security Machine Learning Deep Learning YARN, ZooKeeper Notebooks Hbase, S3 HDFS, Cassandra, MongoDB Big Data Data Warehouse, Data lake, Lakehouse * Ghi chú: nội dung in nghiêng không cần hiểu sâu 7.6 Kết luận kiến nghị Nghiên cứu đề xuất chế vận hành toàn hệ thống tính tốn hiệu cao thực chương Hệ thống HPC phục vụ công tác nghiên cứu phát triển & phục vụ triển khai ứng dụng (AI, Big data, HPC) thử nghiệm không cung cấp dịch vụ (khơng 337 hosting cho ứng dụng) Ngồi ra, hệ thống HPC cung cấp nơi lưu trữ liệu phục vụ nghiên cứu phát triển ứng dụng (AI, Big data, HPC) Đối tượng sử dụng nên mở rộng bao gồm đơn vị từ đại học, viện nghiên cứu, đơn vị thành phố có nhu cầu doanh nghiệp Mở cho phép đối tượng nhà nước, đại học phép sử dụng miễn phí; doanh nghiệp phép sử dụng trả mức phí cạnh tranh so với thuê dịch vụ Google, Amazon, Microsoft Chính sách giới hạn tài nguyên sử dụng hệ thống HPC cần thiết Ngồi ra, cơng cụ giám sát có khả giám sát thời gian tài nguyên sử dụng để giới hạn mức sử dụng đối tượng miễn phí sử dụng tính phí đối vối đối tượng trả phí Đầu tư đường truyền hệ thống điện chuẩn & đội ngũ kỹ thuật hỗ trợ kỹ thuật 24/7 Đối tượng sử dụng phải đăng ký trình kế hoạch công việc/ đề tài/ dự án cần sử dụng hệ thống HPC Quy trình phê duyệt, chấp thuận yêu cầu phải xây dựng Quá trình người sử dụng hoạt động hệ thống HPC phải giám sát Công nghệ phần cứng phần mềm liên tục thay đổi chu kỳ cơng nghệ ngày ngắn Hệ thống HPC không đáp ứng nhu cầu sử dụng sách tái đầu tư phù hợp Việc nâng cấp hàng năm định kỳ thay đổi lớn điều bắt buộc Thành phố cần có sách ngân sách cho vấn đề muốn phát triển hạ tầng HPC Để khai thác hệ thống HPC hiệu nhân vận hành khơng thể thiếu Ba (03) nhóm nhân lực hệ thống HPC phân tích vai trị rõ ràng chương này: (1) Quản trị viên hệ thống HPC (HPC System Administration – HPC Admin; (2) Chuyên gia phát triển ứng dụng (Application Development Experts - AE): nhóm chuyên phát triển & chạy ứng dụng hệ thống HPC nên cần có kiến thức cách sử dụng hệ thống HPC; (3) Chuyên gia hỗ trợ phát triển ứng dụng (Application Development Support Experts – AS) Việc xây dựng đào tạo nhân lực cần quan tâm Nhóm AE thường đào tạo chương trình sau đại học trường đại học Trong cần có tổ chức đặc biệt phối hợp đại học hàng đầu hợp tác quốc tế với tổ chức chun mơn để cung cấp đào tạo cho nhóm AS Nhóm nhân lực đặc biệt HPC Admin đào tạo theo mơ hình tập kết hợp với khoá đào tạo đặc biệt Phải tạo điều cho ba nhóm có hội trao dồi kiến thức thông qua hội thảo quốc tế, khố đào tạo cập nhật cơng nghệ công nghiệp Do công nghệ phần cứng, phần mềm, hệ thống thay đổi liên tục nên đòi hỏi việc huấn luyện đào tạo lại cho nhân cần diễn định kì tuỳ theo tích luỹ cơng nghệ giới nhu cầu đơn vị Chu kì liên tục 03, 06 hay 12 tháng đào tạo liên tục nhân 03 vị trí với khoá học ngắn hạn cập nhật kiến thức, gửi nhân 338 tham gia thực tập học tập trường/viện thành phố có hệ thống HPC, đào tạo qua hội thảo/hội nghị vào thời gian thích hợp năm (ví dụ: hội thảo kết hợp từ công ty HPE/IBM/Microsoft, trường hè HPC, AI, Big Data từ chuyên gia đại học cơng ty hướng dẫn,…) Hay chương trình đào tạo nhân sau đại học (Thạc sĩ Tiến sĩ) hướng HPC, AI, Khoa học Máy tính, Khoa học liệu, An ninh mạng, Liên ngành, chuyên ngành ứng dụng Thành phố quan tâm (Toán ứng dụng, Tin sinh học, Vật lý, Môi trường, Năng lượng mới, v.v.) trường/viện thuộc Đại học Quốc Gia Thành phố Hồ Chí Minh Kiến nghị thành phố có chương trình hỗ trợ đào tạo ngắn hạn dài hạn cho nhân liên quan với kinh phí từ thành phố giai đoạn 2023-2030 339 Chương Kết luận Trong chương trình "Nghiên cứu phát triển ứng dụng trí tuệ nhân tạo thành phố Hồ Chí Minh giai đoạn 2020-2030 nhiệm vụ đặt là: “Đầu tư hạ tầng tính tốn hiệu cao phục vụ hệ sinh thái trí tuệ nhân tạo bao gồm nghiên cứu ứng dụng trí tuệ nhân tạo phục vụ quan, đơn vị sở đào tạo, nghiên cứu trí tuệ nhân tạo tạo thành phố Hồ Chí Minh” Việc đề xuất giải pháp phát triển hạ tầng tính tốn hiệu cao cho thành phố trình bày đề tài Qua khảo sát đơn vị thành phố từ đại học, viện nghiên cứu doanh nghiệp hệ thống tính tốn hiệu cao quan trọng hệ thống máy tính yếu Trong nhóm đại học ĐHBK-ĐHQG-HCM có hệ thống SuperNode-XP xây dựng từ năm 2015 nâng cấp dự án PTN Khoa học liệu từ 2018 để hỗ trợ tính tốn hiệu cao, phân tích liệu lớn trí tuệ nhân tạo Đại học KHTN – ĐHQG-HCM, Đại học SPKT Thủ Đức có số nút tính tốn phục vụ phát triển nghiên cứu trí tuệ nhân tạo Các trường khác có nhu cầu hệ thống máy tính gần chưa có Ở cơng nghiệp, VIN Group, VNPT, Viettel có hạ tầng tính tốn riêng cho doanh nghiệp hạ tầng tính tốn lại đặt Hà Nội; khơng phải TP.HCM Hạ tầng chia sẻ cho doanh nghiệp vừa nhỏ có nhu cầu TP.HCM Việc phát triển hạ tầng tính tốn hiệu cao cho thành phố để thúc đẩy phát triển nghiên cứu hỗ trợ công nghiệp cần thiết Kiến trúc giải pháp phát triển hạ tầng tính tốn tính toán cho thành phố đề xuất với ba (03) giai đoạn Trong Giai đoạn I, thành phố nên xem xét đầu tư trung tâm tính tốn hiệu cao chủ lực với hệ thống tính tốn hiệu cao đủ mạnh mức II đóng vai trị trung tâm kết nối (specialist hub) nút tính tốn mức III đơn vị khác đại học, viện nghiên cứu doanh nghiệp Giai đoạn II, nâng tầm trung tâm tính tốn hiệu cao thành phố lên mức I cấp quốc gia; tham gia liên kết khu vực quốc tế Giai đoạn III Các vấn đề liên quan đến kiến trúc giải pháp phát triển hạ tầng tính tốn hiệu cao cho thành phố đề xuất Giải pháp thúc đẩy phát triển nút tính toán Lớp III phát triển mạng lưới liên minh cần thiết Để thúc đẩy giải vấn đề này, chương trình nghiên cứu phát triển hạ tầng tính tốn hiệu cao với ba (03) toán lớn đề xuất: (1) Bài toán 1: Hệ thống phần mềm trang bị cho hệ thống máy tính mạnh đặt Trung tâm tính tốn hiệu cao thành phố; (2) Bài toán 2: Hệ thống phần mềm liên kết nhiều máy tính Lớp III với hệ thống tính tốn hiệu cao thành phố Lớp II chia sẻ tài nguyên cho người sử dụng; (3) Bài toán 3: Nghiên cứu giải pháp công cụ giúp 340 chạy tốn lớn nhiều máy tính hệ thống máy tính nhiều hệ thống máy tính mạnh Việc phát triển hệ thống tính tốn hiệu cao đáp ứng nhu cầu tính tốn hiệu cao, phân tích liệu lớn mà chạy tốn trí tuệ nhân tạo đặt tốn khó cần giải Xây dựng hệ thống máy tính mạnh khơng đơn giản mua sắm phần cứng mà cần lộ trình từ thiết kế kiến trúc phần cứng & phần mềm, quy chế vận hành, tái đầu tư phát triển nhân lực vận hành & hỗ trợ khai thác hệ thống máy tính mạnh tập huấn cho người sử dụng Các tốn phân tích giải đề tài Ba mơ-đun tính tốn hiệu cao (HPC), phân tích liệu lớn (BD) tính tốn trí tuệ nhân tạo (AI) nghiên cứu đề xuất cấu hình phần cứng Bộ xử lý nhiều lõi (core) phù hợp cho ứng dụng tính tốn hiệu cao; xử lý liệu lớn khơng địi hỏi xử lý mạnh cần nhớ (RAM) lớn băng thông cao độ trễ thấp; xử lý gia tốc đồ hoạ GPU lại phù hợp cho tính tốn trí tuệ nhân tạo Phần chuyển mạch lõi đóng vai trị quan trọng điểm khác biệt xây hệ thống máy tính lớn so với xây dựng mộthệ thống máy tính Kiến trúc chuyển mạch lõi dạng Fat-Tree phù hợp kích cỡ hệ thống máy tính vừa nhỏ Hơn giải pháp có tính mở rộng nâng cấp sau thuận lợi Giải pháp lưu trữ dành cho ba (03) mô-đun HPC, BD AI giới thiệu Giải pháp phần cứng đề xuất cập nhật với xu công nghệ NVRAM khuyến cáo nên sử dụng hệ thống máy tính mạnh Bản thiết kế kỹ thuật phát triển với hai (02) quy mô hệ thống máy tính khác để phù hợp cho chiến lược phát triển hạ tầng tính tốn hiệu cao thành phố Lớp II đơn vị Lớp III Để khai thác chia sẻ hiệu hệ thống tính tốn hiệu cao cho nhiều người sử dụng sách vận hành, vài trị trách nhiệm quyền hạn người/nhóm người sử dụng phân tích đề xuất giải pháp vận hành cho hệ thống tính tốn hiệu cao Việc sử dụng hệ thống miễn phí hay thu phí phải có sách rõ ràng Nếu thu phí mức phải thấp để hỗ trợ người sử dụng/doanh nghiệp có hội phát triển ứng dụng khả cạnh tranh lĩnh vực ứng dụng công nghệ tiên tiến tính tốn hiệu cao, phân tích liệu lớn trí tuệ nhân tạo Hệ thống HPC hệ thống máy tính đắc tiền với cơng nghệ tiên tiến phải sát với nhu cầu sử dụng người khai thác Cơng nghệ tiên tiến phát triển nhanh đặc biệt lĩnh vực tính tốn hiệu cao Vì việc đầu tư phát triển hạ tầng tính tốn hiệu cao nói chung hay hệ thống HPC nói riêng khơng thể có dự án đầu tư lần giải vấn đề Để việc thành cơng cần sách đầu tư dài hạn phân 341 kỳ đầu tư thời điểm Một lộ trình nội dung hạng mục yếu cần đầu tư cho trung tâm tính tốn hiệu cao có hệ thống HPC phân tích trình bày giải pháp tổng thể cho thành phố Đầu tư hệ thống HPC hệ sau 5-6 năm kèm với đầu tư nâng cấp hệ thống HPC 2-3 năm đầu tư giải nhu cầu sử duạng hàng năm Lưu ý đầu tư mua sắm phần cứng mà quyền phần mềm chi phí khác đường truyền, điện-nước, v.v Việc đào tạo nhân lực vận hành khai thác hệ thống tính tốn hiệu cao cần quan tâm triển khai sớm Có ba (03) nhóm nhân sự: (1) nhân vận hành hệ thống tính tốn hiệu cao; (2) nhân hỗ trợ phát triển ứng dụng hệ thống tính tốn hiệu cao; (3) nhân lực sử dụng phát triển ứng dụng Vai trị kiến thức cần có nhóm phân tích Từ kinh nghiệm đào tạo nước khác trạng thành phố, nội dung đào tạo huấn luyện phù hợp đề xuất Giải pháp sử dụng dịch vụ điện toán đám mây hiệu cao (HPC Cloud) giúp giảm thiểu rủi ro đầu tư vận hành Hiện số cơng ty lớn nước ngồi cung cấp giải pháp nhiên vấn đề an ninh thông tin cần quan tâm máy chủ tính tính đặt ngồi nước Nếu có đơn vị đủ lực để cung cấp HPC Cloud từ phần cứng đến phần mềm theo yêu cầu nhà đầu tư triển khai thành phố lựa chọn nên xem xét Đề tài nghiên cứu hoàn tất mục tiêu nội dung đặt Kết cho thấy tranh toàn diện có nhìn sâu việc phát triển hạ tầng tính tốn hiệu cao cho thành phố ngắn hạn dài hạn Các toán liên quan đến chiến lược hệ thống tính tốn hiệu cao, đào tạo nhân lực, xây dựng liên minh tính toán hiệu cao cần xem xét phát triển có kế hoạch thành phố có điều kiện thuận lợi để thúc đẩy phát triển nhiều lĩnh vực khác hầu hết cần đến hạ tầng tính toán hiệu cao 342 Tài liệu tham khảo [1] M T Chung, K Pham, N Thoai, and D Kranzlmueller, “A new approach for scheduling job with the heterogeneity-aware resource in HPC systems,” Proc - 21st IEEE Int Conf High Perform Comput Commun 17th IEEE Int Conf Smart City 5th IEEE Int Conf Data Sci Syst HPCC/SmartCity/DSS 2019, pp 1900–1907, 2019, doi: 10.1109/HPCC/SmartCity/DSS.2019.00262 [2] J Dongarra, T Sterling, H Simon, and E Strohmaier, “High-Performance Computing: Clusters, Constellations, MPPs, and Future Directions,” Comput Sci Eng., vol 7, no 2, pp 51–59, Mar 2005, doi: 10.1109/MCSE.2005.34 [3] J Dongarra, I A N Foster, G Fox, W Gropp, K E N Kennedy, and L Torczon, SOURCE BOOK OF PARALLEL COMPUTING 2003 [4] W Gropp, E Lusk, and T Sterling, Beowulf Cluster Computing with Linux, Second Edition, vol 2003 The MIT Press, 2005 [5] V Gupta, A Ranadive, A Gavrilovska, and K Schwan, “Benchmarking Next Generation Hardware Platforms: An Experimental Approach,” Cc.Gatech.Edu, Accessed: Aug 17, 2013 [Online] Available: http://www.cc.gatech.edu/grads/a/adit262/docs/Nectere-SHAW2012.pdf [6] B Feng, Y Wang, T Geng, A Li, and Y Ding, “APNN-TC: Accelerating arbitrary precision neural networks on ampere GPU tensor cores,” Int Conf High Perform Comput Networking, Storage Anal SC, 2021, doi: 10.1145/3458817.3476157 [7] N Quang-Hung, A.-T N Tran, and N Thoai, “Distributed Genetic Algorithm on Cluster of Intel Xeon Phi Co-processors,” in Future Data and Security Engineering FDSE 2018, 2018, pp 463–470 [8] B Betkaoui, D Thomas, and W Luk, “Comparing performance and energy efficiency of FPGAs and GPUs for high productivity computing,” … Technol (FPT), 2010 …, pp 94–101, Dec 2010, doi: 10.1109/FPT.2010.5681761 [9] F Yin and F Shi, A Comparative Survey of Big Data Computing and HPC: From a Parallel Programming Model to a Cluster Architecture, vol 50, no Springer US, 2022 [10] R Farber, “AI-HPC www.insidehpc.com is Happening Now,” 2017, [Online] Available: [11] M Abadi et al., “TensorFlow: A System for Large-Scale Machine Learning,” in 12th USENIX Symposium on Operating Systems Design and Implementation, 2016, pp 265– 283, [Online] Available: https://www.usenix.org/system/files/conference/ osdi16/osdi16-abadi.pdf [12] G Ramirez-Gargallo, M Garcia-Gasulla, and F Mantovani, “TensorFlow on State-ofthe-Art HPC Clusters: A Machine Learning use Case,” in 2019 19th IEEE/ACM International Symposium on Cluster, Cloud and Grid Computing (CCGRID), May 2019, pp 526–533, doi: 10.1109/CCGRID.2019.00067 [13] T Chen et al., “Mxnet: A flexible and efficient machine learning library for heterogeneous distributed systems,” arXiv Prepr arXiv1512.01274, 2015 [14] B Armosky et al., “HPC University,” 2007 [Online] https://www.rcac.purdue.edu/files/publications/HPC_University.pdf 343 Available: [15] Á Fernández, C Fernández, J.-Á Miguel-Dávila, and M Á Conde, “Integrating supercomputing clusters into education: a case study in biotechnology,” J Supercomput., vol 77, no 3, pp 2302–2325, Mar 2021, doi: 10.1007/s11227-02003360-5 [16] A Antonov, N Popova, and V Voevodin, “Computational science and HPC education for graduate students: Paving the way to exascale,” J Parallel Distrib Comput., vol 118, pp 157–165, Aug 2018, doi: 10.1016/j.jpdc.2018.02.023 [17] R Trobec, B Slivnik, P Bulić, and B Robič, Introduction to Parallel Computing Cham: Springer International Publishing, 2018 [18] A Younts and S L Harrell, “Teaching HPC Systems Administrators,” J Comput Sci Educ., vol 11, no 1, pp 100–105, Jan 2020, doi: 10.22369/issn.2153-4136/11/1/16 [19] L A Barroso, J Clidaras, and U Hölzle, “The datacenter as a computer: An introduction to the design of warehouse-scale machines,” Synth Lect Comput Archit., vol 8, no 3, pp 1–154, 2013, doi: 10.2200/S00193ED1V01Y200905CAC006 [20] P Schwan, “Lustre: Building a File System for 1,000-node Clusters,” Proc Linux Symp., pp 401–409, 2003 [21] N Moti et al., “Simurgh: A fully decentralized and secure nvmm user space file system,” Int Conf High Perform Comput Networking, Storage Anal SC, 2021, doi: 10.1145/3458817.3476180 [22] J Ghorpade, “GPGPU Processing in CUDA Architecture,” Adv Comput An Int J., vol 3, no 1, pp 105–120, 2012, doi: 10.5121/acij.2012.3109 [23] L S Blackford et al., “An Updated Set of Basic Linear Algebra Subprograms (BLAS),” ACM Trans Math Softw., vol 28, no 2, pp 135–151, 2002, doi: 10.1145/567806.567807 [24] E Anderson et al., “LAPACK: A Portable Linear Algebra Library for High Performance Computers,” pp 1–27, 1994 [25] J Demmel, “LAPACK: a portable linear algebra library for supercomputers,” in IEEE Control Systems Society Workshop on Computer-Aided Control System Design, pp 1– 7, doi: 10.1109/CACSD.1989.69824 [26] J A Herdman et al., “Accelerating Hydrocodes with OpenACC, OpenCL and CUDA,” in 2012 SC Companion: High Performance Computing, Networking Storage and Analysis, Nov 2012, pp 465–471, doi: 10.1109/SC.Companion.2012.66 [27] D B Kirk and C Scientist, “High Performance Computing,” Processing, vol 1, pp 48–57, 2008, doi: 10.1007/978-3-540-77304-7 [28] J Cong and B Yuan, “Energy-efficient scheduling on heterogeneous multi-core architectures,” in Proceedings of the 2012 ACM/IEEE international symposium on Low power electronics and design - ISLPED ’12, 2012, p 345, doi: 10.1145/2333660.2333737 [29] Y Yan and B Chapman, “Comparative Study of Distributed Resource Management Systems – SGE, LSF, PBS Pro, and LoadLeveler,” pp 1–19, 2005 [30] L Clarke, I Glendinning, and R Hempel, “The MPI Message Passing Interface Standard,” in Programming Environments for Massively Parallel Distributed Systems, Basel: Birkhäuser Basel, 1994, pp 213–218 [31] N Sultana, M Rüfenacht, A Skjellum, P Bangalore, I Laguna, and K Mohror, 344 “Understanding the use of message passing interface in exascale proxy applications,” Concurr Comput Pract Exp., vol 33, no 14, Jul 2021, doi: 10.1002/cpe.5901 [32] Y Zheng, A Kamil, M B Driscoll, H Shan, and K Yelick, “UPC++: A PGAS Extension for C++,” in 2014 IEEE 28th International Parallel and Distributed Processing Symposium, May 2014, pp 1105–1114, doi: 10.1109/IPDPS.2014.115 [33] S R Paul et al., “A Unified Runtime for PGAS and Event-Driven Programming,” in 2018 IEEE/ACM 4th International Workshop on Extreme Scale Programming Models and Middleware (ESPM2), Nov 2018, pp 46–53, doi: 10.1109/ESPM2.2018.00010 [34] D Jones, How you teach Systems Administration 2018 [35] D Akin et al., “Linux Clusters Institute Workshops,” in Proceedings of the HPC Systems Professionals Workshop, Nov 2017, pp 1–8, doi: 10.1145/3155105.3155108 [36] S L Harrell, H A Nam, V G V Larrea, K Keville, and D Kamalic, “Student cluster competition: A Multi-disciplinary Undergraduate HPC Educational Tool,” in Proceedings of the Workshop on Education for High-Performance Computing EduHPC ’15, 2015, pp 1–8, doi: 10.1145/2831425.2831428 [37] “SC17: Student Cluster Competition.” https://sc17.supercomputing.org/studentssc/student-cluster-competition/index.html (accessed May 25, 2022) [38] D Akin et al., “Linux clusters institute workshops: Building the HPC and research computing systems professionals workforce,” Proc HPCSYSPROS 2017 HPC Syst Prof Work Held conjunction with SC 2017 Int Conf High Perform Comput Networking, Storage Anal., vol 2017, 2017, doi: 10.1145/3155105.3155108 [39] N Marz and J (James O Warren, Big data : principles and best practices of scalable real-time data systems Simon and Schuster, 2015 [40] J Dean and S Ghemawat, “MapReduce : Simplified Data Processing on Large Clusters,” Commun ACM, vol 51, no 1, pp 107–113 [41] M R Ghazi and D Gangodkar, “Hadoop, MapReduce and HDFS: A Developers Perspective,” Procedia Comput Sci., vol 48, pp 45–50, 2015, doi: 10.1016/j.procs.2015.04.108 [42] L Lefèvre and A.-C Orgerie, “Designing and evaluating an energy efficient Cloud,” J Supercomput., vol 51, no 3, pp 352–373, Mar 2010, doi: 10.1007/s11227-010-04142 [43] C.-M Wu, R.-S Chang, and H.-Y Chan, “A green energy-efficient scheduling algorithm using the DVFS technique for cloud datacenters,” Futur Gener Comput Syst., Jun 2013, doi: 10.1016/j.future.2013.06.009 [44] T Dubuc, F Stahl, and E B Roesch, “Mapping the Big Data Landscape: Technologies, Platforms and Paradigms for Real-Time Analytics of Data Streams,” IEEE Access, vol 9, pp 15351–15374, 2021, doi: 10.1109/ACCESS.2020.3046132 [45] S Penchikala, “Big Data Processing with Apache Spark - Part 5: Spark ML Data Pipelines This,” InfoQ, pp 1–16, 2016, Accessed: Jan 02, 2022 [Online] Available: https://books.google.com.vn/books?hl=vi&lr=&id=eodaDwAAQBAJ&oi=fnd&pg=P A5&dq=apache+spark&ots=HIgVTNyAms&sig=wRMX36mGFzXKonTyeSCLEqe1_E&redir_esc=y#v=onepage&q=apache spark&f=false [46] Y Jiang, Y Zhu, C Lan, B Yi, Y Cui, and C Guo, “Unified Architecture for 345 Accelerating Distributed DNN Training,” 2020 [47] “Virtual Residency Introductory Workshop 2015,” OU Supercomputing Center for Education & Research, 2015 http://www.oscer.ou.edu/virtualresidency2015.php (accessed May 30, 2022) [48] “Virtual Residency Introductory Workshop 2017,” http://www.oscer.ou.edu/virtualresidency2017.php (accessed May 30, 2022) 2017 [49] “Virtual Residency Intermediate/Advanced Workshop 2018,” OU Supercomputing Center for Education & Research, 2018 http://www.oscer.ou.edu/virtualresidency2018.php (accessed May 30, 2022) [50] T Al-Jody, H Aagela, and V Holmes, “Inspiring the Next Generation of HPC Engineers with Reconfigurable, Multi-Tenant Resources for Teaching and Research,” Sustainability, vol 13, no 21, p 11782, Oct 2021, doi: 10.3390/su132111782 [51] B Ferdinandy, Á M Guerrero-Higueras, É Verderber, F J Rodríguez-Lera, and Á Miklósi, “Exploratory study of introducing HPC to non-ICT researchers: institutional strategy is possibly needed for widespread adaption,” J Supercomput., vol 77, no 5, pp 4317–4331, May 2021, doi: 10.1007/s11227-020-03438-0 [52] J Guo and B Li, “The Application of Medical Artificial Intelligence Technology in Rural Areas of Developing Countries,” Heal Equity, vol 2, no 1, pp 174–181, Aug 2018, doi: 10.1089/heq.2018.0037 [53] D Lee and S N Yoon, “Application of Artificial Intelligence-Based Technologies in the Healthcare Industry: Opportunities and Challenges,” Int J Environ Res Public Health, vol 18, no 1, p 271, Jan 2021, doi: 10.3390/ijerph18010271 [54] D D’Hotman and E Loh, “AI enabled suicide prediction tools: a qualitative narrative review,” BMJ Heal Care Informatics, vol 27, no 3, p e100175, Oct 2020, doi: 10.1136/bmjhci-2020-100175 [55] V Vladimir and G Victor, “SUPERCOMPUTING EDUCATION: THE THIRD PILLAR OF HPC.” pp 1–9, 2018 [56] D Van Der Spoel, E Lindahl, B Hess, G Groenhof, A E Mark, and H J C Berendsen, “GROMACS: Fast, flexible, and free,” J Comput Chem., vol 26, no 16, pp 1701–1718, Dec 2005, doi: 10.1002/jcc.20291 [57] H Chávez Thielemann et al., “From GROMACS to LAMMPS: GRO2LAM,” J Mol Model., vol 25, no 6, p 147, Jun 2019, doi: 10.1007/s00894-019-4011-x [58] G Chen, Q Xiong, P J Morris, E G Paterson, A Sergeev, and Y.-C Wang, “OpenFOAM for Computational Fluid Dynamics,” Not Am Math Soc., vol 61, no 4, p 354, 2014, doi: 10.1090/noti1095 [51] G P Rodrigó Alvarez and P Thesis, “HPC Scheduling in a Brave New World,” 2017 [52] M P Forum, “MPI: A Message-Passing Interface Standard,” University of Tennessee, USA, 1994 [53] L Dagum and R Menon, “OpenMP: An Industry-Standard API for Shared-Memory Programming,” IEEE Comput Sci Eng., vol 5, no 1, pp 46–55, Jan 1998, doi: 10.1109/99.660313 [54] D G Feitelson, D Tsafrir, and D Krakov, “Experience with using the Parallel Workloads Archive,” J Parallel Distrib Comput., vol 74, no 10, pp 2967–2982, 2014, doi: 10.1016/J.JPDC.2014.06.013 346 [55] D G Feitelson, D Tsafrir, and D Krakov, “Experience with using the Parallel Workloads Archive,” J Parallel Distrib Comput., vol 74, no 10, pp 2967–2982, 2014, doi: https://doi.org/10.1016/j.jpdc.2014.06.013 [56] A B Yoo, M A Jette, and M Grondona, “Slurm: Simple linux utility for resource management,” in Workshop on Job Scheduling Strategies for Parallel Processing, 2003, pp 44–60 [57] D Merkel, “Docker: Lightweight Linux Containers for Consistent Development and Deployment,” Linux J., vol 2014, no 239, Mar 2014 [58] D G Feitelson, D Tsafrir, and D Krakov, “Experience with using the Parallel Workloads Archive,” J Parallel Distrib Comput., vol 74, no 10, pp 2967–2982, 2014, doi: 10.1016/J.JPDC.2014.06.013 [59] J Guo, A Nomura, R Barton, H Zhang, and S Matsuoka, “Machine learning predictions for underestimation of job runtime on HPC system,” Lect Notes Comput Sci (including Subser Lect Notes Artif Intell Lect Notes Bioinformatics), vol 10776 LNCS, pp 179–198, 2018, doi: 10.1007/978-3-319-69953-0_11 [60] S Liang, Z Yang, F Jin, and Y Chen, “Data Centers Job Scheduling with Deep Reinforcement Learning,” Lect Notes Comput Sci (including Subser Lect Notes Artif Intell Lect Notes Bioinformatics), vol 12085 LNAI, pp 906–917, 2020, doi: 10.1007/978-3-030-47436-2_68 [61] “Distributed Resource Management and Optimization | Altair Grid Engine.” https://www.altair.com/grid-engine/ (accessed Jun 16, 2022) [62] B Nitzberg, J M Schopf, and J P Jones, “PBS Pro: Grid Computing and Scheduling Attributes,” in Grid resource management, no March 2003, 2004, pp 183–190 doi: 10.1007/978-1-4615-0509-9_13 [63] A B Yoo, M A Jette, and M Grondona, “Slurm: Simple linux utility for resource management,” in Workshop on Job Scheduling Strategies for Parallel Processing, 2003, pp 44–60 [64] “TOP500.” [Online] Available: https://www.top500.org/ [65] S Kannan, M Roberts, P Mayes, D Brelsford, and J F Skovira, “Workload management with loadleveler,” IBM Redbooks, vol 2, no 2, p 58, 2001 [66] Y Yan and B M Chapman, “Comparative Study of Distributed Resource Management Systems – SGE, LSF, PBS Pro, and LoadLeveler,” 2004 [67] J Skovira, W Chan, H Zhou, and D A Lifka, “The EASY - LoadLeveler API Project,” in Proceedings of the Workshop on Job Scheduling Strategies for Parallel Processing, 1996, pp 41–47 [68] G Almasi et al., “Overview of the IBM Blue Gene/P project,” IBM J Res Dev., vol 52, no 1–2, pp 199–220, 2008, doi: 10.1147/RD.521.0199 [69] “IBM Spectrum LSF Suites | IBM.” https://www.ibm.com/products/hpc-workloadmanagement (accessed Jun 13, 2022) [70] “GPU Scheduling and Resource Accounting: The Key to an Efficient AI Data Center HPCwire.” https://www.hpcwire.com/solution_content/ibm/cross-industry/gpuscheduling-and-resource-accounting-the-key-to-an-efficient-ai-data-center/ (accessed Jun 16, 2022) [71] Wikipedia "https://en.wikipedia.org/wiki/Virtualization" 347 [72] Dmytro Ageyev, Oleg Bondarenko, Tamara Radivilova, Walla Alfroukh, “Classification of Existing Virtualization Methods Used in Telecommunication Networks,” IEEE 9th International Conference on Dependable Systems, Services and Technologies (DESSERT), May 2018 [73] Minh Thanh Chung, Nguyen Quang-Hung, Manh-Thin Nguyen, Nam Thoai, “Using Docker in High Performance Computing Applications,” 2016 IEEE Sixth International Conference on Communications and Electronics [74] Bailey, D.H., Borwein, J.M and Stodden, V., “Facilitating reproducibility in scientific computing: Principles and practice Reproducibility: Principles, Problems, Practices.” H Atmanspacher and S Maasen, Eds John Wiley and Sons, New York, NY, 2015 [75] Peisert, S., et al ASCR “Cybersecurity for Scientific Computing Integrity.” TR LBNL6953E, U.S Department of Energy Office of Science, Feb 2015 [76] Sean Peisert, “Security in HighPerformance Computing Communications Of The Acm, Vol 60, No 9, September 2017 Environments,” [77] Dart, E., Rotman, L., Tierney, B., Hester, M and Zurawski, J “The science DMZ: A network design pattern for data-intensive science.” In Proceedings of the IEEE/ACM Annual SuperComputing Conference, Denver CO, 2013 [78] Andrew Howard, Guan Sin Ong “Survey Report - Security Practices in HPC & HPC Cloud,” Cloud Security Alliance, 2020 [79] Michał Nowak, Gerard Frankowski, Norbert Meyer, “Security in HPC Centres,” [80] Russian Nuclear Engineers Caught Cryptomining on Lab Supercomputer: https://www.hpcwire.com/2018/02/12/russian-nuclear-engineers-caughtcryptomining-lab-supercomputer/ [81] Science DMZ: https://fasterdata.es.net/science-dmz/ [82] OpenLDAP: https://www.openldap.org/ [83] IDEAS: https://ideas-productivity.org/ [85] Apereo CAS: https://apereo.github.io/cas/6.5.x/index.html [86] FreeRadius: https://freeradius.org/ [87] Using 2FA (Two-Factor Authentication) with SSH on CentOS 7: https://www.linode.com/docs/guides/how-to-use-one-time-passwords-for-two-factorauthentication-with-ssh-on-centos/ [88] Graylog 2: https://www.tecmint.com/best-linux-log-monitoring-and-managementtools/ [89] Logstash: https://www.elastic.co/logstash/ [90] TACC: https://portal.tacc.utexas.edu/ [91] ANSYS: https://www.ansys.com/ [92] Frontier supercomputer: https://www.olcf.ornl.gov/frontier/ [93] Aurora supercomputer: https://www.anl.gov/aurora/ [95] K Iwabuchi, K Youssef, K Velusamy, M Gokhale, and R Pearce, “Metall: A persistent memory allocator for data-centric analytics,” Parallel Comput., vol 111, no August 2021, p 102905, 2022, doi: 10.1016/j.parco.2022.102905 348 [96] T Hirofuchi and R Takano, “A prompt report on the performance of intel optane DC persistent memory module,” IEICE Trans Inf Syst., vol E103D, no 5, pp 1168– 1172, 2020, doi: 10.1587/transinf.2019EDL8141 [97] J Izraelevitz et al., “Basic Performance Measurements of the Intel Optane DC Persistent Memory Module,” arXiv Prepr arXiv1903.05714, pp 1–36, Mar 2019, [Online] Available: http://arxiv.org/abs/1903.05714 [98] A Van Renen, L Vogel, V Leis, T Neumann, and A Kemper, “Persistent memory I/O primitives,” Proc ACM SIGACT-SIGMOD-SIGART Symp Princ Database Syst., 2019, doi: 10.1145/3329785.3329930 [99] L Benson, H Makait, and T Rabl, “Viper: An efficient hybrid PMem-DRAM keyvalue store,” Proc VLDB Endow., vol 14, no 9, pp 1544–1556, 2021, doi: 10.14778/3461535.3461543 [100] Y Luo and S Yu, “Accelerating Deep Neural Network In-Situ Training with NonVolatile and Volatile Memory Based Hybrid Precision Synapses,” IEEE Trans Comput., vol 69, no 8, pp 1113–1127, 2020, doi: 10.1109/TC.2020.3000218 [101] A F Inci, M Meric Isgenc, and D Marculescu, “DeepNVM: A Framework for Modeling and Analysis of Non-Volatile Memory Technologies for Deep Learning Applications,” Proc 2020 Des Autom Test Eur Conf Exhib DATE 2020, no Dl, pp 1295–1298, 2020, doi: 10.23919/DATE48585.2020.9116263 [102] Z Wang, X Liu, J Yang, T Michailidis, S Swanson, and J Zhao, “Characterizing and Modeling Nonvolatile Memory Systems,” IEEE Micro, vol 41, no 3, pp 63–70, 2021, doi: 10.1109/MM.2021.3065305 [103] H Zhang, B M Tudor, G Chen, and B C Ooi, “Efficient inmemory data management: An analysis,” Proc VLDB Endow., vol 7, no 10, pp 833–836, 2014, doi: 10.14778/2732951.2732956 [104] S Nalli, S Haria, M D Hill, M M Swift, H Volos, and K Keeton, “An Analysis of Persistent Memory Use with WHISPER,” ACM SIGOPS Oper Syst Rev., vol 51, no 2, pp 135–148, 2017, doi: 10.1145/3093315.3037730 [105] Cori: https://docs.nersc.gov/systems/cori-largemem/ [106] Catalyst: https://hpc.llnl.gov/hardware/compute-platforms/catalyst/ [107] Dell emc isilon f800 and h600 I/O performance: https://downloads.dell.com/ manuals/all-products/esuprt_software/esuprt_it_ops_datcentr_mgmt/ high-computing-solution-resources_white-papers24_en-us.pdf [108] Dell Storage Products & Solutions: https://www.sanstorageworks.com/ [109] Storage for AI Applications: https://www.snia.org/educational-library/storage-aiapplications-2021 [110] AI and Machine Learning – What are the Most Important Data Storage Requirements?: https://techmonitor.ai/technology/ai-and-automation/ai-machine-learning-importantdata-storage-requirements [111] Cray ClusterStor E1000 Storage Systems: https://www.hpe.com/psnow/doc/ a00062172enw.html?jumpid=in_pdp-psnow-qs [112] NFS: https://www.ibm.com/docs/en/aix/7.1?topic=management-network-file-system 349 [113] PixStor: https://www.delltechnologies.com/asset/en-us/products/ready-solutions/ briefs-summaries/dell_pixstor_storage_solution_brief.pdf [114] NVMe: https://www.purestorage.com/knowledge/what-is-nvme.html [115] Multi-Rail Lnet: https://wiki.lustre.org/Multi-Rail_LNet [116] Apache Spark: https://spark.apache.org/ [117] Kafka: https://kafka.apache.org/ [118] Hadoop: https://hadoop.apache.org/ [119] HDFS: https://hadoop.apache.org/docs/r1.2.1/hdfs_design.html/ [120] What is Data Lake? It’s Architecture: Data Lake Tutorial: https://www.guru99.com/ data-lake-architecture.html?fbclid=IwAR2zcBt19nQh2y _Mj5a81_0wWhSqmvbvnbwr9kXX4IrAOwMw9NiixLVwRw [121] Samiya Khana, Xiufeng Liub, Syed Arshad Alia, Mansaf Alama: Storage Solutions for Big Data Systems: A Qualitative Study and Comparison, https://arxiv.org/ftp/arxiv/papers/1904/1904.11498.pdf [122] Dell EMC Isilon F800: https://www.dell.com/zh-tw/dt/storage/isilon/isilon-f800-allflash-nas-storage.htm#tab0=0 [123] Iperf: https://iperf.fr/iperf-download.php/ [124] IOR3 v.3.0.1: https://rpmfind.net/linux/RPM/opensuse/15.3/ppc64le/ior-3.0.1bp153.1.15.ppc64le.html [125] Lustre: https://www.lustre.org/ [126] Iozone: https://www.iozone.org/ [127] I Foster, “The Grid: A New Infrastructure for 21th Century Science”, Physics Today, vol 55, no 2, pp 42-47, 2002 [128] R Buyya et al., “Market-Oriented Cloud Computing: Vision, Hype, and Reality for Delivering IT Services as Computing Utilities”, IEEE International Conference on High Performance Computing and Communications, pp 1-9, 2008 [129] B Hayes, “Cloud Computing”, Commun ACM, vol 51, no 7, pp 9-11, 2008 [128] Aurora projetc: https://www.alcf.anl.gov/aurora [129] R Buyya et al., “Market-Oriented Cloud Computing: Vision, Hype, and Reality for Delivering IT Services as Computing Utilities”, IEEE International Conference on High Performance Computing and Communications, pp 1-9, 2008 [130] China's exascale supercomputer: https://www.nextplatform.com/2021/02/10/a-sneakpeek-at-chinas-sunway-exascale-supercomputer/ [131] The technology stacks of High Performance Computing & Big Data Computing: What they can learn from each other A joint publication between the European associations of www.ETP4HPC.eu and wwwBDVA.eu - 2018 [132] J Fortes, “Sky Computing: When Multiple Clouds Become One”, IEEE/ACM International Conference on Cluster, Cloud and Grid Computing, pp 4, 2010 [133] I Foster, “The Grid: A New Infrastructure for 21th Century Science”, Physics Today, vol 55, no 2, pp 42-47, 2002 [134] B Hayes, “Cloud Computing”, Commun ACM, vol 51, no 7, pp 9-11, 2008 350 [135] K Keahey, M Tsugawa, A Matsunaga, J Fortes, “Sky Computing”, IEEE Internet Computing, vol 13, no 5, pp 43-51, 2009 [136] NCHC: https://www.nchc.org.tw/en/ [137] Tran Minh Quang, Dang Tran Khanh, Thoai Nam, Kitahara T., Hiehata Y., DelayInsensitive Traffic Detection and Transfer on Network Edges, The 18th Asia-Pacific Network Operations and Management Symposium (APNOMS2016), 2016, Kanazawa - Japan [138] SuperMUC-NG: https://www.hpcwire.com/2021/05/05/lrz-announces-new-phase-ofsupermuc-ng-supercomputer-with-intels-ponte-vecchio-gpu/ [139] Chiến lược AI Đài Loan: https://ai.taiwan.gov.tw/news/cabinet-plans-to-developthe-nations-ai-industry/ [140] Taiwania supercomputer: 109#TAIWANIA2 https://www.nchc.org.tw/Page?itemid=58&mid= [141] Nguyen Duc Van Thanh, Nguyen Quang Hung, Thoai Nam, BFD-NN: Best Fit Decreasing-Neural Network for Online Energy-aware Virtual Machine Allocation Problems, the Seventh Symposium on Information and Communication Technology (SoICT 2016), 2016, Ho Chi Minh - Vietnam [142] Tu, D.M.A, Dang, D.T and Thoai, N., Race Condition and Deadloc Detection for Large-scale Applications, the IEEE 15th International Symposium on Parallel and Distributed Computing (ISPDC 2016), 2016, FuZhou - China [143] https://www.gartner.com/smarterwithgartner/5-trends-emerge-in-gartner-hype-cyclefor-emerging-technologies-2018/ 351

Ngày đăng: 05/10/2023, 20:01

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w