Deep Learning (DL) đang trở thành một công cụ quan trọng cho nghiên cứu và được ứng dụng vào nhiều lĩnh vực khác nhau trong cuộc sống. Ứng dụng DL trong bài báo dự báo, cảnh báo liên quan đến khí tượng thủy văn đang là một hướng nghiên cứu tiềm năng và có nhiều thách thức.
DOI: 10.36335/VNJHM.2020(709).63-70 BÀI BÁO KHOA HỌC NÂNG CAO HIỆU NĂNG CỦA DEEP LEARNING TRONG HỆ THỐNG TÍNH TỐN HIỆU NĂNG CAO CRAY-XC40 Ngô Văn Mạnh 1, Nguyễn Thị Hiền2, Nguyễn Xn Hồi3, Đặng Văn Nam4, Nguyễn Việt Huy5 Tóm tắt: Deep Learning (DL) trở thành công cụ quan trọng cho nghiên cứu ứng dụng vào nhiều lĩnh vực khác sống Ứng dụng DL báo dự báo, cảnh báo liên quan đến khí tượng thủy văn hướng nghiên cứu tiềm có nhiều thách thức Với lượng liệu đầu vào lớn yêu cầu dự đoán nhanh tức thời, tính xác cao điểm khiến cho mạng nơ ron DL trở nên phức tạp bị hạn chế hiệu suất tính tốn, thời gian tính tốn bị kéo dài so với u cầu nghiệp vụ dự báo, cảnh báo thực tế Tính tốn hiệu cao (High Performance Computing - HPC) với số lượng nút tính tốn lớn sử dụng để giải vấn đề hạn chế DL toán liệu lớn Hãng Cray cung cấp module cắm (Cray Programming Environments DL Plugin – Cray PE DL Plugin) cho phép lập trình DL mơi trường song song cho tính tốn hiệu cao Trong báo này, nghiên cứu trình bày phương pháp thiết lập cấu hình mạng nơ ron DL sử dụng Tensorflow tảng Cray-XC40 Từ khóa: Cơng cụ Cray PE DL, học sâu Ban Biên tập nhận bài: 12/12/2019 Ngày phản biện xong: 05/1/2020 Ngày đăng bài: 25/01/2020 Đặt vấn đề Trí tuệ nhân tạo (AI) thay đổi cách thức mà viện nghiên cứu ngành công nghiệp giải loạt vấn đề phức tạp Đặc biệt, Deep Learning (DL) với mạng nơ ron cơng cụ mạnh để trích xuất thơng tin từ liệu lớn thông qua hoạt động phân loại, dự đốn hồi quy DL có tiềm hoạt động phân tích chủ quan, giúp trả kết tính tốn lại xác Các mạng nơ ron sâu đòi hỏi lượng tính tốn lớn, vài tuần thực nút CPU GPU Đây rào cản việc áp dụng DL vào thực tế Kỹ thuật giảm dần ngẫu nhiên (Stochastic gradient descent - SGD) kỹ thuật tối ưu hóa thường sử dụng để đào tạo mạng nơ ron sâu Q trình đào tạo đòi hỏi tập liệu lớn, thông tin mẫu gán Trung tâm Thông tin Dữ liệu khí tượng thủy văn Học viện Kỹ thuật quân Viện AI Việt nam Đại học Mỏ-Địa Chất Email: nguyenthihienqn@gmail.com nhãn Một bước SGD sử dụng tập ngẫu nhiên liệu, gọi lơ, để tính tốn đạo hàm riêng cho tham số điều chỉnh mạng Các đạo hàm riêng (hoặc biến thiên riêng), đo khác biệt đầu mạng nơ-ron giá trị quan sát (nhãn) Mỗi mẫu tập hợp ngẫu nhiên lại tạo biến thiên đạo hàm riêng Tất đạo hàm riêng mẫu tính trung bình giá trị trung bình sử dụng để cập nhật tham số mạng cho bước SGD SGD thường thay đổi sử dụng cơng cụ tối ưu hóa (là phương thức dùng để cập nhật mơ hình để tính tốn giá trị đạo hàm riêng) SGD song song hóa cách chia số lượng đủ lớn lơ nhỏ cho tập tiến trình xử lý Mỗi tiến trình tính tốn đạo hàm cục sau gửi kết để tính tốn đạo hàm trung bình tồn cục Các tham số mạng nơ-ron sau cập nhật với giá trị đạo hàm tính Kỹ thuật gọi SGD song song liệu đồng (Synchronous data parallel SGD - SSGD) Có thể giảm thời gian đào tạo DL sử dụng TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 01 - 2020 63 BÀI BÁO KHOA HỌC SSGD cách tăng kích thước lơ tồn cục (tổng tất tiến trình) tăng kích thước bước SGD, gọi tốc độ học (learning rate) Các lỗi đạo hàm trung bình toàn cục giảm đào tạo nhiều mẫu Lỗi giảm cho phép cập nhật nhiều cho mơ hình bước, từ dẫn đến hội tụ nhanh Việc tăng kích thước lơ đến giới hạn định hội tụ chậm không hội tụ [1-5] Module cắm Cray PE DL Plugin giải vấn đề học song song thông qua kết hợp cải tiến thuật tốn tối ưu hóa cao hoạt động giao tiếp dựa giao diện truyền thông điệp (Message Passing Interface – MPI) So với khung DL tính tốn đạo hàm trung bình tồn cục dựa tính tốn MPI chung Allreduce Cray PE DL Plugin vượt trội hẳn Nghiên cứu mô tả giải pháp sử dụng Cray PE DL Plugin làm giải pháp tạo hiệu suất tối ưu tảng Cray Nghiên cứu thảo luận việc áp dụng Cray PE DL Plugin vào TensorFlow , khung DL phổ biến đánh giá cải tiến hiệu suất tảng Cray-XC40 với Bộ xử lý Intel KNL Kết cho thấy hiệu suất thời gian tính tốn giảm khoảng 10 (khi sử dụng nút tính tốn) cho tốn dự báo tốc độ gió sử dụng DL dựa hồi quy (Long Short Term Memory - LSTM) Phương pháp triển khai 2.1 Long Short Term Memory - LSTM Mạng nhớ dài-ngắn (Long Short Term Memory networks), thường gọi LSTM dạng đặc biệt RNN, có khả học phụ thuộc xa LSTM giới thiệu Hochreiter & Schmidhuber (1997) [6], sau cải tiến phổ biến nhiều người ngành LSTM mạng thần kinh nhân tạo sử dụng phổ biến phân tích liệu chuỗi thời gian (time-series) LSTM thiết kế để tránh vấn đề phụ thuộc xa (long-term dependency) Việc nhớ thông tin suốt thời gian dài đặc tính mặc định chúng, khơng cần phải đào tạo để nhớ Tức nội ghi nhớ mà khơng cần can thiệp Mọi mạng hồi quy có dạng chuỗi mơ-đun lặp lặp lại mạng nơ-ron Với mạng RNN chuẩn, mơ-dun có cấu trúc đơn giản, thường tầng LSTM có kiến trúc dạng chuỗi vậy, mơ-đun có cấu trúc khác với mạng RNN chuẩn Thay có tầng mạng nơron, chúng có tới tầng tương tác với cách đặc biệt Hình Mạng LSTM 64 2.2 Nền tảng triển khai DL Cray a) Nền tảng hỗ trợ DL Một số tảng xây dựng sẵn hỗ trợ cho DL gồm: TensorFlow TensorFlow lớp phần mềm mã nguồn mở cung cấp quy tắc tính tốn số hiệu suất cao TensorFlow dễ dàng triển khai TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 01 - 2020 nhiều tảng phần cứng, từ CPU thông thường xử lý đồ họa GPU xử lý Tensor thiết kế chuyên biệt (Tensor Processing Units - TPU) Ngồi ra, TensorFlow triển khai cụm máy tính (cluster) bao gồm máy chủ tính tốn hiệu suất cao kết nối nội Tuy nhiên, sở hạ tầng phần cứng giao tiếp đóng vai BÀI BÁO KHOA HỌC trò quan trọng việc mở rộng TensorFlow số lượng lớn nút tính tốn gRPC gRPC lớp lớp gọi thủ tục từ xa mã nguồn mở (Remote Procedure Call layer - RPC) ban đầu phát triển Google gRPC cung cấp lớp trừu tượng để phát triển dịch vụ ứng dụng phân tán xếp lớp giao thức HTTP/2 gRPC cung cấp loạt tính cho phép giao tiếp, đồng hóa kiểm soát luồng máy khách máy chủ ứng dụng phân tán gRPC giao thức giao tiếp sử dụng khung TensorFlow Google Horovod Horovod khung DL phân tán, mã nguồn mở cho TensorFlow Uber Horovod sử dụng giao diện truyền thông điệp MPI để thiết lập hạ tầng phân tán cho TensorFlow Trong nội bộ, hoạt động giảm thiểu toàn cục thực cơng cụ Allreduce dạng vòng để sử dụng băng thông truyền tin cung cấp kết nối cụm hiệu suất cao điển hình Các phiên gần Horovod sử dụng lớp truyền tin NCCL NCCL2 NVIDIA để tối ưu hóa hiệu suất truyền tin hệ thống đại với nhiều GPU nút b) Giải pháp thiết kế Nhiều khung song song hóa cho DL, chẳng hạn gRPC TensorFlow, gồm hai lớp xử lý Các hoạt động xử lý máy chủ tham số (Parameter Server – PS) thu thập biến thiên từ hoạt động xử lý máy trạm, tính tốn biến thiên trung bình tồn thể, cập nhật tham số mạng gửi giá trị tham số tới máy trạm Thông thường người dùng chọn số lượng hoạt động xử lý PS Chỉ có giới hạn hoạt động xử lý PS số lượng lớn máy trạm gặp phải vấn đề hiệu suất hạn chế quy mơ Cấu hình kiểu thiết lập mẫu giao tiếp nhiều-đến-ít, gây tắc nghẽn hầu hết mạng Một số lượng hạn chế hoạt động xử lý PS gặp khó khăn việc gửi giá trị tham số cập nhật đủ nhanh để theo kịp nhu cầu máy trạm Tăng số lượng hoạt động xử lý PS làm giảm nút thắt cổ chai truyền tin cập nhật tham số Tuy nhiên, sử dụng nhiều hoạt động xử lý PS lại dẫn đến mẫu giao tiếp nhiều-nhiều, không đáp ứng số lượng lớn nút Xác định số lượng tối ưu hoạt động xử lý PS công sức người dùng Dùng gRPC TensorFlow, người dùng phải cung cấp tên nút số cổng, lại nảy sinh vấn đề khả sử dụng Cray PE DL Plugin xử lý vấn đề khả năngsử dụng hiệu suất mở rộng TensorFlow khung DL tương tự Khơng có hoạt động xử lý PS sử dụng Cray PE DL Plugin Mỗi xử lý máy trạm, hoạt động giảm thiểu toàn thể tùy chỉnh thay cho hoạt động tính tốn biến thiên trung bình tồn hoạt động xử lý PS Mỗi máy trạm sau dễ dàng tính tốn cập nhật tham số mạng, việc thường tốn phần nhỏ thời gian thực Thuật tốn Hình mơ tả sơ cách học song song liệu sử dụng Cray PE DL Plugin Giảm thiểu tùy chỉnh tối ưu hóa cụ thể cho hoạt động DL thấy hiệu suất cao 35% so với MPI Iallreduce() mặc định có sẵn Cray MPICH kích thước thơng điệp vị trí xử lý tương đương Ngồi để cải thiện hiệu suất truyền tin quy mô lớn hơn, thiết lập giảm thiểu tùy chỉnh cung cấp khả tuyệt vời chồng lớp truyền tin/tính tốn Khả tạm ẩn truyền tin pha tính tốn biến thiên trung bình đóng vai trò việc cải thiện thời gian cho đào tạo phân tán Hình Code giả lập cho thuật tốn đào tạosong song liệu Cray PE DL Plugin trình bày mc, hàm trung bình đạo hàm hàm mc.gradients() TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 01 - 2020 65 BÀI BÁO KHOA HỌC Trong N tổng số chu kỳ; n số lượng mẫu đào tạo; k số cấp MPI; b số mẫu đào tạo lô liệu lần xử lý Không cần điều chỉnh TensorFlow để sử dụng Cray PE DL Plugin cho song song hóa Tính TenorFlow Op sử dụng để thêm bước truyền tin cần thiết vào đồ thị thực cách tối ưu (tài liệu có https://www.tensorflow.org/extend/adding_an_op) Người dùng bắt đầu với TensorFlow nối tiếp tập lệnh client khung khác gọi thêm thành phần cần thiết để khởi tạo, truyền tin kết thúc Đối với tình yêu cầu nhiều giảm thiểu biến thiên lúc, nhóm luồng (thread) giảm thiểu sử dụng để tăng tốc độc lập với vài hoạt động gọi đơn giản Giao diện C / C ++ Python 2/3 có sẵn Cray PE DL Plugin Cray PE DL Plugin có sẵn gói Cray Developer Toolkit - CDT cài cho hệ thống Cray XC Bản CDT 19.09 hỗ trợ Keras, TensorFlow 1.3.1 kiến trúc dựa Intel®CPU GPU NVIDIA c) Bộ tập lệnh Cray PE DL plugin Các bước cần có Cray PE DL Plugin bao gồm: • Khởi tạo Cray PE DL Plugin • Khởi tạo giá trị tham số mơ hình ban đầu: Chỉ định số lượng nhóm, luồng, kích thước mơ hình • Sử dụng Cray PE DL Plugin để truyền biến thiên sau tính tốn biến thiên thực thi mơ hình • Kết thúc Cray PE DL Plugin Trong phần trình bày chi tết cho việc áp dụng cho tập lệnh Python cho phép sử dụng Keras thực thi mơ hình học máy DL - Khởi tạo: Bước khởi tạo Cray PE DL Plugin Điều thực cách trước tiên import module thiết lập mơi trường ban đầu hình 3: Hình Khởi tạo Cray PE DL Plugin Cray PE DL Plugin sử dụng cấu hình cho CPU GPU, để thực sử dụng GPU cho tính tốn cần thiết lập tham số cấu hình ban đầu hình 4: Hình Thiết lập tham số cấu hình ban đầu - Khởi tạo tham số mơ hình ban đầu: Với Keras, cần thiết lập thông số ban đầu mơ hình sử dụng hình 5: Hình Thiết lập thơng số ban đầu - Tổng hợp biến thiên: Hoạt động truyền tin tính tốn chun sâu tối ưu hóa cao Plugin Cray PE DL Plugin Hoạt động đặt hoạt động tính tốn biến thiên cập nhật mơ hình, cấu hình Hình Sử dụng tối ưu hóa Cray 66 TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 01 - 2020 BÀI BÁO KHOA HỌC Một tập lệnh học nối tiếp thường sử dụng phương thức tối thiểu hóa minimize() đối tượng tối ưu hóa optimizer Phương thức tính tốn biến thiên cập nhật mơ hình với biến thiên Việc cập nhật kết tính tốn bước song song thực hàm callback hình 7: Hình Cập nhật kết tính tốn song song Thực học máy mơ hình đánh giá kết mơ hình thực hình 8: Hình Học máy đánh giá kết mơ hình - Kết thúc: Bước bắt buộc cuối để chuyển đổi tập lệnh đào tạo nối tiếp kết thúc Cray PE DL Plugin, tương tự việc kết thúc MPI Khi rank nút trả q trình tính tốn song song kết thúc hình Hình Kết thúc Cray PE DL Plugin d) Triển khai, cài đặt Cray PE DL Plugin Cray-XC40 Hiệu suất tốt đạt với cấp MPI nút Cray PE DL Plugin phải cấu hình để sử dụng 2-4 luồng (thread) truyền tin Trong vài trường hợp với nút GPU, hiệu suất cải thiện cách sử dụng lên đến luồng Đối với đào tạo MKL MKL-DNN, quan trọng không đặt OMP_NUM_THREADS cao, không core bị đăng ký vượt mức Ví dụ: có 36 core vật lý nút, hiệu suất tối ưu đạt với OMP_NUM_THREADS=34, nên để lại core/luồng để liên lạc với Cray PE DL Plugin Ngồi ra, với TensorFlow ví dụ tf_cnn_benchmarks, num_intra_threads nên đặt để phù hợp với giá trị OMP_NUM_THREADS, num_inter_threads thường đặt từ 1-3 luồng tùy thuộc vào số lượng HyperThreads có core Đối với KNL CPU, tốt để lại HyperThread rảnh core Biến mơi trường KMP_BLOCKTIME giúp cải thiện hiệu suất đôi chút đặt 30 Đối với nút GPU, số lượng luồng CUDA sử dụng để nhớ đệm liệu đến chủ thể tính tốn điều chỉnh thơng qua biến môi trường ML_COMM_NUM_CUDA_STREAMS số lượng mà luồng thực thay đổi với biến môi trường ML_COMM_CPY_PER_CUDA_STREAM Các cài đặt mặc định 8, tương ứng, theo thử nghiệm tốt cho gần tất tình Thực nghiệm Trong thực nghiệm nghiêm cứu sử dụng mạng DL long short term memory-LSTM cho toán dự đốn tốc độ gió 18 Dữ liệu thực nghiệm liệu quan trắc tốc độ gió từ 01 tháng năm 2014 đến 31 tháng 12 năm 2019, với tần suất quan trắc 3h lần, 13 trạm quan trắc: Hà Giang, Cao Bằng, Tun Quang, Hòa Bình, Nam Định, Hà Đơng, Phú Liễn, Lạng Sơn, Bãi Cháy, Tiên Yên, Móng Cái, Bạch Long Vĩ, Hội Xuân Số lượng mẫu học 15,200 mẫu, số lượng mẫu kiểm tra 500 mẫu Thực nghiệm thực thi LSTM với epoch =500, 800 Thiết lập mơ hình LSTM máy chủ thơng thường máy chủ Cray-XC40 sử dụng Cray PE DL Plugin Thông số máy chủ thường CPU (2 Multi cores (28 thread) Intel Xeon E5-2690 v4s), RAM (64 GB) Đối với máy Cray-XC40, nút có CPU (2 cores (36 thread), Intel Xeon E5-2697 v4 18C 2.3 GHz), RAM (16 GB) Cấu hình thực thi LSTM thực nghiệm Cray-XC40 sử dụng nút, nút sử dụng 34 thread TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 01 - 2020 67 BÀI BÁO KHOA HỌC Phân tích kết Trong phần này, nghiên cứu phần tích đánh giá kết đạt thực thi thực nghiệm máy chủ thường Cray-XC40 Kết dự đốn với tính xác LSTM chạy máy chủ thường Cray-XC40 tương đương với khoảng sai số trung bình máy chủ thường Cray-XC40 khoảng 0.03, kết chi tiết bảng 1, bảng bảng kết sai số trung bình Bảng Sai số dự báo LSTM Cray-XC40 Hình 10 Cấu hình LSTM máy chủ thường Station MAE (Epoch = 500) 48805 - HA GIANG 0.81523 0.9741 48808 - CAO BANG 48812 - TUYEN QUANG 0.77397 0.65291 0.55088 0.67463 48818 - HOA BINH 0.66411 0.52507 48823 - NAM DINH 0.73743 0.72945 48825 - HA DONG 0.42744 0.72918 48826 - PHU LIEN 0.85284 0.71751 48830 - LANG SON 0.58352 0.53875 48833 - BAI CHAY 0.74615 0.74463 10 48837 - TIEN YEN 0.81491 0.86019 11 48838 - MONG CAI 48839 - BACH LONG VY 0.85648 0.88636 0.89402 0.68479 13 48842 - HOI XUAN 0.82788 0.88395 14 All Station 0.73422417 0.738584 12 Hình 11 Cấu hình LSTM máy Cray-XC40 68 Hình 12 Cấu hình PBS để submit job Cray-XC40 Bảng Sai số dự báo LSTM máy chủ thường STT Station MAE (Epoch = 500) MAE (Epoch = 800) 48805 - HA GIANG 0.81484 0.82883 48808 - CAO BANG 0.71858 0.85846 48812 - TUYEN QUANG 0.56044 0.66563 48818 - HOA BINH 0.58697 0.67589 48823 - NAM DINH 0.72503 0.75761 48825 - HA DONG 0.46304 0.55307 48826 - PHU LIEN 0.83042 0.91817 48830 - LANG SON 0.58961 0.53911 48833 - BAI CHAY 0.82476 0.79877 10 48837 - TIEN YEN 0.84871 0.86146 11 48838 - MONG CAI 0.80696 0.8723 12 48839 - BACH LONG VY 0.74131 0.73887 13 48842 - HOI XUAN 0.8547 0.97105 14 All Station 0.72041706 0.77225093 TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 01 - 2020 ( MAE (Epoch = 800) STT ( BÀI BÁO KHOA HỌC Bảng Sai số dự báo LSTM trung bình cho tất trạm MAE (Epoch = 500) MAE (Epoch = 800) STT Machine MỈy chủ cứng 0.70315556 0.77225093 Cray-XC40 0.73422417 0.738584 Đối với hiệu suất thời gian thực thi mơ hình LSTM Cray-XC40 cho kết nhanh trung bình gấp 10 lần so máy chủ thông thường (trong trường hợp Cray-XC40 sử dụng nút, nút sử dụng 34 thread máy chủ thường có 28 thread) Kết chi tiết bảng Bảng Sai số dự báo LSTM trung bình cho tất trạm Thời gian (phœt) STT Cấu hình Cray-XC40, nœt, epoch = 500 Cray-XC40, nœt, epoch = 800 54.1 MỈy chủ cứng, epoch = 500 382.68 MỈy chủ cứng, epoch = 800 577.04 34.8 Với kết tính xác giống sử dụng LSTM môi trường máy chủ thường Cray-XC40 hiệu thời gian học Cray-XC40 tốt hẳn máy chủ thường (giảm 10 lần, tăng số lượng nút tiếp thời gian tiếp tục giảm) Với thời gian bảng 4, LSTM hoàn toàn sử dụng vào nghiệp vụ dự báo khí tượng thủy văn Đây ý nghĩa sử dụng Cray PE DL cho toán DL nghiệp vụ thực tế Kết luận Nghiên cứu trình bày ứng dụng cơng cụ Cray PE DL Plugin toán DL, Cray PE DL cho phép mở rộng quy mô học DL tới số lượng lớn nút hệ thống qua giảm đáng kể thời gian học cho mạng nơ ron tăng tính hiệu DL đưa vào ứng dụng thực tế toán dự báo liên quan đến Khí tượng thủy văn Nhất giai đoạn yêu cầu xã hội cần tin cảnh báo cực ngắn thời gian 30 phút - 1h Lời cảm ơn: Nghiên cứu hỗ trợ đề tài “Nghiên cứu sở khoa học giải pháp ứng dụng trí tuệ nhân tạo để nhận dạng, hỗ trợ dự báo cảnh báo số tượng khí tượng thủy văn nguy hiểm bối cảnh biến đổi khí hậu Việt Nam”, mã số BĐKH.34/16-20” Tài liệu tham khảo Das, D., Avancha, S., Mudigere, D., Vaidynathan, K., Sridharan, S., Kalamkar, D., Kaul, B., Dubey, P., (2016), Distributed Deep Learning Using Synchronous Stochastic Gradient Descent ArXiv e-prints Kingma, D.P., Ba, J., (2014), Adam: A Method for Stochastic Optimization ArXiv e-prints Iandola, F.N., Ashraf, K., Moskewicz, M.W., Keutzer, K., (2015), Fire-Caffe: near-linear acceleration of deep neural network training on compute clusters ArXiv e-prints Mendygral, P., Hill, N., Kandalla, K., Moise, D., Balma, J., Marcel Schongens, M., (2018), High Performance Scalable Deep Learning with the Cray Programming Environments Deep Learning Plugin CUG 2018 Zheng, S., Meng, Q., Wang, T., Chen, W., Yu, N., Ma, Z.M., Tie-Yan Liu, T.Y., (2016), Asynchronous Stochastic Gradient Descent with Delay Compensation ArXiv e-prints Hochreiter, S., Jurgen Schmodhuber, J., (1997), Long short-term memory Neural computation, 9(8), 1735-1780 Chen, J., Pan, X., Monga, R., Bengio, S., Jozefowicz, R., (2017), Revisiting Distributed Synchronous SGD ArXiv e-prints You, Y., Gitman, I., Ginsburg, B., (2017), Scaling SGD batch size to 32k for imagenet training ArXiv e-prints [9] Peter, A., Whigham, Crapper, P.F., (2001), Modeling rainfall-runoff using genetic programming Mathematical and Computer Modelling, 33 (6-7), 707-721 TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 01 - 2020 69 BÀI BÁO KHOA HỌC IMPROVING THE PERFORMANCE OF DEEP LEARNING IN HIGH-PERFORMANCE COMPUTING SYSTEMCRAY-XC40 Ngo Van Manh1, Nguyen Thi Hien2, Nguyen Xuan Hoai3, Dang Van Nam4, Nguyen Viet Huy1 Center for Hydro-Meteorological Data and Information Le Quy Don Technical University AI Academy Vietnam Hanoi University of Mining and Geology Abstract: Deep Learning (DL) is becoming an important tool in research and is applied in many different areas The application of ML in forecasting and warning bulletins of Meteorology and Hydrology is a potential and challenging research field Due to large input data and requirement for instantaneous and high accuracy prediction, the neural network in DL becomes complex and limited in computing performance, thus the calculating time is prolonged compared with requirements of actual forecasting and warnings High Performance Computing (HPC) with a large number of computing nút is used to solve the limitation of DL in big-data subject Cray has provided a plug-in module (Cray Programming Environments DL Plugin - Cray PE DL Plugin) that enables DL programming in parallization environment for high-performance computing In this paper, the study presents the method of configuring neuron network in DL using Tensorflow on Cray XC-40 platform Keywords: Cray PE DL plguin, deep learning 70 TẠP CHÍ KHÍ TƯỢNG THỦY VĂN Số tháng 01 - 2020 ... tính (cluster) bao gồm máy chủ tính tốn hiệu suất cao kết nối nội Tuy nhiên, sở hạ tầng phần cứng giao tiếp đóng vai BÀI BÁO KHOA HỌC trò quan trọng việc mở rộng TensorFlow số lượng lớn nút tính. .. 0.77225093 Cray-XC40 0.73422417 0.738584 Đối với hiệu suất thời gian thực thi mơ hình LSTM Cray-XC40 cho kết nhanh trung bình gấp 10 lần so máy chủ thơng thường (trong trường hợp Cray-XC40 sử... thực thi thực nghiệm máy chủ thường Cray-XC40 Kết dự đốn với tính xác LSTM chạy máy chủ thường Cray-XC40 tương đương với khoảng sai số trung bình máy chủ thường Cray-XC40 khoảng 0.03, kết chi tiết