BÁO CÁO BÀI TẬP LỚN - Thiết kế hệ thống số VLSI - CHỦ ĐỀ - TÌM HIỂU VỀ KIẾN TRÚC XỬ LÝ TENSOR VÀ ĐỒ HỌA, KHẢ NĂNG TÍNH TOÁN CỦA CUDA CORE TRONG GPU VỚI CARD RTX 3090
Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 25 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
25
Dung lượng
6,43 MB
Nội dung
BỘ THÔNG TIN VÀ TRUYỀN THÔNG HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THƠNG BÁO CÁO BÀI TẬP LỚN CHỦ ĐỀ: TÌM HIỂU VỀ KIẾN TRÚC XỬ LÝ TENSOR VÀ ĐỒ HỌA, KHẢ NĂNG TÍNH TỐN CỦA CUDA CORE TRONG GPU VỚI CARD RTX 3090 Môn học : Thiết kế hệ thống số VLSI Mục lục MỤC LỤC CHUNG LỜI CẢM ƠN .i MỤC LỤC CHUNG ii DANH MỤC HÌNH ẢNH iv DANH MỤC BẢNG BIỂU .iv DANH MỤC CÁC KÍ HIỆU VÀ TỪ VIẾT TẮT iv LỜI MỞ ĐẦU CHƯƠNG KIẾN TRÚC XỬ LÝ TENSOR VÀ KIẾN TRÚC XỬ LÝ ĐỒ HỌA 1.1 Khái niệm đặc điểm tensor 1.2 Kiến trúc phần cứng TPU .3 1.3 Kiến trúc phần cứng GPU 1.4 Một số ứng dụng phổ biến tensor 1.5 Kiến trúc xử lý tensor GPU .5 1.5.1 Định nghĩa 1.5.2 Đặc điểm kiến trúc xử lý tensor GPU 1.5.3 GPU xử lý tensor nào? 1.5.4 GPU Lợi hạn chế việc sử dụng kiến trúc xử lý tensor .7 1.5.5 Một số ứng dụng kiến trúc xử lý tensor GPU CHƯƠNG KHẢ NĂNG TÍNH TỐN CỦA CUDA CORE TRONG GPU VỚI CARD RTX 3090 .10 2.1 Giới thiệu CUDA GPU 10 2.2 Cấu trúc CUDA core GPU 10 2.3 Khả tính tốn CUDA core GPU RTX 3090 10 2.4 So sánh GPU CPU 13 CHƯƠNG CÁC CÔNG NGHỆ VÀ ỨNG DỤNG MỚI TRONG LĨNH VỰC KIẾN TRÚC XỬ LÝ TENSOR VÀ ĐỒ HỌA VÀ ỨNG DỤNG CỦA CUDA TRONG LĨNH VỰC CÔNG NGHỆ 16 3.1 Các công nghệ ứng dụng lĩnh vực kiến trúc xử lý tensor đồ họa 16 3.1.1 Tensor Core 16 3.1.2 Deep Learning Super Sampling (DLSS) 16 3.1.3 Real-Time Ray Tracing 16 3.1.4 GAN (Generative Adversarial Networks) .17 Mục lục 3.1.5 Ứng dụng thị giác máy tính 17 3.1.6 Ứng dụng khoa học y học 18 3.1.7 Tương lai kiến trúc xử lý tensor đồ họa 18 3.2 ỨNG DỤNG CỦA CUDA TRONG LĨNH VỰC CÔNG NGHỆ 19 3.2.1 CUDA cho ngành cơng nghiệp trị chơi 19 3.2.2 CUDA cho ứng dụng video số 19 TÀI LIỆU THAM KHẢO .20 KẾT LUẬN 21 Mục lục DANH MỤC HÌNH ẢNH Hình 1-1 So sánh Scalar, Vector, Matrix, Tensor .2 Hình 1-2 Tensor ứng xuất Cauchy Hình 1-3 Hình ảnh TPU Google sản xuất Hình 1-4 Sơ đồ kiến trúc GPU .4 Hình 1-5 Hình ảnh GPU Nvidia Hình 2-1 Kết test phần mềm Unreal Engine 4.25 11 Hình 2-2 Kết test phần mềm Redshift 3.0.28 .12 Hình 2-3 Kết test phần mềm V-Ray Next Benchmark 4.10.06 .12 Hình 2-4 Kết test phần mềm PugetBench for Davinci Resolve V9.02 13 Hình 2-5 Mô tác vụ CPU .14 Hình 2-6 Mơ tác vụ CPU .14 Hình 2-7 Mơ tác vụ GPU .15 Hình 2-8 Mơ tác vụ GPU .15 Hình 2-9 Mơ tác vụ GPU .15 DANH MỤC BẢNG BIỂU Bảng 1-1 Bảng tổng hợp điện tiêu thụ dòng card GeForce GTX 10 trở lên Nvidia DANH MỤC CÁC KÍ HIỆU VÀ TỪ VIẾT TẮT CPU ( Central Processing Unit) GPU ( Graphical Processing Unit) CUDA ( Compute Unified Device Architecture) AI ( Artificial Intellegence) ML ( Machine Learning) DLSS ( Deep Learning Super Sampling) GAN ( Generative Adversarial Networks) TPU (Tensor Processing Unit) CT ( Computed Tomography) Bộ xử lý trung tâm Bộ xử lý đồ họa Kiến trúc thiết bị tính tốn thống Trí tuệ nhân tạo Máy học Nội suy hình ảnh sử dụng học máy Mạng đối nghịch tạo sinh Vi xử lý Tensor Chụp ảnh cắt lớp vi tính Lời mở đầu LỜI MỞ ĐẦU Trong thời đại số hóa cơng nghiệp 4.0, việc tối ưu hóa khả tính tốn xử lý liệu trở thành yêu cầu thiết yếu để đáp ứng nhu cầu nhiều ứng dụng thực tế, từ y tế khoa học đến tự động hóa cơng nghiệp xe tự lái Trong phạm vi môn học Thiết kế hệ thống số VLSI, nhóm 14 Tìm hiểu kiến trúc xử lý tensor đồ họa, khả tính tốn CUDA core GPU với card RTX 3090 Bài báo cáo cung cấp kiến thức chi tiết kiến trúc xử lý tensor đồ họa, giúp hiểu rõ khả tính tốn GPU CUDA core, ứng dụng lĩnh vực Nội dung báo cáo chia thành chương sau: Chương 1: Kiến trúc xử lý tensor đồ họa Chương 2: Khả tính tốn CUDA core GPU với card RTX 3090 Chương 3: Các công nghệ ứng dụng lĩnh vực kiến trúc xử lý tensor đồ họa Chương CHƯƠNG KIẾN TRÚC XỬ LÝ TENSOR VÀ KIẾN TRÚC XỬ LÝ ĐỒ HỌA 1.1 Khái niệm đặc điểm tensor Tensor đối tượng đại số tuyến tính đa chiều, sử dụng rộng rãi toán học, vật lý, khoa học máy tính lĩnh vực khác Nó xem đại lượng đại số tuyến tính đa chiều, cịn gọi mảng đa chiều, biểu diễn ma trận, vector, số vô hướng tổ hợp chúng Tensor có nhiều chiều định nghĩa thành phần số, xếp theo số chiều Ví dụ, tensor hai chiều biểu diễn ma trận, phần tử xếp theo hai chiều (hàng cột) Một tensor ba chiều biểu diễn cube, phần tử xếp theo ba chiều (chiều dài, chiều rộng chiều cao) Hình 1-1 So sánh Scalar, Vector, Matrix, Tensor Tensor khái niệm quan trọng lĩnh vực đại số tuyến tính, lý thuyết động lực học, vật lý, khoa học máy tính lĩnh vực khác Các phép toán tensor phức tạp sử dụng rộng rãi ứng dụng thực tế xử lý ảnh, nhận dạng giọng nói, dịch văn nhận diện vật thể Hình 1-2 Tensor ứng xuất Cauchy Dưới số đặc điểm tensor: Số chiều: Tensor có nhiều hai chiều, với số chiều phụ thuộc vào mục đích sử dụng đặc tính liệu Kích thước: Mỗi chiều tensor có kích thước khác Ví dụ, tensor chiều có kích thước 3x4x5, chiều có phần tử, chiều thứ hai có phần tử chiều thứ ba có phần tử Chương Loại liệu: Tensor chứa loại liệu khác nhau, bao gồm số nguyên, số thực, boolean, chuỗi, v.v Phép tốn: Tensor thực phép toán đại số cộng, trừ, nhân, chia Các phép tốn thực phần tử tensor tensor khác Thao tác tensor: Tensor cắt, chuyển vị, nối, chuyển đổi hình dạng, giá trị, v.v Tính khả chuyển: Tensor chuyển đổi sang định dạng khác nhau, bao gồm tensor thưa, tensor dạng đồ thị, tensor dạng đặc trưng, v.v 1.2 Kiến trúc phần cứng TPU TPU (Tensor Processing Unit) loại chip xử lý liệu thiết kế đặc biệt cho việc thực tính tốn liên quan đến tensor, đặc biệt ứng dụng liên quan đến Machine Learning Deep Learning TPU Google giới thiệu vào năm 2016 sử dụng Google dịch vụ họ Google Search, Google Photos Google Translate Hình 1-3 Hình ảnh TPU Google sản xuất Kiến trúc TPU thiết kế để tối ưu hóa tính tốn tensor TPU thực hàng tỉ phép tính tensor giây tiêu thụ điện thấp Điều làm cho TPU trở thành giải pháp hiệu cho ứng dụng Machine Learning Deep Learning, đặc biệt việc huấn luyện mạng nơ-ron sâu Kiến trúc TPU bao gồm nhiều hạt nhân xử lý đa nhiệm (multicore), gọi Matrix Multiply Unit (MMU), thiết kế đặc biệt để thực phép nhân ma trận nhanh chóng hiệu MMU trang bị nhớ tích hợp (on-chip memory) để giảm thiểu trễ truy xuất liệu TPU có khả kết nối với máy tính thơng qua giao diện PCIe, cho phép truyền liệu nhanh chóng máy tính TPU Tổng quan kiến trúc TPU cho thấy thiết kế chun dụng cho việc tính tốn tensor, với hiệu suất cao tiêu thụ điện thấp Việc thiết kế Chương giúp TPU trở thành giải pháp hiệu cho ứng dụng Machine Learning Deep Learning, đặc biệt việc huấn luyện mạng nơ-ron sâu 1.3 Kiến trúc phần cứng GPU GPU loại chip xử lý đồ họa thiết kế dành riêng cho tính toán đồ họa xử lý 3D Kiến trúc GPU bao gồm nhiều nhân xử lý đồ họa (GPU cores) nhớ GPU (GPU memory) để hỗ trợ việc tính tốn đồ họa Hình 1-4 Sơ đồ kiến trúc GPU Cụ thể, kiến trúc GPU chia thành khối xử lý (processing blocks), bao gồm: Khối xử lý đa (Multiprocessors): Mỗi khối xử lý đa bao gồm nhiều nhân xử lý (CUDA cores) nhớ dùng chung (shared memory) để xử lý luồng công việc (threads) Khối xử lý đa cịn hỗ trợ tính đặc biệt đồng hóa (synchronization) chế bảo vệ truy cập (protection mechanism) Bộ điều khiển nhớ (Memory controller): Bộ điều khiển nhớ quản lý việc truy cập đọc/ghi liệu từ nhớ GPU Bộ đệm khối xử lý (Processing block cache): Bộ đệm khối xử lý sử dụng để tăng tốc độ truy cập liệu cho khối xử lý đa Chương Bộ đệm texture (Texture cache): Bộ đệm texture sử dụng để lưu trữ ghi thông tin vật liệu màu sắc để phục vụ trình vẽ 3D Bộ đệm khối hình (Frame buffer cache): Bộ đệm khối hình sử dụng để lưu trữ khung hình ảnh (frame buffer) cho ứng dụng đồ họa Từ kiến trúc trên, ta thấy GPU thiết bị phức tạp thiết kế để đáp ứng u cầu tính tốn đồ họa cao cấp 1.4 Một số ứng dụng phổ biến tensor Một số ứng dụng phổ biến tensor khoa học máy tính bao gồm: Xử lý hình ảnh: Tensor sử dụng để biểu diễn hình ảnh đặc trưng chúng Nó sử dụng để xây dựng mơ hình học sâu để phân loại, phát đối tượng, theo dõi v.v Xử lý âm thanh: Tensor sử dụng để biểu diễn liệu âm đặc trưng chúng Nó sử dụng để xây dựng mơ hình học sâu để phân loại, phát phân tích âm Xử lý ngôn ngữ tự nhiên: Tensor sử dụng để biểu diễn liệu ngôn ngữ đặc trưng chúng Nó sử dụng để xây dựng mơ hình học sâu để phân loại, phát sinh văn tự động Xử lý liệu thời gian thực: Tensor sử dụng để biểu diễn liệu thời gian đặc trưng chúng Nó sử dụng để xây dựng mơ hình học sâu để dự đốn, phân loại, phân tích thời gian thực Tensor đối tượng đa chiều linh hoạt có tính khả chuyển cao, chuyển đổi định dạng khác để phù hợp với mục đích sử dụng Tensor phần quan trọng thư viện học sâu TensorFlow PyTorch, sử dụng rộng rãi nghiên cứu ứng dụng thực tế 1.5 Kiến trúc xử lý tensor GPU 1.5.1 Định nghĩa Kiến trúc xử lý tensor GPU (Graphics Processing Unit) kiến trúc phần cứng thiết kế để xử lý phép tốn đại số tensor nhanh chóng hiệu so với xử lý trung tâm (CPU) truyền thống GPU thiết kế để xử lý đồ họa ứng dụng game đa phương tiện, sử dụng để xử lý phép toán đại số tensor ứng dụng khoa học công nghệ học sâu thị giác máy tính Hình 1-5 Hình ảnh GPU Nvidia Chương 1.5.2 Đặc điểm kiến trúc xử lý tensor GPU Kiến trúc xử lý tensor GPU có nhiều yếu tố quan trọng, bao gồm: - Số lượng nhân xử lý: GPU có nhiều nhân xử lý so với CPU, cho phép xử lý nhiều phép tốn lúc - Bộ nhớ: GPU có nhớ nhanh lớn so với CPU, cho phép lưu trữ xử lý tensor lớn - Kiến trúc xử lý: GPU thiết kế để xử lý phép toán đại số tensor theo cách hiệu so với CPU - Hỗ trợ phần mềm: GPU hỗ trợ thư viện tính tốn đại số cuBLAS, cuDNN TensorFlow, giúp tăng tốc độ xử lý đào tạo mơ hình học sâu Các kiến trúc xử lý tensor GPU khác có tính năng, đặc điểm hiệu suất khác Ví dụ, NVIDIA nhà sản xuất GPU hàng đầu, kiến trúc xử lý tensor NVIDIA bao gồm CUDA Tensor Cores CUDA cơng nghệ tính tốn đại số dựa GPU NVIDIA, Tensor Cores phần cứng tích hợp GPU để tăng tốc độ xử lý tensor mơ hình học sâu 1.5.3 GPU xử lý tensor nào? Sử dụng GPU để xử lý tensor tăng tốc độ xử lý đào tạo mơ hình học sâu đáng kể, cho phép nhà nghiên cứu nhà phát triển xử lý toán phức tạp cách nhanh chóng hiệu Để tận dụng tối đa khả xử lý GPU việc xử lý tensor, thư viện tính tốn đại số TensorFlow, PyTorch, Caffe MXNet phát triển để hỗ trợ tính tốn GPU Các thư viện cung cấp API để tạo, xử lý đào tạo mơ hình học sâu GPU, giúp tăng tốc độ tính tốn giảm thời gian đào tạo mơ hình Các kiến trúc xử lý tensor GPU cải tiến liên tục để tăng tốc độ tính tốn hiệu suất Ví dụ, NVIDIA giới thiệu kiến trúc Tensor Cores GPU họ để cải thiện hiệu suất tính tốn đại số tensor Tensor Cores cung cấp tính tính tốn tensor với độ xác cao hơn, cho phép tính tốn phép tốn đại số tensor cách nhanh chóng hiệu Ngồi ra, kiến trúc xử lý tensor GPU tùy chỉnh để phù hợp với yêu cầu cụ thể ứng dụng Ví dụ, nhà nghiên cứu kỹ sư tinh chỉnh tham số kiến trúc xử lý tensor để tối ưu hóa hiệu suất tính tốn cho ứng dụng cụ thể Trong tổng quan, sử dụng kiến trúc xử lý tensor GPU cách hiệu để tăng tốc độ tính tốn đào tạo mơ hình học sâu Tuy nhiên, việc sử dụng GPU có số hạn chế, bao gồm chi phí đắt đỏ u cầu lực tính tốn cao so với xử lý trung tâm (CPU) truyền thống Chương 1.5.4 Lợi hạn chế việc sử dụng kiến trúc xử lý tensor GPU 1.5.4.1 Lợi Một lợi ích việc sử dụng kiến trúc xử lý tensor GPU tăng tốc độ tính tốn đại số tensor GPU có nhiều nhân xử lý so với CPU, cho phép thực nhiều phép toán đại số lúc Ngồi ra, GPU có nhớ nhanh lớn so với CPU, cho phép lưu trữ xử lý tensor lớn Điều hữu ích ứng dụng khoa học công nghệ học sâu thị giác máy tính, phải xử lý tensor lớn có hàng triệu hàng tỷ phần tử Sử dụng kiến trúc xử lý tensor GPU giúp tăng tốc độ đào tạo mô hình học sâu Trong q trình đào tạo mơ hình, số bước tính tốn phải thực nhiều lần batch liệu khác Sử dụng GPU giúp tăng tốc độ tính tốn đại số batch liệu này, giảm thời gian đào tạo mơ hình Các kiến trúc xử lý tensor GPU cải tiến để tăng tốc độ tính tốn hiệu suất Ví dụ, NVIDIA giới thiệu kiến trúc Tensor Cores GPU họ để cải thiện hiệu suất tính tốn đại số tensor Tensor Cores cung cấp tính tính tốn tensor với độ xác cao hơn, cho phép tính tốn phép toán đại số tensor cách nhanh chóng hiệu 1.5.4.2 Hạn chế Tuy nhiên, việc sử dụng kiến trúc xử lý tensor GPU có số hạn chế Việc sử dụng GPU địi hỏi lực tính tốn cao so với CPU, cần phải có hệ thống máy tính nguồn điện phù hợp để sử dụng GPU Ngồi ra, việc sử dụng GPU có chi phí đắt đỏ so với CPU Tuy nhiên, với phát triển công nghệ, giá thành GPU dần giảm trở nên phổ biến nhà nghiên cứu nhà phát triển Tên GPU Điện tiêu thụ Bộ nguồn khuyên dùng (Công suất thực tế) GTX 1050 75W 300W GTX 1050 Ti 75W 300W GTX 1060 3GB 120W 400W GTX 1060 6GB 120W 400W GTX 1070 150W 500W GTX 1070 Ti 180W 500W GTX 1080 180W 500W GTX 1080 Ti 250W 600W GTX 1650 1650 Ti 75W 300W GTX 1650 Super 100W 350W GTX 1660 1660Ti 120W 450W GTX 1660 Super 125W 450W Chương RTX 2060 160W 500W RTX 2060 Super 175W 550W RTX 2070 2070 Ti 175W - 185W 550W RTX 2070 Super 215W 650W RTX 2080 2080 Ti 215W - 225W 650W RTX 2080 Super 250W 650W RTX 3060 170W 550W RTX 3060 Ti 200W 600W RTX 3070 220W 650W RTX 3070 Ti 290W 750W RTX Titan 280W 650W RTX Titan V 250W 600W RTX 3080 3080 Ti 320W - 350W 750W RTX 3090 350W 750W Bảng 1-1 Bảng tổng hợp điện tiêu thụ dòng card GeForce GTX 10 trở lên Nvidia 1.5.5 Một số ứng dụng kiến trúc xử lý tensor GPU Một ứng dụng kiến trúc xử lý tensor GPU lĩnh vực học sâu (deep learning) Học sâu lĩnh vực trí tuệ nhân tạo (AI) máy học (machine learning) tập trung vào việc xây dựng mơ hình nơ-ron sâu để phân tích rút trích kiến thức từ liệu Các mơ hình học sâu sử dụng để giải tốn phân loại hình ảnh, nhận dạng giọng nói, dịch thuật tự động, nhiều toán khác Việc sử dụng kiến trúc xử lý tensor GPU giúp đào tạo mơ hình học sâu nhanh hiệu Trong q trình đào tạo mơ hình học sâu, phải tính tốn gradient hàm mát tham số mơ hình, sử dụng gradient để cập nhật tham số Việc tính tốn gradient tốn thời gian tài ngun tính tốn Sử dụng GPU giúp tăng tốc độ tính tốn đại số gradient này, giảm thời gian đào tạo mơ hình Ngồi ra, kiến trúc xử lý tensor GPU sử dụng để tăng tốc độ tính tốn ứng dụng khác, xử lý video, xử lý hình ảnh y tế, xử lý ngơn ngữ tự nhiên Tuy nhiên, việc sử dụng kiến trúc xử lý tensor GPU có số thách thức Vì GPU địi hỏi lực tính tốn cao so với CPU, việc sử dụng GPU tạo nhiệt độ cao tiêu tốn nhiều lượng Do đó, cần có hệ thống làm mát hiệu để đảm bảo GPU hoạt động ổn định bền bỉ Ngồi ra, việc đồng hóa tính toán nhiều GPU thách thức hệ thống phân tán lớn Chương Tóm lại, kiến trúc xử lý tensor GPU công nghệ quan trọng lĩnh vực máy học trí tuệ nhân tạo, giúp tăng tốc độ tính tốn đào tạo mơ hình Tuy nhiên, việc sử dụng GPU có số thách thức yêu cầu kỹ thuật cao để đảm bảo hoạt động ổn định bền bỉ Chương CHƯƠNG KHẢ NĂNG TÍNH TOÁN CỦA CUDA CORE TRONG GPU VỚI CARD RTX 3090 2.1 Giới thiệu CUDA GPU CUDA tảng tính tốn song song mơ hình lập trình phát triển NVIDA cho nhiều mục đích tính tốn khác sử dụng nhân xử lý đồ họa chuyên dụng (Graphical Processing unit - GPU) Với CUDA, nhà phát triển tăng cường khả tính tốn GPU NVIDA cho nhiều mục đích khác ngơn ngữ lập trình quen thuộc C, C++, Fortran, Python hay MATLAB CUDA cho phép lập trình viên viết dịng code mà CPU GPU xử lý, tối ưu hiệu tính hiệu cho ứng dụng họ cách khai thác tính song song GPU CUDA đồng thời cung cấp thư viện, công cụ framework tạo thuận lợi cho việc phát triển triển khai ứng dụng sử dụng CUDA 2.2 Cấu trúc CUDA core GPU Trong GPU Nvidia, nhân tính tốn (Compute cores) nhóm lại vào đơn vị gọi Streaming Multiprocessors (SM) Mỗi nhân SM có chứa 64 nhân CUDA (FP32) 64 nhân INT Mỗi nhân SM có hệ thống phần cứng riêng Warp Schedulers (), Dispatcher (), Registers (Thanh ghi), Bộ nhớ chung ghi L1 Cache Cấu trúc dẫn hướng GPU SIMT (Single Instruction Multiple Threads) Các luồng thực tập gọi Warp Warp đơn vị việc thực thi GPU Thơng thường số luồng warp (kích cỡ warp) 32 Ngay luồng xử lý, warp gồm 32 luồng kích hoạt warp scheduler nơi mà luồng luồng hoạt động Do đó, cần đảm bảo tất luồng warp hoạt động để tối ưu hóa tài nguyên GPU Dựa vào tính sẵn sàng Warp mà chia làm loại: Warp chọn - warp thực thi Warp chuẩn bị: warp sẵn sàng cho việc thực thi với tất dẫn có sẵn chờ lệnh thực thi Warp chờ: warp chưa sẵn sàng cho việc thực thi Thanh ghi: ghi dạng 32 bit tối đa 255 ghi phân cho luồng Tổng cộng có 64kb nhớ ghi cho nhân SM Bộ nhớ chung: nhớ chung chia cho khối luồng (Thread block) 64kb dung lượng nhớ chung cho nhân SM Các ghi nhớ chung có độ trể so sánh với độ trễ nhớ tồn hệ thống Do cần tối ưu hóa ghi có sẵn nhớ chung để đảm bảo độ trễ mức thấp Chương 2.3 Khả tính tốn CUDA core GPU RTX 3090 NVIDIA cho biết GPU RTX 3090 có 10496 nhân CUDA, tất chứa 82 nhân SM chạy xung nhịp 1395 MHz lý thuyết, hiệu tính tốn RTX 3090 test FP16, FP32 FP64 là: 35,58 TFLOPS, 35,58 TFLOPS 556 GFLOPS Với thông số vượt trội hẳn so với hệ GPU trước NVIDIA RTX 3090 có kết kiểm tra vượt xa so với GPU NVIDIA hệ trước Với test Unigne Heaven, Với RTX 2080ti làm điểm mốc, ta thấy dc RTX 3090 vượt xa GPU khác hiệu tạo số khung hình giây (FPS) nhiều 74% so với Titan RTX - GPU mạnh vi kiến trúc Turing, 81% so với RTX 2080Ti mạnh đến 143% so với GTX 1080Ti - số GPU mạnh vi kiến trúc Pascal Hình 2-6 Kết test phần mềm Unreal Engine 4.25 Bài test (Hình dưới) Redshift - ứng dụng phổ biến khác sử dụng CUDA để tăng tốc trình làm việc test này, RTX 3090 có thời gian hồn thành 162 giây, nhanh 58% so với Titan RTX, nhanh 64% so với RTX 2080Ti Đây GPU mạnh dòng GPU phổ thông NVIDIA hệ trước Pascal Chương Hình 2-7 Kết test phần mềm Redshift 3.0.28 V-Ray test cho ta thấy RTX 3090 bỏ xa GPU hệ cũ NVIDIA test RTX 3090 có tốc độ tính tốn 782 mpath/s nhanh Titan RTX 200%, RTX 2080Ti 214% bỏ xa GPU thấp cấp Hình 2-8 Kết test phần mềm V-Ray Next Benchmark 4.10.06 Còn test DaVinci Resolve, RTX 3090 vượt trội so với 155,7 điểm GPU effect score, bỏ xa Titan RTX 44%, RTX 2080Ti 52% RTX 3090 so sánh với hệ thống sử dụng lúc GPU RTX 2080Ti khoảng cách nhỏ, 2% cho ta thấy khả tính tốn RTX 3090 mạnh Chương Hình 2-9 Kết test phần mềm PugetBench for Davinci Resolve V9.02 Qua test trên, ta thấy ưu điểm việc sử dụng RTX 3090 vụ cần sử dụng CUDA Với lượng nhân lên tới 10496 nhân CUDA, RTX 3090 có lượng CUDA nhiều RTX 2080Ti 2,4 lần Cùng với vi kiến trúc Ampere tối ưu hóa, RTX 3090 hoạt động với xung nhịp cao, đem lại hiệu tốt nhiều so với GPU hệ trước Turing/Pascal Do mà RTX 3090 phù hợp với hệ thống tính tốn mức độ vừa nhỏ, nơi u cầu cao tác vụ tính tốn địi hỏi chi phí hợp lí Các tác vụ nặng AI, ML hay tính tốn đơn hưởng lợi từ lượng CUDA lớn nhanh nhạy RTX 3090 2.4 So sánh GPU CPU So sánh GPU vs CPU GPU CPU xử lý tích hợp thiết kế để chạy kiểu xử lý tác vụ khác nhân CPU thiết kế để chạy đa nhiệm, nhiều tác vụ thời điểm Chúng thiết kế để chạy phép tinh tốn chung có đa dạng cách sử dụng đó, nhân GPU thiết kế cho mục đích nhất: xử lý đồ họa chúng thiết kế chuyên biệt vô hiệu cơng việc CPU có nhân lại có hiệu tính tốn mạnh Trong GPU xây dựng với nhiều nhân có khả xử lý tính tốn k mạnh Một nhân đồ họa GPU hiệu tác vụ song song, ví dụ việc xếp hàng ngàn- hàng triệu pixel ảnh thời gian ngắn nhân CUDA tương đồng với nhân CPU, với điểm khác biệt việc nhân CUDA có khả tính tốn đa dạng so với CPU Bù lại, chúng lại tích hợp lên GPU với số lượng vô lớn, từ vài trăm vài chục nghìn nhân Điều giúp cho GPU hoạt động hiệu tác vụ tính Chương tốn song song ví dụ cho việc xử lý tác vụ thực phép tính tốn song song Với CPU, việc xử lý tác vụ tính toán song song giống việc vẽ tranh súng sơn có vài nịng bắn lúc với tác vụ đơn giản địi hỏi lượng nhân xử lý cao gây khó khăn cho CPU, từ ảnh hưởng đến tốc độ xử lý chung ứng dụng Hình 2-10 Mơ tác vụ CPU Hình 2-11 Mơ tác vụ CPU Với GPU, việc xử lý tác vụ tính tốn song song (parallel computing) dễ dàng nhiều sở hữu lượng nhân CUDA lớn GPU, giống súng sơn với hàng nghìn nịng súng, chúng dễ dàng vẽ tranh chi tiết nhiều Chương Hình 2-12 Mơ tác vụ GPU Hình 2-13 Mơ tác vụ GPU Hình 2-14 Mơ tác vụ GPU Chương CHƯƠNG CÁC CÔNG NGHỆ VÀ ỨNG DỤNG MỚI TRONG LĨNH VỰC KIẾN TRÚC XỬ LÝ TENSOR VÀ ĐỒ HỌA VÀ ỨNG DỤNG CỦA CUDA TRONG LĨNH VỰC CÔNG NGHỆ 3.1 Các công nghệ ứng dụng lĩnh vực kiến trúc xử lý tensor đồ họa 3.1.1 Tensor Core Tensor core loại lõi xử lý đặc biệt GPU NVIDIA thiết kế để xử lý phép toán tensor ứng dụng liên quan đến học sâu máy học Tensor core giới thiệu lần GPU dòng Volta tiếp tục cải tiến phiên GPU NVIDIA Các tensor core hoạt động xử lý liệu độc lập đặc biệt, thiết kế để thực phép nhân ma trận phép tính tốn tensor khác nhanh so với lõi xử lý truyền thống Điều giúp tăng tốc độ tính tốn hiệu suất ứng dụng liên quan đến học sâu máy học Tensor core hỗ trợ phép tốn dành cho tính tốn kiến trúc mạng neuron convolution, pooling, batch normalization activation functions, giúp tăng tốc độ tính tốn giảm thời gian huấn luyện mơ hình Với việc tích hợp tensor core, GPU NVIDIA trở thành lựa chọn hàng đầu cho ứng dụng liên quan đến học sâu máy học 3.1.2 Deep Learning Super Sampling (DLSS) DLSS công nghệ NVIDIA, giới thiệu vào năm 2018 tích hợp card đồ họa RTX hệ thứ DLSS sử dụng mạng nơ-ron sâu để tăng cường độ phân giải hình ảnh, giúp cải thiện chất lượng hình ảnh đồng thời giảm tải cho GPU Cách hoạt động DLSS dựa việc huấn luyện mô hình học sâu với hình ảnh tạo từ nhiều góc độ độ phân giải khác Khi trò chơi chạy GPU, DLSS sử dụng mơ hình học sâu để tạo hình ảnh có độ phân giải cao so với hình ảnh ban đầu, đồng thời giảm nhiễu cải thiện chất lượng hình ảnh DLSS giúp tăng cường hiệu suất GPU cách giảm tải độ phân giải hình ảnh cho phép GPU xử lý tác vụ khác tính tốn vật lý chuyển động Kết DLSS giúp tăng tốc độ khung hình cải thiện trải nghiệm chơi game GPU NVIDIA DLSS tích hợp GPU NVIDIA công nghệ hàng đầu lĩnh vực tăng cường độ phân giải hiệu suất trò chơi 3.1.3 Real-Time Ray Tracing Real-Time Ray Tracing công nghệ NVIDIA, giới thiệu vào năm 2018 tích hợp card đồ họa RTX hệ thứ Real-time Ray Tracing cơng nghệ hiển thị hình ảnh GPU cho phép tính tốn tia sáng thời gian thực, cung cấp chất lượng hình ảnh cao chân thực so với phương pháp truyền thống Ray Tracing tính tốn hình ảnh cách theo dõi