SỰ KIỆN, VẤN ĐỀ VÀ CÂU HỎI ĐỘ TIN CẬY CHO GPUs

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang	21
Dung lượng	1,64 MB

Nội dung

SỰ KIỆN, VẤN ĐỀ VÀ CÂU HỎI ĐỘ TIN CẬY CHO GPUs TIỂU LUẬN MÔN HỌC XỬ LÝ SONG SONG Đơn vị xử lý đồ họa (GPUGraphics Processing Units) cung cấp quá trình song song lớn, bao gồm các mô hình thực tế như đa nhân, đa luồng và SIMD. Ngày nay, hầu hết các máy tính đều được trang bị ít nhất một card đồ họa, có chứa một hoặc nhiều GPU song song trong máy tính để bàn. GPU thường được sử dụng với các chức năng chính của nó, đó là tính toán khả năng hiển thị, ánh sáng, phối cảnh… trong các trò chơi.

ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC KHOA CÔNG NGHỆ THÔNG TIN NHÓM 4 – CAO HỌC KHOA HỌC MÁY TÍNH B (NĂM HỌC 2010 – 2012) SỰ KIỆN, VẤN ĐỀ VÀ CÂU HỎI - ĐỘ TIN CẬY CHO GPUs TIỂU LUẬN MÔN HỌC XỬ LÝ SONG SONG Thành phố Huế, tháng 2/2012 1 ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KHOA HỌC KHOA CÔNG NGHỆ THÔNG TIN SỰ KIỆN, VẤN ĐỀ VÀ CÂU HỎI - ĐỘ TIN CẬY CHO GPUs TIỂU LUẬN MÔN HỌC XỬ LÝ SONG SONG GIÁO VIÊN GIẢNG DẠY: NHÓM HỌC VIÊN THỰC HIỆN: TS. NGUYỄN MẬU HÂN TRẦN NHƯ ĐĂNG TUYÊN LÊ BÁ MINH PHONG NGUYỄN THỊ THANH TÂM NGUYỄN THỊ THÀNH NGUYỄN VŨ CÁT TƯỜNG Thành phố Huế, tháng 2/2012 2 MỤC LỤC 0Trang LỜI NÓI ĐẦU 4 I. Nghiên cứu các trường hợp và mô hình lập trình 5 1.1 Nghiên cứu trường hợp: NVIDIA GeForce 8800TX 5 1.2 Mô hình lập trình CUDA 6 1.3 Cài đặt thử nghiệm và biến thể đồng hồ 7 1.4 Thí nghiệm băng thông 8 1.5 Thí nghiệm chính xác 10 1.6 Thời gian và thí nghiệm giữa kỳ 11 II. Cơ hội đáng tin cậy 14 2.1 Phòng chống lỗi 15 2.2 Lỗi chịu đựng 15 2.3 Loại bỏ lỗi 16 2.4 Dự báo lỗi 17 III. Kết luận – Hướng phát triển 19 TÀI LIỆU THAM KHẢO 20 3 LỜI NÓI ĐẦU Đơn vị xử lý đồ họa (GPU-Graphics Processing Units) cung cấp quá trình song song lớn, bao gồm các mô hình thực tế như đa nhân, đa luồng và SIMD. Ngày nay, hầu hết các máy tính đều được trang bị ít nhất một card đồ họa, có chứa một hoặc nhiều GPU song song trong máy tính để bàn. GPU thường được sử dụng với các chức năng chính của nó, đó là tính toán khả năng hiển thị, ánh sáng, phối cảnh… trong các trò chơi. Khi công nghệ này được sử dụng rộng rãi, chi phí sẽ thấp hơn. Phần lớn các trường hợp, card đồ họa không dành toàn bộ thời gian hoạt động của nó để thực hiện mã hóa trò chơi. Do vậy, một hệ thống song song lớn là đảm bảo cho việc dành hết thời gian. Ngay sau khi có sự sẵn sàng của môi trường lập trình, dựa trên CUDA (Compute Unified Device Architecture) hoặc HLSL (ngôn ngữ shader cao cấp), các nhà nghiên cứu đã quan tâm đến việc sử dụng điện chung cho máy tính có cùng mục đích (GPGPU - tính toán mục đích chung trên GPU). Vì vậy, các ứng dụng có nguồn gốc khác nhau, ví dụ: Vật lý, mật mã 0, tuần tự 0 ADN và hình ảnh y tế. Xu hướng để tính toán khối lượng công việc với GPU sẽ là DirectX11 (tính toán) hoặc là tiêu chuẩn OpenCL 0. Khối lượng công việc thực hiện chịu lỗi trên GPU không được đề xuất. Tính toán hợp lý được thực hiện một cách đáng tin cậy. Ý nghĩa của tính toán để tìm một khóa riêng là nếu chương trình chính xác, nhưng phần cứng bị lỗi và chương trình không bao giờ tìm thấy khóa. Ví dụ: Lỗi nhất thời có thể được gây ra từ sự biến động trong hiện tại, do bức xạ, hoặc RAM không hoạt động do đặc điểm kỹ thuật của nó Điều gì sẽ xảy ra nếu mã hóa bị lỗi do lỗi thời hoặc làm thế nào chúng ta có thể phát hiện một chẩn đoán bị lỗi? Sự cần thiết phải làm là tính toán chính xác đã dẫn đến sự phát triển tinh vi hơn và đôi khi đắt tiền của đơn vị xử lý đồ họa 0, cần thiết bởi các ứng dụng CAD (đồ họa trong ngành kiến trúc, xây dựng). Larrabee 0 là kiến trúc nhiều lõi cho máy tính thị giác. Nó vẫn còn sử dụng nhiều lõi cũ CPUx86 trong trật tự và được tăng cường bởi một đơn vị xử lý vector rộng, cũng như một số các khối chức năng logic cố định. Điều này cung cấp hiệu suất cao hơn nhiều mỗi watt và trên một đơn vị diện tích hơn so với ngoài trật tự của CPU trên khối lượng công việc song song cao. Vision4ce 0 tung ra một dòng sản phẩm GRIP mới là SPIE gần đây tại Hội nghị chuyên đề Quốc phòng và An ninh. Các GRIP-Beta cho thấy GPGPU dựa trên mô hình xử lý hình ảnh, tương tự và Gigabit Ethernet video trực tuyến và chức năng trong khuôn khổ Gripworkx xử lý hình ảnh.Vision4ce nhúng địa chỉ thách thức các máy tính bình thường được phục vụ bởi các phương pháp FPGA đắt tiền hơn. 4 Tiểu luận này này trình bày các nghiên cứu cơ bản, trả lời các câu hỏi của một hệ thống, được trang bị với nhiều card đồ họa có thể được khai thác để phát hiện, dự đoán, ngăn chặn và chịu đựng lỗi hay không? Dĩ nhiên, chúng tôi không hạn chế tính toán chạy trên GPU một mình và cũng có thể xem xét gia công phần mềm của các bộ phận ứng dụng từ CPU với GPU. Chúng tôi nhận thức một thực tế là, đánh giá này chỉ có thể được làm mẫu - nhưng nó có thể phục vụ như là một điểm khởi đầu cho một công việc trong tương lai. Tất cả các cơ chế phương tiện đầy đủ trong phần mềm và không yêu cầu phần cứng đặc biệt hoặc sửa đổi. Tiểu luận gồm các phần: Đầu tiên chúng ta trình bày ví dụ về việc triển khai GPU hiện tại trong mục 2. Phần tiếp theo cho thấy cách xử lý song song lớn của các GPU hiện đại có thể được khai thác cho độ tin cậy. Phần cuối tóm tắt và kết luận tiểu luận. I. NGHIÊN CỨU CÁC TRƯỜNG HỢP VÀ MÔ HÌNH LẬP TRÌNH 1.1 Nghiên cứu trường hợp: NVIDIA GeForce 8800 GTX Trong mục này, chúng tôi mô tả kiến trúc cơ bản của gia đình GPU G80 từ NVIDIA vì điều này sẽ giúp hiểu các khả năng đáng tin cậy. Hình1. NVIDIA GeForce 8800 GTX 5 GeForce 8800 GTX được chia thành 16 bộ xử lý trực tiếp (SMs), bao gồm 8 bộ xử lý trực tiếp (SPs), tạo ra tổng cộng 128 SP. Mỗi SM có 8.192 đăng ký được chia sẻ giữa tất cả các luồng giao cho SMs. Các luồng trên một lõi SM thực hiện trong SIMD thời trang, với những đơn vị hướng dẫn (IU) phát sóng các hướng dẫn hiện hành đểntám SPs. Mỗi SP có một đơn vị số học thực hiện điểm số học đơn chính xác và hoạt động của số nguyên 32-bit. Hình 1 cho thấy cái nhìn tổng quan về GeForce 8800 GTX. Mỗi SM đã có hai đơn vị chức năng đặc biệt (SFUs), thực hiện hoạt động phức tạp hơn FP chẳng hạn như các chức năng siêu việt. Các đơn vị số học và SFUs đầy đủ. Mỗi chỉ dẫn FP là hoạt động lên đến 8 byte dữ liệu. Một yếu tố quan trọng ảnh hưởng đến cả hiệu suất và chất lượng là chính xác cho các hoạt động và đăng ký. GeForceSeries hỗ trợ 32 bit và 16 định dạng điểm bit (gọi là phao và một nửa, tương ứng) 0. Các kiểu dữ liệu phao tương tự như IEEE754 (s23e8), một nửa có một định dạng s10e5. Một số mô hình, ví dụ: G200 cũng hỗ trợ độ chính xác tăng gấp đôi trong định dạng IEEE754R (một trong hai đơn vị chính xác trên một SM). Các bộ vi xử lý hỗ trợ thu thập và phân tán. Vì vậy, nó có khả năng đọc và viết bất cứ nơi nào trong bộ nhớ địa phương trên các card đồ họa hoặc trong các phần khác của hệ thống. Các G80 có nhiều trên chip nhớ có thể khai thác dữ liệu địa phương và chia sẻ dữ liệu, ví dụ như 64 KB off-chip bộ nhớ liên tục và 8 KB-chuyển bộ nhớ cache bộ nhớ liên tục trong mỗi SM. Nếu nhiều luồng truy cập vào địa chỉ tương tự trong cùng một chu kỳ, các chương trình phát sóng bộ nhớ cache địa chỉ các luồng với độ trễ tương tự như truy cập đăng ký. Ngoài các bộ nhớ cache liên tục, mỗi SM có 16 KB chia sẻ (dữ liệu) bộ nhớ hoặc bằng văn bản và tái sử dụng hoặc chia sẻ giữa các luồng. Cuối cùng, dữ liệu chỉ đọc được bởi các luồng nhưng không nhất thiết phải được truy cập đồng thời, bộ nhớ kết cấu off-chip và các on-chip lưu trữ kết cấu khai thác dữ liệu địa phương 2D. 1.2 Mô hình lập trình CUDA Các mô hình lập trình CUDA bao gồm ANSI C được hỗ trợ bởi một số từ khóa và xây dựng. CUDA xử lý GPU như một coprocessor (bộ đồng xử lý) thực thi dữ liệu chức năng nhân song song. Các nhà phát triển cung cấp một chương trình nguồn duy nhất bao gồm cả máy chủ (CPU, C) và mã nhân (GPU, CU). Mã máy chủ truyền dữ liệu và mã đến và đi của GPU bộ nhớ toàn cầu thông qua cuộc gọi API và khởi tạo nhân. Ở cấp độ cao nhất, mỗi nhân tạo ra một mạng lưới duy nhất, trong đó bao gồm nhiều khối luồng. Mỗi khối luồng được giao cho một đơn SM trong suốt thời gian thực hiện của nó. Một khối luồng bao gồm một số giới hạn các luồng mà có thể hợp tác. Số lượng tối đa của luồng cho mỗi khối là 512. Luồng từ các khối khác nhau có thể hợp tác. Mỗi luồng có thể 6 đọc/ghi từ/đăng ký đề tài, bộ nhớ luồng - địa phương, chia sẻ bộ nhớ trong một khối, bộ nhớ toàn cầu và đọc từ không đổi bộ nhớ hoặc bộ nhớ kết cấu trong một mạng lưới. Các máy chủ đã đọc/ghi truy cập trên hằng số, bộ nhớ toàn cầu và kết cấu. Luồng trong cùng một khối có thể chia sẻ dữ liệu thông qua chia sẻ bộ nhớ và có thể thực hiện hàng rào đồng bộ.Nếu luồng là không độc lập, và đồng bộ hóa giữa các khối luồngan toàn thực hiện bằng cách chấm dứt nhân. IU quản lý mọi thứ trong nhóm các luồng song song, được gọi là warps. SM có thể thực hiện bằng cách lập kế hoạch trên không chen vào warps trên cơ sở theo hướng dẫn để ẩn độ trễ truy cập bộ nhớ toàn cầu và hoạt động số học độ trễ dài. Khi một warps bị ngăn lại, SM có thể chuyển sang một warps đã sẵn sàng trong khối cùng một luồng khác nhau được SM phân công. Mỗi warps thực hiện trong kiểu SIMD, với IU phát sóng cùng một hướng dẫn tám lõi trên một SM trên bốn chu kỳ đồng hồ liên tiếp. Kể từ khi một trong những điểm ảnh tương đương với một luồng, và kể từ khi SPs là vô hướng, trình biên dịch lập lịch trình yếu tố điểm ảnh để thực hiện tuần tự: đỏ, sau đó màu xanh lá cây, sau đó màu xanh, và sau đó alpha. Hình 2 cho thấy Cụm xử lý luồng (TPC) được sử dụng trên các dòng G200 với 10 TPCs /tổng số. Như mô tả, TPC gồm nhiều IU, SP và bộ nhớ địa phương. Hình 2. Cụm xử lý luồng (TPC) 1.3 Cài đặt thử nghiệm và biến thể đồng hồ Trong mục này chúng ta trình bày kết quả đánh giá thử nghiệm đầu tiên của sự thay đổi đồng hồ, từ khi chúng tôi muốn tăng tỷ lệ lỗi nhân tạo, quan sát hành vi của hệ thống liên quan đến độ tin cậy và mô tả các số liệu hiệu suất cơ bản. Thiết lập thử nghiệm của chúng tôi bao gồm một hệ thống 6 GB bộ nhớ Core i7, cấu hình với hai NVIDIA GTX260 thẻ (PCIe 2.0 x16). Hai đĩa cứng (500 GB) trong chế độ RAID 0. Trong thí nghiệm đầu tiên với SLI, chúng tôi điều chỉnh đồng hồ động cơ, bóng đổ và tần số bộ nhớ. Một hệ thống SLI được xây dựng trên cấp độ phần cứng và phải được cấu hình trên cấp độ phần mềm. 7 Hoặc là GPU làm việc độc lập trong chế độ SLI không hỗ trợ hiển thị đa trưng bày, tất cả các GPU trong một cấu hình SLI xuất hiện như là một đơn vị duy nhất, chủ yếu được sử dụng để tăng tốc độ các ứng dụng 3D và tính toán. Đối với môi trường lập trình CUDA, một tổ chức phi-SLI hệ thống xuất hiện như là một tập hợp các card đồ họa, một hệ thống như là một card đồ họa SLI. Nhiều GPU xuất hiện như nhiều luồng chủ. Đồng hồ tỷ lệ điều chỉnh trong chế độ SLI được thực hiện cho cả hai thẻ đồng thời, trong chế độ không SLI, cả hai thẻ có thể được cấu hình riêng. Các đồng hồ tốc độ tối đa (động cơ = 800, shader = 1650, bộ nhớ = 2700) MHz đôi khi kết quả trong các lỗi thực hiện của một nhân trong chế độ không SLI và hệ thống hoàn chỉnh thất bại trong chế độ SLI. Vì vậy, chúng tôi áp dụng các cài đặt ít tích cực và đa dạng tần số đồng hồ giữa (Động cơ = 500, shader = 1150, bộ nhớ = 1.900) và (700, 1400, 2500) MHz. Khối lượng công việc bao gồm một tính toán của công thức blackscholes cho 512 lặp đi lặp lại. Cùng khối lượng công việc cũng đã được tính toán trên CPU. Bên cạnh các vấn đề chính xác (xem Phần 0) không có độ lệch trừ cho các thiết lập đồng hồ cao nhất xảy ra. Hình 3 cho thấy ảnh hưởng của biến thể của các tần số đồng hồ của các shader, động cơ và bộ nhớ hiệu năng (SLI). Lưu ý rằng băng thông là băng thông thẻ nội bộ và không phải là băng thông của giao diện bên ngoài (PCIe). Từ thí nghiệm 2 kết luận đơn giản nhưng quan trọng là: 1. Một hệ thống trong chế độ SLI là ít đáng tin cậy hơn trong chế độ không SLI.Tính đáng tin cậy nên được thực hiện trên một hệ thống phi-SLI.Một hệ thống SLI có lợi thế hơn trong các ứng dụng tính toán chuyên sâu.Đối với các ứng dụng băng thông rộng hệ thống SLI không được ưa thích. 2. Trong các thí nghiệm ép xung GPU thay vì có xu hướng hoàn toàn từ chối việc thực hiện của một nhân thay vì những tính toán bị lỗi (ép xung áp dụng vào đầu các thực hiện). Thực tế, những con số này chỉ làm mẫu, nhưng kết quả có thể phục vụ như là một định hướng trong tương lai. 1.4 Thí nghiệm băng thông Các câu hỏi trong mục này là để xác định băng thông trong MB cho mỗi thứ các kích cỡ chuyển giao khác nhau và các cấu hình khác nhau của một hệ thống SLI và không-SLI. Băng thông là quan trọng ví dụ như khi kết quả của một tính toán dự phòng phải được chuyển giao lại cho CPU để so sánh. Băng thông cơ bản của giao diện PCIe 2.0 được mô tả trong Bảng 1. 8 Hình 3. Hiệu suất hệ thống trong khi thay đổi tần số đồng hồ PCIe-Slot Làn/ Hướng Băng thông Đồng hồ x1 1 0,5 Gbyte/s 2,5 GHz x4 4 2 Gbyte/s 2,5 GHz x8 8 4 Gbyte/s 2,5 GHz x16 16 8 Gbyte/s 2,5 GHz x32 32 16 Gbyte/s 2,5 GHz Bảng 1. Băng thông cơ bản của PCIe 2.0 Khối với một kích thước nhất định hoặc chuyển từ máy chủ đến thiết bị, từ thiết bị tới máy chủ và từ thiết bị đến thiết bị. Băng thông tối đa cho mỗi thiết bị trong thí nghiệm là 8 GBytes /s. Hình4 cho thấy các băng thông cho bộ nhớ phân trang và ghim chặt. Ghim chặt bộ nhớ cho phép các nhân tính toán để truy cập và chia sẻ bộ nhớ của máy chủ. Chúng tôi áp dụng các thiết lập đồng hồ thấp nhất (động cơ = 500, shader = 1150, bộ nhớ = 1.900) xác định một băng thông thấp hơn bị ràng buộc. Từ những kết quả, chúng ta thấy rằng các máy chủ chuyển giao thiết bị (gắn bộ nhớ) là hình thức thấp nhất để truyền dữ liệu, tiếp theo là thiết bị để lưu trữ (phân trang) thông tin liên lạc. Bắt đầu từ kích thước 9 khối lớn hơn 65536 byte, các thiết bị thông tin liên lạc là thiết bị nhanh nhất để truyền dữ liệu. Hình 4. Băng thông cho các khối kích cỡ chuyển giao khác nhau Chúng tôi lưu ý rằng băng thông thử nghiệm cho các thiết bị thông tin liên lạc thiết bị cao hơn giới hạn của đặc tả PCIe x16 2.0.Lý do cho điều này là việc chuyển được thực hiện trên card đồ họa và không vượt qua bus PCIe bên ngoài. 1.5 Thí nghiệm chính xác Các lĩnh vực của (COTS) GPU là không chính xác, đó là tốc độ. Vì vậy, các ứng dụng chạy trên GPU phải được đặt câu hỏi chung. Hầu hết các GPU sử dụng IEEE754R như định dạng điểm nổi. Trong so sánh với IEEE754 làm tròn xảy ra, dẫn đến sự thiếu chính xác. Tuy nhiên, có một số công việc ở quanh, bao gồm các độ chính xác 0. Trong mục này, chúng tôi không tập trung vào các lỗi làm tròn số. Chúng tôi thích một phân tích thực nghiệm, vì chúng ta không biết thực hiện các thuật toán dấu chấm động trong GPU. Đặc biệt là thực hiện các chức năng siêu việt có nghĩa các thuật toán xấp xỉ, mà chúng ta không thể biết nếu chúng ta không có một tiết lộ của GPU thực hiện đầy đủ, mà không phải là do lý do thương mại. Kiến thức của tác giả, phương pháp này để kiểm tra độ chính xác của GPU là một sự mới lạ. 10 [...]... tôi thực hiện một phiên bản không đồng bộ cho GPU chạy độc lập trên CPU Trong triển khai thực hiện hiện tại, card đồ họa không thích hợp cho các ứng dụng thời gian thực Hướng tương lai, đề tài sẽ tiếp tục nghiên cứu việc thực hiện và phân tích của các phương tiện đáng tin cậy thông qua thảo luận và đánh giá độ tin cậy lâu dài TÀI LIỆU THAM KHẢO [1] ACM Queue, GPUs Not Just for Graphics, Vol 6, No 2,... LUẬN – HƯỚNG PHÁT TRIỂN Tiểu luận này trình bày bước đầu tiên và cách tiếp cận sáng tạo để sử dụng GPU cho độ tin cậy Chúng tôi nhận thức rằng, việc nghiên cứu này còn hết sức thô sơ nhưng nó có thể phục vụ như là khởi đầu công việc trong tương lai Nó đã thể hiện song song như thế nào của các GPU hiện tại có thể được khai thác cho độ tin cậy Mặc dù chúng tôi đã không xác định bản chất chính xác của... lệch không bình thường (trừ trường hợp chính xác) giữa CPU và GPU xảy ra.Các kết quả ổn định trong toàn bộ thời gian quan sát II CƠ HỘI ĐÁNG TIN CẬY Trong phần này, chúng tôi sẽ thảo luận về những cơ hội đáng tin cậy được cung cấp bởi card đồ họa Lưu ý, thuật ngữ của chúng tôi là dựa vào 0 Đầu tiên chúng ta sẽ nhìn vào phần có nghĩa từ cây tin cậy (từ 0) trong hình 7 Sau đó, chúng ta sẽ thảo luận về... phù hợp cho các ứng dụng thời gian thực.Thú vị là thời gian từ CPU và GPU có một kết nối, nghĩa là nếu thời gian cho các GPU lớn, thời gian của việc thực hiện CPU tương ứng cũng cao hơn .Độ lệch kết quả trong mỗi lần chạy và kết quả dường như tương quan.Điều này là đáng ngạc nhiên, kể từ khi chúng tôi thực hiện một phiên bản không đồng bộ cho GPU chạy độc lập với CPU.Trong thí nghiệm, không có độ lệch... lỗi, kết quả và bối cảnh vật lý của thiết lập thử nghiệm mạnh mẽ đề nghị mô hình thoáng qua lỗi Để giảm phụ thuộc vật lý, ta nên thực hiện các tính toán thẻ dự phòng khác nhau, sau đó trên GPU khác nhau, sau đó trên lưới khác nhau Từ thực nghiệm kết quả một số kết luận có thể được bắt nguồn: Một hệ thống trong chế độ SLI là ít đáng tin cậy hơn một trong chế độ không SLI Tính toán đáng tin cậy nên được... 4*10-16 0 Bảng 2 Độ lệch tối đa tuyệt đối từ thực hiện CPU Thật đáng ngạc nhiên, các phép tính số học cơ bản như addvà sub hoặc mul và tất cả các hoạt động số nguyên không dẫn đến sự thiếu chính xác.Từ đó, chúng ta có thể kết luận rằng một mở rộng quy mô của float nhỏ không phải là số nguyên có thể cải thiện độ chính xác trong một cách mà CPU và GPU kết quả sẽ không khác nhau 1.6 Thời gian và thí nghiệm... gian, thông tin và chức năng dự phòng Đương nhiên, tất cả các mã liên quan đến dự phòng thông tin có thể được tính bằng thẻ đồ họa Một ý tưởng thú vị là để tăng tốc độ tính toán của Reed-Solomon-Codes bởi GPU 0 Chức năng dư thừa có thể dễ dàng đạt được bằng máy tính hoặc tính toán trên CPU và GPU, liên quan đến sự đa dạng trong phần mềm hoặc bằng cách lập trình một tập hợp các chức năng cho GPU Khi... phải được ghi vào bộ nhớ của card đồ họa, các vị trí bộ nhớ cũng được cập nhật Chúng tôi đề nghị các khoảng thời gian kiểm soát giữa 106 (~ 4 MBytes bằng văn bản) và 107 (~ 40 MBytes bằng văn bản) bộ nhớ viết Khoảng cách kiểm soát bị hạn chế bởi bộ nhớ chính của thẻ đồ họa, đáng tin cậy và hiệu năng hệ thống Trạng thái CPU cũng được lưu giữ trong chính bộ nhớ của thẻ Một lỗi, bộ nhớ và trạng thái CPU... các bộ vi xử lý hiện đại nhập vào một thói quen đặc biệt để tính toán dự báo Chúng tôi giả định lịch sử được tổ chức như bộ đệm vòng đơn giản của N chiều dài thuật toán trong hình 11 một thời gian ngắn phác thảo phương pháp mà không đi vào chi tiết 18 Hình 11.Cơ bản (tóm tắt) dự báo lỗi Lưu ý, rằng những dự báo với HMMs ngụ ý con số rất nhỏ và do đó vấn đề độ chính xác Một độ lệch nhỏ có thể dẫn đến kết... để tính toán độ lệch hoạt động của GPU so với việc thực hiện CPU và coi ba loại dữ liệu khác nhau: integer, float và double Nửa-float được hỗ trợ bởi các shader và do đó không trực tiếp truy cập bằng CUDA Khi một haft-float được lấy cảm hứng từ IEEE754, tồn tại vô cùng nếu tất cả các bit của số mũ là một và phần định trị là số không.Một haft- float là một NaN nếu tất cả các bit số mũ và phần định trị

Ngày đăng: 07/08/2014, 23:36

Xem thêm