1. Trang chủ
  2. » Luận Văn - Báo Cáo

Áo cáo bài tập lớn xác suất và thống kê (mt2013)

51 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Áo cáo bài tập lớn xác suất và thống kê (mt2013)
Tác giả Trần Nhật Huy, Lê Hoàng Việt, Nguyễn Ngọc Quỳnh Nhi, Trần Minh Quân, Lương Thanh Tùng
Người hướng dẫn Ths. Nguyễn
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Khoa Khoa Học & Kỹ Thuật
Thể loại Báo cáo
Năm xuất bản HK233
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 51
Dung lượng 4,4 MB

Nội dung

c2 Khoa Khoa học ứng dụng Nếu kiểm định tương tác cho kết quả có ý nghĩa thống kê, điều này ngụ ý rằng có sự tương tác giữa các biên độc lập và biến phụ thuộc, và hiệu ứng của mỗi biến đ

Trang 1

| |

DAI HOC QUOC GIA THANH PHO HO CHi MINH

TRUGNG DAI HOC BACH KHOA KHOA KHOA HOC UNG DUNG

1 Trần Nhật Huy 2252266 | DL01 | Khoa KH&KT Máy tính

2 Lê Hoàng Việt 2252903 | DLO3 | Khoa KH&KT Máy tính

3 Nguyễn Ngọc Quỳnh Nhi | 2212438 | DLO3 | Khoa KH&KT May tinh

4 Tran Minh Quan 2212823 | DL03 | Khoa KH&KT May tinh

5 Luong Thanh Ting 2213866 | DLO3 | Khoa KH& KT May tinh

Trang 2

Phần 3, 4, Code Anova + Hồi quy

tuyên tính

- Phần 1, phần 2 và hình thức báo

3 Nguyễn Ngọc Quỳnh Nhi | 2212438 100%

cáo

4 Trần Minh Quân 2212823 | Code Kiểm định hai mẫn, biểu đồ 100%

4 Lương Thanh Tùng 2213866 | Ước lượng một mẫu 100%

Báo cáo bài tập lồn Xác suất và Thống kê (MT2013) - HK233 Trang 2/49

Trang 3

<3 Khoa Khoa hoc ứng dung

Muc luc

2_ Kiến thức nền 4 2.1 Kiểm định giả thuyết thống kê cv va 4 2.2 Phân tích phương sai (ANOVA) ng kg va 5 2.2.1 Khái nệm kg kg kẻ vàn 5 2.2.2 Phân tích phương sai 1 yếu tố (Oneway ANOVA) 5 2.2.3 Phan tich phuong sai 2 yéu té (Two-way ANOVA) 0.0.0.0 5 2.2.4 Tuong tac gitta cac bién trong ANOVA 2.0.00 0 00004 5 2.3 Héi quy tuyén tinh 2 Q Q Q ng ng v v.v v v va 6

2.3.1 Hồi quy tuyến tính đơn biến co 6 2.3.2 Hồi quy tuyến tính đabiến cu va 7 2.3.3 Tương tác các biến trong hồi quy ca 8 2.3.4 Kiểm định mức độ phù hợp của mô hình 8

2.3.5 Kiểm định hệ số hồi quy cv va 9 2.3.6 Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình hồi

quy tuyến tính bội cv 9

Trang 4

c2 Khoa Khoa học ứng dụng

5_ Thống kê suy biến

5.1 Ước lượng khoảng tin cậy cho trung bình của một mau

5.11 Kiểm tra giả định về phân phối chuẩn

5.1.2 TĨìm gai SỐ 0 Q Q Q g Q Q Q g v.v va

5.1.3 Xét trường hợp phân phối chuẩn

5.2 Kiếm định hai mẫu cv va

5.2.1 Xửlýsố liệu Q2

5.22 Kiểm tra giả đính phân phối chuẩn

5.2.3 Tính tiêu chuẩn kiểm định

` ẰĂ_ ÁẶ

5.4 Kiểm tra giả định phân phối chuẩn

5.5 Kiểm định giả định về tính đồng nhất của các phương sai

5.6 Thực hiện mô hình Anova lyếutỔ

5.7 Sosánh bội óc c c c c ng ng ng k v va

5.8 Mô hình hồi quy tuyến tính ee

5.8.1 Xây dựng mô hình hồi quy:

5.9 Phân tích sự tác động của các nhân tố

5.10 Dự báo trong tương lai ee

5.11 Kiểm tra các giả định của mô hình hồi quy đa biến

6 Thảo luận và mở rộng

6.1 Vémédhinh ANOVA .0.0.000000 000 ee

6.2 Về mô hình hồi quy tuyén tinh 2 co

7 Nguôn dữ liệu và nguồn code

Báo cáo bài tập lồn Xác suất và Thống kê (MT2013) - HK233 Trang 2/49

Trang 5

<3 Khoa Khoa hoc ứng dung

1 Tong quan dữ liệu

Tập dữ liệu này chứa các thông số kỹ thuật chỉ tiết, ngày phát hành và giá phát hành của các linh kiện máy tính Tập dữ liện bao gồm hai tệp csu:

@ gpus.csv dành cho đơn vị xử lý đồ họa (Graphic Processing Unit - GPU)

® cpus.csu dành cho don vi xtt ly trung tam (Central Processing Unit - CPU) Mỗi bảng đều có các thuộc tính dữ liệu riêng, nhưng đều có các đặc tính là: tốc độ xung nhịp, nhiệt độ tối đa, độ phân giải hiển thị, công suất tiêu thụ, số luồng, ngày phát hành, giá phát hành, kích thước die, hỗ trợ ảo hóa và nhiều số liệu tương tự khác

Trong bài tập lớn này, nhóm chọn bộ dữ liệu từ file øpus.csu để tiến hành phân tích,

nghiên cứu, khảo sát tốc độ băng thông của GPU thong qua téc độ của bộ nhớ

Báo cáo bài tập lồn Xác suất và Thống kê (MT2013) - HK233 Trang 3/49

Trang 6

<3 Khoa Khoa hoc ứng dung

2_ Kiến thức nền

2.1 Kiểm định giả thuyết thống kê

Giả thuyết không Hạ (Null Hypothesis): Là giả thuyết về yếu tố cần kiểm định của tổng thể ở trạng thái bình thường, không chịu tác động của các hiện tượng liên quan Giả thuyết đối H¡ (Alternative Hypothesis): Là một mệnh đề mâu thuẫn với H,

Hị thể hiện xu hướng cần kiểm định Vì ta sẽ dựa trên thông tin thực nghiệm của mẫu để có thừa nhận các giả thiết nêu trên hay không

Tiêu chuẩn kiểm định là hàm thống kê Œ = G(Xị, X¿, , X„,©¿), xây dựng trên mẫn ngẫu nhiên W = (X¡,X¿, , X„) và tham số ©ạ liên quan đến #ạ; điều kiện đặt ra với thống kê Œ là nếu Ủạ đúng thì quy luật phân phối xác suất của Œ phải hoàn toàn xác định Miền bác bỏ giả thuyết ? (Rejection region): Là miền số thực thỏa P(GŒ € RR/Hp dang) = a, với œ là một số khá bé, thường không quá 10% và được gọi là mức ý

nghĩa của kiếm định Một ký hiệu khác của miền bác bỏ được dùng trong bài là Ma

Miền chấp nhận 4: phần bù của miền bác bỏ trong R

Quy tắc kiểm định: Giá trị kiểm định thống kê:

Theo nguyên lý xác suất bé, biến c6 G € RR có xác suất nhỏ nên với l mẫu thực nghiệm ngẫu nhiên, nó không thể xảy ra

Do đó:

e Nếu Zqs © RR thi bác bỏ Họ, thừa nhận giả thiết Hy

e Nếu Z4: # it] : ta chưa đủ dữ liện khẳng định #q sai Vì vậy ta chưa thể chứng minh được Hị đúng

Báo cáo bài tập lồn Xác suất và Thống kê (MT2013) - HK233 Trang 4/49

Trang 7

<3 Khoa Khoa hoc ứng dung

2.2 Phan tich phuong sai (ANOVA)

2.2.1 Khái niệm

Phân tích phương sai (Analysis of Variance ANOVA) là một kỹ thuật kiểm định được

sử dụng để so sánh trung bình của nhiều nhóm (tổng thể) dựa trên các trị trung bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm định giả thuyết để kết luận về sự bằng nhau của các trung bình tổng thể này Trong nghiên cứu, phân tích phương sai được dùng

như một công cụ để xem xét ảnh hưởng của một yếu tố nguyên nhân (định tính) đến một yếu tố kết quả (định lượng)

2.2.2 Phan tích phương sai 1 yếu tổ (One-way ANOVA)

One-way ANOVA là một loại thử nghiệm thống kê nhằm đánh giá tác động của một

biến độc lập duy nhất lên một biến phản hồi duy nhất Nó giúp xác định xem tất cả các mẫu có giếng nhau hay không

Tóm lại, One-way ANOVA được sử dụng để xác định liệu có bất kỳ sự khác biệt có

ý nghĩa nào giữa các đối tượng của ba hay nhiều nhóm độc lập với nhau hay không

TẤt cả các kết quả trả ra đều dựa trên giả định rằng khả năng phạm sai lầm chỉ là 5% 2.2.3 Phân tích phương sai 2 yếu tô (Two-way ANOVA)

Two-way ANOVA có thể được coi JA một phần mở rộng của phân tích Qne-way ANOVA Vì đối với One-way ANOVA, chỉ có thể nghiên cứu ảnh hưởng của một biến độc lập với một biến phụ thuộc, còn Two-way ANOVA sẽ có 2 biến độc lập

Phân tích Two-way ANOVA được sử dụng để quan sát sự tương tác giữa hai yếu tố và kiểm tra sự ảnh hưởng của 2 yếu tố đó lên biến phụ thuộc cùng một lúc

Tương tự như trên, phương pháp này dựa trên giả định khả năng phạm lỗi chỉ là 5% 2.2.4 Tương tác giữa các biến trong ANOVA

Trong ANOVA, tương tác giữa các biến xảy ra khi ảnh hưởng của một biến độc lập lên

biến phụ thuộc không nhất thiết là không đồng nhất qua các mức của biến độc lập khác Dễ

kiểm tra tương tác giữa các biến trong ANOVA, chúng ta thường thực hiện kiểm định tương

tác

Báo cáo bài tập lồn Xác suất và Thống kê (MT2013) - HK233 Trang 5/49

Trang 8

c2 Khoa Khoa học ứng dụng

Nếu kiểm định tương tác cho kết quả có ý nghĩa thống kê, điều này ngụ ý rằng có sự tương tác giữa các biên độc lập và biến phụ thuộc, và hiệu ứng của mỗi biến độc lập lên biến phụ thuộc không đồng nhất qua các mức của biến độc lập khác

2.3 Hồi quy tuyến tính

2.3.1 Hôi quy tuyến tính đơn biến

Trong hồi quy tuyến tính đơn biến, chúng ta xem xét mối quan hệ giữa một biến phụ thuộc và một biên độc lập duy nhất Công thức:

Hồi ol quy mỳ 1 On SS" = S(Yý - Y?)? i —= ~ 4M MS" = SSh On — aa MSE

Sai số N-2 SSE = S`(Y; - Y/)? MSE `

Tong cong N-1 SST = SSl+ SSE = Ề`(Y;— Y)ˆ

Hình 1: Kiểm định sự phù hợp của đường hồi quy tuyến tính

Giá trị bình phương: 2 — Soh SST' với ý nghĩa là phần trăm của biến đổi trên Y được

Trang 9

vr

cà Trường Đại học Bách khoa - ĐHQG-HCM

Khoa Khoa học ứng dụng

2.3.2 Hơi quy tuyến tính đa biến

Trong hồi quy tuyến tính đa biến, chúng ta mở rộng phạm vi của mơ hình bằng cách xem xét mối quan hệ giữa một biến phụ thuộc và hai hoặc nhiều biến độc lập

Cơng thức : Y = 6u + điXi ÐsXa¿+ +Ò„X„+€

Trong đĩ:

e Y: Biến phụ thuộc

e X„: Biến độc lập

e 0„: Hệ số tự do (hệ số chặn)

e 6o: Hệ số hồi quy riêng

ec: Sai số tự do

` ca Tổng số Bình phương ¬ ea Nguồn sai so | Bac tự do Gia tri thong ké

bình phương trung bình

ne ; —— _ MSh Hơi quy k SSR ee — SE

Tong cong N-1 SST =SSR+ SSE

Hình 2: Kiểm định sự phù hợp của đường hồi quy tuyến tính

Giá trị #2 được hiệu chỉnh:

Trang 10

<3 Khoa Khoa hoc ứng dung

2.3.3 Tương tác các biến trong hồi quy

Trong hồi quy tuyến tính, tương tác giữa các biến xảy ra khi ảnh hưởng của một biến

độc lập lên biên phụ thuộc không nhất thiết là đồng nhất qua các mức của biến độc lập khác Nói cách khác, tương tác xảy ra khi mối quan hệ giữa biến độc lập và biến phụ thuộc thay đổi tùy thuộc vào mức độ của một biến độc lập khác

Công thức của mô hình hồi quy tương tác

® Ôi, 6s: Hệ số của X¡ và X; tương ứng

ec: Sai số ngẫu nhiên

® (X¡Ä;) là thành phần tương tác giữa X¡ và X¿, nó cho biết mức độ tương tác giữa hai biến

2.3.4 Kiểm định mức độ phù hợp của mô hình

'Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of ñt” Từ định nghĩa R? ching

ta thay #2 đo tỷ lệ hay số phần trăm của toàn bộ sai lệch Y với giá trị trung bình được giải

thích bằng mô hình Vậy nên, ?#2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc

— Néu R? = 1 thì đường hồi quy giải thích 100% thay đổi của Y

— Néu R? = 0 thi mô hình không đưa ra thõng tin nào về sự thay đổi của biến phụ thuộc Y

Trong mô hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt của biến Yˆ do tất cả các biến X¡ và X¿ gây ra được gọi là hệ số xác định bội, ký hiệu là 72

Trang 11

<3 Khoa Khoa hoc ứng dung

2.3.5 Kiểm định hệ số hồi quy

Giả thuyết để kiểm tra hệ số hồi quy riêng lẻ Giả định rằng Ho : 8; = 8,0 va My: Ø; =

đa Thống kê kiểm định cho giả thuyết này là

Tạ — By — By — ñ; — Bj

aC, %e(B;)

sẽ ‘4 mL han bt wh ta

Giả thuyết Hạ sẽ bị bác bỏ nếu như |to| > zn k-1

Một trường hợp đặc biệt quan trọng của giả thuyết /, là thong thường ta sẽ kiểm định

giả thuyết Họ, ) với đo = 0

Giả thuyết | Giả thuyết Hạ

Hai phía 8; = Bio Ö; # đa |fo| > Sản —k—1

được viết lại ví dụ như dưới dạng lẫy loga cả hai về

b) Kỳ vọng của các yếu tố ngẫu nhiên bằng 0

Trung bình tổng thể sai số là bằng 0 Diều này có nghĩa là có một số giá trị sai số

Báo cáo bài tập lồn Xác suất và Thống kê (MT2013) - HK233 Trang 9/49

Trang 12

<3 Khoa Khoa hoc ứng dung

mang dẫu dương và một số sai số mang dấu âm Do hàm xem như là đường trung bình nên

có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung bình trong tổng thể

c) Cac sai số độc lập với nhau

d) Các sai số có phương sai bằng nhau

2

Tất cả giá trị ¿ được phân phối giống nhau với cùng phương sai 2, sao cho:

Var{u¿) = E(u?) =o?

d) Các sai số có phân phối chuẩn

Diều này rất quan trọng khi phát sinh khoảng tín cậy và thực hiện kiểm định giả thiết trong những phạm vi mẫu là nhỏ Nhưng phạm vi mẫu lớn hơn, điều này trở nên không may quan trọng

Trang 13

<3 Khoa Khoa hoc ứng dung

3 Tiền xử lý dữ liệu

3.1 Mô tả

Tập tin All_ GPUs.csv cung cấp thông tin vê các Graphics Processing Unit trén thi truéng

O bai tập lớn này, nhóm chúng em sẽ phân tích các yếu tố ảnh hưởng đến băng thông bộ nhé “Memory Bandwidth” - yéu té déng vai trd quan trọng trong việc quyết định tốc độ truy xuất dữ liệu và hiệu suất tổng thể của máy tính

Các biến sẽ được sử dụng trong bộ dữ liệu:

® Dọc dữ liệu (Import data): All_ GPUs.csv

e Lam sach dit liéu (Data cleaning): NA (dữ liệu khuyết)

e Lam rõ dữ liệu (Data visualization):

- Chuyển đổi biến (nếu cần thiết)

- Thống kê mô tả: Dùng thống kê mẫu và dùng đồ thị

Trang 14

Khoa Khoa học ứng dụng

BK

3.2 Import data

Al1_GPUs <- read.csv("~/A11_GPUs.csv")

head(A11_GPUs,5)

Ta sử dụng đoạn code trên để đọc vào dữ liệu từ bộ đữ liệu All_ GPUs.csv và xuất mẫu 5

đòng đầu tiên của bộ dữ liệu

architecture Best_Resolution Boost_Clock Core_speed DVI_Connection

L2_Cache Manufacturer Max_Power Memory Memory_Bandwidth Memory_Bus

1 OKB Nvidia 141 watts 1024 mB 64GB/sec 256 Bit

3 OKB AMD 200 watts 512 MB 51.2GB/sec 256 Bit

Memory_Speed Memory_Type Name

Notebook_GPU Open_GL PSU Pixel_Rate Power_Connector

1 No 3.3 450 watt & 38 Amps 12 GPixel/s None

2 NO 3.1 550 watt & 35 Amps 12 GPixel/s None

3 NO 3.1 550 watt & 35 Amps 10 GPixel/s None

Trang 15

Manufacturer Memory_Bandwidth Memory_Bus Memory_Speed Memory_Type

1 Nvidia 64GB/sec 256 Bit 1000 MHz GDDR3

Bộ dữ liệu được chọn lọc

3.3 Data cleaning

Tiến hành làm sạch dữ liệu

Trong đoạn code trên ta thực hiện loại bổ các phần không cần thiết trong dữ liệu:

® Loại bỏ "GB/sec"ở biến Memory_ Bandwidth

e Loại bỏ "Bit"ỏ biến Memory_ Buas

Báo cáo bài tập lồn Xác suất và Thống kê (MT2013) - HK233 Trang 13/49

Trang 16

c2 Khoa Khoa học ứng dụng

e Loại bỏ "Mhz*ỏ biến Memory_ Speed

Manufacturer Memory_Bandwidth Memory_Bus Memory_Speed Memory_Type

Thống kê tỷ lệ giá trị khuyết đối với từng biến

Memory_Type

0.01644157

Nhận xét: Từ các thống kê trên ta thu được số lượng và tỉ lệ khuyết của từng biến, ta nhận thấy có nhiều giá trị khuyết tại các biến Memory_ Bandwidth, Memory_ Bus, Memory_ Speed

Vì tỉ lệ giá trị khuyết đối với từng biến là thấp (dưới 5%) nên để làm sạch dữ liệu ta lựa chọn

phương pháp xóa các giá trị khuyết trong bộ dữ liệu

Trang 17

Kiểm tra số lượng và tỉ lệ các quan sát đã xóa,

Nhận xét: Ta thấy số lượng dữ liệu đã xóa là 125, chiếm tỉ lệ khoảng 3.7% so với dữ liệu

ban đầu, có thể thấy việc xóa các dữ liệu có giá trị khuyết trong bộ dữ liệu không làm ảnh

hưởng nhiều đến kết quả của dữ liệu

Trang 18

c2 Khoa Khoa học ứng dụng

4_ Thống kê tả

4.1 Data visualization

4.1.1 Tính các thông số thống kê đặc trưng của các biến theo từng nhãn hàng

Ta tính các giá trị thống kê mô tả đặc trưng bao gồm kích thước mẫu, trung bình, độ lệch chuẩn, min, max, các điểm tứ phân vị của chênh lệch giữa Memory Bandwidth , Memory Bus

và Memory Speed trong các GPU của từng nhãn hàng (Manufacturer)

sd = tapply(A11_GPUs_1$Memory_Bandwidth, A11_GPUs_1$Manufacturer,sd)

Ql 28.8000 211.2000 12.800000 40.1000 Q2 96.0000 224.0000 25.600000 112.2000 Q3 179.2000 256.0000 29.900000 224.3000

Hình 3: Các gia tri théng ké m6 ta cho bién Memory_ Bandwidth theo ting Manufacturer

Trang 19

c2 Khoa Khoa học ứng dụng

4.1.2 Vẽ đồ thị phân tán thể hiện phân phối của các biến theo từng nhãn hàng

Ta vẽ đồ thị phân tán thể hiện phân phối cia bién Memory_ Bandwidth (Hinh 6), Memory_ Bus (Hình 4), Memory_ Speed (Hình ð) theo từng Manufacturer

boxplot (Memory_Bandwidth~Manufacturer, xlab = "Manufacturer", ylab = "Memory Bandwidth (GB/sec)", main = "Boxplot of Memory Bandwidth for each

boxplot (Memory_Bus“Manufacturer, xlab = "Manufacturer", ylab = "Memory Bus (Bit)", main = "Boxplot of Memory Bus for each Manufacturer", data =

Trang 20

Biển đồ hộp thể hiện phân phối của bién Memory _ Speed theo Manufacturer

Boxplot of Memory_Bandwidth for each Manufacturer

Biển đồ hộp thể hiện phân phéi cia bién Memory_ Bandwidth theo Manufacturer

Nhận xét: Qua biểu đồ trên ta thấy rằng có rất nhiều điểm ngoai lai (outliers) 6 ca hai biến, điều này có thể là nguyên nhân ảnh hưởng đến kết quả phân tích phía sau Do đó, ta

sử dụng khoảng tứ phân vị (interquartile range) để loại bỏ các điểm outlier

Ý tưởng cho bài toán: Chuyển các outliers của ba biến Memory_ Bus, Memory_ Speed,

Trang 21

<3 Khoa Khoa hoc ứng dung

Memory Bandwidth 6 ting hang sang NA, từ đó đề xuất các phương pháp xử lý các NA đó

Ta tạo funetion xác định outliers, chuyển các outliers thành dạng NA

rm.out <- function(x, na.rm = TRUF, .){

qnt <- quantile(x, probs = c(.25,.75), na.rm = na.rm, .)

H <- 1.5 * IQR(x, na.rm = na.rm)

Nvidia = subset (Al1_GPUs_1,Al11_GPUs_1$Manufacturer =="Nvidia")

Nvidia$Memory_Bandwidth = rm out (Nvidia$Memory_Bandwidth)

Nvidia$Memory_Bus = rm.out(Nvidia$Memory_Bus)

Nvidia$Memory_Speed = rm.out(Nvidia$Memory_Speed)

AMD = subset (Al1_GPUs_1,A11_GPUs_1$Manufacturer =="AMD")

AMD$Memory_Bandwidth = rm.out (AMD$Memory_Bandwidth)

AMD$Memory_Bus = rm out (AMD$Memory_Bus)

AMD$Memory_Speed = rm.out (AMD$Memory_Speed)

ATI = subset (Al1_GPUs_1,A11_GPUs_1$Manufacturer =="ATI")

ATI$Memory_Bandwidth = rm.out (ATI $Memory_Bandwidth)

ATI$Memory_Bus = rm out (ATI $Memory_Bus)

ATI$Memory_Speed = rm.out (ATI $Memory_Speed)

Intel = subset (Al11_GPUs_1,A11_GPUs_i$Manufacturer =="Intel")

Trang 22

<3 Khoa Khoa hoc ứng dung

Tình 7: Hình ảnh tổng NA và tỷ lệ NA trong tệp tin AI _GPUs_ 2

Nhận xét: Với Memory_ Bandwidth số lượng NA — 92 và chiếm tỉ lệ 2, 8040% của dữ liệu, với Memory_ Bus số lượng NA — 183 và chiếm tỉ lệ 5, 5576% dữ liệu, còn Memory_ Speed số

lượng NA = 2 và chiếm tỉ lệ 0.0610% dữ liệu Trong trường hợp này, ta không chọn phương

pháp xoá các NA, vì lượng NA trong Memory_ Bandwidth nhiều hơn 5% Do đó, ta sẽ xử lý

bằng phương pháp thay thế các NA bằng các giá trị trung bình tương ứng với từng hãng

Nvidia$Memory_Speed[is.na(Nvidia$Memory_Speed)] = mean(Nvidia$Memory_Speed, na.rm = T)

AMD$Memory_Speed[is.na(AMD$Memory_Speed)] = mean(AMD$Memory_Speed, na.rm = T) ATI$Memory_Speed[is.na(ATI$Memory_Speed)] = mean(ATI$Memory_Speed, na.rm = T) Intel$Memory_Speed [is.na(Intel$Memory_Speed)] = mean(Intel$Memory_Speed, na.rm

Trang 23

<3 Khoa Khoa hoc ứng dung

Hinh 8: Két quả kiểm tra lại NA trong All _GPUs_ 2 sau khi xử lý

Nhận xét: Sau khi thay thế các NA bằng các giá trị trung bình, dữ liệu đã không còn NA

Ta tinh lại các giá trị mô tả thống kê và vẽ lại biểu đồ boxplot cho ba biến theo Manufacturer

1 #Thong so thong ke bien Memory_Bandwidth

Trang 24

Intel 223.0090000 22.838565 8.798548 1.100000 34.100000 12.800000 25.600000 29.900000

Nvidia

1796.9000 142.2398 117.5901 1.1000 494.2000 40.1000 112.2000 198.7000 Hình 9: Các giá trị thống kê mô tả cho biến Memory_ Bandwidth

1 Hang AMD:

e Min = 1: Bang thông bộ nhớ nhỏ nhất là 1 (GB/sec)

e Max = 390.4: Băng thông bộ nhớ lớn nhất là 390.4 (GB/sec)

© QI = 28.8: 25% GPU có băng thông bộ nhớ cao nhất là 28.8 (GB/sec)

e Q2 =96: 50% GPU có băng thông bộ nhớ cao nhất là 96 (GB/sec)

© Q3 = 179.2: 75% GPU có băng thông bộ nhớ cao nhất là 179.2 (GB/sec)

2 Hang ATI

e Min = 211.2: Bang thong bộ nhớ nhỏ nhất là 211.2 (GB/sec)

e Max = 256: Băng thông bộ nhớ lớn nhất là 256 (GB/sec)

e Q1 = 224: 25% GPU có băng thông bộ nhớ cao nhất là 224 (GB/sec)

e Q2=296: 50% GPU có băng thông bộ nhớ cao nhất là 236 (GB/sec)

e Q3= 256: 75% GPU có băng thông bộ nhớ cao nhất là 256 (GB/sec)

Trang 25

c2 Khoa Khoa học ứng dụng

e Max = 34.1: Băng thông bộ nhớ lớn nhất là: 34.1 (GB/sec)

e QI = 12.8: 25% GPU có băng thông bộ nhớ cao nhất là: 12.8 (GB/sec)

e Q2= 25.6: 50% GPU có băng thông bộ nhớ cao nhất là: 25.6 (GB/sec)

e Q3 = 29.9: 75%GPU có băng thông bộ nhớ cao nhất là: 29.9 (GB/sec)

4 Hãng Nvidia

e Min = 1.1: Tốc độ hoạt động của bộ nhớ nhỏ nhất là: 1.1 Gb/sec

e Max= 494.2: Téc độ hoạt động của bộ nhớ lớn nhất là: 769 Gb/see

e Q1 = 40.1: 25% tốc dộ hoạt động của bộ nhớ nhiều nhất là: 40.1 Gb/sec

e Q2 = 112.2: 50% tốc dộ hoạt động của bộ nhớ nhiều nhất là: 112.2 Gb/sec

e Q3 = 198.7: 75% tốc dộ hoạt động của bộ nhớ nhiều nhất là: 224.3 Gb/sec

Ngày đăng: 10/02/2025, 15:59

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN