1. Trang chủ
  2. » Luận Văn - Báo Cáo

Báo cáo bài tập lớn xác suất thống kê de2

36 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 36
Dung lượng 2,84 MB

Nội dung

TMUs - Số ợng Texture Mapping Units, ảnh hưởng đến tốlư c độ xử lý các chi ti t bế ề 2.1 Phân tích dữ liệu thăm dò Phân tích dữ ệu thăm dò là một phương pháp để rút ra những nhận xét về

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

Thuyết trình và thống kê suy diễn Thạch Minh Hưng 2311357 100%

Tổng hợp báo cáo và thống kê mô tả

Trang 3

1 Tổng quan dữ liệu

Trong bài tập lớn này, tập dữ ệu được cung cấp gồm hai tập tin CSV li cpu.csv

gpus.csv, mỗ ập tin lần lượi t t chứa các thông số kỹ thuật của các Bộ xử lý trung tâm (CPU) và các Bộ xử lý đồ hoạ (GPU) Nhóm xin đượ ử dụng tập tin c s gpus.csv để nghiên cứu

Trong bài tập lớn này, ta chú ý đến các thành phần sau:

Tổng thể: các gpu có trên ị th trường

4 Core_Speed – Tốc độ của GPU

5 DVI_Connection – Có bao nhiêu cổng DVI trong GPU

6 Dedicated - GPU là độ ập (có bộ nhớ riêng) hay tích hợp (dùng chung với RAM hệ c lthống)

7 Direct_X - Phiên bản DirectX mà GPU hỗ ợ, liên quan đến khả năng xử tr lý đồ họa trong game và ứng dụng

8 DisplayPort_Connection - Có hỗ ợ cổng DisplayPort để kế ối với màn hình tr t nkhông

9 HDMI_Connection - Có h trỗ ợ cổng HDMI để kết nối với các thiế ị hiển thị hay t bkhông

10 Integrated - GPU tích hợp hay không

11 L2_Cache - Kích thước bộ nhớ đệm cấp 2 của GPU

12 Manufacturer - Nhà sản xuất GPU

13 Max_Power - Công suấ ối đa mà GPU tiêu t t thụ

14 Memory - Dung lượng bộ nhớ (RAM) của GPU, ảnh hưởng đến khả năng xử lý dữ liệu đồ họa

15 Memory_Bandwidth - Băng thông bộ nhớ của GPU, quyết định tốc đ truyộ ền dữ liệu giữa GPU và bộ nhớ

16 Memory_Bus - Chiều rộng của bus b nh (tính bộ ớ ằng bit), ảnh hưởng đến băng thông bộ nhớ

Trang 4

17 Memory_Speed - Tốc độ của bộ nhớ GPU.

18 Memory_Type - Loại bộ nhớ của GPU (như GDDR6, GDDR5), ảnh hưởng đến hiệu suất và tiêu thụ điện năng

19 Name - Tên model của GPU

20 Notebook_GPU - GPU được thiế ế dành cho máy tính xách tay hay máy tính để t kbàn

21 Open_GL - Phiên bản OpenGL hỗ ợ, liên quan đến khả năng xử tr lý đồ họa 3D trong ứng dụng

22 PSU - Yêu cầu công suất của bộ nguồn cung cấp (Power Supply Unit) để GPU hoạt động

23 Pixel_Rate - Số ợng pixel mà GPU có thể xử lư lý trong mỗi giây

24 Power_Connector - Loại cổng kế ối nguồn mà GPU cần, như 6-pin, 8-pin.t n

25 Process - Công nghệ sản xuất của GPU, thường được đo bằng nanomet (nm), ảnh

hưởng đến hiệu quả năng lượng

26 ROPs - Số ợng Render Output Units (ROPs), quyế ịnh tốc độ xử lư t đ lý khối lượng pixel

27 Release_Date - Ngày phát hành của GPU

28 Release_Price - Giá phát hành ban đầu của GPU

29 Resolution_WxH - Độ phân giả ối đa mà GPU hỗ ợ, thể hiện dướ ạng chiều i t tr i drộng x chiều cao

30 SLI_Crossfire - Hỗ ợ công nghệ đa GPU (như NVIDIA SLI hay AMD Crossfire) trkhông

31 Shader - Số ợng shader cores, quyết định sứlư c mạnh xử lý đồ họa

32 TMUs - Số ợng Texture Mapping Units, ảnh hưởng đến tốlư c độ xử lý các chi ti t bế ề

2.1 Phân tích dữ liệu thăm dò

Phân tích dữ ệu thăm dò là một phương pháp để rút ra những nhận xét về dữ li liệu, thường dùng phương pháp trực quan hoá dữ ệu và đồ li thị ống kê để phát hiện sự thliên quan giữa các biến, xác định mô hình, xu hướng và các ngoại lệ Phân tích dữ liệu thăm dò chủ yếu trích xuất các yếu tố quan trọng cho các mô hình dự đoán Bằng cách vẽ các biểu đồ dựa trên dữ ệu gốc, ta có thể ểu được tính chất và sự li hiphân phối của các biến Các dạng biểu đồ:

• Biều đồ tần số (histogram) : trực quan hoá sự phân bố của dữ liệu

• Biều đồ hộp (box plot) : hiển thị phân phối các giá trị dữ liệu số

Trang 5

2.2 Phân tích phương sai một biến

Phân tích phương sai là một mô hình dùng để xem xét sự ến động của một biếbi n ngẫu nhiên định lượng X chịu tác độc trực tiếp của một hay nhiều yếu tố nguyên nhân (định tính) Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều tổng thể dựa trên các trung bình của mẫu và thông qua kiểm định giả thuyết

để kết luận về sự bằng nhau của các trung bình tổng thể này

2.2.1 Giả thuyết bài toán ANOVA một yếu tố

Giả sử ta muốn so sánh trung bình của k tổng thể trên những mẫu ngẫu nhiên độc lập quan sát từ k tổng thể này, ta cần kiểm tra ba yếu tố sau về các nhóm tổng thể

để có thể ến hành phân tích phương sai: ti

• Các tổng thể có phân phối chuẩn N(µ2;σ𝑖2)

• Phương sai các tổng thể bằng nhau (µ1 = µ2= = µ𝑘)

• Các mẫu quan sát từ các tổng thể được lấy độc lập

2.2.2 Các bước thực hiện

Sau khi kiểm tra các giả thiết của bài toán ANOVA một yếu tố, nếu các điều kiện thoả, ta ực hiện bài toán theo các bước sau:th

• Đặt giả thiết kiểm định : Giả sử trung bình của các tổng thể trên là µ1,µ2, , µk,

ta có mô hình phân tích phương sai một yếu tố được mô tả dưới dạng kiểm định giải thuyết:

– H0 : µ1 =µ2 = = µ

– H1 : ∃µi=µj với i= j Giả thuyết H0 cho rằng trung bình của k tổng thể đều bằng nhau, nghĩa là các yếu tố nguyên nhân không có tác động gì đến vấn đề ta đang nghiên cứu

𝑛𝑖 ( i = 1,2, ,k ) – Tính trung bình mẫu gộp: Gọi 𝑥 là trung bình chung của k mẫu, được tính theo công thức:

Trang 6

𝑥 = 𝑖=1𝑛𝑖 𝑥 𝑖

∑𝑘𝑖=1𝑛𝑖

2 Tính tổng bình phương chênh lệch giữa các nhóm (SSB):

Sum of Squares Between (SSB) là sự chênh lệch giữa trung bình của mỗi nhóm và trung bình của toàn bộ dữ ệu hay phần biến thiên của giá trị X do các mức độ củli a yếu tố đang xem xét tạo ra Đối với từng mẫu, ta tính tổng bình phương chênh lệnh giữa các nhóm theo công thức:

𝑆𝑆𝐵𝑖 = 𝑛𝑖(𝑥 − 𝑥 )𝑖 2 với i = 1,2, ,k Đối với mẫu gộp, tổng bình phương chênh lệch giữa các nhóm được tính bằng tổng SSB của từng mẫu, nghĩa là:

SSB = 𝑆𝑆𝐵1 + 𝑆𝑆𝐵2 + + 𝑆𝑆𝐵𝑘Khi đó, ta có thể tính phương sai (trung bình bình phương chênh lệch) giữa các nhóm với bậc tự do k −1 theo công thức:

MSB = 𝑆𝑆𝐵

𝑘−1

1 Tính tổng bình phương chênh lệch trong nội bộ nhóm (SSW):

Sum of Squares Within (SSW) là sự chênh lệch giữa các giá trị quan sát và trung bình củ từng nhóm hay phần biến thiên của giá trị X do các yếu tố nào đó không a được đề cập đến tạo ra Đối với từng mẫu, ta tính tổng bình phương chênh lệnh trong nội bộ nhóm theo công thức:

𝑆𝑆𝑊𝑖 = ∑𝑛𝑖 (𝑥𝑖𝑗− 𝑥 )𝑖 2 𝑗=1 với i = 1,2, ,k Đối với mẫu gộp, tổng bình phương chênh lệch trong nội bộ nhóm bằng tổng SSW của từng mẫu, nghĩa là:

SSW = 𝑆𝑆𝑊1 + 𝑆𝑆𝑊2 + + 𝑆𝑆𝑊𝑘Khi đó, ta có thể tính phương sai (trung bình bình phương chênh lệch) trong nội bộ nhóm với bậc tự do N −k theo công thức:

MSW = 𝑆𝑆𝑊

𝑁− 𝑘

2 Tính tổng bình phương chênh lệch toàn bộ (SST):

Sum of Squares Total (SST) là tổng các độ lệch bình phương của tổng thể, hay có thể ểu là tổng các biến thiên của X do tất cả các yếu tố tạo ra SST được tính theo hicông thức:

SST = ∑ ∑𝑛𝑖 (𝑥𝑖𝑗− 𝑥 )𝑖 2

𝑖=1 𝑘 𝑗=1

Hoặc

SST = SSW + SSB

5 Tính tiêu chuẩn kiểm định F: Kiểm định F, hay còn được gọi là kiểm định Fisher, là một phương pháp thống kê được sử dụng để so sánh phương sai của hai hay nhiều nhóm dữ ệu Nó đánh giá mức độ khác biệt giữa các phương sai bằng licách tính toán tỷ lệ ữa chúng Trong trường hợp bài toán ANOVA một yếu tốgi , điều này có nghĩa là

Trang 7

F =

𝑀𝑆𝑊

Kiểm định F giúp ta xác định xem liệu có thể bác bỏ ả thiết hay không.gi

• Miền bác bỏ : Miền bác bỏ là vùng giá trị của tiêu chuẩn kiểm định F mà ở đó, nếu giá trị ểm định rơi vào, chúng ta sẽ bác bỏ ả thuyếki gi t H0 Cụ ể, nếu giá trị th F lớn hơn giá trị F lý thuyết với mức ý nghĩa α thì ta sẽ bác bỏ ả thuyếgi t H0 Giá trị

F lý thuyết được xác định là

F = 𝑓𝛼;(k−1;N−k)Khi đó, miền bác bỏ ợc xác định là: đư

RR = (𝑓𝛼;(k−1;N−k); +∞)

2.3 Hồ quy tuyến tính đa biến i

Hồi quy tuyến tính là một phương pháp phân tích quan hệ ữa biến phụ thuộc vớgi i biến độc lập, mô hình hóa sử dụng hàm tuyến tính (bậc 1) Hồi quy tuyến tính đa biến (hồi quy tuyến tính bội) có thể ểu là mô hình với một biến phụ hi thuộc và hai hay nhiều biến độc lập

Đặc điểm của hồi quy đa biến:

• Đa chiều: Hồi quy đa biến có thể xử lý với nhiều biến độc lập cùng một lúc, giúp đánh giá ảnh hưởng của từng biến đọc lập lên biến phụ thuộc trong bối cảnh của các biến khác

• Tương quan giữa các biến độc lập: Hồi quy đa biến đánh giá tương quan giữa các biến độc lập, điều này có thể giúp xác định ảnh hưởng riêng của từng biến độc lập lên biến phụ thuộc khi đi kèm với sự hiện diện của các biến khác

• Mô hình phức tạp hơn: Hồi quy đa biến có thể tạo ra mô hình phức tạp hơn do sự hiện diện của nhiều biến độc lập, điều này đồng nghĩa với việc cần quan tâm đến các vấn đề như đa cộng tuyến, quá khớp và lựa chọn biến

2.3.1 Kiểm tra giả định

Có 3 giả định cần được kiểm tra trước khi xây dựng mô hình hồi quy tuyến tính đa biến:

• Phân phối chuẩn : Các sai số tuân theo phân phối chuẩn

• Đa cộng tuyến : Các biến độc lập trong mô hình hồi quy không tương quan mạnh với nhau Đa cộng tuyến xảy ra khi hai hoặc nhiều biến độc lập có mối quan hệ tuyến tính mạnh với nhau, dẫn đến khả năng đồi thời ước lượng các hệ số hồi quy, gây ra không chính xác hoặc không ổn định

• Tính tuyến tính : Mối quan hệ ữa các biến độc lập và biến phụ thuộc nên là gituyến tính Điều này có nghĩa là giá trị kỳ vọng của biến phụ thuộc thay đổi theo một đường thẳng khi các biến độc lập thay đổi, giữ các biến khác không đổi

Trang 8

2.3.2 Mô hình hồi quy tuyến tính đa biến

Mô hình hồi quy tuyến tính đa biến có dạng tổng quát như sau:

Y = 𝛽0 + 𝛽1𝑋1+ 𝛽2𝑋2 + + 𝛽𝑛𝑋𝑛 + ε Trong đó:

Y : biến phụ thuộc

𝑥𝑖 : biến độc lập thứ i

𝜀 : phần dư (chênh lệch giữa giá trị thực và giá trị dự báo, có kì vọng 0 và phương sai

β0 : hệ số ặn của mô hình hồi quy ch

β𝑖 : hệ số hồi quy tương ứng với các biến độc lập 𝑥𝑖 Hôi quy đa biến là một phương pháp mạnh mẽ trong phân tích dữ ệu và có nhiề ứng dụng thực tiễnli u

• Dự đoán : Hồi quy đa biến dùng để dự đoán giá trị của biến phụ thuộc dựa trên các biến độc lập, chẳng hạn như dự đoán giá cổ phiểu, doanh thu của doanh nghiệp

• Phân tích tương quan : Hồi quy đa biến cung cấp các công cụ để phân tích tương quan giữa các biến độc lập và biến phụ thuộc nhằm đánh giá sự ảnh hưởng của biến độc lập lên biến phụ thuộc

• Kiểm tra giả thuyết : Hồi quy đa biến có thể ợc sử dụng để ểm tra các giả đư kithuyết nghiên cứu, chẳng hạn như kiểm tra tác động của các biến độc lập lên biến phụ thuộc

2.3.3 Phương pháp ước lượng hệ số hồ i quy

Phương pháp bình phương nhỏ ất (Ordinary Least Squares- OLS) Phương pháp nhbình phương nhỏ ất là phương pháp phổ ến nhất để ước lượng hệ số hồi quy nh bitrong hồi quy đa biến OLS tìm kiếm các giá trị của hệ số hôi quy β sao cho tổng bình chênh lệch giữa giá trị dự đoán và giá trị quan sác thực tế của biến phụ thuộc

là nhỏ ất, tức là OLS sẽ cố gắng đưa ra dự đoán sao cho tổng các sai số dự đoán nh

là nhỏ nhất:

SSR = ∑𝑛 (𝑦𝑖− 𝑦)𝑖 2 𝑛=1

Trong đó:

• SSR là tổng bình phương sai số dự đoán

• 𝑦𝑖 là giá trị của biến phụ thuộc thực tế ứ i trong tập dữ th liệu

• 𝑦 là giá trị dự đoán của biến phụ thuộc tương ứng với giá trị ến độc lập thứ 𝑖 bi i trong tập dữ liệu

• n là số ợng mẫu dữ lư liệu

Trang 9

Phương pháp OLS sẽ tìm kiếm các giá tị của các hệ số hồi quy β0, β1, , βn sao cho SSR là nhỏ nhất Để đạt được điều này, phương pháp OLS sẽ sử dụng đạo hàm của SSR theo từng hệ số hồi quy, đặt bằng 0 và giải hệ phương trình đạo hàm đó để tìm ra các giá trị của các hệ số hồi quy

Công thức ước lượng của các hệ số hồi quy dùng phương pháp OLS:

• 𝑦 là giá trị dự đoán của biến phụ thuộc

• 𝛽0, 𝛽1, , 𝛽𝑛 là các hệ số hồi quy đã được ước lượng

• 𝑋1, 𝑋2, … , 𝑋𝑛 là các giá trị của biến độc lập tương ứng

2.3.4 Đánh giá mô hình hồ quy đa biến i

Đánh giá độ chính xác và hiệu quả của mô hình hôi quy đa biến là một bước quan trọng để đánh giá khả năng dự đoán và tính hợp lý của mô hình Có một số phương pháp phổ ến để đánh giá mô hình hôi quy đa biến, bao gồm sai số dự đoán, độ tin bicậy của dự đoán và độ phù hợp của mô hình Trong bài tập lớn lần này, nhóm xin được trình bày về phương pháp độ phù hợp của mô hình

Độ phù hợp của mô hình : Là phương pháp đánh giá khả năng phù hợp của mô

hình với dữ ệu Có nhiều độ đo khác nhau để đánh giá độ phù hợp của mô hình, litrong đó phổ ến nhất là hệ số xác định (bi 𝑅2) Hệ số xác định là một độ đo thường được sử dụng để đánh giá tỷ lệ phương sai của biến phụ thuộc được giải thích bởi

mô hinh hồi quy đa biến Các giá trị của 𝑅2 phân bổ từ 0 đến 1, với giá trị gần bằng 1 thì mô hình càng phù hợp với dữ ệu Ta có công thức xác định li 𝑅2:

Ta có thể ấy rằng, th 𝑅2 đo tỷ lệ của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình Khi đó người ta sử dụng 𝑅2 để đo sự phù hợp của hàm hồi quy với 0 ≤ 𝑅2 ≤ 1

Trang 10

𝑅 cao, nghĩa là mô hình ước lượng được giải thích một mức độ cao biến động của biến phụ thuộc

𝑅2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y R2 = 0, nghĩa là mô hình không đưa ra được thong tin nào về sự thay đổi của biến phụ thuộc y

3 Tiền xử lý số liệu

Nhìn tổng quát vào data, có tổng cộng 3406 mẫu và 34 đặc trưng bao gồm:

['Architecture', 'Best_Resolution', 'Boost_Clock', 'Core_Speed', 'DVI_Connection', 'Dedicated', 'Direct_X', 'DisplayPort_Connection', 'HDMI_Connection',

'Integrated', 'L2_Cache', 'Manufacturer', 'Max_Power', 'Memory',

'Memory_Bandwidth', 'Memory_Bus', 'Memory_Speed', 'Memory_Type', 'Name', 'Notebook_GPU', 'Open_GL', 'PSU', 'Pixel_Rate', 'Power_Connector', 'Process', 'ROPs', 'Release_Date', 'Release_Price', 'Resolution_WxH', 'SLI_Crossfire',

'Shader', 'TMUs', 'Texture_Rate', 'VGA_Connection']

Nhìn vào 10 mẫu đầ tiên của data, ta thấy những đặc trưng còn đơn vị, null rấu t nhiều và chưa thật sự tốt để phân tích

Phần 1:

Trang 11

Phần 3:

Phần 4:

Trang 12

3.1 Xử lý đơn vị

• Tách cột Best_Resolution, Resolution_WxH thành các cột Width x Height

• Tách cộ PSU thành các cột PSU_Watts, PSU Ampst

• Loại bỏ đơn vị của các cột Boost_Clock, Core_Speed, Max_Power,

Memory, Memory_Bandwidth, Memory_Bus, Memory_Speed, Pixel_Rate, Process, Release_Price, Texture_Rate

• Tách cột L2_Cache và ROPs thành 2 cột là L2/ROPs_per_cores và Cores

3.2.a Null nhỏ hơn 5%

- Với đặc trưng với tỉ lệ null < 5%, tụi em sẽ bỏ đi những mẫu có null vì số lượng ít dẫn đế ảnh hưởng không nhiều đến tổng thể dữ n liệu

Trang 13

3.2.b Null thuộc khoảng 5% - 75%

- Với những null trong khoảng 5 – 75%

- Với những kiểu đặc trưng là dữ ệu số ụi em sẽ dựa trên phân bố của dữ ệu mà li , t lichọn ra cách thay thế dữ liệu là trung bình hay trung vi:

Trang 14

['Best_Resolution_width', 'Best_Resolution_height', 'Boost_Clock', 'Core_Speed', 'Max_Power', 'Memory', 'PSU_Watt', 'PSU_Amps', 'Pixel_Rate', 'Process', 'ROPs_Per_Core', 'Resolution_WxH_width', 'Resolution_WxH_height', 'TMUs', 'Texture_Rate']

+ Với những feature có phân tán thấp, tụi em thay bằng trung bình

+ Với những feature có mức độ phân tán cao, tụi em lựa chọn thay bằng trung vị +Khi dữ liệu có xu hướng tuân theo phân phối chuẩn, giá trị của Trung bình và Trung vị thường bằng nhau (hoặc tiệm cận bằng nhau), khi đó ta có thể thay trung bình bằng trung vị

- Với những kiểu đặc trưng là phân loại:

'DVI_Connection', 'DisplayPort_Connection', 'HDMI_Connection',

'Power_Connector', 'ROPs_Cores', 'VGA_Connection'

• Ở ững đặc trưng được liệt kê ở trên, hầu hết là cổng kết nối Ở ị trường hiệnh th n nay, hầu hết các dòng GPU đều được tích hợp ít nhất 1 cổng kết nối để hỗ trợ tốt cho người dùng, nên chúng em quyết định thay thế ững dữ ệu null bằnh li ng trung vị để ữ nguyên tốt ý nghĩa của đặc trưng thay vì thêm một lớgi p

Unknown

3.2.c Null lớn hơn 75%

Trang 15

- Với những feature lớn hơn 75%:

Do tỉ lệ null trên đặc trưng này quá lớn, thay thế bằng trung bình hoặc trung vị đều làm cho dữ ệu bị mất cân bằng và thiên vị Không những vậy số ợng mẫu trên li lưtoàn dữ ệu cũng chỉ vỏn vẹn khoảng 3000 data, quá ít để sử dụng những mô hình linội suy như Linear Regression hay RandomForest có thể lấp vào những giá trị null nên chúng em phải bỏ đi những đặc trưng này

- Các điểm Q1, Q2 và Q3 được gọi là các điểm tứ phân vị

- ệu IQR = Q3 – Q1 được gọi là các khoảng tứ phân vị hay độ Hi trải giữa

- ểm outlier: được gọi là điểm dị ệt, điểm ngoại lai Đó là các phần tử của dữ Đi biliệu nằm ngoài khoảng ( Q1 – 1.5.IQR; Q3 + 1.5.IQR )

- Trong trường hợp phần tử nằm ngoài khoảng ( Q1 – 3.IQR; Q3 + 3.IQR ) thì được gọi là ngoại lai xa

Trang 16

Dữ liệu sau khi tiền xử lí:

- Còn lại 883 mẫu dữ ệu sau khi xử lí ngoại lệ và xử lí nullli

4 Thống Kê Mô Tả

- Đối với những kiểu dữ ệu dạng số:li

- Tính toán trung bình, phương sai, độ lệch chuẩn

Trang 17

Feature Mean Variance Standard

Texture_Rate 49.1031 954.478 30.8946

Trang 18

- Ở đây chúng em tập trung vào vài nhân tố quan trọng của tập dữ ệu như liMemory_bandwidth, Memory_speed, pixel_rate, texture_rate, core_speed và manufacture

Ngày đăng: 19/12/2024, 15:34

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN