TMUs - Số ợng Texture Mapping Units, ảnh hưởng đến tốlư c độ xử lý các chi ti t bế ề 2.1 Phân tích dữ liệu thăm dò Phân tích dữ ệu thăm dò là một phương pháp để rút ra những nhận xét về
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 2Thuyết trình và thống kê suy diễn Thạch Minh Hưng 2311357 100%
Tổng hợp báo cáo và thống kê mô tả
Trang 31 Tổng quan dữ liệu
Trong bài tập lớn này, tập dữ ệu được cung cấp gồm hai tập tin CSV li cpu.csv và
gpus.csv, mỗ ập tin lần lượi t t chứa các thông số kỹ thuật của các Bộ xử lý trung tâm (CPU) và các Bộ xử lý đồ hoạ (GPU) Nhóm xin đượ ử dụng tập tin c s gpus.csv để nghiên cứu
Trong bài tập lớn này, ta chú ý đến các thành phần sau:
Tổng thể: các gpu có trên ị th trường
4 Core_Speed – Tốc độ của GPU
5 DVI_Connection – Có bao nhiêu cổng DVI trong GPU
6 Dedicated - GPU là độ ập (có bộ nhớ riêng) hay tích hợp (dùng chung với RAM hệ c lthống)
7 Direct_X - Phiên bản DirectX mà GPU hỗ ợ, liên quan đến khả năng xử tr lý đồ họa trong game và ứng dụng
8 DisplayPort_Connection - Có hỗ ợ cổng DisplayPort để kế ối với màn hình tr t nkhông
9 HDMI_Connection - Có h trỗ ợ cổng HDMI để kết nối với các thiế ị hiển thị hay t bkhông
10 Integrated - GPU tích hợp hay không
11 L2_Cache - Kích thước bộ nhớ đệm cấp 2 của GPU
12 Manufacturer - Nhà sản xuất GPU
13 Max_Power - Công suấ ối đa mà GPU tiêu t t thụ
14 Memory - Dung lượng bộ nhớ (RAM) của GPU, ảnh hưởng đến khả năng xử lý dữ liệu đồ họa
15 Memory_Bandwidth - Băng thông bộ nhớ của GPU, quyết định tốc đ truyộ ền dữ liệu giữa GPU và bộ nhớ
16 Memory_Bus - Chiều rộng của bus b nh (tính bộ ớ ằng bit), ảnh hưởng đến băng thông bộ nhớ
Trang 417 Memory_Speed - Tốc độ của bộ nhớ GPU.
18 Memory_Type - Loại bộ nhớ của GPU (như GDDR6, GDDR5), ảnh hưởng đến hiệu suất và tiêu thụ điện năng
19 Name - Tên model của GPU
20 Notebook_GPU - GPU được thiế ế dành cho máy tính xách tay hay máy tính để t kbàn
21 Open_GL - Phiên bản OpenGL hỗ ợ, liên quan đến khả năng xử tr lý đồ họa 3D trong ứng dụng
22 PSU - Yêu cầu công suất của bộ nguồn cung cấp (Power Supply Unit) để GPU hoạt động
23 Pixel_Rate - Số ợng pixel mà GPU có thể xử lư lý trong mỗi giây
24 Power_Connector - Loại cổng kế ối nguồn mà GPU cần, như 6-pin, 8-pin.t n
25 Process - Công nghệ sản xuất của GPU, thường được đo bằng nanomet (nm), ảnh
hưởng đến hiệu quả năng lượng
26 ROPs - Số ợng Render Output Units (ROPs), quyế ịnh tốc độ xử lư t đ lý khối lượng pixel
27 Release_Date - Ngày phát hành của GPU
28 Release_Price - Giá phát hành ban đầu của GPU
29 Resolution_WxH - Độ phân giả ối đa mà GPU hỗ ợ, thể hiện dướ ạng chiều i t tr i drộng x chiều cao
30 SLI_Crossfire - Hỗ ợ công nghệ đa GPU (như NVIDIA SLI hay AMD Crossfire) trkhông
31 Shader - Số ợng shader cores, quyết định sứlư c mạnh xử lý đồ họa
32 TMUs - Số ợng Texture Mapping Units, ảnh hưởng đến tốlư c độ xử lý các chi ti t bế ề
2.1 Phân tích dữ liệu thăm dò
Phân tích dữ ệu thăm dò là một phương pháp để rút ra những nhận xét về dữ li liệu, thường dùng phương pháp trực quan hoá dữ ệu và đồ li thị ống kê để phát hiện sự thliên quan giữa các biến, xác định mô hình, xu hướng và các ngoại lệ Phân tích dữ liệu thăm dò chủ yếu trích xuất các yếu tố quan trọng cho các mô hình dự đoán Bằng cách vẽ các biểu đồ dựa trên dữ ệu gốc, ta có thể ểu được tính chất và sự li hiphân phối của các biến Các dạng biểu đồ:
• Biều đồ tần số (histogram) : trực quan hoá sự phân bố của dữ liệu
• Biều đồ hộp (box plot) : hiển thị phân phối các giá trị dữ liệu số
Trang 52.2 Phân tích phương sai một biến
Phân tích phương sai là một mô hình dùng để xem xét sự ến động của một biếbi n ngẫu nhiên định lượng X chịu tác độc trực tiếp của một hay nhiều yếu tố nguyên nhân (định tính) Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều tổng thể dựa trên các trung bình của mẫu và thông qua kiểm định giả thuyết
để kết luận về sự bằng nhau của các trung bình tổng thể này
2.2.1 Giả thuyết bài toán ANOVA một yếu tố
Giả sử ta muốn so sánh trung bình của k tổng thể trên những mẫu ngẫu nhiên độc lập quan sát từ k tổng thể này, ta cần kiểm tra ba yếu tố sau về các nhóm tổng thể
để có thể ến hành phân tích phương sai: ti
• Các tổng thể có phân phối chuẩn N(µ2;σ𝑖2)
• Phương sai các tổng thể bằng nhau (µ1 = µ2= = µ𝑘)
• Các mẫu quan sát từ các tổng thể được lấy độc lập
2.2.2 Các bước thực hiện
Sau khi kiểm tra các giả thiết của bài toán ANOVA một yếu tố, nếu các điều kiện thoả, ta ực hiện bài toán theo các bước sau:th
• Đặt giả thiết kiểm định : Giả sử trung bình của các tổng thể trên là µ1,µ2, , µk,
ta có mô hình phân tích phương sai một yếu tố được mô tả dưới dạng kiểm định giải thuyết:
– H0 : µ1 =µ2 = = µ
– H1 : ∃µi=µj với i= j Giả thuyết H0 cho rằng trung bình của k tổng thể đều bằng nhau, nghĩa là các yếu tố nguyên nhân không có tác động gì đến vấn đề ta đang nghiên cứu
𝑛𝑖 ( i = 1,2, ,k ) – Tính trung bình mẫu gộp: Gọi 𝑥 là trung bình chung của k mẫu, được tính theo công thức:
Trang 6𝑥 = 𝑖=1𝑛𝑖 𝑥 𝑖
∑𝑘𝑖=1𝑛𝑖
2 Tính tổng bình phương chênh lệch giữa các nhóm (SSB):
Sum of Squares Between (SSB) là sự chênh lệch giữa trung bình của mỗi nhóm và trung bình của toàn bộ dữ ệu hay phần biến thiên của giá trị X do các mức độ củli a yếu tố đang xem xét tạo ra Đối với từng mẫu, ta tính tổng bình phương chênh lệnh giữa các nhóm theo công thức:
𝑆𝑆𝐵𝑖 = 𝑛𝑖(𝑥 − 𝑥 )𝑖 2 với i = 1,2, ,k Đối với mẫu gộp, tổng bình phương chênh lệch giữa các nhóm được tính bằng tổng SSB của từng mẫu, nghĩa là:
SSB = 𝑆𝑆𝐵1 + 𝑆𝑆𝐵2 + + 𝑆𝑆𝐵𝑘Khi đó, ta có thể tính phương sai (trung bình bình phương chênh lệch) giữa các nhóm với bậc tự do k −1 theo công thức:
MSB = 𝑆𝑆𝐵
𝑘−1
1 Tính tổng bình phương chênh lệch trong nội bộ nhóm (SSW):
Sum of Squares Within (SSW) là sự chênh lệch giữa các giá trị quan sát và trung bình củ từng nhóm hay phần biến thiên của giá trị X do các yếu tố nào đó không a được đề cập đến tạo ra Đối với từng mẫu, ta tính tổng bình phương chênh lệnh trong nội bộ nhóm theo công thức:
𝑆𝑆𝑊𝑖 = ∑𝑛𝑖 (𝑥𝑖𝑗− 𝑥 )𝑖 2 𝑗=1 với i = 1,2, ,k Đối với mẫu gộp, tổng bình phương chênh lệch trong nội bộ nhóm bằng tổng SSW của từng mẫu, nghĩa là:
SSW = 𝑆𝑆𝑊1 + 𝑆𝑆𝑊2 + + 𝑆𝑆𝑊𝑘Khi đó, ta có thể tính phương sai (trung bình bình phương chênh lệch) trong nội bộ nhóm với bậc tự do N −k theo công thức:
MSW = 𝑆𝑆𝑊
𝑁− 𝑘
2 Tính tổng bình phương chênh lệch toàn bộ (SST):
Sum of Squares Total (SST) là tổng các độ lệch bình phương của tổng thể, hay có thể ểu là tổng các biến thiên của X do tất cả các yếu tố tạo ra SST được tính theo hicông thức:
SST = ∑ ∑𝑛𝑖 (𝑥𝑖𝑗− 𝑥 )𝑖 2
𝑖=1 𝑘 𝑗=1
Hoặc
SST = SSW + SSB
5 Tính tiêu chuẩn kiểm định F: Kiểm định F, hay còn được gọi là kiểm định Fisher, là một phương pháp thống kê được sử dụng để so sánh phương sai của hai hay nhiều nhóm dữ ệu Nó đánh giá mức độ khác biệt giữa các phương sai bằng licách tính toán tỷ lệ ữa chúng Trong trường hợp bài toán ANOVA một yếu tốgi , điều này có nghĩa là
Trang 7F =
𝑀𝑆𝑊
Kiểm định F giúp ta xác định xem liệu có thể bác bỏ ả thiết hay không.gi
• Miền bác bỏ : Miền bác bỏ là vùng giá trị của tiêu chuẩn kiểm định F mà ở đó, nếu giá trị ểm định rơi vào, chúng ta sẽ bác bỏ ả thuyếki gi t H0 Cụ ể, nếu giá trị th F lớn hơn giá trị F lý thuyết với mức ý nghĩa α thì ta sẽ bác bỏ ả thuyếgi t H0 Giá trị
F lý thuyết được xác định là
F = 𝑓𝛼;(k−1;N−k)Khi đó, miền bác bỏ ợc xác định là: đư
RR = (𝑓𝛼;(k−1;N−k); +∞)
2.3 Hồ quy tuyến tính đa biến i
Hồi quy tuyến tính là một phương pháp phân tích quan hệ ữa biến phụ thuộc vớgi i biến độc lập, mô hình hóa sử dụng hàm tuyến tính (bậc 1) Hồi quy tuyến tính đa biến (hồi quy tuyến tính bội) có thể ểu là mô hình với một biến phụ hi thuộc và hai hay nhiều biến độc lập
Đặc điểm của hồi quy đa biến:
• Đa chiều: Hồi quy đa biến có thể xử lý với nhiều biến độc lập cùng một lúc, giúp đánh giá ảnh hưởng của từng biến đọc lập lên biến phụ thuộc trong bối cảnh của các biến khác
• Tương quan giữa các biến độc lập: Hồi quy đa biến đánh giá tương quan giữa các biến độc lập, điều này có thể giúp xác định ảnh hưởng riêng của từng biến độc lập lên biến phụ thuộc khi đi kèm với sự hiện diện của các biến khác
• Mô hình phức tạp hơn: Hồi quy đa biến có thể tạo ra mô hình phức tạp hơn do sự hiện diện của nhiều biến độc lập, điều này đồng nghĩa với việc cần quan tâm đến các vấn đề như đa cộng tuyến, quá khớp và lựa chọn biến
2.3.1 Kiểm tra giả định
Có 3 giả định cần được kiểm tra trước khi xây dựng mô hình hồi quy tuyến tính đa biến:
• Phân phối chuẩn : Các sai số tuân theo phân phối chuẩn
• Đa cộng tuyến : Các biến độc lập trong mô hình hồi quy không tương quan mạnh với nhau Đa cộng tuyến xảy ra khi hai hoặc nhiều biến độc lập có mối quan hệ tuyến tính mạnh với nhau, dẫn đến khả năng đồi thời ước lượng các hệ số hồi quy, gây ra không chính xác hoặc không ổn định
• Tính tuyến tính : Mối quan hệ ữa các biến độc lập và biến phụ thuộc nên là gituyến tính Điều này có nghĩa là giá trị kỳ vọng của biến phụ thuộc thay đổi theo một đường thẳng khi các biến độc lập thay đổi, giữ các biến khác không đổi
Trang 82.3.2 Mô hình hồi quy tuyến tính đa biến
Mô hình hồi quy tuyến tính đa biến có dạng tổng quát như sau:
Y = 𝛽0 + 𝛽1𝑋1+ 𝛽2𝑋2 + + 𝛽𝑛𝑋𝑛 + ε Trong đó:
Y : biến phụ thuộc
𝑥𝑖 : biến độc lập thứ i
𝜀 : phần dư (chênh lệch giữa giá trị thực và giá trị dự báo, có kì vọng 0 và phương sai
β0 : hệ số ặn của mô hình hồi quy ch
β𝑖 : hệ số hồi quy tương ứng với các biến độc lập 𝑥𝑖 Hôi quy đa biến là một phương pháp mạnh mẽ trong phân tích dữ ệu và có nhiề ứng dụng thực tiễnli u
• Dự đoán : Hồi quy đa biến dùng để dự đoán giá trị của biến phụ thuộc dựa trên các biến độc lập, chẳng hạn như dự đoán giá cổ phiểu, doanh thu của doanh nghiệp
• Phân tích tương quan : Hồi quy đa biến cung cấp các công cụ để phân tích tương quan giữa các biến độc lập và biến phụ thuộc nhằm đánh giá sự ảnh hưởng của biến độc lập lên biến phụ thuộc
• Kiểm tra giả thuyết : Hồi quy đa biến có thể ợc sử dụng để ểm tra các giả đư kithuyết nghiên cứu, chẳng hạn như kiểm tra tác động của các biến độc lập lên biến phụ thuộc
2.3.3 Phương pháp ước lượng hệ số hồ i quy
Phương pháp bình phương nhỏ ất (Ordinary Least Squares- OLS) Phương pháp nhbình phương nhỏ ất là phương pháp phổ ến nhất để ước lượng hệ số hồi quy nh bitrong hồi quy đa biến OLS tìm kiếm các giá trị của hệ số hôi quy β sao cho tổng bình chênh lệch giữa giá trị dự đoán và giá trị quan sác thực tế của biến phụ thuộc
là nhỏ ất, tức là OLS sẽ cố gắng đưa ra dự đoán sao cho tổng các sai số dự đoán nh
là nhỏ nhất:
SSR = ∑𝑛 (𝑦𝑖− 𝑦)𝑖 2 𝑛=1
Trong đó:
• SSR là tổng bình phương sai số dự đoán
• 𝑦𝑖 là giá trị của biến phụ thuộc thực tế ứ i trong tập dữ th liệu
• 𝑦 là giá trị dự đoán của biến phụ thuộc tương ứng với giá trị ến độc lập thứ 𝑖 bi i trong tập dữ liệu
• n là số ợng mẫu dữ lư liệu
Trang 9Phương pháp OLS sẽ tìm kiếm các giá tị của các hệ số hồi quy β0, β1, , βn sao cho SSR là nhỏ nhất Để đạt được điều này, phương pháp OLS sẽ sử dụng đạo hàm của SSR theo từng hệ số hồi quy, đặt bằng 0 và giải hệ phương trình đạo hàm đó để tìm ra các giá trị của các hệ số hồi quy
Công thức ước lượng của các hệ số hồi quy dùng phương pháp OLS:
• 𝑦 là giá trị dự đoán của biến phụ thuộc
• 𝛽0, 𝛽1, , 𝛽𝑛 là các hệ số hồi quy đã được ước lượng
• 𝑋1, 𝑋2, … , 𝑋𝑛 là các giá trị của biến độc lập tương ứng
2.3.4 Đánh giá mô hình hồ quy đa biến i
Đánh giá độ chính xác và hiệu quả của mô hình hôi quy đa biến là một bước quan trọng để đánh giá khả năng dự đoán và tính hợp lý của mô hình Có một số phương pháp phổ ến để đánh giá mô hình hôi quy đa biến, bao gồm sai số dự đoán, độ tin bicậy của dự đoán và độ phù hợp của mô hình Trong bài tập lớn lần này, nhóm xin được trình bày về phương pháp độ phù hợp của mô hình
Độ phù hợp của mô hình : Là phương pháp đánh giá khả năng phù hợp của mô
hình với dữ ệu Có nhiều độ đo khác nhau để đánh giá độ phù hợp của mô hình, litrong đó phổ ến nhất là hệ số xác định (bi 𝑅2) Hệ số xác định là một độ đo thường được sử dụng để đánh giá tỷ lệ phương sai của biến phụ thuộc được giải thích bởi
mô hinh hồi quy đa biến Các giá trị của 𝑅2 phân bổ từ 0 đến 1, với giá trị gần bằng 1 thì mô hình càng phù hợp với dữ ệu Ta có công thức xác định li 𝑅2:
Ta có thể ấy rằng, th 𝑅2 đo tỷ lệ của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình Khi đó người ta sử dụng 𝑅2 để đo sự phù hợp của hàm hồi quy với 0 ≤ 𝑅2 ≤ 1
Trang 10𝑅 cao, nghĩa là mô hình ước lượng được giải thích một mức độ cao biến động của biến phụ thuộc
𝑅2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y R2 = 0, nghĩa là mô hình không đưa ra được thong tin nào về sự thay đổi của biến phụ thuộc y
3 Tiền xử lý số liệu
Nhìn tổng quát vào data, có tổng cộng 3406 mẫu và 34 đặc trưng bao gồm:
['Architecture', 'Best_Resolution', 'Boost_Clock', 'Core_Speed', 'DVI_Connection', 'Dedicated', 'Direct_X', 'DisplayPort_Connection', 'HDMI_Connection',
'Integrated', 'L2_Cache', 'Manufacturer', 'Max_Power', 'Memory',
'Memory_Bandwidth', 'Memory_Bus', 'Memory_Speed', 'Memory_Type', 'Name', 'Notebook_GPU', 'Open_GL', 'PSU', 'Pixel_Rate', 'Power_Connector', 'Process', 'ROPs', 'Release_Date', 'Release_Price', 'Resolution_WxH', 'SLI_Crossfire',
'Shader', 'TMUs', 'Texture_Rate', 'VGA_Connection']
Nhìn vào 10 mẫu đầ tiên của data, ta thấy những đặc trưng còn đơn vị, null rấu t nhiều và chưa thật sự tốt để phân tích
Phần 1:
Trang 11Phần 3:
Phần 4:
Trang 123.1 Xử lý đơn vị
• Tách cột Best_Resolution, Resolution_WxH thành các cột Width x Height
• Tách cộ PSU thành các cột PSU_Watts, PSU Ampst
• Loại bỏ đơn vị của các cột Boost_Clock, Core_Speed, Max_Power,
Memory, Memory_Bandwidth, Memory_Bus, Memory_Speed, Pixel_Rate, Process, Release_Price, Texture_Rate
• Tách cột L2_Cache và ROPs thành 2 cột là L2/ROPs_per_cores và Cores
3.2.a Null nhỏ hơn 5%
- Với đặc trưng với tỉ lệ null < 5%, tụi em sẽ bỏ đi những mẫu có null vì số lượng ít dẫn đế ảnh hưởng không nhiều đến tổng thể dữ n liệu
Trang 133.2.b Null thuộc khoảng 5% - 75%
- Với những null trong khoảng 5 – 75%
- Với những kiểu đặc trưng là dữ ệu số ụi em sẽ dựa trên phân bố của dữ ệu mà li , t lichọn ra cách thay thế dữ liệu là trung bình hay trung vi:
Trang 14['Best_Resolution_width', 'Best_Resolution_height', 'Boost_Clock', 'Core_Speed', 'Max_Power', 'Memory', 'PSU_Watt', 'PSU_Amps', 'Pixel_Rate', 'Process', 'ROPs_Per_Core', 'Resolution_WxH_width', 'Resolution_WxH_height', 'TMUs', 'Texture_Rate']
+ Với những feature có phân tán thấp, tụi em thay bằng trung bình
+ Với những feature có mức độ phân tán cao, tụi em lựa chọn thay bằng trung vị +Khi dữ liệu có xu hướng tuân theo phân phối chuẩn, giá trị của Trung bình và Trung vị thường bằng nhau (hoặc tiệm cận bằng nhau), khi đó ta có thể thay trung bình bằng trung vị
- Với những kiểu đặc trưng là phân loại:
'DVI_Connection', 'DisplayPort_Connection', 'HDMI_Connection',
'Power_Connector', 'ROPs_Cores', 'VGA_Connection'
• Ở ững đặc trưng được liệt kê ở trên, hầu hết là cổng kết nối Ở ị trường hiệnh th n nay, hầu hết các dòng GPU đều được tích hợp ít nhất 1 cổng kết nối để hỗ trợ tốt cho người dùng, nên chúng em quyết định thay thế ững dữ ệu null bằnh li ng trung vị để ữ nguyên tốt ý nghĩa của đặc trưng thay vì thêm một lớgi p
Unknown
3.2.c Null lớn hơn 75%
Trang 15- Với những feature lớn hơn 75%:
Do tỉ lệ null trên đặc trưng này quá lớn, thay thế bằng trung bình hoặc trung vị đều làm cho dữ ệu bị mất cân bằng và thiên vị Không những vậy số ợng mẫu trên li lưtoàn dữ ệu cũng chỉ vỏn vẹn khoảng 3000 data, quá ít để sử dụng những mô hình linội suy như Linear Regression hay RandomForest có thể lấp vào những giá trị null nên chúng em phải bỏ đi những đặc trưng này
- Các điểm Q1, Q2 và Q3 được gọi là các điểm tứ phân vị
- ệu IQR = Q3 – Q1 được gọi là các khoảng tứ phân vị hay độ Hi trải giữa
- ểm outlier: được gọi là điểm dị ệt, điểm ngoại lai Đó là các phần tử của dữ Đi biliệu nằm ngoài khoảng ( Q1 – 1.5.IQR; Q3 + 1.5.IQR )
- Trong trường hợp phần tử nằm ngoài khoảng ( Q1 – 3.IQR; Q3 + 3.IQR ) thì được gọi là ngoại lai xa
Trang 16Dữ liệu sau khi tiền xử lí:
- Còn lại 883 mẫu dữ ệu sau khi xử lí ngoại lệ và xử lí nullli
4 Thống Kê Mô Tả
- Đối với những kiểu dữ ệu dạng số:li
- Tính toán trung bình, phương sai, độ lệch chuẩn
Trang 17Feature Mean Variance Standard
Texture_Rate 49.1031 954.478 30.8946
Trang 18- Ở đây chúng em tập trung vào vài nhân tố quan trọng của tập dữ ệu như liMemory_bandwidth, Memory_speed, pixel_rate, texture_rate, core_speed và manufacture