Bài tập lớn học phần môn xác suất thống kê chủ Đề 1 phân tích sự tác Động của các thông số kỹ thuật Đến tốc Độ xung nhịp của cpu

2.1.3 Biểu đồ hộp Box plot Biểu đồ hộp sử dụng các hộp và đường để thể hiện sự phân bố của một hoặc nhiều nhóm dữ liệu số.. Mỗi mẫu được biểu diễn bởi một hộp chiếm 50% dữ liệu trung tâ

Trang 1

ĐẠI HỌC QUỐC GIA ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH



BÀI TẬP LỚN HỌC PHẦN MÔN XÁC SUẤT THỐNG KÊ

CHỦ ĐỀ 1:

PHÂN TÍCH SỰ TÁC ĐỘNG CỦA CÁC THÔNG SỐ KỸ THUẬT

ĐẾN TỐC ĐỘ XUNG NHỊP CỦA CPU

LỚP L16 - NHÓM 1 - HK241 GVHD: TS NGUYỄN THỊ KIỀU ÂN

Trang 2

BÁO CÁO PHÂN CÔNG NHIỆM VỤ VÀ KẾT QUẢ LÀM VIỆC NHÓM

Môn: Xác suất thống kê (MT2013)

Lớp: L16 Nhóm: 01

Đề tài:

PHÂN TÍCH SỰ TÁC ĐỘNG CỦA CÁC THÔNG SỐ KỸ THUẬT ĐẾN TỐC ĐỘ

XUNG NHỊP CỦA CPU

Trang 3

đa, độ phân giải màn hình, mức tiêu thụ điện năng, số lượng luồng, ngày phát hành, giá phát hành, kích thước khuôn, hỗ trợ ảo hóa và nhiều trường tương tự khác

,"Sever",Mobile")

Dùng chỉ nền tảng của CPU chạy trên

Lithography

Biến định lượng

{x ∈ N | 14 ≤ x ≤250}

Dùng chỉ công nghệ sản xuất bán dẫn (đơn vị đo

nm)

nb_of_Cores Biến định lượng

{x ∈ N | 1 ≤ x ≤72}

Dùng để chỉ số lõi xử lí độc lập trên CPU

nb_of_Threads Biến định lượng

{x ∈ N | 1 ≤ x ≤56}

Dùng để chỉ số luồng thực thi (dãy lệnh cơ bản và có thứ tự mà có thể được truyền qua hoặc xử lý bởi một lõi CPU duy

vị đo MHz)

Trang 4

2.1.1 Các dạng dữ liệu

Định tính không thứ bậc (nominal): Dữ liệu thuần mô tả sự khác biệt với nhau, không có sự so sánh

Định tính có thứ bậc (ordinal): Có sự khác biệt và phân chia theo thứ bậc

Thang đo (interval): Có thứ tự, sự khác biệt giữa các giá trị có ý nghĩa nhưng giá trị 0 không có ý nghĩa

Tỷ lệ (ratio): Có thứ tự, sự khác biệt giữa các ý nghĩa và các giá trị đều có ý nghĩa, bao gồm cả 0

bộ nhớ tối đa mà CPU có thể hỗ trợ( đơn vị đo GB)

TDP Biến định lượng

{x ∈ N | 0.025 ≤ x ≤300}

Dùng để chỉ công suất thiết kế nhiệt và công suất nhiệt mà một vi xử lý (CPU) hoặc một thành phần điện tử khác sẽ tạo ra trong điều kiện hoạt động tiêu chuẩn( đơn vị đo W)

bộ nhớ bán dẫn bởi bộ xử

lý (đơn vị đo GB/s)

Trang 5

𝑋̅ = 𝑥1+ 𝑥2 + 𝑥3+ ⋯ + 𝑥𝑛

nPhương sai và độ lệch chuẩn (variance & standard deviation): Là hai đại lượng thống kê mô tả độ phân tán của tập dữ liệu đã được lập bảng tần số

𝑉 = ∑ (𝑥𝑘 − 𝑋̅)

2 𝑛

Số yếu vị (mode): Là giá trị có tần số xuất hiện nhiều nhất trong mẫu

Khoảng biến thiên (range): Phạm vi thay đổi của nhóm kết quả quan sát

2.1.3 Biểu đồ hộp (Box plot)

Biểu đồ hộp sử dụng các hộp và đường để thể hiện sự phân bố của một hoặc nhiều nhóm dữ liệu số Biểu đồ hộp thể hiện 5 thông tin bao gồm giá trị lớn nhất, nhỏ nhất, tứ phân vị một, tứ phân vị ba và trung vị Mỗi mẫu được biểu diễn bởi một hộp chiếm 50%

dữ liệu trung tâm, bên trong là một đường ngang biểu thị giá trị của trung vị Hai đường

kẻ ngoài, hay còn gọi là các râu dùng biểu biểu thị phạm vi của các giá trị còn lại ngoài hộp Cuối cùng các giá trị ngoại lai sẽ được biểu diễn bằng dấu chấm

Ưu điểm chính là biểu đồ này tập trung vào các số liệu thống kê chính Do đó dễ đọc ,dễ hiểu và tránh gây nhầm lẫn Bên cạnh đó, biểu đồ hộp rất thích hợp khi so sánh các hộp trong cùng một biểu đồ nằm cạnh nhau với nhau, và tỏ ra rất hiệu quả khi tìm ra

sự khác biệt Biểu đồ hộp thích hợp khi dùng dữ liệu dạng phân loại

Nhược điểm là biểu đồ hộp chỉ tóm tắt dữ liệu và có thể che mất những thông tin quan trọng như hình dạng phân phối, tần suất, và có thể sai khi phân phối phức tạp và vi phạm tính đối xứng, hay trường hợp biểu mẫu nhỏ thì dữ liệu tóm tắt sẽ không được biểu diễn một cách tốt nhất

2.1.4 Biểu đồ Histogram

Biểu đồ Histogram là một dạng biểu đồ mà tần suất của các biến định lượng liên tục được biểu diễn dưới dạng các cột Nó biểu thị cho hình dạng của phân phối xác suất (tần suất/tỷ lệ dưới dạng hình chữ nhật), biểu đồ bao gồm các thanh có chiều rộng bằng nhau được vẽ cạnh nhau và có cả trục ngang và trục dọc Trục ngang được gắn nhãn với

dữ liệu thể hiện Trục dọc được gắn nhãn là tần Biểu đồ histogram biểu thị phân phối các giá trị bao gồm các giá trị cao nhất, trung bình và thấp nhất Khác với biểu đồ cột, thì mỗi giá trị tần suất là một cột và chiều rộng của cột không có ý nghĩa thì với biểu đồ Histogram, mỗi cột lại được biểu diễn bằng một khoảng giá trị tần suất

Ưu điểm chính là trực quan hóa phân bố dữ liệu Chúng ta có thể dễ dàng nhận ra

xu hướng, đối xứng, hoặc lệch của dữ liệu Phát hiện giá trị bất thường nhờ so sánh chiều cao của các cột, chúng ta có thể phát hiện các giá trị bất thường hoặc ngoại lệ trong dữ liệu Dễ hiểu và sử dụng, biểu đồ histogram không yêu cầu kiến thức toán học phức tạp

Do đó bất kỳ ai cũng có thể hiểu và sử dụng nó

Trang 6

Nhược điểm của biểu đồ histogram là mất thông tin chi tiết do nó không thể hiển thị chi tiết về từng giá trị dữ liệu Mặt khác độ chính xác sẽ phụ thuộc vào độ chia nhỏ nhất và số khoảng chia

2.2 Thống kê suy diễn

Thống kê suy luận (inferential statistics) là quá trình sử dụng lý thuyết xác suất để suy luận các đặc tính tổng quát hơn của một tập dữ liệu (dùng mẫu để suy luận ra quần thể thống kê) Để đưa ra dự đoán từ các mẫu thống kê, các phương pháp chủ yếu được sử dụng là phương pháp hồi quy, bao gồm hồi quy tuyến tính, hồi quy đa thức, hồi quy phân

vị, hồi quy thành phần chính,…Và nhóm quyết định sử dụng các phương pháp phương sai hai yếu tố (có lặp), phương sai ba yếu tố và hồi quy tuyến tính đa tham số

2.2.1 Phương pháp phương sai hai yếu tố có lặp (Two-way ANOVA with repetation)

Định nghĩa: Phương pháp phương sai hai yếu tố có lặp là một phương pháp thống

kê dùng để đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát 𝑌𝑖𝑗𝑘(i=1,2,…,r: yếu tố A; j=1,2,…c: yếu tố B;k=1,2,…,n: số lần lặp)

Mô hình:

cộng

Trung bình

Công thức từ mô hình:

𝑌𝑖𝑗𝑘 = µ + α𝑖 + β𝑗 + (αβ)𝑖𝑗 + 𝑆𝑖𝑗 + ε𝑖𝑗𝑘Trong đó:

𝑌𝑖𝑗𝑘 là giá trị của biến phụ thuộc tại hàng i, cột j, và lặp lại k

µ là giá trị trung bình chung của toàn bộ dữ liệu

α𝑖 là ảnh hưởng của mức i của yếu tố A

β𝑗 là ảnh hưởng của mức j của yếu tố B

(αβ)𝑖𝑗 là ảnh hưởng tương tác giữa yếu tố A và B

𝑆𝑖𝑗 là ảnh hưởng của thời gian (lặp lại) hoặc điều kiện đặc biệt

ε𝑖𝑗𝑘 là sai số ngẫu nhiên

Các biến i,j,k đã được giải thích ở đầu mục

Bảng ANOVA:

Trang 7

Bảng 2.2.1.b Giả thiết: Có 3 giả thiết 𝐻0 cần được đặt:

1 Giá trị B trung bình ở mỗi lần thử j của B là như nhau ở mỗi 𝐴𝑖 Hay yếu tố lần thử j của B không tác động lên B

2 Giá trị B trung bình của mỗi 𝐴𝑖 khác nhau là như nhau Hay yếu tố A không tác động đến B

3 Giữa yếu tố 𝐴𝑖 và yếu tố B lần j không có mối tương tác với nhau

Giá trị thống kê: Dùng làm giá trị kiểm định cho 3 giả thiết đầu bài:

𝐹1 =𝑀𝑆𝐺MSE; 𝐹2 =

𝑀𝑆𝐵MSE; 𝐹3 =

𝑀𝑆𝐼MSEBiện luận:

Ta có 𝐹𝑡𝑟𝑎 𝑏ả𝑛𝑔 𝐹=F(0,05;h-1;(h-1)*(k-1)): Với F được tra theo bảng phân phối F bằng hệ tọa độ (numerator-denominator) đã nêu

Nếu 𝐹1 < 𝐹𝑡𝑟𝑎 𝑏ả𝑛𝑔 𝐹: Thừa nhận 𝐻0(yếu tố A)

Nếu 𝐹2 < 𝐹𝑡𝑟𝑎 𝑏ả𝑛𝑔 𝐹: Thừa nhận 𝐻0(yếu tố B)

Nếu 𝐹3 < 𝐹𝑡𝑟𝑎 𝑏ả𝑛𝑔 𝐹: Thừa nhận 𝐻0(yếu tố A và B)

2.2.2 Phương pháp hồi quy tuyến tính đa tham số (bội)

Định nghĩa: Hồi quy tuyến tính đa biến biểu thị mối liên hệ giữa một biến phụ thuộc vào hai hay nhiều biến độc lập Mô hình của hồi quy tuyến tính đa biến:

𝑌 = β0+ β1X1+ β2X2+ ⋯ + β𝑛X𝑛+ ε Trong đó:

SSE: Tổng bình phương sai số, được xem như sai số do những yếu tố khác ngoài X hoặc

do lấy mẫu ngẫu nhiên

SSR: Tổng bình phương hồi quy, R là sai số do khác biệt giữa đường hồi quy mẫu và trung bình của Y Sự khác biệt này được giải thích bởi sự biến động của X SSR đo sự

Trang 8

phân tán của dữ liệu do mô hình hồi quy gây ra SSR càng gần SST thì mô hinh càng phù hợp

SST=SSR+SSE

Bảng ANOVA:

Bảng 2.2.2.a

𝑅2 =𝑆𝑆𝑅SST = 1 −

𝑆𝑆𝐸SST

Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê Từ định nghĩa 𝑅2 chúng ta thấy 𝑅2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình Khi đó người ta sử dụng 𝑅2 dể đo sự phù hợp của hàm hồi quy:

0 ≤ 𝑅2 ≤ 1 Nếu nhận giá trị 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y Ngược lại nếu nhận giá trị 1 nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc

Ước lượng khoảng tin cậy đối vởi các hệ số hồi quy: Mục đích của phân tích hồi quy không phải chỉ suy đoán về β1, β2, , βk mà còn phải kiểm tra bản chất sự phụ thuộc Do vậy cần phải biết phân bố xác suất của β1, β2, , βk Các phân bố này phụ thuộc vào phân bố của các u(i) Với các giả thiết OLS, u(i) có phân phối N( 0, σ2) Các

hệ số ước lượng tuân theo phân phối chuẩn, Khoảng tin cậy 1 − α của βj là:

[β̂𝑗 − 𝑡𝑎

2(𝑛 − 𝑘)𝑆𝑒(β̂𝑗) ; β̂𝑗 + 𝑡𝑎

2(𝑛 − 𝑘)𝑆𝑒(β̂𝑗)]

Giả thiết:

𝐻0 : β𝑖= 0 “Các hệ số hồi quy không có ý nghĩa”

𝐻1 : β𝑖 ≠ 0 “Ít nhất vài hệ số hồi quy có ý nghĩa”

Kiểm định giả thiết – Bác bỏ:

a) Thêm thư viện

Install.packages(“ ”) và library(“ ”) : được dùng để cài đặt gói và tải gói lên môi trường hiện tại

“dplyr”: cung cấp các công cụ cho việc thao tác và biến đổi dữ liệu

“ggplot2”: cung cấp công cụ để tạo biểu đồ thống kê

“corrplot”: cung cấp công cụ hiển thị ma trận tương quan giữa các biến

Trang 9

“psych”: cung cấp công cụ tính chỉ số thống kê như trung bình, độ lệch chuẩn, hoặc để thực hiện phân tích yếu tố để khám phá cấu trúc ẩn trong dữ liệu

rm(list=ls()): làm sạch các đối tượng trong môi trường trước khi bắt đầu phiên làm việc mới

option(warn=-1): tắt cảnh báo trong R

head(data) : hiển thị 6 dòng đầu của tệp dữ liệu

Hình 1: Kết quả hiển thị 6 dòng đầu tiên của dữ liệu Sau khi đã đọc dữ liệu từ file vào ta cần tạo một dataframe mới cho các dữ liệu

mà ta cần khảo sát, lưu với tên là dataframe sau đó hiển thị dataframe ra màn hình để kiểm tra

Trang 10

Hình 2: Kết quả hiển thị dataframe

c) Xử lí định dạng dữ liệu

dataframe$Vertical_Segment <- as.factor(dataframe$Vertical_Segment) sẽ chuyển đổi cột Vertical_Segment trong dataframe thành một factor

Hình 3: Code xử lí định dạng số liệu dataframe$Lithography <- as.numeric(gsub(" nm", "", dataframe$Lithography)) dùng để loại bỏ chuỗi “nm” và chuyển từ chuỗi sang số bằng hàm as.numeric, làm tương

tự với TDP và Max_Memory_Bandwidth

Viết hàm ConvertFrequency nhận vào chuỗi số và trả về tần số ở đơn vị MHz và dataframe$Processor_Base_Frequency<sapply(dataframe$Processor_Base_Frequency,ConvertFrequency) để áp dụng kết quả của hàm chuyển đổi cho mỗi phần tử trong cột Processor_Base_Frequency và tương tự với Max_Memory_Size

Hình 4: Kết quả hiển thị dataframe sau xử lí định dạng

d) Xử lí dữ liệu khuyết

Sau khi xử lí định dạng ta cần thống kê các dữ liệu khuyết(NA) trong từng biến bằng hàm apply(is.na(dataframe),2,sum)

Trang 11

Hình 5: Kết quả thống kê số dữ liệu khuyết (NA) Mean/ Mode/ Median Imputation: là một phương pháp để điền vào các giá trị còn thiếu với các giá trị ước tính Mục tiêu là sử dụng các mối quan hệ đã biết có thể được xác định trong các giá trị hợp lệ của tập dữ liệu để hỗ trợ ước tính cho các giá trị còn thiếu Mean/ Mode/ Median Imputation là một trong những phương pháp được sử dụng thường xuyên nhất Ta có hai cách sử dụng:

• Generalized Imputation: Trong trường hợp này, ta tính giá trị trung bình hoặc trung vị cho tất cả các giá trị không bị thiếu của biến đó sau đó thay thế giá trị

bị thiếu bằng giá trị trung bình hoặc trung vị

• Similar case Imputation: trong trường hợp này, ta cũng tính các giá trị trung bình nhưng các giá trị này sẽ được tính riêng lẻ theo từng đối tượng của các giá trị không bị thiếu, sau đó thay các giá trị trung bình đã được tính theo từng đối tượng trước đó

Trong bài tập lớn này nhóm sẽ dùng cách thay thế giá trị NA bằng giá trị trung vị

để giảm ảnh hưởng của các giá trị ngoại lai và bảo toàn tính phân phối của dữ liệu, dùng hàm replace_na_with_median thay thế các giá trị NA bằng trung vị của từng cột số trong dataframe, và sau đó chuyển đổi lại thành một khung dữ liệu

Hình 6: Code hàm thay thế NA bằng trung vị

Hình 7: Kết quả sau khi thay thế các dữ liệu khuyết bằng trung vị

4 Thống kê mô tả

Tìm các giá trị ngoại lai

Giá trị ngoại lai (outliers) là các điểm dữ liệu mà có giá trị rất khác biệt so với các giá trị còn lại trong tập dữ liệu Cụ thể, giá trị ngoại lai thường là các giá trị rất lớn hoặc rất nhỏ so với phần còn lại của dữ liệu Vì vậy giá trị ngoại lai thường không phản ánh đặc điểm của phân phối dữ liệu, và do đó có thể làm sai lệch kết quả của phân tích, gây sai số và làm giảm tính chính xác của mô hình vì vậy ta cần tìm kiếm và xử lí những giá trị ngoại lai này

Trang 12

Đối với biến dữ liệu như Vertical_Segment ta thấy không có giá trị ngoại lai vì vậy có thể thống kê bình thường bằng lệnh table(data$Vertical_Segment)

Hình 8: kết quả sau khi thống kê các dữ liệu Vertical_Segment Đối với biến có kiểu dữ liệu là số trong bài tập lớn này nhóm chúng em sẽ dùng biểu đồ hộp (boxplot) và để tìm giá trị ngoại lai nhóm sử dụng phương pháp IQR

(interquartile range) Interquartile Range (IQR) là một độ đo của biến động trong một tập

dữ liệu và là phạm vi giữa phân vị thứ nhất (25th percentile) và phân vị thứ ba (75th

percentile) Nó được tính bằng cách trừ giá trị của phân vị thứ nhất từ phân vị thứ ba Giá

trị ngoại lai thường được định nghĩa là những giá trị nằm dưới giá trị Q1 - 1.5IQR hoặc nằm trên giá trị Q3 + 1.5IQR

Sau khi tính IQR, cận dưới(lower_bound), cận trên(upper_bound) ta dùng hàm outliers để kiểm tra xem các giá trị trong cột có phải là giá trị ngoại lai không nếu có gán TRUE ngược lại nếu không phải giá trị ngoại lai hoặc là cột dữ liệu chuỗi thì gán FALSE

Vẽ biểu đồ boxplot để thấy rõ các dữ liệu ngoại lai, các dữ liệu này được xác định

là các dấu chấm ở 2 đầu biểu đồ:

Hình 9: Code vẽ biểu đồ boxplot

Hình 10: Đồ thị boxplot của tần suất cơ bản bộ xử lý Nhận xét: Nhóm máy tính để bàn có 1 số giá trị ngoại lai (< 950 MHz), nhóm thiết

bị nhúng và máy chủ có số lượng ngoại lai ít và không thể nhìn thấy giá trị ngoại lai nào

ở nhóm điện thoại Nhóm máy tính để bàn có trung vị và khoảng dữ liệu lớn hơn 3 nhóm còn lại, giá trị không lệch về một phía nào quá nhiều Nhóm điện thoại cũng có một phân

Trang 13

phối khá đều Nhóm thiết bị nhúng có khoảng dữ liệu nhỏ nhất, giá trị lệch về phía dưới trung vị Ngược lại nhóm máy chủ lại có khoảng dữ liệu rộng và lệch về phía trên trung

vị

a) Vẽ biểu đồ

Trục y (trục tung) của histogram biểu diễn số lượng quan sát trong mỗi khoảng dữ liệu, còn được gọi là tần suất của các giá trị dữ liệu Mỗi cột trên histogram thể hiện số lượng quan sát nằm trong một khoảng dữ liệu cụ thể

Hình 11: Code vẽ biểu đồ histogram Processor_Base_Frequency

Hình 12: Đồ thị Histogram của tần suất cơ bản bộ xử lý Nhận xét: Nhìn chung biến Processor Base Frequency tập trung ở giá trị 1500 đến

3000 MHz Số lượng CPU có giá trị vượt trên 4000MHz là rất ít.Điều này chứng tỏ giá

trị tần số CPU ở khoảng từ 1000 đến 3000 MHz có thể đáp ứng được nhu cầu của con

người

Trang 14

Hình 13: Đồ thị Histogram của Lithography

Nhận xét: Nhìn chung biến Lithography tập trung ở giá trị 14 đến 50nm CPU không có giá trị Lithography khoảng 200nm

Biểu đồ phân tán là một công cụ mạnh mẽ trong phân tích dữ liệu có mục đích chính là hiển thị mối quan hệ giữa hai biến Sau khi tạo subset của dataframe với các cột chứa dữ liệu số, ta thực hiện loại bỏ cột "Processor_Base_Frequency" khỏi danh sách các cột numeric Cột này được loại bỏ để tránh việc vẽ biểu đồ của nó so với chính nó Sau

đó dùng vòng lặp để lần lượt tạo các biểu đồ phân tán bằng lệnh ggplot

Hình 14: Code vẽ biểu đồ phân tán giữa Processor Base Frequency với Max_nb_of_PCI_Express_Lanes bằng geom_point

Tiêu đề	Phân Tích Sự Tác Động Của Các Thông Số Kỹ Thuật Đến Tốc Độ Xung Nhịp Của Cpu
Tác giả	Nguyễn Đăng Khánh, Phạm Duy Hưng, Nguyễn Phúc Khánh, Nguyễn Nhật Thiên Hữu, Trần Đăng Khoa
Người hướng dẫn	TS. Nguyễn Thị Kiều Ân
Trường học	Đại Học Quốc Gia Đại Học Bách Khoa Tp Hồ Chí Minh
Chuyên ngành	Xác Suất Thống Kê
Thể loại	Bài Tập Lớn
Năm xuất bản	2024
Thành phố	Thành Phố Hồ Chí Minh

Định dạng
Số trang	21
Dung lượng	1,51 MB