2.1.3 Biểu đồ hộp Box plot Biểu đồ hộp sử dụng các hộp và đường để thể hiện sự phân bố của một hoặc nhiều nhóm dữ liệu số.. Mỗi mẫu được biểu diễn bởi một hộp chiếm 50% dữ liệu trung tâ
Trang 1ĐẠI HỌC QUỐC GIA ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH
BÀI TẬP LỚN HỌC PHẦN MÔN XÁC SUẤT THỐNG KÊ
CHỦ ĐỀ 1:
PHÂN TÍCH SỰ TÁC ĐỘNG CỦA CÁC THÔNG SỐ KỸ THUẬT
ĐẾN TỐC ĐỘ XUNG NHỊP CỦA CPU
LỚP L16 - NHÓM 1 - HK241 GVHD: TS NGUYỄN THỊ KIỀU ÂN
Trang 2BÁO CÁO PHÂN CÔNG NHIỆM VỤ VÀ KẾT QUẢ LÀM VIỆC NHÓM
Môn: Xác suất thống kê (MT2013)
Lớp: L16 Nhóm: 01
Đề tài:
PHÂN TÍCH SỰ TÁC ĐỘNG CỦA CÁC THÔNG SỐ KỸ THUẬT ĐẾN TỐC ĐỘ
XUNG NHỊP CỦA CPU
Trang 3đa, độ phân giải màn hình, mức tiêu thụ điện năng, số lượng luồng, ngày phát hành, giá phát hành, kích thước khuôn, hỗ trợ ảo hóa và nhiều trường tương tự khác
,"Sever",Mobile")
Dùng chỉ nền tảng của CPU chạy trên
Lithography
Biến định lượng
{x ∈ N | 14 ≤ x ≤250}
Dùng chỉ công nghệ sản xuất bán dẫn (đơn vị đo
nm)
nb_of_Cores Biến định lượng
{x ∈ N | 1 ≤ x ≤72}
Dùng để chỉ số lõi xử lí độc lập trên CPU
nb_of_Threads Biến định lượng
{x ∈ N | 1 ≤ x ≤56}
Dùng để chỉ số luồng thực thi (dãy lệnh cơ bản và có thứ tự mà có thể được truyền qua hoặc xử lý bởi một lõi CPU duy
vị đo MHz)
Trang 42.1.1 Các dạng dữ liệu
Định tính không thứ bậc (nominal): Dữ liệu thuần mô tả sự khác biệt với nhau, không có sự so sánh
Định tính có thứ bậc (ordinal): Có sự khác biệt và phân chia theo thứ bậc
Thang đo (interval): Có thứ tự, sự khác biệt giữa các giá trị có ý nghĩa nhưng giá trị 0 không có ý nghĩa
Tỷ lệ (ratio): Có thứ tự, sự khác biệt giữa các ý nghĩa và các giá trị đều có ý nghĩa, bao gồm cả 0
bộ nhớ tối đa mà CPU có thể hỗ trợ( đơn vị đo GB)
TDP Biến định lượng
{x ∈ N | 0.025 ≤ x ≤300}
Dùng để chỉ công suất thiết kế nhiệt và công suất nhiệt mà một vi xử lý (CPU) hoặc một thành phần điện tử khác sẽ tạo ra trong điều kiện hoạt động tiêu chuẩn( đơn vị đo W)
bộ nhớ bán dẫn bởi bộ xử
lý (đơn vị đo GB/s)
Trang 5𝑋̅ = 𝑥1+ 𝑥2 + 𝑥3+ ⋯ + 𝑥𝑛
nPhương sai và độ lệch chuẩn (variance & standard deviation): Là hai đại lượng thống kê mô tả độ phân tán của tập dữ liệu đã được lập bảng tần số
𝑉 = ∑ (𝑥𝑘 − 𝑋̅)
2 𝑛
Số yếu vị (mode): Là giá trị có tần số xuất hiện nhiều nhất trong mẫu
Khoảng biến thiên (range): Phạm vi thay đổi của nhóm kết quả quan sát
2.1.3 Biểu đồ hộp (Box plot)
Biểu đồ hộp sử dụng các hộp và đường để thể hiện sự phân bố của một hoặc nhiều nhóm dữ liệu số Biểu đồ hộp thể hiện 5 thông tin bao gồm giá trị lớn nhất, nhỏ nhất, tứ phân vị một, tứ phân vị ba và trung vị Mỗi mẫu được biểu diễn bởi một hộp chiếm 50%
dữ liệu trung tâm, bên trong là một đường ngang biểu thị giá trị của trung vị Hai đường
kẻ ngoài, hay còn gọi là các râu dùng biểu biểu thị phạm vi của các giá trị còn lại ngoài hộp Cuối cùng các giá trị ngoại lai sẽ được biểu diễn bằng dấu chấm
Ưu điểm chính là biểu đồ này tập trung vào các số liệu thống kê chính Do đó dễ đọc ,dễ hiểu và tránh gây nhầm lẫn Bên cạnh đó, biểu đồ hộp rất thích hợp khi so sánh các hộp trong cùng một biểu đồ nằm cạnh nhau với nhau, và tỏ ra rất hiệu quả khi tìm ra
sự khác biệt Biểu đồ hộp thích hợp khi dùng dữ liệu dạng phân loại
Nhược điểm là biểu đồ hộp chỉ tóm tắt dữ liệu và có thể che mất những thông tin quan trọng như hình dạng phân phối, tần suất, và có thể sai khi phân phối phức tạp và vi phạm tính đối xứng, hay trường hợp biểu mẫu nhỏ thì dữ liệu tóm tắt sẽ không được biểu diễn một cách tốt nhất
2.1.4 Biểu đồ Histogram
Biểu đồ Histogram là một dạng biểu đồ mà tần suất của các biến định lượng liên tục được biểu diễn dưới dạng các cột Nó biểu thị cho hình dạng của phân phối xác suất (tần suất/tỷ lệ dưới dạng hình chữ nhật), biểu đồ bao gồm các thanh có chiều rộng bằng nhau được vẽ cạnh nhau và có cả trục ngang và trục dọc Trục ngang được gắn nhãn với
dữ liệu thể hiện Trục dọc được gắn nhãn là tần Biểu đồ histogram biểu thị phân phối các giá trị bao gồm các giá trị cao nhất, trung bình và thấp nhất Khác với biểu đồ cột, thì mỗi giá trị tần suất là một cột và chiều rộng của cột không có ý nghĩa thì với biểu đồ Histogram, mỗi cột lại được biểu diễn bằng một khoảng giá trị tần suất
Ưu điểm chính là trực quan hóa phân bố dữ liệu Chúng ta có thể dễ dàng nhận ra
xu hướng, đối xứng, hoặc lệch của dữ liệu Phát hiện giá trị bất thường nhờ so sánh chiều cao của các cột, chúng ta có thể phát hiện các giá trị bất thường hoặc ngoại lệ trong dữ liệu Dễ hiểu và sử dụng, biểu đồ histogram không yêu cầu kiến thức toán học phức tạp
Do đó bất kỳ ai cũng có thể hiểu và sử dụng nó
Trang 6Nhược điểm của biểu đồ histogram là mất thông tin chi tiết do nó không thể hiển thị chi tiết về từng giá trị dữ liệu Mặt khác độ chính xác sẽ phụ thuộc vào độ chia nhỏ nhất và số khoảng chia
2.2 Thống kê suy diễn
Thống kê suy luận (inferential statistics) là quá trình sử dụng lý thuyết xác suất để suy luận các đặc tính tổng quát hơn của một tập dữ liệu (dùng mẫu để suy luận ra quần thể thống kê) Để đưa ra dự đoán từ các mẫu thống kê, các phương pháp chủ yếu được sử dụng là phương pháp hồi quy, bao gồm hồi quy tuyến tính, hồi quy đa thức, hồi quy phân
vị, hồi quy thành phần chính,…Và nhóm quyết định sử dụng các phương pháp phương sai hai yếu tố (có lặp), phương sai ba yếu tố và hồi quy tuyến tính đa tham số
2.2.1 Phương pháp phương sai hai yếu tố có lặp (Two-way ANOVA with repetation)
Định nghĩa: Phương pháp phương sai hai yếu tố có lặp là một phương pháp thống
kê dùng để đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát 𝑌𝑖𝑗𝑘(i=1,2,…,r: yếu tố A; j=1,2,…c: yếu tố B;k=1,2,…,n: số lần lặp)
Mô hình:
cộng
Trung bình
Công thức từ mô hình:
𝑌𝑖𝑗𝑘 = µ + α𝑖 + β𝑗 + (αβ)𝑖𝑗 + 𝑆𝑖𝑗 + ε𝑖𝑗𝑘Trong đó:
𝑌𝑖𝑗𝑘 là giá trị của biến phụ thuộc tại hàng i, cột j, và lặp lại k
µ là giá trị trung bình chung của toàn bộ dữ liệu
α𝑖 là ảnh hưởng của mức i của yếu tố A
β𝑗 là ảnh hưởng của mức j của yếu tố B
(αβ)𝑖𝑗 là ảnh hưởng tương tác giữa yếu tố A và B
𝑆𝑖𝑗 là ảnh hưởng của thời gian (lặp lại) hoặc điều kiện đặc biệt
ε𝑖𝑗𝑘 là sai số ngẫu nhiên
Các biến i,j,k đã được giải thích ở đầu mục
Bảng ANOVA:
Trang 7Bảng 2.2.1.b Giả thiết: Có 3 giả thiết 𝐻0 cần được đặt:
1 Giá trị B trung bình ở mỗi lần thử j của B là như nhau ở mỗi 𝐴𝑖 Hay yếu tố lần thử j của B không tác động lên B
2 Giá trị B trung bình của mỗi 𝐴𝑖 khác nhau là như nhau Hay yếu tố A không tác động đến B
3 Giữa yếu tố 𝐴𝑖 và yếu tố B lần j không có mối tương tác với nhau
Giá trị thống kê: Dùng làm giá trị kiểm định cho 3 giả thiết đầu bài:
𝐹1 =𝑀𝑆𝐺MSE; 𝐹2 =
𝑀𝑆𝐵MSE; 𝐹3 =
𝑀𝑆𝐼MSEBiện luận:
Ta có 𝐹𝑡𝑟𝑎 𝑏ả𝑛𝑔 𝐹=F(0,05;h-1;(h-1)*(k-1)): Với F được tra theo bảng phân phối F bằng hệ tọa độ (numerator-denominator) đã nêu
Nếu 𝐹1 < 𝐹𝑡𝑟𝑎 𝑏ả𝑛𝑔 𝐹: Thừa nhận 𝐻0(yếu tố A)
Nếu 𝐹2 < 𝐹𝑡𝑟𝑎 𝑏ả𝑛𝑔 𝐹: Thừa nhận 𝐻0(yếu tố B)
Nếu 𝐹3 < 𝐹𝑡𝑟𝑎 𝑏ả𝑛𝑔 𝐹: Thừa nhận 𝐻0(yếu tố A và B)
2.2.2 Phương pháp hồi quy tuyến tính đa tham số (bội)
Định nghĩa: Hồi quy tuyến tính đa biến biểu thị mối liên hệ giữa một biến phụ thuộc vào hai hay nhiều biến độc lập Mô hình của hồi quy tuyến tính đa biến:
𝑌 = β0+ β1X1+ β2X2+ ⋯ + β𝑛X𝑛+ ε Trong đó:
SSE: Tổng bình phương sai số, được xem như sai số do những yếu tố khác ngoài X hoặc
do lấy mẫu ngẫu nhiên
SSR: Tổng bình phương hồi quy, R là sai số do khác biệt giữa đường hồi quy mẫu và trung bình của Y Sự khác biệt này được giải thích bởi sự biến động của X SSR đo sự
Trang 8phân tán của dữ liệu do mô hình hồi quy gây ra SSR càng gần SST thì mô hinh càng phù hợp
SST=SSR+SSE
Bảng ANOVA:
Bảng 2.2.2.a
𝑅2 =𝑆𝑆𝑅SST = 1 −
𝑆𝑆𝐸SST
Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần được giải thích được gọi là hệ số xác định, hay là trị thống kê Từ định nghĩa 𝑅2 chúng ta thấy 𝑅2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung bình được giải thích bằng mô hình Khi đó người ta sử dụng 𝑅2 dể đo sự phù hợp của hàm hồi quy:
0 ≤ 𝑅2 ≤ 1 Nếu nhận giá trị 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của biến phụ thuộc y Ngược lại nếu nhận giá trị 1 nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến động của biến phụ thuộc
Ước lượng khoảng tin cậy đối vởi các hệ số hồi quy: Mục đích của phân tích hồi quy không phải chỉ suy đoán về β1, β2, , βk mà còn phải kiểm tra bản chất sự phụ thuộc Do vậy cần phải biết phân bố xác suất của β1, β2, , βk Các phân bố này phụ thuộc vào phân bố của các u(i) Với các giả thiết OLS, u(i) có phân phối N( 0, σ2) Các
hệ số ước lượng tuân theo phân phối chuẩn, Khoảng tin cậy 1 − α của βj là:
[β̂𝑗 − 𝑡𝑎
2(𝑛 − 𝑘)𝑆𝑒(β̂𝑗) ; β̂𝑗 + 𝑡𝑎
2(𝑛 − 𝑘)𝑆𝑒(β̂𝑗)]
Giả thiết:
𝐻0 : β𝑖= 0 “Các hệ số hồi quy không có ý nghĩa”
𝐻1 : β𝑖 ≠ 0 “Ít nhất vài hệ số hồi quy có ý nghĩa”
Kiểm định giả thiết – Bác bỏ:
a) Thêm thư viện
Install.packages(“ ”) và library(“ ”) : được dùng để cài đặt gói và tải gói lên môi trường hiện tại
“dplyr”: cung cấp các công cụ cho việc thao tác và biến đổi dữ liệu
“ggplot2”: cung cấp công cụ để tạo biểu đồ thống kê
“corrplot”: cung cấp công cụ hiển thị ma trận tương quan giữa các biến
Trang 9“psych”: cung cấp công cụ tính chỉ số thống kê như trung bình, độ lệch chuẩn, hoặc để thực hiện phân tích yếu tố để khám phá cấu trúc ẩn trong dữ liệu
rm(list=ls()): làm sạch các đối tượng trong môi trường trước khi bắt đầu phiên làm việc mới
option(warn=-1): tắt cảnh báo trong R
head(data) : hiển thị 6 dòng đầu của tệp dữ liệu
Hình 1: Kết quả hiển thị 6 dòng đầu tiên của dữ liệu Sau khi đã đọc dữ liệu từ file vào ta cần tạo một dataframe mới cho các dữ liệu
mà ta cần khảo sát, lưu với tên là dataframe sau đó hiển thị dataframe ra màn hình để kiểm tra
Trang 10Hình 2: Kết quả hiển thị dataframe
c) Xử lí định dạng dữ liệu
dataframe$Vertical_Segment <- as.factor(dataframe$Vertical_Segment) sẽ chuyển đổi cột Vertical_Segment trong dataframe thành một factor
Hình 3: Code xử lí định dạng số liệu dataframe$Lithography <- as.numeric(gsub(" nm", "", dataframe$Lithography)) dùng để loại bỏ chuỗi “nm” và chuyển từ chuỗi sang số bằng hàm as.numeric, làm tương
tự với TDP và Max_Memory_Bandwidth
Viết hàm ConvertFrequency nhận vào chuỗi số và trả về tần số ở đơn vị MHz và dataframe$Processor_Base_Frequency<sapply(dataframe$Processor_Base_Frequency,ConvertFrequency) để áp dụng kết quả của hàm chuyển đổi cho mỗi phần tử trong cột Processor_Base_Frequency và tương tự với Max_Memory_Size
Hình 4: Kết quả hiển thị dataframe sau xử lí định dạng
d) Xử lí dữ liệu khuyết
Sau khi xử lí định dạng ta cần thống kê các dữ liệu khuyết(NA) trong từng biến bằng hàm apply(is.na(dataframe),2,sum)
Trang 11Hình 5: Kết quả thống kê số dữ liệu khuyết (NA) Mean/ Mode/ Median Imputation: là một phương pháp để điền vào các giá trị còn thiếu với các giá trị ước tính Mục tiêu là sử dụng các mối quan hệ đã biết có thể được xác định trong các giá trị hợp lệ của tập dữ liệu để hỗ trợ ước tính cho các giá trị còn thiếu Mean/ Mode/ Median Imputation là một trong những phương pháp được sử dụng thường xuyên nhất Ta có hai cách sử dụng:
• Generalized Imputation: Trong trường hợp này, ta tính giá trị trung bình hoặc trung vị cho tất cả các giá trị không bị thiếu của biến đó sau đó thay thế giá trị
bị thiếu bằng giá trị trung bình hoặc trung vị
• Similar case Imputation: trong trường hợp này, ta cũng tính các giá trị trung bình nhưng các giá trị này sẽ được tính riêng lẻ theo từng đối tượng của các giá trị không bị thiếu, sau đó thay các giá trị trung bình đã được tính theo từng đối tượng trước đó
Trong bài tập lớn này nhóm sẽ dùng cách thay thế giá trị NA bằng giá trị trung vị
để giảm ảnh hưởng của các giá trị ngoại lai và bảo toàn tính phân phối của dữ liệu, dùng hàm replace_na_with_median thay thế các giá trị NA bằng trung vị của từng cột số trong dataframe, và sau đó chuyển đổi lại thành một khung dữ liệu
Hình 6: Code hàm thay thế NA bằng trung vị
Hình 7: Kết quả sau khi thay thế các dữ liệu khuyết bằng trung vị
4 Thống kê mô tả
Tìm các giá trị ngoại lai
Giá trị ngoại lai (outliers) là các điểm dữ liệu mà có giá trị rất khác biệt so với các giá trị còn lại trong tập dữ liệu Cụ thể, giá trị ngoại lai thường là các giá trị rất lớn hoặc rất nhỏ so với phần còn lại của dữ liệu Vì vậy giá trị ngoại lai thường không phản ánh đặc điểm của phân phối dữ liệu, và do đó có thể làm sai lệch kết quả của phân tích, gây sai số và làm giảm tính chính xác của mô hình vì vậy ta cần tìm kiếm và xử lí những giá trị ngoại lai này
Trang 12Đối với biến dữ liệu như Vertical_Segment ta thấy không có giá trị ngoại lai vì vậy có thể thống kê bình thường bằng lệnh table(data$Vertical_Segment)
Hình 8: kết quả sau khi thống kê các dữ liệu Vertical_Segment Đối với biến có kiểu dữ liệu là số trong bài tập lớn này nhóm chúng em sẽ dùng biểu đồ hộp (boxplot) và để tìm giá trị ngoại lai nhóm sử dụng phương pháp IQR
(interquartile range) Interquartile Range (IQR) là một độ đo của biến động trong một tập
dữ liệu và là phạm vi giữa phân vị thứ nhất (25th percentile) và phân vị thứ ba (75th
percentile) Nó được tính bằng cách trừ giá trị của phân vị thứ nhất từ phân vị thứ ba Giá
trị ngoại lai thường được định nghĩa là những giá trị nằm dưới giá trị Q1 - 1.5IQR hoặc nằm trên giá trị Q3 + 1.5IQR
Sau khi tính IQR, cận dưới(lower_bound), cận trên(upper_bound) ta dùng hàm outliers để kiểm tra xem các giá trị trong cột có phải là giá trị ngoại lai không nếu có gán TRUE ngược lại nếu không phải giá trị ngoại lai hoặc là cột dữ liệu chuỗi thì gán FALSE
Vẽ biểu đồ boxplot để thấy rõ các dữ liệu ngoại lai, các dữ liệu này được xác định
là các dấu chấm ở 2 đầu biểu đồ:
Hình 9: Code vẽ biểu đồ boxplot
Hình 10: Đồ thị boxplot của tần suất cơ bản bộ xử lý Nhận xét: Nhóm máy tính để bàn có 1 số giá trị ngoại lai (< 950 MHz), nhóm thiết
bị nhúng và máy chủ có số lượng ngoại lai ít và không thể nhìn thấy giá trị ngoại lai nào
ở nhóm điện thoại Nhóm máy tính để bàn có trung vị và khoảng dữ liệu lớn hơn 3 nhóm còn lại, giá trị không lệch về một phía nào quá nhiều Nhóm điện thoại cũng có một phân
Trang 13phối khá đều Nhóm thiết bị nhúng có khoảng dữ liệu nhỏ nhất, giá trị lệch về phía dưới trung vị Ngược lại nhóm máy chủ lại có khoảng dữ liệu rộng và lệch về phía trên trung
vị
a) Vẽ biểu đồ
Trục y (trục tung) của histogram biểu diễn số lượng quan sát trong mỗi khoảng dữ liệu, còn được gọi là tần suất của các giá trị dữ liệu Mỗi cột trên histogram thể hiện số lượng quan sát nằm trong một khoảng dữ liệu cụ thể
Hình 11: Code vẽ biểu đồ histogram Processor_Base_Frequency
Hình 12: Đồ thị Histogram của tần suất cơ bản bộ xử lý Nhận xét: Nhìn chung biến Processor Base Frequency tập trung ở giá trị 1500 đến
3000 MHz Số lượng CPU có giá trị vượt trên 4000MHz là rất ít.Điều này chứng tỏ giá
trị tần số CPU ở khoảng từ 1000 đến 3000 MHz có thể đáp ứng được nhu cầu của con
người
Trang 14Hình 13: Đồ thị Histogram của Lithography
Nhận xét: Nhìn chung biến Lithography tập trung ở giá trị 14 đến 50nm CPU không có giá trị Lithography khoảng 200nm
Biểu đồ phân tán là một công cụ mạnh mẽ trong phân tích dữ liệu có mục đích chính là hiển thị mối quan hệ giữa hai biến Sau khi tạo subset của dataframe với các cột chứa dữ liệu số, ta thực hiện loại bỏ cột "Processor_Base_Frequency" khỏi danh sách các cột numeric Cột này được loại bỏ để tránh việc vẽ biểu đồ của nó so với chính nó Sau
đó dùng vòng lặp để lần lượt tạo các biểu đồ phân tán bằng lệnh ggplot
Hình 14: Code vẽ biểu đồ phân tán giữa Processor Base Frequency với Max_nb_of_PCI_Express_Lanes bằng geom_point