1. Trang chủ
  2. » Luận Văn - Báo Cáo

xác suất thống kê mt2013 bài tập lớn computer parts cpus and gpus

50 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Qua môn học này, chúng ta sẽ không chỉ mở rộng kiến thức mà còn phát triển kỹ năng quan trọng trong việc đưa ra quyết định và giải quyết vấn đề, từ đó làm nền tảng cho sự thành công tron

Trang 1

ĐẠI HỌC QUỐC GIA HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA

KHOA KHOA HỌC VÀ KỸ THUẬT MÁY TÍNH

XÁC SUẤT THỐNG KÊ (MT2013) BÀI TẬP LỚN

Computer Parts (CPUs and GPUs)

NHÓM 16 - L09

Trang 3

2.3 Thống kê suy diễn 11

2.3.1 Multivariate Linear Regression - Hôi quy tuyến tính (MLR) 11

2.3.1.1 Khái niệm 11

2.3.1.2 Mô hình hồi quy tuyến tính đơn 11

2.3.1.3 Mô hình hồi quy tuyến tính bội 12

2.3.1.4 Sự khác biệt giữa hồi quy tuyến tính đơn và hồi quy tuyến tính bội 13 2.3.2 Analysis of Variance - Phân tích phương sai (ANOVA) 13

2.3.2.1 Khái niệm 13

2.3.2.2 Phân tích phương sai một nhân tố 13

2.3.2.3 Phân tích phương sai hai nhân tố 13

3 Tiền xử lý số liệu 16 4 Thống kê mô tả 19 4.1 Thống kê Vertial_Segment 20

5 Thống kê suy diễn 33 5.1 Bài toán tìm điểm tin cậy hoặc kiểm định 1 mẫu 34

5.2 Phân tích phương sai 34

5.2.1 Kiểm tra các điều kiện của mô hình anova 2 nhân tố: 35

5.2.2 Thực hiện mô hình anova hai nhân tố 37

5.3 Xây dựng mô hình hồi quy 38

2

Trang 4

6 Thảo luận mở rộng 44 6.1 Thảo luận: 45 6.2 Mở rộng: Mô hình hồi quy logistic 45

Trang 5

Giới thiệu

Lời mở đầu

Môn học xác suất thống kê là một phần quan trọng không thể thiếu trong hành trang kiến thức của sinh viên, đặc biệt là những người theo học các ngành khoa học kỹ thuật tại Trường Đại học Bách khoa - Đại học Quốc gia TP.HCM Trong khi đại số tuyến tính đã cung cấp cho chúng ta cơ sở lý thuyết vững chắc và những công cụ mạnh mẽ để nghiên cứu và giải quyết vấn đề, xác suất thống kê mở ra một cánh cửa mới của tri thức và ứng dụng.

Xác suất thống kê không chỉ là một bộ môn trừu tượng mà còn là công cụ mạnh mẽ giúp chúng ta đối mặt với sự không chắc chắn trong thế giới thực Từ việc dự đoán kết quả thí nghiệm đơn giản đến việc phân tích dữ liệu phức tạp, môn học này giúp chúng ta hiểu biết về xác suất của sự kiện và cung cấp phương pháp thống kê để đưa ra những quyết định có tính chất chắc chắn Việc học và thực hành xác suất thống kê không chỉ là nhiệm vụ học thuật mà còn là bước tiến quan trọng để trở thành một chuyên gia có khả năng nắm bắt và hiểu rõ sự biến động của thế giới xung quanh Qua môn học này, chúng ta sẽ không chỉ mở rộng kiến thức mà còn phát triển kỹ năng quan trọng trong việc đưa ra quyết định và giải quyết vấn đề, từ đó làm nền tảng cho sự thành công trong sự nghiệp và nghiên cứu sau này.

Mục tiêu của báo cáo

Trong bài báo cáo này, chúng em tập trung vào việc tìm hiểu các khái niệm cơ bản của các phương pháp thống kê cơ bản và ngôn ngữ R sau đó ứng dụng chúng để tiến hành phân tích 2 tệp dữ liệu liên quan đến CPU và GPU.

Nhờ việc phân tích và đánh giá hiệu quả về CPU và GPU thông qua 2 file đề cho, chúng ta có thể đề xuất nhằm tăng cường tính hiệu quả, tối ưu hóa hiệu năng cho CPU và GPU hiện nay.

4

Trang 6

Tổng quan dữ liệu

Trang 7

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Tập dữ liệu này chứa thông số kỹ thuật chi tiết, ngày phát hành và giá phát hành của các bộ phận máy tính Sau đây là một vài thông tin liên quan đến tập dữ liệu:

– Đề bài: Computer Parts (CPUs and GPUs)

– Tác giả: ILISSEK

Tập dữ liệu chưa hai tệp "cpus.csv" chứa thông tin về bộ xử lý trung tâm (CPU) và "gpus.csv" chứa thông tin về bộ xử lý đồ hoạ (GPU) Mỗi tệp dữ liệu có các đặc trưng riêng Các thuộc tính của dữ liệu bao gồm:

Các thuộc tính đặc trưng của dữ liệu về CPU: – Số lượng biến : 45 biến

– Processor Number : Mã hiệu CPU – nb of Cores : Số lượng nhân CPU – nb of Threads : Số lượng luồng CPU – Launch Date : Ngày ra mắt

– Processor Base Frequency : Tần số mặc định CPU (Hz) – Cache : Bộ nhớ cache (Byte)

– Max Memory Size : Dung lượng RAM hỗ trợ tối đa (Byte) – Memory Types : Loại RAM hỗ trợ

– Bus Speed : Tốc độ xử lý dữ liệu trong 1 giây (Hz/s) – TDP : Công suất tiêu thụ (W)

– Recommended Customer Price : Giá bán (Dollar) Các thuộc tính đặc trưng của dữ liệu về GPU: – Số lượng biến : 34 biến

– Name : Tên GPU

– Best Resolution : Độ phân giải

– Cores Speed : Xung nhịp mặc định của GPU (Hz) – Memory : Dung lượng VRAM của GPU (Byte) – Memory Types : Loại bộ nhớ VRAM (GDDRx) – Pixel Rate : Tần số quét (Pixel/s)

– Max Power : Công suất tối đa (W) – Direct X : Phiên bản Direct X

Trang 8

– Release Data : Ngày ra mắt – Manufacture : Nhà sản xuất

Dữ liệu từ nguồn đề bài mô tả chi tiết tất cả các thông tin liên quan đến bộ xử lý trung tâm (CPU) và bộ xử lý đồ họa (GPU) một cách cụ thể, giúp người xem hình dùng đủ và ta có thể dễ dàng phân tích dữ liệu dựa trên nó.

Trang 9

Phần 2

Kiến thức nền

8

Trang 10

2.1Thống kê

2.1.1Định nghĩa

Thống kê là phương pháp thu thập, xử lý và phân tích số liệu của những hiện tượng để tìm ra bản chất và quy luật vốn có của chúng trong điều kiện không gian, thời gian cụ thể.

2.1.2Phân loại

Thống kê được áp dụng rộng rãi trong đời sống hàng ngày Chúng ta có thể chia được thành hai loại lĩnh vực chính:

– Thống kê mô tả: bao gồm các phương pháp thu thập số liệu, tính toán các đặc trưng đo lường, mô tả và trình bày số liệu.

– Thống kê suy diễn: bao gồm các phương pháp như ước lượng, kiểm định, phân tích các mối liên hệ, dự đoán, trên cơ sở các thông tin thu thập từ mẫu, từ đó giúp ta có những hiểu biết về tổng thể.

2.1.3Ứng dụng

Thống kê được ứng dũng rộng rãi ở các lĩnh vực trong đời sống, có thể kể đến như: – Lĩnh vực kinh tế - xã hội tư nhiên, tài chính

– Dân số, nguồn lao động

Thống kê mô tả là quá trình sắp xếp, tóm tắt và mô tả các đặc điểm quan trọng của một tập dữ liệu Có nhiều phương pháp thống kê mô tả khác nhau để hiểu rõ hơn về dữ liệu mà bạn

Trang 11

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Trong đó:

– x : là trung bình – n : là số lượng quan sát.

– xi : là giá trị quan sát lần thứ i.

Trung bình được sử dụng để mô tả giá trị trung bình của một tập dữ liệu, cung cấp cái nhìn tổng quan về giá trị trung ương của dữ liệu.

Trung vị (Median): Đối với tập dữ liệu đã được sắp xếp, trung vị là giá trị ở vị trí giữa Nếu số lượng quan sát là chẵn, trung vị là trung bình của hai giá trị giữa Được sử dụng khi dữ liệu chứa giá trị ngoại lệ, không bị ảnh hưởng nhiều bởi giá trị cực đại hoặc cực tiểu.

2.2.2Độ phân tán

Phạm vi (Range): Sự chênh lệch giữa giá trị lớn nhất và giá trị nhỏ nhất trong tập dữ liệu.

Phạm vi được sử dụng để mô tả biên độ của dữ liệu, tức là sự chênh lệch giữa giá trị lớn nhất

Độ lệch chuẩn (Standard Deviation): Là căn bậc hai của phương sai, thường được sử dụng để đo lường độ biến động của dữ liệu.

σ = √

2.2.3Phân phối

Phân phối tần suất (Frequency Distribution): Giúp hiểu rõ về phổ biến của các giá trị và sự phân bố của chúng trong tập dữ liệu Phân phối tần suất là biểu đồ mô tả số lần xuất hiện của từng giá trị.

Biểu đồ hộp (Boxplot): Hiển thị phạm vi, trung vị và phân phối của tập dữ liệu.

Scatterplots: Là biểu đồ thường được sử dụng trong thống kê để biểu thị mối quan hệ giữa hai hoặc nhiều biến bằng các hiển thị điểm dữ liệu trên một hệ trục tọa độ.

Biểu đồ Histogram: Hiển thị một cách rõ ràng hình dạng của phân phối dữ liệu.

Trang 12

2.2.4Độ đo hình thái

Độ xiên (Skewness): Mô tả hình dạng của phân phối Nếu độ xiên > 0, phân phối lệch về phải; nếu < 0, lệch về trái.

Độ nhọn (Kurtosis): Đo lường độ cụm của dữ liệu, đặc biệt là những giá trị nằm ở phần đuôi của phân phối.

2.3.1Multivariate Linear Regression - Hôi quy tuyến tính (MLR)

Định nghĩa 2.3.1.1 Trong thống kê, hồi quy tuyến tính là một phương pháp dùng để mô hình hóa mối quan hệ giữa một đại lượng vô hướng với một hoặc nhiều biến độc lập

Một mô hình thống kê tuyến tính đơn (Simple linear regession model) liên quan đến một biến phụ thuộc Y và một biến độc lập X là phương trình

Trong đó:

– β0, β1là các hệ số chưa biết (hệ số hồi quy) – x là biến độc lập hay còn gọi là biến dự đoán – Y là biến phụ thuộc hay còn gọi là biến kết quả – ϵ là thành phần sai số

Trong mô hình (2.7), sự thay đổi của biến phụ thuộc được ảnh hưởng bởi 2 yếu tố: – Mối liên hệ tuyến tính x và Y

Trong đó:

Trang 13

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Một mô hình hồi quy tuyến tính đơn cần các giả định: – Các thành phần sai số ϵi là độc lập với nhau – ϵi∼ N (0, ϵ2) hoặc Y ∼ N (ϵ0+ ϵ1x, ϵ2)

Hồi quy tuyến tính bội là một phương pháp trong thống kê để xác định mối quan hệ giữa một biến phụ thuộc vào hai hoặc nhiều biến độc lập Hồi quy tuyến tính bội sử dụng hai hoặc nhiều biến độc lập để dự đoán biến phụ thuộc Mô hình mối quan hệ tuyến tính giữa nhiều biến độc lập và biến phụ thuộc Mô hình này có thể được biễu diễn dưới dạng siêu phẳng (plane) hoặc siêu không gian (hyperplane) trong không gian nhiều chiều.

Giả xử X1, X2, X3, , Xk là k biến độc lập dùng để dự báo (Predictor variables), Y là biến phụ thuộc cần dự báo (Reponse variables) Mô hình hồi quy tuyến tính như sau: với C là sai số ngẫu nhiên; β0, β1, β2, , βk là các hệ số chưa biết.

Trang 14

2.3.1.4 Sự khác biệt giữa hồi quy tuyến tính đơn và hồi quy tuyến tính bội

Hồi quy tuyến tính đơn và bội là hay phương pháp khác nhau trong mô hình hồi quy, một phần của thống kê và máy học sử dụng để dự đoán giá trị của một biến phụ thuộc dựa trên một hoặc nhiều biến độc lập.

2.3.2Analysis of Variance - Phân tích phương sai (ANOVA)

Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều nhóm (tổng thể) dựa trên các giá trị trung bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm đinh giả thuyết để kết luận sự bằng nhau của các trung bình tổng thể này Trong nghiên cứu, phân tích phương sai được xem như một công cụ để xem xét sự ảnh hưởng của một yếu tố nguyên nhân (định tính) đến một yếu tố kết quả (định lượng).

Ta có các mô hình phân tích phương sai như sau: phân tích phương sai một nhân tố, 2 nhân tố và 3 nhân tố Cụm từ nhân tố cho ta số lượng nhân tố nguyên nhân ảnh hưởng đến kết quả ta nghiên cứu.

Phân tích phương sai một nhân tố là phân tích ảnh hưởng của một nhân tố nguyên nhân (dạng biến định tính) ảnh hưởng đến một nhân tố kết quả (dạng biến định lượng) đang nghiên cứu.

Các giả định trong mô hình phân phương sai một nhân tố: Giả sử ta muốn so sánh trung bình của k tổng thể trên những mẫu ngẫu nhiên và độc lập n1, n2, n3, , nk quan sát từ k tổng thể này Cần ghi nhớ ba giả định sau đây để được tiến hành phân tích Anova:

– Các tổng thể này có phân phối chuẩn – Các phương sai của tổng thể bằng nhau – Các quan sát được lấy mẫu là độc lập.

Giả thiết cho bài toán phân tích phương sai một nhân tố: Nếu trung bình các tổng thể được ký hiệu là µ1, µ2, , µk thì ta có các giả thiết trong mô hình phân tích phương sai như sau:

H0: µ1= µ2= µ3= · · · = µk

Giả thiết H0cho rằng trung bình của k tổng thể bằng nhau, tức nhân tố nguyên nhân không có tác động gì đến nhân tố kết quả ta đang nghiên cứu

H1: ∃µi̸= µj (với i ̸= j)

Giả thiết H1 cho rằng có ít nhất 2 giá trị trung bình ở các tổng thể khác nhau, tức nhân tố nguyên nhân có tác động đến nhân tố kết quả ta đang nghiên cứu

Định nghĩa: Phân tích Anova 2 yếu tố hay phân tích Anova 2 chiều– Two way anova là việc ta xem xét cùng lúc hai yếu tố nguyên nhân (dưới dạng dữ liệu định tính) ảnh hưởng đến yếu tố kết quả (dưới dạng dữ liệu định lượng) đang nghiên cứu So với phân tích Anova một yếu tố thì phân tích Anova hai yếu tố mang lại nhiều giá trị hơn cho nghiên cứu.

Trang 15

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Phân loại: Anova 2 yếu tố có lặp và Anova 2 yếu tố không lặp.

Giả sử ta nghiên cứu ảnh hưởng của 2 yếu tố nguyên nhân định tính đến một yếu tố kết quả định lượng nào đó Ta lấy mẫu không lặp lại, sau đó các đơn vị mẫu của yếu tố nguyên nhân thứ nhất sắp xếp thành K nhóm (cột), các đơn vị mẫu của yếu tố nguyên nhân thứ hai sắp xếp thành H khối (hàng) Như vậy, ta có bảng kết hợp 2 yếu tố nguyên nhân gồm K cột và H hàng và (K × H) ô dữ liệu Tổng số mẫu quan sát là n = (K × H).

Các giả định trong mô hình phân phương sai hai nhân tố: 1 Mỗi mẫu tuân theo phân phối chuẩn N (µ, σ2).

2 Ta lấy K mẫu độc lập từ K tổng thể, H mẫu độc lập từ H tổng thể Mỗi mẫu được quan

– SST (tổng các độ lệch bình phương chung) phản ánh biến động của yếu tố kết quả do ảnh hưởng của tất cả các yếu tố:

– SSK (tổng các độ lệch bình phương giữa các nhóm) phản ánh biến động của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân thứ nhất (xếp theo cột):

– SSH (tổng các độ lệch bình phương giữa các nhóm) phản ánh biến động của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân thứ hai (xếp theo hàng):

Trang 16

– ERROR (tổng các độ lệch bình phương phần dư) phản ánh biến động của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân khác không nghiên cứu:

SSE = SST − SSK − SSH 3 Bước 3: Tính các phương sai.

– Phương sai giữa các nhóm(cột)(MSK) 4 Bước 4 Kiểm định giả thuyết.

F1 dùng kiểm định cho yếu tố nguyên nhân thứ nhất:

M SE – M SK là phương sai giữa các nhóm (cột) – M SE là phương sai phần dư.

F2 dùng kiểm định cho yếu tố nguyên nhân thứ hai:

M SE Trong đó:

– M SH là phương sai giữa các khối (hàng) – M SE là phương sai phần dư.

Bảng phân tích phương sai hai yếu tố:

Trang 17

Phần 3

Tiền xử lý số liệu

16

Trang 18

1 Đọc dữ liệu từ file Intel_CPUs.csv vào bảng data và in các thuộc tính mô tả trong bảng.

1data <- read.csv("Intel_CPUs.csv")

Figure 3.1: Danh sách các thuộc tính mô tả có trong bảng.

2 Chọn các thuộc tính cần sử dụng và in ra các dòng đầu tiên của bảng dữ liệu.

1selected_data <- data[,c"Vertical_Segment","Recommended_Customer_Price","nb_of_Cores"

1# Xu ly dinh dang so lieu

2# Chuan hoa tan so trong Processor_Base_Frequency

3selected_data$Processor_Base_Frequency<- sapply(selected_data$Processor_Base_Frequency,

8# Chuan hoa Max_Memory_Size

9selected_data$Max_Memory_Size<- sapply(selected_data$Max_Memory_Size, convert_Max_

11# Chuan hoa Instruction_Set

12selected_data$Instruction_Set<- sapply(selected_data$Instruction_Set, convert_

14# Chuan hoa Recommended_Customer_Price

Trang 19

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

15selected_data$Recommended_Customer_Price<- sapply(selected_data$Recommended_Customer_

Price , convert_Recommended_Customer_Price )

17# Chuan hoa nb_of_Cores

18selected_data$nb_of_Cores<- sapply(selected_data$nb_of_Cores, convert_nb_of_Cores)

20# Chuan hoa nb_of_Threads

21selected_data$nb_of_Threads<- sapply(selected_data$nb_of_Threads, convert_nb_of_Threads)

23# Chuan hoa Max_nb_of_PCI_Express_Lanes

24selected_data$Max_nb_of_PCI_Express_Lanes<- sapply(selected_data$Max_nb_of_PCI_Express_

Lanes, convert_Max_nb_of_PCI_Express_Lanes)

4 Kiểm tra xem bảng có chứa giá trị trống không.

1# Kiem tra so luong o du lieu bi thieu o moi cot

2apply(is.na(selected_data), 2,sum)

Có 982 giá trị trống trong cột Recommended_Customer_Price, 856 giá trị trống trong cột nb_of_Threads, 18 giá trị trống trong cột Processor_Base_Frequency, 67 giá trị trống trong cột TDP, 992 giá trị trông trong cột Max_Memory_Size, 141 giá trị trông trong cột Instruction_Set và 1104 giá trị trống trong cột Max_nb_of_PCI_Express_Lanes 5 Thay thế các vị trí còn trống của cột bằng giá trị trung vị của cột đó.

1# Thay the cac vi tri bi trong bang cach lay trung vi cua cot

2list_columns =sapply(selected_data,is.numeric)

6 Kiểm tra lại giá trị bị thiếu.

1apply(is.na(selected_data), 2,sum)

2

Trang 20

Thống kê mô tả

Trang 21

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

1 Phân loại các quan sát dựa trên Vertical_Segment.

1applysegment_counts<- table(selected_data$Vertical_Segment)

Figure 4.1: Thống kê Vertical Segment có tổng cộng 760 Mobile, 718 Server, 628 Desktop, 177 Embedded

2 Vẽ biểu đồ boxplot cho thuộc tính Recommended_Customer_Price dựa trên Vertical_Segment.

1boxplot(Recommended_Customer_Price~Vertical_Segment,data= selected_data,

2main ="Bieu do Boxplot cua Recommended Customer Price theo Vertical Segment",

3xlab ="Vertical Segment", ylab ="Recommended Customer Price ($)",col="skyblue")

4

Trang 22

Figure 4.2: Biểu đồ boxplot của Recommended Customer Price theo Vertical Segment.

3 Vẽ biểu đồ cột cho các thuộc tính còn lại.

1# Chon cac cot tru Vertical_Segment

2selected_columns<- names(selected_data)

5# Ve do thi cho cac bien

6for(colin selected_columns) {

7hist(selected_data[[col]], main =paste("Histogram of",col),

8xlab =col,col="blue", border ="black")

10

Trang 23

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Trang 25

Trường Đại Học Bách Khoa Tp.Hồ Chí Minh

Ngày đăng: 20/04/2024, 16:40

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w