1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Báo cáo nhóm 14 môn học hệ thống và mạng máy tính bài thực hành 1 mô tả mẫu dữ liệu

15 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Mô Tả Mẫu Dữ Liệu
Tác giả Trần Anh Quân, Đỗ Văn Thiện, Nguyễn Quang Thuận
Người hướng dẫn TS. Ngô Thị Hiền
Trường học Đại Học Bách Khoa Hà Nội
Chuyên ngành Hệ Thống Và Mạng Máy Tính
Thể loại Báo Cáo
Năm xuất bản 2024
Thành phố Hà Nội
Định dạng
Số trang 15
Dung lượng 501,97 KB

Nội dung

Biểu diễn tập dữ liệu dưới dạng bảng tần số dạng ghép lớn và vẽ biểu đồ hình cột tương ứng...11 2.3.. Xây dựng biểu đồ thân lá cho dữ liệu chiều cao Ta tiến hành nhập dữ liệu:  Mã nguồn

Trang 1

ĐẠI HỌC BÁCH KHOA HÀ NỘI

KHOA TOÁN - TIN

BÁO CÁO NHÓM 14 MÔN HỌC: HỆ THỐNG VÀ MẠNG MÁY TÍNH BÀI THỰC HÀNH 1: MÔ TẢ MẪU DỮ LIỆU

Mã lớp: 155365

Giảng viên hướng dẫn: TS Ngô Thị Hiền

Sinh viên: Trần Anh Quân

Đỗ Văn Thiện

Nguyễn Quang Thuận

Hà Nội, tháng 10 năm 2024

Trang 2

Mục lục

BÀI 1: 2

1.1 Xây dựng biểu đồ thân lá cho dữ liệu chiều cao 2

1.2 Biểu diễn tập dữ liệu dưới dạng bảng tần số dạng ghép lớn và vẽ biểu đồ hình cột tương ứng 3

1.3 Tính các thông số của dữ liệu 5

1.4.Tìm các tứ phân vị dưới và tứ phân vị trên 6

1.5 Xây dựng biểu đồ xác suất chuẩn cho chiều cao 6

Bài 2 ( cách làm và kĩ thuật xử lý giống như bài 1) 10

2.1 Xây dựng biểu đồ thân lá cho dữ liệu chiều cao 10

2.2 Biểu diễn tập dữ liệu dưới dạng bảng tần số dạng ghép lớn và vẽ biểu đồ hình cột tương ứng 11

2.3 Tính các thông số của dữ liệu 12

2.4 Tìm các tứ phân vị dưới và tứ phân vị trên 13

2.5 Xây dựng biểu đồ xác suất chuẩn cho chiều cao 13

Trang 3

Trong bài thực hành này, chúng ta sẽ sử dụng phần mềm R

để làm việc với dữ liệu

BÀI 1:

1.1 Xây dựng biểu đồ thân lá cho dữ liệu chiều cao

Ta tiến hành nhập dữ liệu:

 Mã nguồn thực hiện :

Tiến hành vẽ biểu đồ thân lá, ta sử dụng hàm stem() để tạo một biểu đồ thân

lá cho data

 Mã nguồn thực hiện

 Kết quả:

Nhận xét:

Giá trị trung bình: Các giá trị chiều cao xoay quanh khoảng 164-167 cm, cho thấy

chiều cao trung bình của nhóm sinh viên này nằm trong khoảng tương đối phổ biến

Phân phối: Có nhiều giá trị lặp lại, đặc biệt là 166 cm và 167 cm, cho thấy các

chiều cao này phổ biến hơn trong nhóm

Biến thiên: Dữ liệu có sự biến thiên không lớn, với chênh lệch tối đa giữa các giá

trị là 10 cm (từ 160 cm đến 170 cm)

Trang 4

Tập trung: Phần lớn giá trị nằm trong khoảng từ 161 cm đến 167 cm, cho thấy một

sự tập trung quanh chiều cao trung bình này

1.2 Biểu diễn tập dữ liệu dưới dạng bảng tần số dạng ghép lớn và vẽ biểu đồ hình cột tương ứng

Tiến hành lập bảng tần số dạng ghép lớp:

 Mã nguồn

Giải thích:

- Hàm cut() chia các giá trị trong data thành các khoảng dựa trên dãy giá trị

do tham số breaks xác định

- seq(159, 175, by = 5) tạo ra một dãy các giá trị ngắt (breaks) từ 159 đến 175

với bước nhảy 5 Nghĩa là các khoảng sẽ là: [159, 164], [164, 169], [169, 174]

- Hàm table() đếm tần suất xuất hiện của các giá trị trong mỗi khoảng đã được

chia

 Kết quả

Ta lập được bảng tần số dạng ghép lớp

Trang 5

Tiếp theo ta tiến hành vẽ biểu đồ cột

 Mã nguồn

- Hàm barplot() tạo ra một biểu đồ cột từ bảng tần suất fre_table

- Tham số main được sử dụng để đặt tiêu đề cho biểu đồ Trong trường hợp này, tiêu đề sẽ là "Biểu đồ cột"

 Kết quả

1.3 Tính các thông số của dữ liệu

Chúng ta sẽ sử dụng các hàm trong R để tính trung bình mẫu, độ lệch chuẩn mẫu hiệu chỉnh và trung vị mẫu của chiều cao

Trang 6

 Mã nguồn

 Kết quả

1.4.Tìm các tứ phân vị dưới và tứ phân vị trên

 Mã nguồn

- Hàm quantile() được sử dụng để tính các tứ phân, phần trăm, hoặc các giá

trị phân vị khác từ một tập hợp dữ liệu

- Đoạn mã trên sẽ tính được tứ phân vị trên và tứ phân vị dưới của bộ dữ liệu

 Kết quả

Tứ phân vị dưới: q1 = 163

Tứ phân vị trên: q3 = 166

Trang 7

1.5 Xây dựng biểu đồ xác suất chuẩn cho chiều cao

Bước 1: Chuẩn bị dữ liệu

Ta tiến hành sắp xếp bộ dữ liệu từ bé đến lớn và lưu vào biến data_s

Trục tung của biểu đồ xác suất chuẩn được tính

k = (j-0.5) /n Trong đó: n là cỡ mẫu ( ở đây n = 37) và j = 1,2,3…37

Ta tạo một dataframe( khung dữ liệu) chứa ba thông số j(số thứ tự của biến chiều cao), xj(dữ liệu đã được sắp xếp), normss(= k là các điểm trên trục tung tạo từ j tương ứng) và gán vào dfs

Trang 8

Ta tính tứ phân vị trên và tứ phân vị dưới của datas_s và lưu vào biến x1 và x2

tương ứng

Ta tính tứ phân vị trên và tứ phân vị dưới của k và lưu vào biến y1 và y2 tương ứng

Kết hợp các tứ phân vị và lưu vào biến p1 (x1, y1), p2 (x2, y2) tương ứng

Sau đó ta tiến hành dựng một đường thẳng nối p1 và p2 , có dạng y = m.x + b

- Ta tính độ dốc (slope) của đường thẳng dựa vào công thức

Độ dốc(m) = (y2 – y1 ) / (x2 – x1)

- Sau đó ta tính hằng số tự do

b = y1 – m.x1

Sau khi tìm được phương trình đường thẳng nối hai điểm tứ phân vị trên dưới thì ta tiến hành tạo các giá trị x cho đường thẳng và tính các giá trị y tương ứng

- x_val <- seq(160, 170, length.out = 100) : Câu lệnh này trong R có nhiệm vụ tạo một vector (mảng) chứa các giá trị từ 160 đến 170 với tổng cộng 100 giá trị phân bố đều

- y_val <- m * x_val + b : tính các giá trị y tương ứng

- line_data <- data.frame(x = x_val, y = y_val) : chúng ta tạo một khung dữ liệu chứa hai cột là x_val và y_val và lưu vào biến line_data

Bước 2: Tiến hành vẽ đồ thị

 Mã nguồn

Đoạn mã trên sử dụng thư viện ggplot2 trong R để tạo một biểu đồ xác suất thể hiện mối quan hệ giữa chiều cao của sinh viên và xác suất tương ứng

ggplot(dfs, ): Bắt đầu tạo biểu đồ với dữ liệu từ dataframe dfs

Trang 9

aes(x = xj, y = normss): Xác định các biến cho các trục

geom_point(size = 3): Thêm các điểm vào biểu đồ, với kích thước mỗi điểm là

3 Mỗi điểm đại diện cho một cặp giá trị (chiều cao, xác suất)

geom_line( ): Thêm một đường thẳng vào biểu đồ dựa trên dữ liệu từ

line_data

theme_minimal(): Áp dụng một chủ đề tối giản cho biểu đồ, giúp làm cho biểu

đồ trông sạch sẽ và dễ đọc hơn

 Kết quả:

Kết luận:

Dựa vào biểu đồ xác xuất chuẩn và quy tắc “bút chì béo”, ta có thể kết luận chiều cao của nữ sinh là biến ngẫu nhiên có phân phối chuẩn

Trang 10

Bài 2

( cách làm và kĩ thuật xử lý giống như bài 1)

2.1 Xây dựng biểu đồ thân lá cho dữ liệu chiều cao

Ta tiến hành nhập dữ liệu:

 Mã nguồn thực hiện :

Tiến hành vẽ biểu đồ thân lá, ta sử dụng hàm stem() để tạo một biểu đồ thân

lá cho data

 Mã nguồn thực hiện

 Kết quả

Nhận xét

Chiều cao phổ biến: Có vẻ như chiều cao 168 cm xuất hiện nhiều nhất trong dữ liệu, cho thấy đây là chiều cao phổ biến nhất trong nhóm sinh viên nam này

Sự phân bố: Dữ liệu có vẻ tập trung nhiều ở các giá trị từ 166 cm đến 170 cm, với một số giá trị cao hơn như 175 cm và 178 cm

Sự đồng đều: Dữ liệu có vẻ tương đối đồng đều, không có quá nhiều giá trị cực đoan, cho thấy rằng chiều cao của nhóm này không quá biến động

Trang 11

2.2 Biểu diễn tập dữ liệu dưới dạng bảng tần số dạng ghép lớn và vẽ biểu đồ hình cột tương ứng

Tiến hành lập bảng tần số dạng ghép lớp:

 Mã nguồn

 Kết quả

Tiếp theo ta tiến hành vẽ biểu đồ cột

 Mã nguồn

 Kết quả

Trang 12

2.3 Tính các thông số của dữ liệu

Chúng ta sẽ sử dụng các hàm trong R để tính trung bình mẫu, độ lệch chuẩn mẫu hiệu chỉnh và trung vị mẫu của chiều cao

 Mã nguồn

Trang 13

 Kết quả

2.4 Tìm các tứ phân vị dưới và tứ phân vị trên

 Mã nguồn

 Kết quả

Tứ phân vị dưới: q1 = 167

Tứ phân vị trên: q3 = 170

2.5 Xây dựng biểu đồ xác suất chuẩn cho chiều cao Bước 1: Chuẩn bị dữ liệu

Trang 14

 Vẽ biểu đồ

 Kết quả

Trang 15

Kết luận:

Dựa vào 2 biểu đồ xác xuất chuẩn và quy tắc “bút chì béo”, ta có thể kết luận chiều cao của nữ sinh là biến ngẫu nhiên có phân phối chuẩn

Ngày đăng: 24/11/2024, 17:30

w