Biểu diễn tập dữ liệu dưới dạng bảng tần số dạng ghép lớn và vẽ biểu đồ hình cột tương ứng...11 2.3.. Xây dựng biểu đồ thân lá cho dữ liệu chiều cao Ta tiến hành nhập dữ liệu: Mã nguồn
Trang 1ĐẠI HỌC BÁCH KHOA HÀ NỘI
KHOA TOÁN - TIN
BÁO CÁO NHÓM 14 MÔN HỌC: HỆ THỐNG VÀ MẠNG MÁY TÍNH BÀI THỰC HÀNH 1: MÔ TẢ MẪU DỮ LIỆU
Mã lớp: 155365
Giảng viên hướng dẫn: TS Ngô Thị Hiền
Sinh viên: Trần Anh Quân
Đỗ Văn Thiện
Nguyễn Quang Thuận
Hà Nội, tháng 10 năm 2024
Trang 2Mục lục
BÀI 1: 2
1.1 Xây dựng biểu đồ thân lá cho dữ liệu chiều cao 2
1.2 Biểu diễn tập dữ liệu dưới dạng bảng tần số dạng ghép lớn và vẽ biểu đồ hình cột tương ứng 3
1.3 Tính các thông số của dữ liệu 5
1.4.Tìm các tứ phân vị dưới và tứ phân vị trên 6
1.5 Xây dựng biểu đồ xác suất chuẩn cho chiều cao 6
Bài 2 ( cách làm và kĩ thuật xử lý giống như bài 1) 10
2.1 Xây dựng biểu đồ thân lá cho dữ liệu chiều cao 10
2.2 Biểu diễn tập dữ liệu dưới dạng bảng tần số dạng ghép lớn và vẽ biểu đồ hình cột tương ứng 11
2.3 Tính các thông số của dữ liệu 12
2.4 Tìm các tứ phân vị dưới và tứ phân vị trên 13
2.5 Xây dựng biểu đồ xác suất chuẩn cho chiều cao 13
Trang 3Trong bài thực hành này, chúng ta sẽ sử dụng phần mềm R
để làm việc với dữ liệu
BÀI 1:
1.1 Xây dựng biểu đồ thân lá cho dữ liệu chiều cao
Ta tiến hành nhập dữ liệu:
Mã nguồn thực hiện :
Tiến hành vẽ biểu đồ thân lá, ta sử dụng hàm stem() để tạo một biểu đồ thân
lá cho data
Mã nguồn thực hiện
Kết quả:
Nhận xét:
Giá trị trung bình: Các giá trị chiều cao xoay quanh khoảng 164-167 cm, cho thấy
chiều cao trung bình của nhóm sinh viên này nằm trong khoảng tương đối phổ biến
Phân phối: Có nhiều giá trị lặp lại, đặc biệt là 166 cm và 167 cm, cho thấy các
chiều cao này phổ biến hơn trong nhóm
Biến thiên: Dữ liệu có sự biến thiên không lớn, với chênh lệch tối đa giữa các giá
trị là 10 cm (từ 160 cm đến 170 cm)
Trang 4Tập trung: Phần lớn giá trị nằm trong khoảng từ 161 cm đến 167 cm, cho thấy một
sự tập trung quanh chiều cao trung bình này
1.2 Biểu diễn tập dữ liệu dưới dạng bảng tần số dạng ghép lớn và vẽ biểu đồ hình cột tương ứng
Tiến hành lập bảng tần số dạng ghép lớp:
Mã nguồn
Giải thích:
- Hàm cut() chia các giá trị trong data thành các khoảng dựa trên dãy giá trị
do tham số breaks xác định
- seq(159, 175, by = 5) tạo ra một dãy các giá trị ngắt (breaks) từ 159 đến 175
với bước nhảy 5 Nghĩa là các khoảng sẽ là: [159, 164], [164, 169], [169, 174]
- Hàm table() đếm tần suất xuất hiện của các giá trị trong mỗi khoảng đã được
chia
Kết quả
Ta lập được bảng tần số dạng ghép lớp
Trang 5Tiếp theo ta tiến hành vẽ biểu đồ cột
Mã nguồn
- Hàm barplot() tạo ra một biểu đồ cột từ bảng tần suất fre_table
- Tham số main được sử dụng để đặt tiêu đề cho biểu đồ Trong trường hợp này, tiêu đề sẽ là "Biểu đồ cột"
Kết quả
1.3 Tính các thông số của dữ liệu
Chúng ta sẽ sử dụng các hàm trong R để tính trung bình mẫu, độ lệch chuẩn mẫu hiệu chỉnh và trung vị mẫu của chiều cao
Trang 6 Mã nguồn
Kết quả
1.4.Tìm các tứ phân vị dưới và tứ phân vị trên
Mã nguồn
- Hàm quantile() được sử dụng để tính các tứ phân, phần trăm, hoặc các giá
trị phân vị khác từ một tập hợp dữ liệu
- Đoạn mã trên sẽ tính được tứ phân vị trên và tứ phân vị dưới của bộ dữ liệu
Kết quả
Tứ phân vị dưới: q1 = 163
Tứ phân vị trên: q3 = 166
Trang 71.5 Xây dựng biểu đồ xác suất chuẩn cho chiều cao
Bước 1: Chuẩn bị dữ liệu
Ta tiến hành sắp xếp bộ dữ liệu từ bé đến lớn và lưu vào biến data_s
Trục tung của biểu đồ xác suất chuẩn được tính
k = (j-0.5) /n Trong đó: n là cỡ mẫu ( ở đây n = 37) và j = 1,2,3…37
Ta tạo một dataframe( khung dữ liệu) chứa ba thông số j(số thứ tự của biến chiều cao), xj(dữ liệu đã được sắp xếp), normss(= k là các điểm trên trục tung tạo từ j tương ứng) và gán vào dfs
Trang 8Ta tính tứ phân vị trên và tứ phân vị dưới của datas_s và lưu vào biến x1 và x2
tương ứng
Ta tính tứ phân vị trên và tứ phân vị dưới của k và lưu vào biến y1 và y2 tương ứng
Kết hợp các tứ phân vị và lưu vào biến p1 (x1, y1), p2 (x2, y2) tương ứng
Sau đó ta tiến hành dựng một đường thẳng nối p1 và p2 , có dạng y = m.x + b
- Ta tính độ dốc (slope) của đường thẳng dựa vào công thức
Độ dốc(m) = (y2 – y1 ) / (x2 – x1)
- Sau đó ta tính hằng số tự do
b = y1 – m.x1
Sau khi tìm được phương trình đường thẳng nối hai điểm tứ phân vị trên dưới thì ta tiến hành tạo các giá trị x cho đường thẳng và tính các giá trị y tương ứng
- x_val <- seq(160, 170, length.out = 100) : Câu lệnh này trong R có nhiệm vụ tạo một vector (mảng) chứa các giá trị từ 160 đến 170 với tổng cộng 100 giá trị phân bố đều
- y_val <- m * x_val + b : tính các giá trị y tương ứng
- line_data <- data.frame(x = x_val, y = y_val) : chúng ta tạo một khung dữ liệu chứa hai cột là x_val và y_val và lưu vào biến line_data
Bước 2: Tiến hành vẽ đồ thị
Mã nguồn
Đoạn mã trên sử dụng thư viện ggplot2 trong R để tạo một biểu đồ xác suất thể hiện mối quan hệ giữa chiều cao của sinh viên và xác suất tương ứng
ggplot(dfs, ): Bắt đầu tạo biểu đồ với dữ liệu từ dataframe dfs
Trang 9aes(x = xj, y = normss): Xác định các biến cho các trục
geom_point(size = 3): Thêm các điểm vào biểu đồ, với kích thước mỗi điểm là
3 Mỗi điểm đại diện cho một cặp giá trị (chiều cao, xác suất)
geom_line( ): Thêm một đường thẳng vào biểu đồ dựa trên dữ liệu từ
line_data
theme_minimal(): Áp dụng một chủ đề tối giản cho biểu đồ, giúp làm cho biểu
đồ trông sạch sẽ và dễ đọc hơn
Kết quả:
Kết luận:
Dựa vào biểu đồ xác xuất chuẩn và quy tắc “bút chì béo”, ta có thể kết luận chiều cao của nữ sinh là biến ngẫu nhiên có phân phối chuẩn
Trang 10Bài 2
( cách làm và kĩ thuật xử lý giống như bài 1)
2.1 Xây dựng biểu đồ thân lá cho dữ liệu chiều cao
Ta tiến hành nhập dữ liệu:
Mã nguồn thực hiện :
Tiến hành vẽ biểu đồ thân lá, ta sử dụng hàm stem() để tạo một biểu đồ thân
lá cho data
Mã nguồn thực hiện
Kết quả
Nhận xét
Chiều cao phổ biến: Có vẻ như chiều cao 168 cm xuất hiện nhiều nhất trong dữ liệu, cho thấy đây là chiều cao phổ biến nhất trong nhóm sinh viên nam này
Sự phân bố: Dữ liệu có vẻ tập trung nhiều ở các giá trị từ 166 cm đến 170 cm, với một số giá trị cao hơn như 175 cm và 178 cm
Sự đồng đều: Dữ liệu có vẻ tương đối đồng đều, không có quá nhiều giá trị cực đoan, cho thấy rằng chiều cao của nhóm này không quá biến động
Trang 112.2 Biểu diễn tập dữ liệu dưới dạng bảng tần số dạng ghép lớn và vẽ biểu đồ hình cột tương ứng
Tiến hành lập bảng tần số dạng ghép lớp:
Mã nguồn
Kết quả
Tiếp theo ta tiến hành vẽ biểu đồ cột
Mã nguồn
Kết quả
Trang 122.3 Tính các thông số của dữ liệu
Chúng ta sẽ sử dụng các hàm trong R để tính trung bình mẫu, độ lệch chuẩn mẫu hiệu chỉnh và trung vị mẫu của chiều cao
Mã nguồn
Trang 13 Kết quả
2.4 Tìm các tứ phân vị dưới và tứ phân vị trên
Mã nguồn
Kết quả
Tứ phân vị dưới: q1 = 167
Tứ phân vị trên: q3 = 170
2.5 Xây dựng biểu đồ xác suất chuẩn cho chiều cao Bước 1: Chuẩn bị dữ liệu
Trang 14 Vẽ biểu đồ
Kết quả
Trang 15Kết luận:
Dựa vào 2 biểu đồ xác xuất chuẩn và quy tắc “bút chì béo”, ta có thể kết luận chiều cao của nữ sinh là biến ngẫu nhiên có phân phối chuẩn