ĐỊNH NGHĨA THỐNG KÊThống kê là một môn khoa học về việc thu thập, sắp xếp và phân tích dữ liệu, tìm ra các quy luật của tập dữ liệu để phục vụ cho việc kiểm chứng giả thuyết, dự báo, r
Trang 1CHƯƠNG 2: GIỚI THIỆU TỔNG QUÁT VỀ CÁC MÔ TẢ THỐNG KÊ
Trang 2I ĐỊNH NGHĨA THỐNG KÊ
Thống kê là một môn khoa học về việc thu thập, sắp xếp
và phân tích dữ liệu, tìm ra các quy luật của tập dữ liệu
để phục vụ cho việc kiểm chứng giả thuyết, dự báo, ra quyết định trong môi trường không chắc chắn.
Trang 3II ĐÁM ĐÔNG VÀ MẪU
1 Đám đông (population)
Đám đông là tập hợp các phần tử trong vùng nghiên cứu mà
ta đang quan tâm
2 Mẫu (sample)
Từ đám đông ta lấy ra một tập hợp nhỏ hơn gồm n phần tử
để nghiên cứu Tập hợp n phần tử này được gọi là mẫu, n được gọi là kích thước mẫu
Kích thước mẫu và cách thức lấy mẫu tùy thuộc vào độ
chính xác cần nghiên cứu, độ tin cậy cũng như phân bố các phần tử của đám đông
Trang 5Ví dụ: Nghiên cứu độ chín của xơ Cotton ở một cánh
đồng với 10.000 cây bông, tập hợp của các cây bông này
sẽ hình thành đám đông, ta chọn 50 cây để nghiên cứu thì đây là một mẫu có kích thước là 50
Trang 6III CÁC THÔNG SỐ THỐNG KÊ CỦA MẪU
1 Các giá trị trung tâm
a) Giá trị trung bình số học (mean)
Giá trị trung tâm này dễ hiểu, dễ tính toán và áp
dụng được cho mọi đơn vị đo và vì vậy là phương pháp xác định giá trị trung tâm được sử dụng nhiều nhất
Giá trị trung bình số học X của 1 mẫu có n dữ liệu X = {Xi với
Trang 7Giá trị trung bình số học của 1 mẫu phân nhóm có
O
i n
X
1 1
1
Trang 10d) Quan hệ giữa 3 giá trị trung tâm
Mode = trung bình – 3(trung bình – trung vị)
Ví dụ: Xác định giá trị trung bình, trung vị và mode của dãy số sau
Giá trị 6 9 10 12 13 14 15 16 17 18 19 20 21 22 24 Tần số 1 1 1 2 2 3 4 5 4 3 3 2 2 1 1
Trang 11Mode =Mode (number 1, number 2…, number n)
Trung vị =Median (number 1, number 2…, number n)
GT trung
bình
=Average (number 1, number 2…, number n)
Cách tính các giá trị trong phần mềm Excel
Trang 122 Các giá trị độ phân tán
Nếu chỉ quan sát về độ tập trung của bộ dữ liệu thì ta sẽ
không biết được sự phân bố của dữ liệu, mà đây mới là các vấn đề chính cần quan tâm trong thống kê
Ví dụ: Quan sát hai dãy số liệu sau
Dãy 1: 5, 3, 1, 2, 4
Dãy 2: 3, 4, 3, 2, 3
Trang 13
n 1 i
2 )
i
-(x 2
Trang 14Phương sai của tập dữ liệu phân lớp
Cho n số liệu đã được phân thành k lớp, mỗi lớp có tần số là fi, gọi điểm giữa của lớp là mi Phương sai được tính theo công thức:
s2 =
Trang 16 Ví dụ: Tính phương sai và độ lệch chuẩn cho hai dãy số
dữ liệu bên dưới
16.783 37.980
Trang 17c) Khoảng biến động
Khoảng biến động là khoảng rộng mà dữ liệu biến động
R = Xmax – Xmin
VÍ DỤ: hai bộ mẫu vải A và B với năm mẫu, mỗi bộ được
đo để xác định độ bền, kết quả như sau:
+ Độ bền của mẫu A đo bằng pound: 120 118 124 122 116
R = 124~116; 8 lb
+ Độ bền của mẫu B đo bằng pound: 108 106 140 124 122
R = 140~106; 34 lb
Trang 18d) Các khoảng chia bách phân
Cho một dãy số liệu đã sắp xếp theo thứ tự tăng dần,
điểm chia bách phân thứ p là giá trị mà có p% giá trị
bách phân:
Sắp xếp thứ tự dãy số theo chiều tăng dần
Xác định vị trí của điểm chia bách phân bằng công thức
Xác định giá trị của điểm chia bách phân bằng nội suy tuyến tính
[(n+1) P /100]
Trang 19VÍ DỤ: Cho dãy số liệu gồm 16 số sau đây:127, 80, 100, 50, 110,
120, 108, 90, 70, 140, 130, 125, 60, 81, 70, 110 Tìm điểm chia bách phân thứ 50, 65 và 90?
Sắp thứ tự dãy 16 số liệu trên:
50, 60, 70, 70, 80, 81, 90, 100, 108, 110, 110, 120, 125, 127, 130, 140
Điểm chia bách phân thứ 50:
Vị trí thứ 8 có giá trị là 100, thứ chín có giá trị là 108 Suy ra vị trí thứ 8,5 sẽ có giá trị là 104, vậy điểm chia bách phân thứ 50 là 104
Trang 21VÍ DỤ : Cho dãy –13,8; -19,8; 12; 13,6;
14,3; 25,5; 43,6; 36,3
Hãy tìm các số tứ phân??
Trang 22 Khoảng lệch tứ phân (IQR)
KLTP (IQR) = Q3 – Q1
Các giá trị ngoại lệ sẽ nằm ngoài khoảng
Q1 – 1.5IQR và Q3 + 1.5 IQR
Trang 23f) Hệ số phân tán
Hệ số phân tán cho phép ta có cái nhìn về sự thay đổi của tập dữ liệu so với giá trị trung bình
Trang 24VÍ DỤ:
+ Xét một mẫu có trị trung bình = 60 và độ lệch chuẩn s = 20
Hệ số phân tán CV = s / = 20/60 = 0.33 = 33% + Xét mẫu khác có = 1.000.000 , s = 20
X
Trang 25III CÁC HÌNH THỨC BIỂU DIỄN SỐ LIỆU
1 Phân lớp dữ liệu và đồ thị hình thanh( histogram)
Trong thực tế sản xuất, đôi khi việc phân lớp các tập dữ liệu lớn thành nhiều khoảng nhỏ có độ dài bằng nhau sẽ giúp cho người phân tích dễ quản lý dữ liệu hơn, và có một cái nhìn trực quan hơn về sự phân bố dữ liệu.
Trang 26Độ dài của từng khoảng nhỏ được chọn bất kỳ, chỉ cần đảm bảo các khoảng chia có độ dài bằng nhau và phủ kín toàn bộ
dữ liệu ghi nhận được
Tùy thuộc vào các trị số quan sát, số lần rơi, khoảng chia, sẽ được ghi nhận, số lần này gọi là tần số lặp của khoảng chia đó
Tỷ số giữa tần số lặp ở mỗi khoảng chia với tổng số điểm
quan sát được gọi là tần số tương đối của một khoảng.
Trang 27Ví dụ: Người quản lý của một công ty vải ghi nhận số liệu mua hàng từ 200 khách hàng đến công ty trong năm 2015, số liệu được chia theo số kg vải mà khách hàng đặt hàng Có 6 lớp tất cả: từ 1kg đến 100kg, 100kg đến 200kg Đến 600kg Số liệu cho theo bảng bên dưới Tính tần số tương đối và vẽ biểu đồ
Trang 282 Biểu đồ hình thanh
Biểu đồ hình thanh rất tiện lợi để biểu diễn độ lớn tương đối của các đại lượng phân bố theo thời gian hay không gian
Trang 293 Biểu đồ thời gian ( time plots)
Trang 304 Biểu đồ hình quạt ( pie charts)
Trang 33Bài tập: Thực nghiệm được thực hiện với vải 100% cotton
để nghiên cứu ảnh hưởng của áp suất lên thời gian ép keo trên cùng 1 nhiệt độ 30 mẫu vải và keo được chuẩn bị
Thời gian cần thiết để mẫu dựng dính vào vải được ghi lại trong bảng sau:
a) Trung bình và độ lệch chuẩn mẫu.
b) Các số tứ phân vị.
c) Các giá trị ngoại lệ (outlier) nếu có.