–Thống kê là các số liệu được thu thập để phản ánh các hiện tượng kinh tế- xã hội,tự nhiên, kỹ thuật.
Trang 1Chương 1:
GIỚI THIỆU VỀ THỐNG KÊ
Trang 2NỘI DUNG
1 Một số khái niệm
2 Dữ liệu trong CNTP
3 Giới thiệu phần mềm Minitab
GIỚI THIỆU VỀ THỐNG KÊ
Trang 31 Một số khái niệm
Thống kê (Statistics):
•Có thể được hiểu theo hai nghĩa:
–Thống kê là các số liệu được thu thập để phản ánh các hiện tượng kinh tế - xã hội, tự nhiên, kỹ thuật
–Thống kê là hệ thống các phương pháp được
sử dụng để mô tả các hiện tượng kinh tế - xã hội, tự nhiên, kỹ thuật
Trang 41 Một số khái niệm
Thống kê (Statistics):
•Thống kê là hệ thống các phương pháp dùng để thu thập, xử lý và phân tích các con số (mặt lượng) của các hiện tượng để tìm hiểu bản chất và tính quy luật vốn có của chúng (mặt chất) trong điều kiện thời gian và không gian cụ thể
Trang 6Thống kê
1 Một số khái niệm
• Là khoa học về sự ứng dụng các phương pháp thống kê để giải quyết các vấn đề của ngành CNTP.
• Bao gồm:
– Bố trí thí nghiệm – Thu thập dữ liệu – Trình bày và tóm tắt dữ liệu – Từ các dữ liệu mẫu suy rộng ra tổng thể.
Trang 71 Một số khái niệm
Tổng thể (Population)
•Là một tập hợp mọi phần tử thuần nhất (theo một tiêu chuẩn nào đó) được quan tâm nghiên cứu trong một lãnh vực nào đó
•Kích thước của tổng thể (N) bao gồm toàn
bộ số cá thể của tổng thể
•Tổng thể được mô tả bởi các tham số (parameters).
Trang 81 Một số khái niệm
Mẫu (Sample)
•Là một tập con được rút ra từ tổng thể
•Số phần tử nằm trong mẫu được gọi là cỡ mẫu (n).
•Do cỡ mẫu hữu hạn (n << N) nên những kết luận được suy ra từ mẫu cho tổng thể sẽ có một
số sai số gọi là sai số do chọn mẫu
Trang 102 Dữ liệu
2.1 Biến số
•Các đối tượng nghiên cứu được gọi là các
đơn vị quan sát (observational units).
•Trên đơn vị này, các đặc tính được quan sát hoặc đo đạc được gọi là các biến số
(variables)
•Trong mỗi đối tượng nghiên cứu, các giá trị
số gán cho biến số được gọi là các biến
(variate)
Trang 112 Dữ liệu
2.2 Dữ liệu (Data)
•Dữ liệu là gì?
•Hãy nêu thêm một số thí dụ về dữ liệu
•Các nguồn dữ liệu thu thập từ đâu?
Trang 122.3 Các loại thang đo
2 Dữ liệu
•Thang đo định danh (Nominal scale)
•Thang đo thứ hạng (Ordinal scale)
•Thang đo khoảng (Interval scale)
•Thang đo tỉ lệ (Ratio scale)
Trang 132 Dữ liệu
Thang đo định danh
•Dùng để chỉ các thuộc tính, được mã hoá bởi các con số dùng để phân loại đối tượng, giữa các con số không có giá trị hơn kém
•Thí dụ:
– Giới tính: 1 = nữ, 2 = nam
– Chiều cao cây: 1 = cao, 2 = thấp
•Hãy nêu thêm một số thí dụ khác
Trang 142 Dữ liệu
Thang đo thứ hạng
•Dùng để chỉ các thứ hạng của các đơn vị quan sát
•Sự chênh lệch giữa các biểu hiện không nhất thiết phải bằng nhau
•Thí dụ:
– ước lượng mức độ độc hại của chất amiăng đối với công nhân: 1 = thấp, 2 = trung bình, 3 = cao
•Hãy nêu thêm một số thí dụ khác
Trang 15Thang đo khoảng và Thang đo tỉ lệ
Trang 162 Dữ liệu
Thang đo khoảng và Thang đo tỉ lệ
Các điểm khác biệt giữa hai loại thang đo
•Khi một biến được đo bằng thang đo khoảng, tỉ số giữa hai giá trị không có ý nghĩa, trong khi một biến được đo bằng thang đo tỉ lệ, tỉ số giữa hai giá trị là có ý nghĩa
– Thí dụ một cây 140cm cao gấp đôi cây 70cm nhưng một lò nung 3000C không nóng gấp đôi lò nung ở 1500C
Trang 172 Dữ liệu
Thang đo khoảng và Thang đo tỉ lệ
Các điểm khác biệt giữa hai loại thang đo
•Ở thang đo khoảng, giá trị zero mang tính qui ước, trong khi ở thang đo tỉ lệ có giá trị zero thật
– Thí dụ chiều cao bằng 0 cm nghĩa là không có chiều cao, trong khi nhiệt độ
00C không có nghĩa là không có nhiệt độ
Trang 182 Dữ liệu
2.4 Các loại biến
Biến liên tục Biến định lượng
Biến rời rạc Biến
Biến định danh Biến định tính
Biến thứ hạng
Trang 19Biến định lượng (Quantitative Variable)
2 Dữ liệu
•Là những biến mà giá trị của chúng
có thể được biểu hiện dưới dạng số
và có thể đo đạc.
• Có hai loại biến định lượng:
–Biến liên tục (Continuous Variable) –Biến rời rạc (Discrete Variable).
Trang 20Biến liên tục
2 Dữ liệu
•Là biến có một số giá trị xác định nằm giữa hai điểm cố định
•Chẳng hạn giữa hai chiều dài 1,5 cm và 1,6
cm có vô số các giá trị có thể đo được
•Thí dụ– chiều cao cây (cm)– trọng lượng cơ thể (kg)– pH của đất
Trang 21Biến rời rạc
2 Dữ liệu
•Là những biến chỉ có những giá trị xác định, không có các giá trị trung gian
Trang 22Biến định tính (Qualitative Variable)
Trang 23– Đánh giá mức độ nghiêm trọng của bệnh
từ 1 – 5
Trang 24Biến định danh
2 Dữ liệu
• Là những biến không thể đo đạc, xếp hạng nhưng
có thể được biểu hiện về tính chất.
• Còn được gọi là biến thuộc tính.
• Các thuộc tính có thể có hai trạng thái hoặc nhiều trạng thái.
• Thí dụ:
– Giới tính: đực hoặc cái – Mang thai: có hoặc không – Màu hoa: trắng, vàng, đỏ…
– Các kiểu gen: đồng hợp trội, dị hợp, đồng hợp lặn…
Trang 252.5 Độ đúng và độ chính xác
2 Dữ liệu
• Độ đúng: giá trị tính toán hoặc đo đạc
gần với giá trị thực nhất
• Độ chính xác: giá trị đo đạc của các lần
lặp lại gần giống nhau nhất
Trang 262.5 Độ đúng và độ chính xác
2 Dữ liệu
•Thí dụ: một cái cân bị lệch nhưng nhạy có thể cho ra số đo không đúng nhưng có độ chính xác Ngược lại, một cái cân không nhạy có thể cho ra số đo không chính xác
•Nếu không có sự sai lệch của dụng cụ đo,
độ chính xác sẽ dẫn đến độ đúng
Cần tập trung hơn vào độ chính xác
Trang 28Các thành phần
3 Giới thiệu phần mềm Minitab
2.Các cửa sổ:
.TXT hoặc RTF, sao chép (copy), cắt (cut), dán (paste) vào word.
•nhập các dữ liệu dạng số, dạng text (-T), dạng ngày giờ (-D)
•Lưu các giá trị là hằng số (K) hoặc ma trận (M)
Trang 29Các thành phần
3 Giới thiệu phần mềm Minitab
Trang 30Quản lý Dữ liệu & Tính toán
3 Giới thiệu phần mềm Minitab
Trang 31Stat > Basic Statistics > Graphical Summary…
3 Giới thiệu phần mềm Minitab