Giáo trình xác suất thống kê_Chương 4: Các biểu đồ và thông số đặc trưng của tập dữ liệu

31 290 0
Giáo trình xác suất thống kê_Chương 4: Các biểu đồ và thông số đặc trưng của tập dữ liệu

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Giáo trình xác suất thống kê, bài tập xác suất thống kê, xác suất thống kê và ứng dụng thực tế. Những dạng bài tập cơ bản trong xác suất thống kê, xác suất thống kê, những bài toán hay xác suất thống kê

Trường ĐHBK Tp.HCM Thống Kê - Chương CHƯƠNG CÁC BIỂU ĐỒ & THÔNG SỐ ĐẶC TRƯNG CỦA TẬP DỮ LIỆU NỘI DUNG CHÍNH ƒ Tổng g kết liệu ệ định ị tính & liệu ệ định ị lượng ợ g ƒ Phân tích liệu khám phá: Trình bày dạng cành ƒ Đại lượng vị trí ƒ Đại lượng biến thiên ƒ Đại lượng dạng phân phối phối, vị trí tương đối nhận dạng điểm cá biệt ƒ Trung bình có trọng số xử lý liệu nhóm Trường ĐHBK Tp.HCM Thống Kê - Chương TỔNG KẾT DỮ LIỆU ĐỊNH TÍNH Phân p phối tần số Phân phối tần số bảng tổng kết tập liệu trình bày tần số (hay số) giá trị quan sát có lớp lớp khơng trùng lên TỔNG KẾT DỮ LIỆU ĐỊNH TÍNH DỮ LIỆU TỪ MỘT MẪU GỒM 50 LON NƯỚC GIẢI KHÁT Coke Classic Di t C Diet Coke k Pepsi-Cola Diet Coke Coke Classic Coke Classic Dr.Pepper Diet Coke Pepsi-Cola Pepsi-Cola Pepsi Cola Coke Classic Dr.Pepper Sprite Coke Classic Diet Coke Coke Classic Coke Classic Sprite C k Cl Coke Classic i Diet Coke Coke Classic Diet Coke Coke Classic Sprite Pepsi-Cola Coke Classic Coke Classic Coke Classic Pepsi-Cola Coke Classic Sprite Dr.Pepper Pepsi-Cola Diet Coke Pepsi-Cola C k Cl Coke Classic i Coke Classic Coke Classic Pepsi-Cola Dr.Pepper Coke Classic Diet Coke Pepsi-Cola Pepsi-Cola Pepsi Cola Pepsi-Cola Pepsi-Cola Coke Classic Dr.Pepper Pepsi-Cola Sprite Trường ĐHBK Tp.HCM Thống Kê - Chương TỔNG KẾT DỮ LIỆU ĐỊNH TÍNH PHÂN PHỐI TẦN SỐ CỦA LON NƯỚC GIẢI KHÁT Nước giải khát Coke Classic Diet Coke Dr.Pepper Pepsi-Cola Sprite Tổng Tần số 19 13 50 TỔNG KẾT DỮ LIỆU ĐỊNH TÍNH Phân p phối tần số tương g đối tần số phần trăm ƒ Phân phối tần số tương đối: Một bảng tổng kết tập liệu trình bày tần số tương đối –nghĩa là, tỉ số – tổng số giá trị quan sát có lớp lớp khơng trùng lên ƒ Tần số tương đối lớp = Tần số lớp / n ƒ Tần số phần trăm = Tần số tương đối* 100 Trường ĐHBK Tp.HCM Thống Kê - Chương TỔNG KẾT DỮ LIỆU ĐỊNH TÍNH Phân phối tần số tương đối tần số phần trăm ƒ Phân phối tần số tương đối: Một bảng tổng kết tập ộ liệu ệ g trình bàyy p phần trăm tổng g số giá trị quan sát có lớp lớp khơng trùng lên TỔNG KẾT DỮ LIỆU ĐỊNH TÍNH PHÂN PHỐI TẦN SỐ TƯƠNG ĐỐI PHẦN TRĂM CỦA LON NƯỚC GIẢI KHÁT Nước giải khát Coke Classic Diet Coke Dr.Pepper Peppsi Cola Peppsi-Cola Sprite Tổng Tần số tương đối 38 16 10 26 26 10 1.00 Tần số phần trăm 38 16 10 26 10 100 Trường ĐHBK Tp.HCM Thống Kê - Chương TỔNG KẾT DỮ LIỆU ĐỊNH TÍNH Biểu đồ hình biểu đồ hình tròn Tần số BIỂU ĐỒ HÌNH THANH CỦA NƯỚC GIẢI KHÁT 20 18 16 14 12 10 Coke Classic Diet Coke Dr Pepper Pepsi- Cola Sprite Nước giải khát TỔNG KẾT DỮ LIỆU ĐỊNH TÍNH Biểu đồ hình biểu đồ hình tròn BIỂU ĐỒ HÌNH TRỊN CỦA NƯỚC GIẢI KHÁT Coke Classic 38% Diet Coke 16% Sprite 10% Dr Pepper 10% Pepsi- Cola 26% 10 Trường ĐHBK Tp.HCM Thống Kê - Chương TỔNG KẾT DỮ LIỆU ĐỊNH LƯỢNG Phân p phối tần số Phân phối tần số bảng tổng kết tập liệu trình bày tần số (hay số) giá trị quan sát có lớp lớp khơng trùng lên 11 TỔNG KẾT DỮ LIỆU ĐỊNH LƯỢNG Phân p phối tần số ƒ Xây dựng phân phối tần số • Thu thập liệu mẫu • Xác định số lớp khơng trùng lắp • Xác định chiều rộng lớp • Xác Xá định đị h giới iới h hạn ủ ỗi lớ lớp • Đếm số giá trị liệu có lớp • Tổng kết tần số lớp vào bảng phân phối tần số 12 Trường ĐHBK Tp.HCM Thống Kê - Chương TỔNG KẾT DỮ LIỆU ĐỊNH LƯỢNG Phân phối tần số ƒ Số lớp (K): ≤ K ≤ 20 ƒ Chiều rộng lớp Chiều rông lớp = (Giá trị lớn – Giá trị nhỏ nhất) / K ƒ Các giới hạn lớp Các giới hạn lớp số lớn nhỏ thuộc lớp • Giới hạn lớp = Số nhỏ • Giới hạn lớp = Số lớn Sự khác biệt giới hạn lớp liền cho ta chiều rộng lớp 13 TỔNG KẾT DỮ LIỆU ĐỊNH LƯỢNG Phân p phối tần số ƒ Các biên giới lớp Các biên lớp đường phân chia lớp ƒ Điểm lớp Điểm lớp giá trị nằm giới hạn giới hạn lớp 14 Trường ĐHBK Tp.HCM Thống Kê - Chương TỔNG KẾT DỮ LIỆU ĐỊNH LƯỢNG CÁC THỜI GIAN KIỂM TỐN CUỐI NĂM (Tính theo số ngày) 12 15 20 22 14 14 15 27 21 18 19 18 22 33 16 18 17 23 28 13 15 TỔNG KẾT DỮ LIỆU ĐỊNH LƯỢNG PHÂN PHỐI TẦN SỐ ĐỐI VỚI DỮ LIỆU THỜI GIAN KIỂM TÓAN Thời gian kiểm tóan (ngày) 10-14 15-19 15 19 20-24 25-29 30-34 Tổng Tần số 20 16 Trường ĐHBK Tp.HCM Thống Kê - Chương TỔNG KẾT DỮ LIỆU ĐỊNH LƯỢNG Phân p phối tần số tương g đối tần số phần trăm ƒ Tần số tương đối lớp = Tần số lớp / n ƒ Tần số p phần trăm = Tần số tương g đối* 100 17 TỔNG KẾT DỮ LIỆU ĐỊNH LƯỢNG PHÂN PHỐI TẦN SỐ TƯƠNG ĐỐI VÀ TẦN Ầ SỐ Ố PHẦN Ầ TRĂM Ă ĐỐI VỚI DỮ LIỆU THỜI GIAN KIỂM TÓAN Thời gian (ngày) 10-14 15 19 15-19 20-24 25-29 30-34 Tổng Tần số tương đối 20 40 40 25 10 05 1.00 Tần số phần trăm 20 40 25 10 100 18 Trường ĐHBK Tp.HCM Thống Kê - Chương TỔNG KẾT DỮ LIỆU ĐỊNH LƯỢNG Biểu đồ điểm ƒ Trục hồnh trình bày miền giá trị liệu ƒ Mỗi giá trị biểu thị điểm nằm trục 10 15 20 25 30 35 Thời gian kiểm tóan tính theo ngày 19 TỔNG KẾT DỮ LIỆU ĐỊNH LƯỢNG Biểu đồ tần số ƒ Một biểu đồ tần số xây dựng đặt biến quan tâm trục hoành tần số, tần số tương đối, tần số phần trăm trục tung ƒ Biểu đồ tần số mô tả dạng tập liệu 20 10 Trường ĐHBK Tp.HCM Thống Kê - Chương ĐỒ THỊ PHÂN TÁN ĐIỂM BẢNG CHÉO Đồ thịị p phân tán điểm Đồ thị phân tán điểm cửa hàn thiết bị Stereo âm 65 Sales ($100s) 60 55 50 45 40 35 Number of commercials 33 ĐỒ THỊ PHÂN TÁN ĐIỂM BẢNG CHÉO Đồ thị phân tán điểm Các loại quan hệ miêu tả đồ thị phân tán điểm Quan hệ đồng biến Dường không quan hệ Quan hệ nghịch biến 34 17 Trường ĐHBK Tp.HCM Thống Kê - Chương CÁC QUI TRÌNH BẢNG BIỂU VÀ ĐỒ THỊ ĐỐI VỚI TỔNG KẾT DỮ LIỆU DỮ LIỆU Dữ liệu định tính Phương pháp Bảng Phương pháp Đồ thị Dữ liệu định lượng Phương pháp Bảng Phương pháp Đồ thị Phân phối tần số Biểu đồ hình Phân phối tần số Biểu đồ điểm Phân phối tần số tương đối Biểu đồ hình tròn Phân phối tần số tương đối Biểu đồ tần số Phân phối tần số tích lũy Biểu đồ tần số tích lũy (Ogive) Phân phối tần số phần trăm Bảng chéo Phân phối tần số tương đối tích lũy Đồ thị phân tán điểm Cành - Bảng chéo 35 GIỚI THIỆU ƒ Một đại lượng mô tả số đơn giản tính tốn từ liệu mẫu để cung cấp thông tin liệu tổng thể ƒ Có hai loại đại lượng mơ tả: • Đại lượng vị trí • Đại lượng biến thiên 36 18 Trường ĐHBK Tp.HCM Thống Kê - Chương GIỚI THIỆU CÁC THAM SỐ ƒ Tham số tổng thể (population parameter) giá trị số dùng đại lượng tổng kết liệu tổng thể ƒ Các trị thống kê mẫu (sample statistics) dùng đại lượng tổng kết mẫu 37 CÁC ĐẠI LƯỢNG VỀ VỊ TRÍ (measure of location) Một số đại lượng vị trí là: ƒ Số trung bình (Mean) ƒ Số trung vị (Median) ƒ Số yếu vị (Mode) ƒ Số phân hâ vịị (Percentiles) (P til ) ƒ Số tứ phân (Quartiles) 38 19 Trường ĐHBK Tp.HCM Thống Kê - Chương CÁC ĐẠI LƯỢNG VỀ VỊ TRÍ Số trung bình ƒ Số trung bình sử dụng phổ biến để đo lường vị trí ƒ Trung bình tổng thể: μ= ∑x ƒ Trung bình mẫu: x= ∑x N n 39 CÁC ĐẠI LƯỢNG VỀ VỊ TRÍ Số ttrung vịị (Md) Số trung vị giá trị tập liệu xếp theo thứ tự ƒ n số lẻ, Md g giá trị g tập p liệu ƒ n số chẵn, Md trung bình hai giá trị tập liệu 40 20 Trường ĐHBK Tp.HCM Thống Kê - Chương CÁC ĐẠI LƯỢNG VỀ VỊ TRÍ Số yếu ế vịị (Mo) (M ) Số yếu vị giá trị liệu xuất với tần số lớn ƒ Bimodal có hai số yếu vị ƒ Multimodal > two hai số yếu vị 41 CÁC ĐẠI LƯỢNG VỀ VỊ TRÍ Số phân vị ƒ Số phân vị pth giá trị có p % số hạng tập liệu có giá trị nhỏ giá trị này, có (100-p) % số hạng tập liệu có giá trị lớn giá trị ƒ Phân vị 50th số trung vị 42 21 Trường ĐHBK Tp.HCM Thống Kê - Chương CÁC ĐẠI LƯỢNG VỀ VỊ TRÍ Số phân vị Xác định phân vị pth ƒ Bước 1: Sắp xếp tập liệu theo thư tự tăng dần ƒ Bước 2: tính số i: i= ( )* n p 100 ƒ Bước 3: • Nếu i khơng số nguyên làm tròn lên Số nguyên > i vị trí phân vị pth • Nếu i số nguyên, phân vị pth trung bình giá trị liệu vị trí i i + 43 CÁC ĐẠI LƯỢNG VỀ VỊ TRÍ Số tứ phân hâ Số tứ phân đơn số phân vị cụ thể, chia tập liệu làm phần, gọi tên là: ƒ Q1 = số tứ phân thứ = P25% ƒ Q2 = số tứ phân thứ hai = P50% = Median ƒ Q3 = số tứ phân thứ ba = P75% 44 22 Trường ĐHBK Tp.HCM Thống Kê - Chương CÁC ĐẠI LƯỢNG VỀ SỰ BIẾN THIÊN ƒ Đại lượng ợ g ự biến thiên ợ sử dụng ụ g để mô tả xu hướng giá trị liệu phân tán xung quanh giá trị trung bình ƒ Một số đại lượng biến thiên: • • • • Khoảng biến thiên (Range) Khoảng g biến thiên nội ộ tứ p phân ((Interquartile q Range) g ) Phương sai (Variance) Độ lệch chuẩn (Standard Deviation) 45 CÁC ĐẠI LƯỢNG VỀ SỰ BIẾN THIÊN ƒ Khoảng g biến thiên • Range = Giá trị lớn – Giá trị nhỏ hay • Range = Max – Min ƒ Khoảng biến thiên nội tứ phân (IQR) • IQR = Q3 – Q1 46 23 Trường ĐHBK Tp.HCM Thống Kê - Chương CÁC ĐẠI LƯỢNG VỀ SỰ BIẾN THIÊN ƒ Phương Ph saii • Phương sai tổng thể: • Phương Ph ơng sai mẫ mẫu: σ2 = s2 = ( ) x − μ ∑ i N ( ) x − x ∑ i n −1 47 CÁC ĐẠI LƯỢNG VỀ SỰ BIẾN THIÊN ƒ Độ ộ lệch ệ chuẩn Độ lệch chuẩn bậc hai phương sai Độ lệch chuẩn phương sai sử dụng phổ biến để đo lường biến thiên σ = σ2 s = s2 ƒ Hệ số biến thiên CV = Độ lệch chuẩn S *100 = *100 Trung bình X 48 24 Trường ĐHBK Tp.HCM Thống Kê - Chương CÁC ĐẠI LƯỢNG VỀ DẠNG PHÂN PHỐI, VỊ TRÍ TƯƠNG ĐỐI VÀ NHẬN DẠNG CÁC ĐIỂM CÁ BIỆT ƒ Dạng phân phối ố • Độ lệch (Skewness) đại lượng dạng phân phối tập liệu • Đối với liệu lệch bên trái, độ lệch âm • Đối với liệu lệch bên phải, độ lệch dương • Nếu liệu đối xứng xứng, độ lệch • Đối với phân phối đối xứng, số trung bình số trung vị 49 CÁC ĐẠI LƯỢNG VỀ DẠNG PHÂN PHỐI, VỊ TRÍ TƯƠNG ĐỐI VÀ NHẬN DẠNG CÁC ĐIỂM CÁ BIỆT ƒ Trị thống kê Z (Z-Scores) Giá trịị z ủ ộ giá iá trịị quan sát x tổng ổ thể hể xác định: Z i = xi − μ δ Giá trị z giá trị quan sát x mẫu xác định: ị x −x Zi = i s ⇒ Khi tập liệu z có trung bình độ lệch chuẩn Zi: số độ lệch chuẩn mà Xi cách xa giá trị trung bình , 50 đơn vị tính độ lệch chuẩn 25 Trường ĐHBK Tp.HCM Thống Kê - Chương CÁC ĐẠI LƯỢNG VỀ DẠNG PHÂN PHỐI, VỊ TRÍ TƯƠNG ĐỐI VÀ NHẬN DẠNG CÁC ĐIỂM CÁ BIỆT ƒ Định lý ýC Chebyshev Định lý Chebyshev sử dụng để phát biểu phần trăm số hạng nằm số cụ thể độ lệch ch chuẩn ẩn tính từ giá tr trung ng bình 51 CÁC ĐẠI LƯỢNG VỀ DẠNG PHÂN PHỐI, VỊ TRÍ TƯƠNG ĐỐI VÀ NHẬN DẠNG CÁC ĐIỂM CÁ BIỆT ƒ Định lý Chebyshev • Tối thiểu (1-1/Z2) số hạng có tập liệu phải nằm Z độ lệch chuẩn tính từ g bình, Z > số trung hay • Prob (x − zs < x < x + zs ) ≥ − z2 52 26 Trường ĐHBK Tp.HCM Thống Kê - Chương CÁC ĐẠI LƯỢNG VỀ DẠNG PHÂN PHỐI, VỊ TRÍ TƯƠNG ĐỐI VÀ NHẬN DẠNG CÁC ĐIỂM CÁ BIỆT ƒ Định lý Chebyshev Đối với tập liệu • Prob (x - 2s < x < x + 2s ) ≥ 75% • Prob (x - 3s < x < x + 3s ) ≥ 89% • Prob (x - 4s < x < x + 4s ) ≥ 94% 53 CÁC ĐẠI LƯỢNG VỀ DẠNG PHÂN PHỐI, VỊ TRÍ TƯƠNG ĐỐI VÀ NHẬN DẠNG CÁC ĐIỂM CÁ BIỆT ƒ Qui Q i tắc tắ ki kinh h nghiệm hiệ Đối với tập liệu có phân phối dạng hình chng: • Prob (x - 1s < x < x + 1s ) ≥ 68% • Prob P b (x - 2s < x < x + 2s ) ≥ 95% • Prob (x - 3s < x < x + 3s ) ≥ 99.7% 54 27 Trường ĐHBK Tp.HCM Thống Kê - Chương CÁC ĐẠI LƯỢNG VỀ DẠNG PHÂN PHỐI, VỊ TRÍ TƯƠNG ĐỐI VÀ NHẬN DẠNG CÁC ĐIỂM CÁ BIỆT MỘT Ộ PHÂN PHỐI DẠNG Ạ HÌNH CHNG ĐỐI XỨNG 55 CÁC ĐẠI LƯỢNG VỀ DẠNG PHÂN PHỐI, VỊ TRÍ TƯƠNG ĐỐI VÀ NHẬN DẠNG CÁC ĐIỂM CÁ BIỆT ƒ Nhận Nhậ d dạng điể điểm cá biệt (outliers) ( tli ) • Các điểm cá biệt giá trị thái cực (lớn khác thường nhỏ khác thường) • Sử dụng Z để nhận dạng điểm cá biệt: giá trị liệu với Z nhỏ –3 lớn +3 điểm cá biệt 56 28 Trường ĐHBK Tp.HCM Thống Kê - Chương Các số tứ phân (Interquartiles) Interquartiles) ƒ Mơ hình 5-điểm điểm • Giá trị nhỏ = Min • Số tứ phân thứ = Q1 • Số tứ phân thứ hai = Q2 = Median • Số tứ phân thứ ba = Q3 • Giá trị lớn = Max Một cách gần đúng, 25% giá trị liệu số kế mô hình 5-điểm 57 Các số tứ phân (Interquartiles) Interquartiles) 25% số liệu Tần suất (fi) 25% số liệu 25% số liệu 25% số liệu x Q1 = x25 Q2 = x50 Q3 = x75 58 29 Trường ĐHBK Tp.HCM Thống Kê - Chương TRUNG BÌNH CĨ TRỌNG SỐ VÀ XỬ LÝ DỮ LIỆU NHĨM ƒ Trung bình có trọng số (The weighted Mean) Trung bình tập liệu có cách gán giá trị liệu trọng số phản ảnh tầm quan trọng tập liệu x= ∑ w *x ∑w i i i 59 TRUNG BÌNH CÓ TRỌNG SỐ VÀ XỬ LÝ DỮ LIỆU NHÓM ƒ Dữ liệu nhóm (Grouped data) Dữ liệu có sẵn lớp tổng kết phân phối tần số Các giá trị riêng tập liệu gốc không ghi nhận 60 30 Trường ĐHBK Tp.HCM Thống Kê - Chương TRUNG BÌNH CĨ TRỌNG SỐ VÀ XỬ LÝ DỮ LIỆU NHĨM ƒ Dữ liệu ệ nhóm Trung bình liệu nhóm ∑f *M i • Tổng thể μ= • Mẫu f *M ∑ x= i N i i n 61 TRUNG BÌNH CĨ TRỌNG SỐ VÀ XỬ LÝ DỮ LIỆU NHĨM ƒ Dữ liệu nhóm Phương sai liệu nhóm ƒ Tổng thể ƒ Mẫu σ s ∑ f * (M = i − μ) ∑ f * (M = i − x) i N i n −1 62 31

Ngày đăng: 01/12/2017, 22:13

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan