KHOA HỌC DỮ LIỆU.BÀI 2: THỐNG KÊ

Khoa học liệu Bài - Thống kê NỘI DUNG PHÂN LOẠI DỮ LIỆU MÔ TẢ DỮ LIỆU BẰNG BIỂU ĐỒ TẦN SUẤT MÔ TẢ DỮ LIỆU BẰNG ĐẠI LƯỢNG THỐNG KÊ MÔ TẢ MỐI TƯƠNG QUAN DỮ LIỆU KIỂM TRA GIẢ THUYẾT PHÂN LOẠI DỮ LIỆU DỮ LIỆU VÍ DỤ: QUÁN NƯỚC CHANH import pandas as pd pd.read_csv( ) DỮ LIỆU VÍ DỤ: QUÁN NƯỚC CHANH Dữ liệu bán hàng tháng ▰ ▰ ▰ ▰ ▰ ▰ ▰ Ngày bán Vị trí bán Số lượng cốc nước chanh Số lượng cốc nước cam Nhiệt độ Số lượng tờ rơi Giá cốc nước PHÂN LOẠI DỮ LIỆU Dữ liệu số: a Dữ liệu liên tục: Nhiệt độ, giá b Dữ liệu rời rạc: Số cốc nước, số tờ rơi, ngày bán Dữ liệu phân loại: Vị trí bán hàng MƠ TẢ DỮ LIỆU BẰNG BIỂU ĐỒ TẦN SUẤT Histogram VÍ DỤ: TẦN SUẤT CỦA VỊ TRÍ BÁN HÀNG seaborn.countplot( ) VÍ DỤ: PHÂN BỐ NHIỆT ĐỘ TRONG THÁNG seaborn.distplot( ) BIỂU ĐỒ TẦN SUẤT (HISTOGRAM) ▰ Mô tả chân thực phân bố liệu ▰ Số lần tần suất xuất ▻ Của giá trị (dữ liệu phân loại) ▻ Của khoảng giá trị (dữ liệu số) ▰ Một công cụ quản lý chất lượng https://en.wikipedia.org/wiki/Seven_Basic_Tools_of_Quality 10 ĐỘ LỆCH CHUẨN pandas.Series.std() ▰ Nếu liệu (xấp xỉ) có phân bố chuẩn (normal) Có đơn vị với liệu !!! ▻ 95% liệu nằm khoảng [x - 2s, x + 2s] ▻ 99% liệu nằm khoảng [x - 3s, x + 3s] 23 MÔ TẢ TƯƠNG QUAN DỮ LIỆU Associative statistics 24 HỆ SỐ TƯƠNG QUAN pandas.Series.corr( ) Ví dụ: ▰ Tương quan số lượng tờ rơi lượng hàng ▰ 0.89 ▰ Tương quan nhiệt độ lượng hàng ▰ 0.45 ▰ Tương quan giá bán lượng hàng ▰ -0.27 25 HỆ SỐ TƯƠNG QUAN pandas.Series.corr( ) ▰ Mô tả mối tương quan tăng giảm liệu (tuyến tính) ▰ Nằm khoảng [-1, 1] ▻ Dương: hai liệu tăng, giảm ▻ Âm: hai liệu có xu hướng trái ngược ▻ Gần 0: hai liệu liên quan đến 26 HỆ SỐ TƯƠNG QUAN pandas.Series.corr( ) ▰ Hệ số tương quan KHÔNG quan hệ nguyên nhân - kết ▰ Hai liệu tăng, giảm nguyên nhân thứ ba Doanh thu bán kem Số vụ cá mập công Thời tiết tốt nguyên nhân dẫn đến doanh thu bán kem số vụ cá mập công tăng 27 KIỂM TRA GIẢ THUYẾT THỐNG KÊ Hypothesis testing 28 GIẢ THUYẾT THỐNG KÊ ▰ Một đánh giá thống kê liệu mối tương quan liệu ▰ Giả thuyết ▻ ĐÚNG với độ tin cậy cao → chấp nhận (accept) ▻ ĐÚNG với độ tin cậy không cao ▻ Nên loại bỏ khẳng định (reject) 29 GIẢ THUYẾT THỐNG KÊ ▰ Ví dụ: ▻ Chiều cao trung bình học viên nam 160cm ▻ Nhiệt độ trung bình tháng 25 độ C ▻ Chiều cao trung bình học viên nam học viên nữ 30 KIỂM TRA GIÁ TRỊ TRUNG BÌNH scipy.stats.ttest_1samp() ▰ Ví dụ: ▻ Nhiệt độ trung bình tháng 25 độ ▰ Nên CHẤP NHẬN hay LOẠI BỎ giả thuyết ? ≽ 95% ▰ t-test: giả thuyết đúng, T có phân bố Student-t(df) -T T trị số p 31 KIỂM TRA GIÁ TRỊ TRUNG BÌNH scipy.stats.ttest_1samp() ▰ t-test: giả thuyết đúng, T có phân bố Student-t(df) ≽ 95% ▻ T gần → giả thuyết chấp nhận ▻ T xa → giả thuyết nên bị loại bỏ -T T trị số p 32 KIỂM TRA GIÁ TRỊ TRUNG BÌNH scipy.stats.ttest_1samp() ▰ t-test: giả thuyết đúng, T có phân bố Student-t(df) ≽ 95% ▻ trị số p lớn → giả thuyết chấp nhận ▻ trị số p nhỏ → giả thuyết nên bị loại bỏ ▻ Thường loại bỏ p < 0.05 -T T trị số p 33 KIỂM TRA GIÁ TRỊ TRUNG BÌNH scipy.stats.ttest_1samp() import pandas as pd import scipy from scipy import stats data = pd.read_csv('Lemonade2016.csv') # convert Fahrenheit to Celcius x = (data["Temperature"]-32)*5/9 t25 = stats.ttest_1samp(x, 25) t26 = stats.ttest_1samp(x, 26) print("mu = 25", "T =", t25.statistic, "p =", t25.pvalue) print("mu = 26", "T =", t26.statistic, "p =", t26.pvalue) mu = 25 T = 2.737795169120528 p = 0.0101535434145178 mu = 26 T = 0.234668157353188 p = 0.8160094280836682 ≽ 95% -T T trị số p 34 KIỂM TRA GIÁ TRỊ TRUNG BÌNH MỘT PHÍA scipy.stats.ttest_1samp() ▰ H0 = Nhiệt độ trung bình tháng 25 độ ▰ H1 = Nhiệt độ trung bình tháng lớn 25 độ ▰ t-test: trị số p 1/2 so với giả thuyết "bằng 25 độ" ≽ 95% ▻ p > 0.05 → chấp nhận H0 ▻ T < p < 0.05 → loại bỏ H0 (chấp nhận H1) -T trị số p T 35 KIỂM TRA GIÁ TRỊ TRUNG BÌNH MỘT PHÍA scipy.stats.ttest_1samp() print("mu = 25 vs mu > 25", "T =", t25.statistic, "p =", t25.pvalue / 2) print("mu = 26 vs mu > 26", "T =", t26.statistic, "p =", t26.pvalue / 2) -mu = 25 vs mu > 25 T = 2.737795169120528 p = 0.0050767717072589 mu = 26 vs mu > 26 T = 0.234668157353188 p = 0.4080047140418341 ≽ 95% -T trị số p T 36 SO SÁNH GIÁ TRỊ TRUNG BÌNH CỦA DỮ LIỆU scipy.stats.ttest_ind() scipy.stats.ttest_rel() ▰ So sánh giá trị trung bình liệu ▻ Trung bình ▻ Trung bình khác (lớn hơn, nhỏ hơn) ... print("mu = 25 vs mu > 25 ", "T =", t25.statistic, "p =", t25.pvalue / 2) print("mu = 26 vs mu > 26 ", "T =", t26.statistic, "p =", t26.pvalue / 2) -mu = 25 vs mu > 25 T = 2. 737795169 120 528 p =... t25.pvalue) print("mu = 26 ", "T =", t26.statistic, "p =", t26.pvalue) mu = 25 T = 2. 737795169 120 528 p = 0.0101535434145178 mu = 26 T = 0 .23 4668157353188 p = 0.816009 428 08366 82 ≽ 95% -T T trị số p 34... pd.read_csv('Lemonade2016.csv') # convert Fahrenheit to Celcius x = (data["Temperature" ]- 32) *5/9 t25 = stats.ttest_1samp(x, 25 ) t26 = stats.ttest_1samp(x, 26 ) print("mu = 25 ", "T =", t25.statistic, "p =", t25.pvalue)

Định dạng
Số trang	37
Dung lượng	1,75 MB