Bài tập lớn môn xác xuất thống kê chủ đề 3 tập tin diet csv (cung cấp bởi đại học sheffield, anh) chứa thông tin về một thử nghiệm về hiệu quả

44 6 0
Bài tập lớn môn xác xuất thống kê chủ đề 3 tập tin diet csv (cung cấp bởi đại học sheffield, anh) chứa thông tin về một thử nghiệm về hiệu quả

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA *** -BÀI TẬP LỚN MÔN: XÁC XUẤT THỐNG KÊ CHỦ ĐỀ Giảng viên hướng dẫn: Hồng Văn Hà Nhóm sinh viên thực hiện: Nhóm 15 – L10 Họ tên MSSV Trần Nguyễn Xuân Tiên 2012189 Trương Bảo Khánh 2011396 Phùng Minh Đức 2013012 Trưởng nhóm: Nguyễn Cường Thịnh Hồ Chí Minh, ngày 08 tháng năm 2022 2014596 Bảng phân công làm việc thành viên: Họ tên MSSV Nhiệm vụ Trần Nguyễn Xuân Tiên 2012189 Soạn lý thuyết thống kê mô tả Trương Bảo Khánh 2011396 Soạn lý thuyết Anova Nguyễn Cường Thịnh 2014596 Soạn Code Rstudio hoạt động 2, soạn báo cáo Phùng Minh Đức 2013012 Soạn Code Rstudio hoạt động LỜI CẢM ƠN Trong thời gian học tập mơn Xác Xuất Thống Kê, chúng em có hội tiếp xúc làm quen với nhiều kiến thức, sở để chúng em hồn thành tập lớn Đây kiến thức quý báu phục vụ cho trình học tập, làm việc sau chúng em Ngoài ra, chúng em cảm thấy thân có tiến việc chủ động học tập, tìm kiếm thơng tin, trau dồi kĩ làm việc nhóm, tạo mối quan hệ gắn kết với bạn nhóm lớp Để có kết nhờ tận tâm trình giảng dạy, truyền đạt kiến thức lớp hướng dẫn chúng em trình thực tập lớn Thầy Hoàng Văn Hà Chúng em xin gửi lời cảm ơn sâu sắc chân thành đến thầy Mục lục Hoạt động 1: Cơ sở lý thuyết 3.1 Thống kê mô tả 3.1.1 Một số khái niệm 3.1.2 Mô tả liệu đồ thị 3.1.3 Mô tả liệu định lượng 3.1.4 Các phân phối thường gặp thống kê 3.2 Phân tích phương sai – Kiểm định ANOVA (Analysic of Variance) 12 3.2.1 Phân tích phương sai yếu tố (One way ANOVA) 12 3.2.2 Phân tích phương sai hai yếu tố (Two way ANOVA) 16 THỰC HIỆN: 20 4.1 Đọc liệu, thực thống kê mô tả thực kiểm định: 20 4.2 Phân tích phương sai nhân tố (one way anova): 24 4.3 Phân tích phương sai nhân tố (two way anova): 29 Hoạt động 2: 30 5.1 Đọc liệu, thực thống kê mô tả thực kiểm định: 31 5.2 Phân tích phương sai nhân tố (one way anova): 34 5.3 Phân tích phương sai nhân tố (two way anova): 36 TÀI LIỆU THAM KHẢO 37 Hoạt động 1: Tập tin Diet.csv (cung cấp Đại học Sheffield, Anh) chứa thông tin thử nghiệm hiệu chế độ ăn kiêng việc giảm cân nặng người trưởng thành Một người tham gia áp dụng ba chế độ ăn kiêng khác vòng tuần lễ Cân nặng người tham gia ghi nhận trước sau kết thúc thử nghiệm để đánh giá hiệu chế độ ăn kiêng Các biến liệu: • Person = số thứ tự người tham gia thử nghiệm • gender = giới tính người tham gia (1 = nam, = nữ) • Age = tuổi (năm) • Height = chiều cao (cm) • pre.weight = cân nặng trước áp dụng chế độ ăn kiêng (kg) • Diet = chế độ ăn kiêng (3 chế độ khác nhau) • weight6weeks = cân nặng sau tuần ăn kiêng Các bước thực hiện: Đọc liệu (Import data): Diet.csv Làm liệu (Data cleaning): NA (dữ liệu khuyết) Làm rõ liệu: (Data visualization) (a) Chuyển đổi biến (nếu cần thiết) (b) Thống kê mô tả: dùng thống kê mẫu dùng đồ thị t.test: Dùng kiểm định phù hợp cho hai biến pre.ueight ueight6weeks ANOVA nhân tố: Chế độ ăn kiêng Diet hiệu việc giảm cân ANOVA hai nhân tố: Chế độ ăn kiêng Diet giới tính gender ảnh hưởng đến việc giảm cân weightLOST? Cơ sở lý thuyết 3.1 Thống kê mô tả 3.1.1 Một số khái niệm -Tổng thể (population): tập hợp tất phần tử mang đặc trưng quan tâm hay cần nghiên cứu -Mẫu (sample): tập chọn từ tổng thể -Tham số (parameter): đặc trưng cụ thể tổng thể -Thống kê (statistic): đặc trưng cụ thể mẫu -Chọn mẫu ngẫu nhiên: Một mẫu ngẫu nhiên (random sample) gồm n phần tử chọn từ tổng thể phải thỏa điều kiện sau: • Mỗi phần tử tổng thể phải chọn ngẫu nhiên độc lập • Mỗi phần tử tổng thể có khả chọn (xác suất chọn nhau) • Mọi mẫu cỡ n có khả chọn từ tổng thể -Phương pháp chọn mẫu ngẫu nhiên đơn giản (simple random sampling): • Đánh số phần tử tổng thể từ đến N Lập phiếu đánh số • Trộn phiếu, sau chọn có hoàn lại n phiếu Các phần tử tổng thể có số thứ tự phiếu lấy chọn làm mẫu -Thống kê mô tả (descriptive statistics): trình thu thập, tổng hợp xử lý liệu để biến đổi liệu thành thơng tin • Thu thập liệu: khảo sát, đo đạc, • Biểu diễn liệu: dùng bảng đồ thị • Tổng hợp liệu: tính tham số mẫu trung bình mẫu (sample mean), phương sai mẫu (sample variance), trung vị (median), 3.1.2 Mô tả liệu đồ thị Giới thiệu: -Việc mô tả liệu đồ thị cho ta nhìn tổng quan liệu trước vào phân tích cụ thể -Các loại đồ thị sử dụng phụ thuộc vào dạng biến cần phân tích -Trong phần này, ta khảo sát chủ yếu đồ thị tổ chức tần số (histogram) -Phân bố tần số (frequency distribution): • bảng chứa khoảng phân nhóm theo liệu quan trắc • tần số tương ứng liệu nằm bên khoảng Phân bố tần số cho phép • mơ tả phân phối liệu, • xem xét tính đối xứng/bất đối xứng, tập trung/phân tán liệu • nhận dạng phân phối chuẩn (bell-shaped), • xác định mode (unimodal, bimodal) -Phân bố tần số mô tả đồ thị tổ chức tần số (histogram) Xây dựng phân bố tần số: -Trong bảng phân bố tần số: • • Mỗi nhóm có bề rộng Bề rộng nhóm xác định bởi: ị ℎấ − ị é ℎấ ố ℎ ả ầ ℎ • Các khoảng khơng trùng • Nên chọn số khoảng tối thiểu ≥ -Đồ thị biểu diễn bảng phân bố tần số gọi đồ thị tổ chức tần số (histogram) - Chia liệu thành khoảng tốt? • trình "thử" "sai", • đồ thị tổ chức tần số khơng q "lởm chởm", có nhiều đỉnh • khơng có dạng "khối", biến thiên liệu -Dáng điệu phân phối (shape of the distribution) gọi đối xứng (symmetric) giá trị quan trắc cân xung quanh trung tâm -Dáng điệu phân phối gọi bất đối xứng (skewed) liệu quan trắc không phân bố đối xứng xung quanh trung tâm -Sử dụng đồ thị histogram để nhận biết phân phối xác suất đại lượng ngẫu nhiên 3.1.3 Mô tả liệu định lượng • • • Các độ đo trung tâm: -Trung bình (mean) đại lượng thường sử dụng để đo giá trị trung tâm liệu Với tổng thể có N phần tử, trung bình tổng thể tính bởi: ∑ = =1 =1 + +⋯+ Với mẫu cỡ n, trung bình mẫu ̅= ∑ =1 =1 + +⋯+ Trung bình bị ảnh hưởng giá trị ngoại lai (outliers) -Trong tập liệu xếp theo thứ tự tăng dần, trung vị (median) giá trị "chính giữa" liệu (50% bên trên, 50% bên dưới) • • trung vị Trung vị không bị ảnh hưởng điểm ngoại lai (outliers) Vị trí trung vị: xếp liệu theo thứ tự tăng dần, gọi i vị trí = +1 + Nếu i chẵn, trung vị = Xi + Nếu i lẻ, trung vị= [ ]+ [ ]+1 , với [i] phần nguyên i -Mode (yếu vị) đại lượng để đo xu hướng trung tâm liệu, giá trị thường xảy nhất, không bị ảnh hưởng điểm ngoại lai, sử dụng cho liệu định tính liệu định lượng, có nhiều mode khơng tồn mode Các độ đo biến thiên: -Khoảng biến thiên (range) độ đo biến thiên đơn giản nhất, độ chênh lệch giá trị lớn bé liệu quan trắc ℎ ả • • ế ℎ ê = − Bỏ qua phân bố liệu Bị ảnh hưởng điểm ngoại lai -Ta loại bỏ điểm ngoại cách sử dụng khoảng tứ phân vị (Inter-Quartile Range-IQR) (hay gọi độ trãi ) • Cơng thức tính khoảng tứ phân vị: IQR=Q3−Q1 với Q1 phân vị thứ (mức 25%) Q3 phân vị thứ (mức 75%) liệu • • Các điểm Q1, Q2, Q3 gọi điểm tứ phân vị Cơng thức tìm phân vị: Sắp xếp liệu theo thứ tự tăng dần, gọi Q1, Q2 (trung vị), Q3 phân vị thứ 1, liệu Vị trí Q1, Q2 Q3 xác định sau: Vị trí phân vị thứ = 0.25(n + 1) Vị trí phân vị thứ hai = 0.5(n + 1) Vị trí phân vị thứ ba = 0.75(n + 1) với n số giá trị quan trắc -Đồ thị hộp: • Để biểu diễn khoảng tứ phân vị điểm ngoại lai (outliers) ta dùng đồ thị hộp (boxplot) • Khi vẽ nhiều đồ thị boxplot nhiều tập liệu khác bên cạnh nhau, ta cịn so sánh độ phân tán so sánh giá trị trung tâm (trung bình/trung vị) tập liệu -Phương sai (Variance) trung bình bình phương độ lệch giá trị so với trung bình • • Phương sai phản ánh độ phân tán hay biến thiên liệu Phương sai tổng thể ∑ =1 = ( − ) với N số phần tử tổng thể, µ trung bình tổng thể, xi giá trị thứ i biến x • Phương sai mẫu ∑ = =1 ( − ̅) −1 ̅ với trung bình mẫu, n cỡ mẫu, Xi giá trị thứ i biến X -Độ lệch tiêu chuẩn (Standard deviation) dùng để đo biến thiên, biểu diễn biến thiên xung quanh trung bình, • • Có đơn vị đo với liệu gốc Độ lệch chuẩn tổng thể, ký hiệu σ: • Độ lệch chuẩn mẫu: ... 34 5 .3 Phân tích phương sai nhân tố (two way anova): 36 TÀI LIỆU THAM KHẢO 37 Hoạt động 1: Tập tin Diet. csv (cung cấp Đại học Sheffield, Anh) chứa thông tin thử nghiệm hiệu. .. Trong thời gian học tập môn Xác Xuất Thống Kê, chúng em có hội tiếp xúc làm quen với nhiều kiến thức, sở để chúng em hồn thành tập lớn Đây kiến thức quý báu phục vụ cho trình học tập, làm việc... 3. 1.2 Mô tả liệu đồ thị 3. 1 .3 Mô tả liệu định lượng 3. 1.4 Các phân phối thường gặp thống kê 3. 2 Phân tích phương sai – Kiểm định ANOVA (Analysic of Variance) 12 3. 2.1

Ngày đăng: 25/03/2023, 19:26