BÁO cáo bài tập lớn 2 xác SUẤT THỐNG kê PHƯƠNG PHÁP PHÂN TÍCH sâu ANOVA KIỂM ĐỊNH TUKEY (PHÂN TÍCH hậu ANOVA)

48 15 0
BÁO cáo bài tập lớn 2 xác SUẤT THỐNG kê  PHƯƠNG PHÁP PHÂN TÍCH sâu ANOVA   KIỂM ĐỊNH TUKEY (PHÂN TÍCH hậu ANOVA)

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

ĐẠI HỌC QUỐC GIA ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH BÁO CÁO BÀI TẬP LỚN XÁC SUẤT THỐNG KÊ LỚP L06 - NHÓM 09 - HK 202 NGÀY NỘP: 17/12/2020 Giảng viên hướng dẫn: GV NGUYỄN KIỀU DUNG Sinh viên thực Trần Huỳnh Hưng Thịnh Hoàng Anh Tuấn Đặng Quang Vinh Nguyễn Minh Thái Lương Thiện Tài Nguyễn Minh Chánh Nguyễn Minh Chánh Lê Trí Hiển Đậu Cao Lợi Thành phố Hồ Chí Minh – 2021 MỤC LỤC 30 LỜI MỞ ĐẦU I PHẦN CHUNG: II PHẦN RIÊNG: PHẦN CHUNG CƠ SỞ LÝ THUYẾT I KHÁI NIỆM, PHÂN LOẠI ANOVA II PHƯƠNG PHÁP PHÂN TÍCH SÂU ANOVA - KIỂM ĐỊNH TUKEY (PHÂN TÍCH HẬU ANOVA): 10 BÀI TẬP 11 Phần 1: Nhập làm liệu, thực thống kê mô tả 11 Phần 2: Phân tích phương sai nhân tố (one way ANOVA) 26 PHẦN RIÊNG 34 CƠ SỞ LÝ THUYẾT 34 LÝ THUYẾT HỒI QUY TUYẾN TÍNH BỘI: 34 BÀI TẬP 34 Đọc liệu (Import Data): 35 Làm liệu (Data Cleaning): 35 Làm rõ liệu (Data visualization): 36 Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): 42 Dự đoán (Prediction): 46 LỜI MỞ ĐẦU 30 Môn học Xác suất – Thống kê môn học quan trọng sinh viên ngành khoa học tự nhiên, kỹ thuật, kinh tế số ngành khoa học xã hội khác Sinh viên học mơn học Xác suất – thống kê mục tiêu không nắm vững kiến thức tảng Sách Giáo trình XÁC SUẤT VÀ THỐNG KÊ (Nguyễn Đình Huy) mà cịn phải biết sử dụng cách phần mềm thống kê phổ biến nhằm mục đích ứng dụng học vào thực tế đời sống, cơng việc Chính tầm quan trọng, cấp thiết việc sử dụng phần mềm thống kê mà nhóm chúng em định học cách sử dụng phần mềm thống kê R/RStudio để giải toán thống kê BTL2 Không nhằm bổ sung kiến thức cho thân chúng em mà giúp người làm tiếp xúc, sử dụng phần mềm thống kê mà cụ thể phần mềm R/RStudio Trong q trình thực báo cáo, nhóm cố gắng nhiều để đảm bảo yêu cầu, nội dung môn học đủ khối lượng kiến thức, tất nhiên tránh khỏi sai sót Rất mong nhận ý kiến đóng góp từ giảng viên để chúng em hoàn thiện tốt cho báo cáo tương lai TRÂN TRỌNG NHĨM Tóm tắt câu hỏi: 30 I.PHẦN CHUNG: Đề tài: Tập tin flights.rda cung cấp thông tin 162049 chuyến bay khởi hành từ hai sân bay lớn vùng Tây bắc Thái Bình Dương Mỹ, SEA Seattle PDX Portland năm 2014 Dữ liệu cung cấp Văn phòng Thống kê Vận tải, Mỹ (https://www.transtats.bts.gov/) Dữ liệu dùng để phân tích nguyên nhân gây khởi hành trễ hoãn chuyến bay Câu hỏi: Nhập làm liệu, thực thống kê mơ tả Phân tích phương sai nhân tố (one way ANOVA) II PHẦN RIÊNG: Đề tài: Tập tin “Data.xlsx” chứa thông tin việc tái chế tro xỉ từ trình đốt than lắng đọng bãi thải chất thải dung dịch khoan (WDF) từ ngành khai thác dầu nhằm mục đích thay phần đất sét vật liệu xây dựng nghiên cứu Qua xác định cường độ chịu nén, mật độ mật độ lỗ rỗng vật liệu thực nghiệm theo quy trình tiêu chuẩn mẫu thử sản xuất từ hỗn hợp hai vật liệu thải đất sét theo tỷ lệ khác Dữ liệu lấy từ: https://data.mendeley.com/datasets/z36mjhkr5n/1 Câu hỏi Đọc liệu (Import Data): Làm liệu (Data Cleaning): Làm rõ liệu (Data visualization): Xây dựng mơ hình hồi quy tuyến tính (Fitting linear regression models): Dự đoán (Prediction): 30 PHẦN CHUNG Đề tài: Tập tin flights.rda cung cấp thông tin 162049 chuyến bay khởi hành từ hai sân bay lớn vùng Tây bắc Thái Bình Dương Mỹ, SEA Seattle PDX Portland năm 2014 Dữ liệu cung cấp Văn phòng Thống kê Vận tải, Mỹ (https://www.transtats.bts.gov/) Dữ liệu dùng để phân tích nguyên nhân gây khởi hành trễ hoãn chuyến bay Chi tiết liệu sau: • Tổng chuyến bay thống kê: 162049 • Tổng số biến 16 • Mơ tả biến chính: 1.year, month, day: ngày khởi hành chuyến bay carrier: tên hãng hàng khơng, mã hóa chữ in hoa Ví dụ: UA = United Air Lines, AA = American Airlines, DL = Delta Airlines, v.v origin dest: tên sân bay đến Đối với sân bay đi, ta có hai giá trị SEA (Seattle) PDX (Portland) 4.dep_time arr_time: thời gian cất cánh hạ cánh (theo lịch dự kiến) dep_delay arr_time: chênh lệch (phút) thời gian cất cánh/hạ cánh thực tế với thời gian cất cánh/hạ cánh in vé distance: khoảng cách hai sân bay (dặm) CƠ SỞ LÝ THUYẾT I KHÁI NIỆM, PHÂN LOẠI ANOVA Khái niệm: Phân tích phương sai hay phân tích ANOVA phương pháp thử nghiệm hữu ích quan trọng Nó sử dụng nhiều nghiên cứu - phân tích định lượng đặc biệt lĩnh vực nghiên cứu bao gồm sinh học, kinh tế tâm lý học, … Trong báo cáo này, tìm hiểu khái niệm phân tích ANOVA bước phân tích ANOVA 30 Phân tích phương sai - ANOVA ? Phân tích phương sai (Analysis of Variance) hay gọi kiểm định ANOVA kỹ thuật thống kê tham số sử dụng để so sánh liệu Nói cách dễ hiểu, phân tích ANOVA có chức đánh giá khác biệt tiềm biến phụ thuộc mức quy mơ biến mức danh nghĩa có từ loại trở lên Các nhà phân tích sử dụng thử nghiệm ANOVA để xác định ảnh hưởng biến độc lập biến phụ thuộc nghiên cứu hồi quy Kỹ thuật kiểm định ANOVA phát triển Ronald Fisher năm 1918 Phân loại Có nhiều loại phân tích phương sai, nhiên khuôn khổ nội dung báo cáo này, tìm hiểu hai loại thơng dụng phân tích phương sai nhân tố phân tích phương sai hai nhân tố a Phân tích phương sai nhân tố Phân tích phương sai nhân tố phân tích ảnh hưởng yếu tố nguyên nhân (định tính) đến yếu tố kết (định lượng) Ví dụ: Thời gian tự học (yếu tố nguyên nhân – định tính) ảnh hưởng đến kết học tập (yếu tố kết - định lượng) Bài tốn: Giả sử ta có: k nhóm gồm n1,n2, ,nk phần tử chọn từ k tổng thể µ1,µ2,…,µk trung bình k tổng thể xij giá trị (quan sát) thứ j nhóm thứ i Bảng giá trị quan sát k nhóm: x11 … Giả sử k tổng thể có phân phối chuẩn, có phương sai mẫu độc lập 30 Bước 1: Tính giá trung bình cho nhóm chung cho tất nhóm Bước 2: Tính biến thiên (tổng bình phương độ lệch) nội nhóm Nhận xét: SSW tổng biến thiên nội nhóm, biến thiên gây yếu tố khác với yếu tố mà ta nghiên cứu - Tính biến thiên nhóm Nhận xét: SSG biến thiên gây khác nhóm, biến thiên gây yếu tố mà ta nghiên cứu Gọi SST tổng biến thiên quan sát so với giá trị trung bình SST = SSW + SSG Tổng biến thiên = biến thiên yếu tố khác ( SSW) + biến thiên yếu tố nghiên cứu (SSG) Nhận xét: Nếu phần biến thiên yếu tố nghiên cứu tạo (SSG) lớn phần biến thiên yếu tố khác tạo (SSW) chứng tỏ yếu tố nghiên cứu thật ảnh hưởng đến yếu tố kết => tăng khả bác bỏ H0 Bước 3: Tính phương sai: phương sai yếu tố khác gây phương sai yếu tố nghiên cứu gây Bước 4: Kiểm định giả thuyết: Xét tỉ số phương sai: 30 Nhận xét: Nếu MSG lớn, MSW nhỏ => F lớn => bác bỏ H0 Bảng ANOVA: Kết phân tích phương sai thường trình bày dạng bảng sau Nguồn biến thiên Giữa nhóm Trong nội nhóm Tổng cộng b Phân tích phương sai hai nhân tố: ANOVA hai yếu tố phần mở rộng phân tích phương sai yếu tố Với One Way, có biến độc lập ảnh hưởng đến biến phụ thuộc Còn với twoway ANOVA, có biến độc lập Ví dụ: sử dụng phân tích ANOVA hai yếu tố để tìm hiểu liệu có tương tác giới tính trình độ học vấn lo lắng kiểm tra sinh viên đại học Trong giới tính (nam / nữ) trình độ học vấn (đại học / sau đại học) biến độc lập lo lắng kiểm tra biến phụ thuộc II PHƯƠNG PHÁP PHÂN TÍCH SÂU ANOVA - KIỂM ĐỊNH TUKEY (PHÂN TÍCH HẬU ANOVA): Kiểm định Tukey hay gọi so sánh cặp trung bình tổng thể, với giả định mẫu lấy ngẫu nhiên độc lập cặp từ tổng thể có phân phối chuẩn phương sai Khi giả thuyết H0 kiểm định ANOVA bị bác bỏ (tức có khác biệt trung bình tổng thể) câu hỏi đặt là: Trung bình tổng thể khác Tổng thể có trung bình lớn hay nhỏ Để trả lời cho câu hỏi này, ta sử dụng phương pháp kiểm định Tukey để so sánh cặp tổng thể với 30 Giả sử cần kiểm định khác biệt trung bình tổng thể Gọi µ1, µ2, µ3 trung bình tổng thể tương ứng Các bước kiểm định Tukey thực sau: H: C H1: 3 Với k tổng thể số cặp trung bình cần so sánh T q ;k;n k Trong đó: q ; k ; n k giá trị tra từ bảng phân vị Tukey, với mức ý nghĩa α, bậc tự k n-k MSW phương sai nội nhóm ni số quan sát nhóm tổng thể, trường hợp nhóm có số quan sát ni khác sử dụng ni nhỏ Tính giá trị kiểm định D: giá trị tuyệt đối chênh lệch hai giá trị trung bình nhóm D1 x1 x ; Quy tắc kiểm định: Nếu D2 D x2 T i x ; D3 x1 x ; bác bỏ giả thuyết H0 BÀI TẬP Phần 1: Nhập làm liệu, thực thống kê mô tả Câu a: Trong R, sử dụng lệnh read.table để đọc liệu từ tập tin flights.txt Chú ý hàng dùng để đặt tên biến dấu ngăn cách cột dấu “,” thay khoảng trắng mặc định Ta dùng lệnh sau: setwd("c:/work/stats") flights

Ngày đăng: 22/12/2022, 05:06

Tài liệu cùng người dùng

  • Đang cập nhật ...

Tài liệu liên quan