Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 48 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
48
Dung lượng
2,51 MB
Nội dung
BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Bài tập thiết kế theo lab, lab tiết có hướng dẫn GV Cuối buổi thực hành, sinh viên nộp lại phần tập thực cho GV hướng dẫn Những câu hỏi mở rộng/khó giúp sinh viên trau dồi thêm kiến thức môn học Sinh viên phải có trách nhiệm nghiên cứu, tìm câu trả lời chưa thực xong thực hành BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM BÀI TẬP THỰC HÀNH MÔN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG LAB 1: LÀM QUEN VỚI PYTHON Nội dung: Download Python Cài đặt Python Làm quen với Python Các IDE cho Python Các package quan trọng sử dụng thống kê Bài tập Download Python Để download Python, bạn truy cập địa chỉ: https://www.python.org/downloads/ Nhấn vào nút Download Python 3.7.3 để download phiên Python Sau download xong bạn có file python-3.7.3.exe BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Cài đặt Python Thực thi file bạn download bước để bắt đầu cài đặt Chọn "Customize Installation" để bạn tùy chọn ví trí Python cài đặt Thực theo bước để hoàn thành việc cài đặt Làm quen với Python Vào mục tìm kiếm Window gõ chữ "Python", xuất IDLE (Python 3.7 32-bit), nhấn chọn vào IDLE Chương trình "Python Shell" thực thi, chương trình giúp bạn viết mã Python Dưới hình ảnh Python Shell: BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Nhập vào đoạn code: print("Hello Python") nhấn Enter Sau bạn cài đặt xong Python, ta có thêm công cụ Python Shell, IDE (Integrated Development Environment) giúp bạn viết mã Python Nếu bạn không muốn sử dụng Python Shell bạn sử dụng IDE khác Các IDE cho Python Một số IDE giúp bạn lập trình Python: PyCharm Anaconda Jupiter Notebook Hướng dẫn cài đặt Jupiter Notebook: Sau cài đặt xong Python 3.7, vào Command Promt gõ lệnh: pip install jupyter BỘ MÔN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Q trình cài đặt diễn bình thường khơng có dòng màu đỏ Hướng dẫn sử dụng jupyter notebook: Khởi động Jupyter Notebook: Ở command prompt, nhập vào câu lệnh đây, server khởi động, xác nhận việc hiển thị giao diện Jupyter Notebook browser BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM BÀI TẬP THỰC HÀNH MÔN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Mặc định Jupyter Notebook sử dụng cổng 8888, nhiên định cổng khác tham số –-port Xem ví dụ dưới: Sau khởi động, hình hiển thị Ở hình này, danh sách file thư mục hiển thị Cách mở Notebook mới: Click vào button 「New」 góc bên phải, lựa chọn 「Python 3」 để mở Notebook Làm việc với Notebook: Một notebook bao gồm nhiều cell (ô) Khi tạo notebook, bạn tạo sẵn cell rỗng Cell có kiểu “Code”, điều có nghĩa bạn gõ code Python vào cell Để thực thi code, bạn nhấn nút Run cell nhấn phím Ctrl + Enter BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM BÀI TẬP THỰC HÀNH MÔN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Kết hiển thị ô bên Một cell rỗng tạo sau bạn thực thi code Hãy gõ tiếp đoạn code Python để thử nghiệm: Bạn chuyển loại cell từ Code thành Markdown để viết đoạn văn giải thích code bạn Để chuyển đổi, bạn click vào ComboBox Code chọn Markdown hình: Sau chuyển, nhập đoạn Markdown sau để thử nghiệm BỘ MÔN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Bạn nhấn nút Run cell nhấn Ctrl + Enter để xem kết Nếu bạn muốn chỉnh sửa đoạn Markdown vừa thực thi việc click vào kết vừa xuất bạn chuyển sang chế độ chỉnh sửa Checkpoint: Một chức cực hay Jupyter Notebook Checkpoints Bằng cách tạo Checkpoints lưu trạng thái notebook, Jupyter Notebook cho phép bạn quay lại thời điểm tạo Checkpoints để kiểm tra hồn tác trước Để tạo Checkpoint, chọn File -> Save and Checkpoint Nếu bạn muốn xem lại Checkpoints trước chọn File -> Revert to Checkpoint Chức Export notebook: Jupyter Noteboook cho phép bạn export notebook bạn vài loại file như: PDF, HTML, Python(.py), Để làm điều đó, bạn chọn File -> Download as: BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Các package quan trọng sử dụng thống kê: numpy: dùng cho kiểu liệu vector array BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM BÀI TẬP THỰC HÀNH MÔN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG scipy: dùng cho thuật toán thống kê matplotlib: dùng để vẽ dạng đồ thi seaborn: dùng để vẽ dạng đồ thị pandas: dùng cho Dataframe (giống bảng gồm dịng cột) statsmodels: dùng để mơ hình hóa thống kê phân tích nâng cao ví dụ phân tích hồi quy phân tích phương sai Hướng dẫn cài đặt package này: vào Command Prompt Window gõ lệnh: pip install Ví dụ: pip install numpy BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 10 BÀI TẬP THỰC HÀNH MÔN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG LAB 3: Nội dung: THỐNG KÊ MÔ TẢ Xây dựng histogram Xây dựng scatterplot Xây dựng bar char pie char Tính giá trị thống kê: giá trị trung bình (mean), trung vị (median), range (min, max), phương sai (varian), độ lệch chuẩn (standard deviation) Xây dựng box plot Kiểm tra dạng chuẩn Dữ liệu: Dữ liệu sử dụng lab tập liệu cân nặng trẻ sơ sinh trường hợp bà mẹ hút thuốc mang thai trường hợp bà mẹ không hút thuốc mang thai (Dữ liệu chuẩn bị sẵn tập tin: babies.txt) Mô tả liệu: Tên cột Ý nghĩa bwt Cân nặng trẻ sơ sinh (baby weight), tính theo đơn vị ounce (100 ounce=2.83495kg) smoke Tình trạng hút thuốc bà mẹ mang thai 0= khơng hút, 1= có hút, 9=khơng biết Trong lab này, ta phân tích liệu quan sát để trả lời câu hỏi: “Việc bà mẹ hút thuốc mang thai có ảnh hưởng đến cân nặng trẻ sơ sinh hay không?” Để trả lời câu hỏi trên, cần thực so sánh cân nặng trẻ sơ sinh hai trường hợp: trường hợp bà mẹ hút thuốc mang thai trường hợp bà mẹ không hút thuốc mang thai Sự khác biệt có ý nghĩa hay khơng? Để so sánh cân nặng trẻ sơ sinh trường hợp, dựa vào thống kê mơ tả: thống kê mô tả số (numerical summaries), thống kê mơ tả hình (graphical): histogram, boxplot, quantile plot, bar char, pie char Do đó, nội dung chi tiết cần thực hiện: (1) Tính đại lượng thống kê mơ tả từ rút nhận xét tập liệu (cân nặng trẻ trường hợp bà mẹ hút thuốc cân nặng trẻ trường hợp bà mẹ không hút thuốc) Cụ thể, ta phân tích khác biệt hai tập liệu: cân nặng trẻ trường hợp bà mẹ hút thuốc cân nặng trẻ trường hợp bà mẹ không hút thuốc dựa vào đại lượng thống kê mô tả (2) Biểu diễn liệu dạng đồ thị từ rút nhận xét tập liệu (trường hợp bà mẹ hút thuốc trường hợp bà mẹ không hút thuốc) Cụ thể, ta sử dụng dạng đồ thị: histogram, boxplot, quantile plot, bar char, pie char qua phân tích khác biệt hai tập liệu: cân nặng trẻ BỘ MÔN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 34 BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG trường hợp bà mẹ hút thuốc cân nặng trẻ trường hợp bà mẹ không hút thuốc dựa vào đồ thị Tính độ biến động liệu Hai yếu tố để ước lượng độ biến động liệu: tâm liệu Qua đó, ta cần tìm hiểu: liệu phân bố trung tâm (center) hai bên đuôi (tail) Trong liệu chiều, để đo tính biến động liệu, ta sử dụng đại lượng: phương sai (Variance), độ lệch chuẩn (Standard deviation), khoảng cách giá trị lớn nhỏ (Range) phần tư vị (IQR-InterQuantile Range) IQR cho phép khảo sát phần tâm liệu khong t ẳ cho n ắ ụi khi, d hình dung, người phân tích biểu diễn liệu theo boxplot hay histogram, minh họa sau Mô tả liệu giá trị số: Bước 1: Tính đại lượng thống kê cho hai tập liệu: (Cân nặng trẻ trường hợp bà mẹ hút thuốc mang thai cân nặng trẻ trường hợp bà mẹ không hút thuốc mang thai) Dùng python để thực điền vào bảng sau: TH1: Bà mẹ hút thuốc TH2: Bà mẹ không hút thuốc Số lượng Min Max Mean Sd Var Median Mode Quantile 0% Quanlite 25% Quanlite 50% Quantile 75% IQR Range Bước 2: Phân tích liệu dựa đại lượng vừa tính Bước 3: So sánh giá trị thống kê mô tả hai tập liệu Dựa vào kết tính tập liệu trên: Nhận xét khác biệt vị trí tập trung liệu Nhận xét khác biệt tính biến động liệu theo mẫu sau: TH1: Bà mẹ hút TH2: Bà mẹ Chênh lệch thuốc khơng hút (TH2-TH1) thuốc Sd BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 35 BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Var Range IQR Phân tích hình dạng phân phối liệu Để phân tích hình dạng phân phối liệu, người phân tích cần tính giá trị KURTOSIS, giá trị để đo độ “bè-nhọn” đỉnh liệu giá trị SKEWNESS để đo độ “lệch (trái, phải)” liệu Dùng python để thực điền vào bảng sau: TH1: Bà mẹ hút TH2: Bà mẹ Chênh lệch thuốc không hút (TH2-TH1) thuốc Skewness Kurtosis Dựa vào kết tính tập liệu trên, có nhận xét độ bè-nhọn, độ lệch tập liệu Phân tích dạng chuẩn phân phối liệu Để phân tích liệu có phân phối chuẩn hay khơng, cách trực quan, ta biểu diễn đường cong chuẩn (normal curve) dùng đồ thị QQ-plot Dùng python để vẽ đồ thị QQ-plot theo bảng sau: QQ-plot Có hút thuốc Khơng hút thuốc Có nhận xét dạng chuẩn trường hợp trên? Biểu diễn hình học liệu Dữ liệu cân nặng trẻ trường hợp bà mẹ hút thuốc bà mẹ khơng hút thuốc Ta phân tích biểu đồ: BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 36 BÀI TẬP THỰC HÀNH MÔN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Histogram Boxplot Bar char Pie char Dùng python để vẽ đồ thị theo yêu cầu cụ thể cho bảng sau: Histogram Số lượng bin=12 Có hút thuốc Khơng hút thuốc Boxplot Có hút thuốc khơng hút thuốc BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 37 BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Bar char Số lượng bin khoảng chia bin biểu đồ sau: BỘ MÔN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 38 BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Pie char Số lượng bin khoảng chia bin biểu đồ sau: Có hút thuốc Khơng hút thuốc BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 39 BÀI TẬP THỰC HÀNH MÔN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG LAB 4: Nội dung: LẤY MẪU NGẪU NHIÊN, ƯỚC LƯỢNG THAM SỐ Lấy mẫu theo phương pháp ngẫu nhiên đơn giản Ước lượng tham số quần thể dựa vào thống kê mô tả trường hợp lấy mẫu theo phương pháp ngẫu nhiên đơn giản Dữ liệu: Dữ liệu sử dụng lab liệu khảo sát tình hình chơi game số sinh viên (Dữ liệu chuẩn bị sẵn tập tin: video.txt) Mô tả liệu: Tên cột Ý nghĩa time thời gian sinh viên dành cho chơi game tuần khoảng thời gian tuần trước thực khảo sát like mức độ thích chơi game 1=Never played, 2=Very much, 3=Somewhat, 4=Not really, 5=Not at all where nơi chơi game 1=Arcade, 2=Home on a system, 3=Home on a computer 4=Home on computer and system, 5=Arcade and Home(system or computer) 6=Arcade and home (both system and computer) freq mức độ thường xuyên chơi game 1=Daily, 2=Weekly, 3=Monthly, 4=Semesterly busy lúc bận có chơi hay khơng 0=no, 1=yes educ có chơi game có tính giáo dục hay khơng 0=no, 1=yes sex giới tính 0=female, 1=male age tuổi home nhà có máy tính hay khơng 0=no, 1=yes math có ghét mơn tốn hay không 0=no, 1=yes work số làm việc tuần trước khảo sát own có sở hữu máy tính hay khơng 0=no, 1=yes cdrom máy tính bạn có cdrom hay khơng 0=no, 1=yes email có tài khoản email khơng BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 40 BÀI TẬP THỰC HÀNH MÔN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG 0=no, 1=yes grade điểm số mong muốn bạn đạt khóa học Dữ liệu cho liệu lấy theo phương pháp ngẫu nhiên đơn giản Cụ thể cách lấy mẫu sau: Quần thể (population) liệu sinh viên đại học tham gia khóa học Introduction Probability & Statictics, Section I, khóa học mùa thu năm 1995 trường Đại học Califonia, Barkeley, Mỹ Lớp học diễn vào thứ 2, 4, từ 13 14 hội trường lớp (sức chứa 400 sinh viên), thảo luận (1 giờ) diễn vào thứ 3, với khoảng 30 sinh viên (mỗi tuần section thảo luận) Phương pháp lấy mẫu là: Chọn lấy ý kiến sinh viên vào ngày sinh viên trả thi Sinh viên tham gia khảo sát ẩn danh Cách chọn mẫu từ quần thể: chọn ngẫu nhiên Tóm lại, kết mẫu sau: Kích thước quần thể (N): N=314 sinh viên Kích thước mẫu lấy (n): n=91 sinh viên Các khái niệm mở rộng: Phương pháp bootstrap Bootstrap sample Bootstrap population: o Sử dụng phương pháp bootstrap để sinh quần thể cần khảo sát o Để sinh quần thể có kích thước N=314 từ tập mẫu có kích thước 91, tỉ lệ kích thước cần tăng lên ứng với giá trị khoảng N/n=3.45 Trong lab này, ta thực ước lượng sau: (1) Ước lượng tỉ lệ (proportion) sinh viên chơi video game tuần trước thực khảo sát (là tuần sinh viên kỳ thi) (2) Ước lượng tổng thời gian mà sinh viên dùng để chơi game tuần trước tuần thực khảo sát (là tuần sinh viên thi) tất sinh viên (3) Ước lượng thời gian trung bình mà sinh viên chơi game tuần thi Bài tập làm thêm: Dùng python để thực tập sau: Green M&M Candies liên quan đến Dataset 18 file excel Tìm tỉ lệ mẫu M&M có màu xanh Sử dụng kết để xây dựng ước lượng khoảng tin cậy 95% % quần thể M&M có màu xanh Có phải kết có quán với tỉ lệ 16% báo cáo nhà sản xuất kẹo Tại quán không? Freshman Weight Gain liên quan đến Dataset file excel a Dựa vào kết mẫu, tìm ước lượng điểm tốt tỉ lệ phần trăm sinh viên cao đẳng tăng cân năm thứ b Xây dựng ước lượng khoảng tin cậy 95% tỉ lệ phần trăm sinh viên cao đẳng tăng cân năm thứ c Giả sử bạn nhà báo, viết phát biểu mô tả kết Bao gồm thơng tin liên quan BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 41 BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Lượng mưa Boston: liên quan đến Dataset 14 file excel, quan tâm đến ngày với giá trị lượng mưa khác từ đến ngày có mưa có giá trị lượng mưa lớn Xây dựng ước lượng khoảng tin cậy 95% cho tỉ lệ mưa ngày Thứ Tư xây dựng ước lượng khoảng tin cậy 95% cho tỉ lệ mưa ngày Chủ Nhật So sánh kết Có phải lượng mưa xuất ngày nhiều so với ngày khác hay khơng? Bình chọn phim: liên quan đến Dataset 19 file excel Tìm tỉ lệ phim với tỉ lệ bình chọn R Sử dụng tỉ lệ để xây dựng ước lượng khoảng tin cậy 95% cho tỉ lệ phim với kết bình chọn R Giả sử phim liệt kê file lấy mẫu theo phương pháp lấy mẫu ngẫu nhiên đơn giản, kết luận phim có tỉ lệ bình chọn khác R khơng? Tại có khơng? Tổng số tiền phim: liên quan đến Dataset file excel Xây dựng ước tính khoảng thời gian tin cậy 95% tổng số tiền trung bình cho quần thể tất phim Giả định độ lệch chuẩn quần thể biết 100 triệu đô la Điểm đánh giá tín dụng FICO: liên quan đến Dataset 24 file excel Xây dựng ước lượng khoảng tin cậy 99% điểm FICO trung bình cho quần thể Giả sử độ lệch chuẩn quần thể 92,2 Nicotine thuốc lá: liên quan đến Dataset file excel Giả định mẫu mẫu ngẫu nhiên đơn giản thu từ quần thể phân bố chuẩn Xây dựng ước tính khoảng tin cậy 95% lượng nicotin trung bình thuốc kích thước vừa, khơng lọc, khơng menthol, khơng ánh sáng Xây dựng ước tính khoảng tin cậy 95% lượng nicotin trung bình thuốc 100 mm, lọc, không menthol không sáng So sánh kết Bộ lọc thuốc hiệu không? Nhịp tim: Một bác sĩ muốn phát triển tiêu chí để xác định xem bệnh nhân có nhịp tim khơng bình thường, muốn xác định liệu có khác biệt đáng kể đàn ông phụ nữ Sử dụng nhịp tim mẫu Dataset a Xây dựng ước tính khoảng tin cậy 95% nhịp tim trung bình cho nam b Xây dựng ước tính khoảng tin cậy 95% nhịp tim trung bình cho nữ c So sánh kết trước Chúng ta kết luận trung bình quần thể cho nam giới nữ khác nhau? Tại có hay khơng? Điểm xếp hạng tín dụng FICO liên quan đến Dataset 24 file excel Sử dụng điểm xếp hạng tín dụng để xây dựng ước lượng khoảng tin cậy 95% độ lệch chuẩn tất điểm xếp hạng tín dụng 10 Việc tiêu thụ lượng nhà: liên quan đến Dataset 12 file excel Sử dụng mẫu lượng tiêu thụ lượng nhà (tính kWh) để xây dựng ước lượng khoảng tin cậy 99% độ lệch chuẩn tất mức tiêu thụ lượng BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 42 BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG LAB 5: Nội dung: KIỂM ĐỊNH Kiểm định giá trị trung bình quần thể Kiểm định tỉ lệ quần thể Dùng python để thực tập sau: M&Ms: liên quan đến Dataset 18 file excel Tìm tỷ lệ mẫu M & Ms có màu đỏ Sử dụng kết để kiểm tra phát biểu cơng ty Mars: “20% kẹo M & M màu có màu đỏ” Sinh viên năm nhất: liên quan đến Dataset file excel bao gồm kết từ nghiên cứu mô tả “Những thay đổi trọng lượng thể khối lượng chất béo nam nữ năm trường đại học: Một nghiên cứu “Sinh viên năm nhất” Hoffman, Policastro, Quick Lee, tạp chí sức khỏe Đại học Mỹ, tập 55, số Hãy tham khảo tập liệu tìm tỷ lệ nam nghiên cứu Sử dụng mức ý nghĩa 0,05 để kiểm tra phát biếu: “khi chủ đề chọn để nghiên cứu, chủ đề chọn từ quần thể tỷ lệ nam 50%” Gấu: liên quan đến Dataset file excel Tìm tỷ lệ gấu đực nghiên cứu Sử dụng mức ý nghĩa 0,05 để kiểm tra phát biểu: “khi gấu chọn, chúng chọn từ quần thể tỷ lệ gấu đực 50%” Phim: theo phim “Information Please”, tỷ lệ phần trăm phim có xếp hạng R 55% thời gian 33 năm gần Tham khảo Dataset file excel tìm tỷ lệ phim có xếp hạng R Sử dụng mức ý nghĩa 0,01 để kiểm tra phát biểu: “các phim Dataset từ quần thể 55% phim có xếp hạng R” Các vít có chiều dài 3/4 in? Một mẫu ngẫu nhiên đơn giản 50 vít kim loại thép khơng gỉ lấy từ vít cung cấp cơng ty Crown Bolt, chiều dài vít đo cách sử dụng caliper vernier Độ dài liệt kê Dataset 19 file excel Sử dụng mức ý nghĩa 0,05 để kiểm tra phát biểu: “các vít có chiều dài trung bình in (hoặc 0,75 in.), ghi nhãn gói” Chiều dài vít có qn với số liệu ghi nhãn gói hay khơng? Cung cấp điện: Dataset 13 file excel liệt kê mức điện áp đo được cung cấp trực tiếp đến nhà tác giả Cơng ty cung cấp điện Hudson nói rằng: “mục tiêu cung cấp điện 120 volt” Sử dụng số điện áp nhà đó, kiểm tra phát biểu: “trung bình 120 volt” Sử dụng mức ý nghĩa 0,01 98,6° F có sai khơng? Dataset file excel bao gồm nhiệt độ thể người đo Sử dụng nhiệt độ liệt kê cho 12 sáng vào ngày thứ để kiểm tra niềm tin chung nhiệt độ thể 98,6 ° F Liệu niềm tin phổ biến sai khơng? BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 43 BÀI TẬP THỰC HÀNH MÔN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Điểm đánh giá tín dụng FICO: Dataset 24 file excel bao gồm mẫu ngẫu nhiên đơn giản điểm xếp hạng tín dụng FICO Theo liệu này, số điểm FICO trung bình báo cáo 678 Sử dụng mức có ý nghĩa 0,05 để kiểm tra phát biểu: “mẫu điểm FICO lấy từ quần thể có giá trị trung bình 678” LAB 6: Nội dung: HỒI QUY TUYẾN TÍNH Vẽ đồ thị scatter plot thể mối tương quan đại lượng Tính hệ số tương quan đại lượng Xây dựng phương trình hồi quy tuyến tính Kiểm định phương trình hồi quy Tính khoảng sai số dự báo đại lượng Dựa vào phương trình hồi quy xây dựng để dự báo Dữ liệu: Dữ liệu sử dụng lab liệu kích thước giáp cua (Dữ liệu chuẩn bị sẵn tập tin: crabs.txt) Mô tả liệu: Tên cột Ý nghĩa Premolt Kích thước giáp cua trước lột vỏ (tính mm) Postmolt Kích thước giáp cua sau lột vỏ (tính mm) Increment Hiệu số postmolt premolt Year Năm(81: năm 1981, 82: năm 1982, 92: 1992) Source Nguồn gốc cua: 1: lột vỏ phịng thí nghiệm; 0: lột vỏ tự nhiên Trong lab này, ta xem xét vấn đề sau: Tìm mối quan hệ kích thước giáp cua trước lột vỏ sau lột vỏ Dự đốn kích thước giáp cua trước lột vỏ dựa vào thơng tin kích thước giáp cua sau lột vỏ Trong lab này, ta thực nội dung sau: Vẽ đồ thị scatter plot thể mối tương quan premolt postmolt Tính hệ số tương quan premolt postmolt Xây dựng phương trình hồi quy Kiểm định xem phương trình hồi quy có khớp với liệu khơng Tính khoảng sai số dự đốn giá trị premolt dựa vào postmolt Dựa vào phương trình hồi quy xây dựng để dự báo BỘ MÔN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 44 BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Vẽ đồ thị scatter plot thể mối tương quan premolt postmolt Dùng python để vẽ scatter plot thể mối tương quan premolt postmolt Tính hệ số tương quan premolt postmolt Dùng python tính hệ số tương quan premolt postmolt Có nhận xét hệ số tương quan tính được? Xây dựng phương trình hồi quy tuyến tính Dùng python để xây dựng phương trình hồi quy tuyến tính premolt postmost BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 45 BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Kiểm định phương trình hồi quy Dùng python để kiểm định lại phương trình hồi quy đồ thị sau: Dùng đồ thị Residual value vs Fitted value Dùng đồ thị QQ-plot Dùng Scale-location Dùng Residual vs Leverage BỘ MÔN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 46 BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Dựa vào đồ thị phân tích lỗi, bạn có kết luận tính hợp lý phương trình hồi quy xây dựng? Tính khoảng sai số dự đoán Dùng python để ước lượng hệ số β0, β1 với độ tin cậy 1-α=0.95 Dựa vào phương trình hồi quy xây dựng để dự đốn Giả sử giá trị postmolt size là: 85, dựa vào phương trình hồi quy xây dựng, với độ tin cậy 1-α=0.95, bạn dự đoán giá trị premolt size nằm khoảng nào? LAB 7: Nội dung: HỒI QUY ĐA BIẾN Xây dựng phương trình hồi quy đa biến Xác định giá trị R2 Adjusted R2, P-value Lựa chọn phương trình hồi quy tốt Bài 1: Dữ liệu: Dữ liệu sử dụng lab tập liệu lượng nhựa, nicotine, CO thuốc cỡ king (Dữ liệu chuẩn bị sẵn tập tin: 04_CIGARET.xls) Mô tả liệu: Tên cột Ý nghĩa KgTar lượng nhựa điếu thuốc KgNic lượng nicotine điếu thuốc KgCO lượng CO điếu thuốc Xây dựng phương trình hồi quy thể mối liên hệ lượng nicotine thuốc lượng nhựa, CO thuốc Xác định giá trị sau: P-value R2 Adjusted R2 Bạn xác định phương trình hồi quy sử dụng để dự báo lượng nicotine thuốc biết lượng nhựa CO thuốc khơng? Vì có khơng? BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 47 BÀI TẬP THỰC HÀNH MƠN THỐNG KÊ MÁY TÍNH VÀ ỨNG DỤNG Bài 2: Dữ liệu: Dữ liệu sử dụng lab liệu giá bán nhà (Dữ liệu chuẩn bị sẵn tập tin: 23_HOMES.xls) Mô tả liệu: Tên cột Ý nghĩa Selling_Price giá bán List_Price giá niêm yết Area diện tích sử dụng ngơi nhà Acres diện tích đất Nếu sử dụng biến x để dự báo giá nhà, phương trình hồi quy biến dự báo (predictor) sau tốt nhất? Tại sao? Nếu sử dụng biến dự báo để dự báo giá nhà, phương trình hồi quy biến dự báo (predictor) tốt nhất? Tại sao? Phương trình hồi quy số phương trình hồi quy tốt để dự báo giá nhà? Tại sao? Một nhà rao bán với giá niêm yết 400.000 USD, có diện tích 3000 feet vng, diện tích đất rộng mẫu Giá trị dự đốn tốt giá bán bao nhiêu? Giá bán dự đốn ước lượng tốt hay khơng? Giá trị dự đốn có khả xác khơng? BỘ MƠN KHOA HỌC MÁY TÍNH TRƯỜNG ĐHCN TP HCM 48