Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 142 trang
THÔNG TIN TÀI LIỆU
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN PHÂN TÍCH DỮ LIỆU KINH DOANH Đề tài: BÁO CÁO LAB1 Giảng viên: PGS Nguyễn Đình Thuân KS Nguyễn Minh Nhựt Lớp: IS403.M22 Nhóm 14: Lê Thị Ái Nhi Lê Hữu Thắng Trịnh Thị Thanh Trúc Đặng Vũ Phương Uyên Nguyễn Thị Thu Phương TP.HCM, ngày 04 tháng 03 năm 2022 Mục lục 1a: Dùng cơng cụ trực quan hóa liệu (Data Visualization) Thống kê mô tả (Descriptive Statistics) thực yêu cầu sau: Phát biểu toán (hay vấn đề) cần giải Nêu bước tiến hành tính lại giá trị bảng kết 1b: Thực yêu cầu tương tự 1a với tập tin liệu: 18 Phát biểu toán (hay vấn đề) cần giải .18 Phân tících liệiệu Pururchchasase order 19 Phân tích liệu Computer Repair Times 37 1c: Trả lời câu hỏi sau: 56 Phhâân biiệệt 56 a) Null hypothesis Alternative hypothesis 56 b) Type I error Type II error 57 c) Giá trị: α p-value: 57 Áp dụụnng 57 a) Câu cho Example 7.5 57 b) Câu cho Example 7.15, 7.16, 7.17 58 Phần I: Bài tập 1a: Dùng công cụ trực quan hóa liệu (Data Visualization) Thống kê mơ tả (Descriptive Statistics) thực yêu cầu sau: Phát biểu toán (hay vấn đề) cần giải Sử dụng MS Excel, ngôn ngữ R Ngôn ngữ Python với số liệu GDP bình quân Việt Nam, tính giải thích ý nghĩa giá trị: Count, Min, Max, Mean, Median, Mode, Quantitilele, Range, Mode, Variancece, Standard Deviation, Coefficient of Deviation, Skewness, Kurtosis Dữ liiệệu GDDP bììnnh quuâân Việệt Naam thhu thhậập tạại weebbssiitte saauu: http://finance.vietstock.vn/du-lieu-vimo/Default.htm Hình 1: Mơ tả mẫu liệu thu thập Nêu bước tiến hành tính lại giá trị bảng kết Bằng công cụ MS Excel a Tính tốn giá trị: Count, Min, Max, Mean, Median, Mode, Quantile, Range, Mode, Variance, Standard Deviation, Coefficient of Deviation, Skewness, Kurtosis Cách tính tốn tự động chức Data Analysis MS Excel Bước 1: Trong tab Data, chọn Data Analysis Hình 2: Hiển thị tab Data Excel Bưướớc 2: Khi hộp thoại Datta Analyzed xuất hiện, chọn Descriptive Statistics => OK Hình 3: Hộp thoại Data Analysis Bước 3: Trong hộp thoại Descriptive Statistics, chọn: + Input Range : vùng liệu muốn thống kê + Output Range : vùng mà kết xuất + Group By: - Columns: Dữ liệu nguồn bố trí theo cột - Rows: Dữ liệiệu nguồn bố trí theo dịng Sau thiết lập xong, chọn OK Hình 4: Hộp thoại Descrip ve Sta s cs Ta kết giá trị cần tính sau : Hình 5: Kết thống kê Descrip ve Sta s c Tính tốn thêm số giá trị chưa có: Hình 6: Kết giá trị khác Cách tính tốn khác: Count: hàm Count để đếm liệu, đối tượng chuỗi bảng tính định Hình 7: Cú pháp viết hàm kết hàm Count Số lượng năm có liệu GDP 17 năm Mean: giá trị trung bình tập hợp gồm hai nhiều số, tính tổng giá trị quan sát chia cho số quan sát Giá trị trung bình có đặc điểm chịu tác động giá trị ởmỗi quan sát, thang đo nhạy cảm thay đổi giá trị quan sát Hình 8: Cú pháp viết hàm kết hàm Mean GDP trung bình Việt Nam t năm 2000 đến 2016 1074.706 Median: Là số nằm (nếu số lượng quan sát số lẻ) giá trị trung bình hai quan sát nằm (nếu số lượng quan sát chẵn) dãy quan sát xếp thep thứ tự t nhỏ đến lớn, thường dùng để đo lường độ tập trung dạng liệu thang đo thứ tự, có đặc điểm khơng bị ảnh hưởng giá trị đầu mút dãy phân phối, thích hợp để phân tích với liệu có chênh lệch lớn giá trị hai đầu mút dãy phân phối Hình 9: Cú pháp viết hàm kết hàm Median Kết tính giá trị trung vị dãy GDP bình quân là: 1065 (USD) => Chấp nhận giả thuyết H (Những kiện t mẫu không đủ mạnh để bác bỏ H0) b) Câu cho Example 7.15, 7.16, 7.17 Sử dụng kiểm định mức ý nghĩa 5%, xác định xem giới tính nhãn hiệu ưa thích nước tăng lực coi biến độc lập hay khơng? H0 : Giới tính nhãn hiệu biến độc lập H 1: Giới tính nhãn hiệu biến phụ thuộc Hình 47: Số liệu thu thập số lượng nam nữ tương ứng với số lượng nhãn hàng thích họ Dựa cơng thức tính tần số mong đợi, ta tính tần số mong đợi t ng giới tính Áp dụng cơng thức tính Chi-Square: 59 Hình 48: Cơng thức nh Chi - square Áp dụng công thức giá trị tới hạn (critical value) Chi-Square: 60 Áp dụng công thức p-value: V i c c h ti ế p c ậ n gi tr ị t i h n: T a th ấ y > 9 Giá trị Chi-Square > giá trị Chi-Square critical value (6.49 > 5.99) Bác bỏ H Với cách tiếp cận p-value: Ta thấy 0.0389 < 0.05 G i t r ị p v a l u e < m ứ c ý n g h ĩ a B c b ỏ H 61 62 Phần II: Phân công Thành viên Công việc Trịnh Thị Thanh Trúc Lê Thị Ái Nhi Thực yêu cầu câu 1b tập liệu Purchase Orders Thực1C: yêu cầu câu Đặng Vũ Phương Uyên - Tììm hiểểu cáácch áp dụụnng kiến thức cho example 7.5, 7.15, 7.16, 7.17 Lê Hữu Thắng Thực yêu cầu câu 1a: - Tíínnh giiá trị bằằnng ngôn ngữ R Python - Dùùnng MS Exxcceel visualize giá trị tính Thực yêu cầu câu 1C: - Tììm hiểểu cáácch áp dụụnng kiến thức cho example 7.5, 7.15, 7.16, 7.17 Thực yêu cầu câu 1C: - Phhâân biệệt Nuulll hypothesi s Alternative hypothesi s - Tììm hiểểu cáácch áp dụụnng kiến thức cho example 7.5, 7.15, Mức độ hồn thành 7.16, 7.17 Trình bày báo cáo 100% Thực yêu cầu câu 1b tập liệu Computer Repair Times 100% - Phân biệt Type I errrroor - vàPhânTyp ebiệtIIGiáerro rtrịrị: α pvalue 100% 100% 63 Thực yêu cầu câu 1a: - Nguyễn Thị Thu Phương Thực yêu cầu câu 1C: - kiến thức cho example 7.5, 7.15, 7.16, 7.17 Tài liệu tham khảo 64 ... Tứ phân vị đại lượng mô tả phân bố phân tán tập liệu có giá trị số phân chia nhóm kết quan sát số thành bốn phần, phần có số liệu quan sát (=25% số kết quan sát) Tứ phân vị có giá trị, tứ phân. .. Kurtosis Hình 39: Số liệu cụ thể tập n Purchase Orders 18 Hình 40: Số liệu cụ thể tập n Purchase Orders Phân tích liệu Purchase order Bằng cơng cụ MS Excel Phân tích cột liệu Cost per order a... yêu cầu tương tự 1a với tập tin liệu: 18 Phát biểu toán (hay vấn đề) cần giải .18 Phân tících liệiệu Pururchchasase order 19 Phân tích liệu Computer Repair Times 37 1c: