Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 64 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
64
Dung lượng
2,87 MB
Nội dung
ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN PHÂN TÍCH DỮ LIỆU KINH DOANH Đề tài: BÁO CÁO LAB1 Giảng viên: PGS Nguyễn Đình Thuân KS Nguyễn Minh Nhựt Lớp: IS403.M22 Nhóm 14 14:: Lê Thị Ái Nhi - 19521963 Lê Hữu Thắng - 19522200 Trịnh Thị Thanh Trúc - 19521059 Đặng Vũ Phương Uyên - 19520345 Nguyễn Thị Thu Phương - 19522066 TP.HCM, ngày 04 tháng 03 năm 2022 Mục lục 1a: Dùng công cụ trực quan hóa liệu (Data Visualization) Thống kê mô tả (Descriptive Statistics) thực yêu cầu sau: .3 Phát Phát biểu biểu bài toán toán (hay (hay vấn đề) cần cần giải giải quyết Nêu bbước ước tiến hành hành ttính ính lại lại các giá trị trong bảng kết quả 1b: Thực yêu cầu tương tự 1a với tập tin liệu: 18 Phát Phát biểu biểu bài toán toán (hay (hay vấn đề) cần cần giải giải quyết .18 19 Phân Phân tíc tíchh dữ liệ liệuu Pur Purch chas asee orde order r 19 Phân Phân tích tích liệu liệu Comput Computer er Repa Repair ir Time Timess 37 1c: Trả lời câu hỏi sau: 56 Phân bi biệt .56 a) Null hypothesis Alternative hypothesis 56 57 b) Type I error error Type II eerror rror .57 c) Giá trị: α p-value: 57 Áp dụng 57 a) Câu cho Example 7.5 57 b) Câu cho Example 7.15, 7.15, 7.16, 7.16, 7.17 58 Phần I: Bài tập 1a: Dùng công cụ trực quan hóa liệu (Data Visualization Visualization)) Thống kê mơ tả (Descriptive Statistics) thực yêu cầu sau: Phát biểu biểu toán (hay (hay vấn vấn đề) cần giải giải quyết Sử dụng MS Excel, ngôn ngữ R Ngôn ngữ Python với số liệu GDP bình qn Việt Nam, Nam, tính giải thích ý nghĩa giá trị: Count, Min, Max, Ma x, Mean, Mean, Medi Median an,, Mode Mode,, Quan Quanti tile le,, Rang Range, e, Mode Mode,, Vari Varian ance ce,, Stan Standa dard rd Deviation, Coefficient of Deviation, Skewness, Kurtosis Dữ liệu GDP bình quân Việt Nam thu thập website sau: http://finance.vietstock.vn/du-lieu-vi-mo/Default.htm Hình 1: Mơ tả mẫu liệu thu thập Nêu bước bước tiến hành hành tính tính lại giá trị trị trong bảng kết quả Bằng cơng cụ MS Excel a Tính tốn tốn giá giá trị: trị: Count, Count, Min, Max, Mean, Mean, Median, Median, Mode, Quantile, Range, Mode, Variance, Standard Deviation, Deviation, Coefficient of Deviation, Skewness, Kurtosis Cách tính tốn tự động chức Data Analysis MS Excel Bước 1: Trong tab Data, chọn Data Analysis Hình 2: Hiển thị tab Data Excel Bước 2: Khi hộp hộp thoại hoại Dat Data Analy nalyze zedd xuất xuất hiện,, chọn chọn Descriptive Statistics => OK Hình 3: Hộp thoại Data Analysis Bước 3: Trong hộp thoại Descriptive Statistics, chọn: + Input Range : vùng liệu muốn thống kê + Output Range : vùng mà kết xuất + Group By: - Colu Column mns: s: Dữ liệu liệu nguồ nguồnn bố bố trí trí th theo eo cột cột - Rows Rows:: Dữ Dữ liệ liệuu ngu nguồn ồn bố trí trí the theoo dịn dịngg Sau thiết lập xong, chọn OK Hình 4: Hộp thoại Descripve Stascs Ta kết giá trị cần tính sau : Hình 5: Kết thống kê Descripve Stasc Tính tốn thêm số giá trị chưa có: Hình 6: Kết giá trị khác Cách tính tốn khác: Count: hàm Count để đếm liệu, đối tượng chuỗi bảng tính định Hình 7: Cú pháp viết hàm kết hàm Count Số lượng năm có liệu GDP 17 năm Mean: giá trị trung bình tập hợp gồm hai nhiều số, tính tổng giá trị quan sát chia cho số quan sát Giá trị trung bình có đặc điểm chịu tác động giá trị quan sát, thang đo nhạy cảm thay đổi giá trị quan sát Hình 8: Cú pháp viết hàm kết hàm Mean GDP trung bình Việt Nam t năm 2000 đến 2016 1074.706 Median: Là số nằm (nếu số lượng quan sát số lẻ) giá trị trung bình hai quan sát nằm (nếu số lượng quan sát chẵn) dãy quan sát xếp thep thứ tự t nhỏ đến lớn, thường dùng để đo lường độ tập trung dạng liệu thang đo thứ tự, có đặc điểm khơng bị ảnh hưởng giá trị đầu mút dãy phân phối, thích hợp để phân tích với liệu có chênh lệch lớn giá trị trị hai đầu mút dãy phân phối Hình 9: Cú pháp viết hàm kết hàm Median Kết tính giá trị trung vị dãy GDP bình quân là: 1065 (USD) Min/Max: thể giá trị lớn nhất, nhỏ đối số hay vùng liệu + Min năm có GDP thấp + Max năm có GDP cao Hình 10: Cú pháp viết hàm kết hàm Min/Max Mode: Là giá trị có tần suất xuất lớn tập hợp số Hình : Cú Cú pháp viết viết hàm kết hàm Mode Mode Trong trường hợp này, không tồn giá trị GDP lặp lại nên khơng thể tính giá trị Mode Quartile: Tứ phân vị đại lượng mô tả phân bố phân tán tập liệu có giá trị số phân chia nhóm kết quan sát số thành bốn phần, phần có số liệu quan sát (=25% số kết quan sát) Tứ phân vị có giá trị, tứ phân vị thứ (Q1), thứ nhì (Q2) thứ ba (Q3) Ba giá tập4hợp (đã sắpquan xếpsát dữđều liệunhau theo trật t ttrịbénày đếnchia lớn)một thành phầndữcóliệu số lượng Hình 11: Cú pháp viết hàm kết hàm Quarle Kết tính giá trị phân vị tối thiểu (quarty=0), phân vị thứ 25 (quarty=1), phân vị thứ 50 (quarty=2), phân vị thứ 75 (quarty=3), phân vị có giá trị tố tốii đa (quart (quarty=4) y=4) lần lư lượt ợt là: 30 302, 2, 453, 10 1065, 65, 1655, 2215 Range: là khoảng cách giá trị quan sát nhỏ đến giá trị Range: là quan sát lớn Hình 12: Cú pháp viết hàm kết hàm Range Kết tính giá trị Range dựa vào Max Min dãy là: 1913 Variance: Phương sai dùng để đo độ phân tán tập giá trị quan sát xung quanh giá trị trung bình tập quan sát Hình 13: Cú pháp viết hàm kết hàm Variance Kết tính giá trị phương sai dãy liệu 456430,6 Standard Deviation: Độ lệch chuẩn dùng để đo lường độ phân tán liệu xung quan giá trị trung bình Độ lệch chuẩn bậc hai phương sai.Việc khảo sát phương sai thường cho giá trị r ất lớn, sử dụng độ lệch chuẩn giúp dễ dàng cho việc diễn giải kết sai biệt đưa sát với liệu gốc Hình 14: Cú pháp viết hàm kết hàm Standard Deviaon Kết tính độ lệch chuẩn (SD) dãy liệu khoảng: 675,5965 Coefficient of Deviation: Hệ số biến thiên tỉ lệ độ lệch chuẩn (standard deviation) so với giá trị trung bình (mean) Nó thống kê hữu ích việc so sánh mức độ biến thiên chuỗi liệu với chuỗi liệu khác, cho dù giá trị trung bình chúng khác Coefficient of Deviation = Standard DeviationMean or Average Skewness: Hệ số đối xứng cho dạng phân phối giá trị quan sát sử dụng để kiểm nghiệm tính phân phối chuẩn + Skewness = 0: Các quan sát phân phối đối xứng xung quanh giá trị trung bình + Skewness < 0: Các quan sát tập trung chủ yếu vào giá trị nhỏ + Skewness > 0: Các quan sát tập trung chủ yếu vào giá trị lớn Kurtosis : Hệ số tập trung dùng để đánh giá đỉnh đường cong quan sát với dạng đường cong phân phối chuẩn + Kurtosis >0: Cho thấy xu hướng tập trung quan sát xung quanh giá trị< trung bình, phốicong có đỉnh + Kurosis 0: Cho thấyphân đường có dạng hẹp hay đường cong phân phối tương đối phẳng b Visualization Histogram: Biểu đồ phân bố tần số (còn gọi biểu đồ phân bố mật độ, biểu đồ cột) dùng để đo tần số xuất vấn đề đó, cho ta thấy rõ hình ảnh thay đổi, biến động tập liệu Trong biểu đồ phân bố tần số, trục hoành biểu thị giá trị đo; trục tung biểu thị số lượng cá c chi tiết hay số lần xuất hiện; bề rộng cột khoảng phân lớp; chiều cao cột nói lên số lượng chi tiết (tần số) tương ứng với phân lớp Biểu đồ tần suất cho biết bốn vấn đề sau: - Gi Giáá ttrị rị th thườ ường ng xu xuất ất hiện nh ất ((mod mode) e) - Mứ Mứcc độ th thườ ường ng xxuấ uấtt hhiệ iệnn củ củaa mỗ mỗii ggiá iá ttrị rị - Hì Hình nh dạn ạngg củ củaa ph phần ần bố bố - Mố Mốii qu quan an hhệệ gi ữa ddữữ li liệu ệu vvàà ggiớ iớii hạ hạnn yê yêuu cầ cầu u Bước 1: Vào Data Analysis => Chọn Histogram Hình 15: Bảng tùy chọn Data Analysis Bước 2: Taphải chọnnhỏ giáhơn trị Bin Range trị đầu Bin Range giá trị Min đượcsau: tínhgiá trên, giátiên trị cuối Bin Range phải lớn giá trị Max tính Hình 16: Bảng chọn khoảnh giá trị để phân ch Bước 3: Nhấn 3: Nhấn OK ta kết sau: Hình 17: Biểu đồ histogram Box plot: Biểu đồ hộp (Box plot) hay gọi biểu đồ hộp râu (Box and whisker plot) biểu đồ diễn tả vị trí phân bố liệu, là: - Gi Giáá ttrị rị nh nhỏỏ nnhhất (m (min in) ) - Tứ ph phân ân vị thứ nh ất (Q (Q1) 1) Tứrupph nhgân vvịị v(m (m edi ed 3) T ị tth hứia3n()Q - Gi Giáá ttrị rị lớ lớnn nnhhất (m (max ax)) Bước 1: Chọn vùng liệu sau nhấn Insert Trong tab Chart chọn Box and Whisker Kết thu được: Hình 18: Biểu đồ Box plot Bằng ngơn ngữ R a Tính tốn tốn giá giá trị: trị: Count, Count, Min, Max, Mean, Mean, Median, Median, Mode, Quantile, Range, Mode, Variance, Standard Deviation, Deviation, Coefficient of Deviation, Skewness, Kurtosis Bước 1: Đọc file excel 10 Cài đặt thư viện e1071 để chạy Skewness Kurtosis 50 Sau cài đặt thành công, ta dùng hàm require(): Tiếp đến, chạy hàm tính tốn cần dùng: Bước 4: Kết thu Repair Time (Days) Mean 14.912 Median 14 Mode NA (do có nhiều hai giá trị mode) Std Deviation 5.958378 51 Coefficient of Deviation 0.3995693 Variance 35.50227 Skewness 1.695276 Kurtosis 4.079023 Range Minimum 35 Maximum 40 Count 250 b Visualization Histogram Cú pháp: hist(, main = “Tên biểu đồ”, ylab = “Đơn vị”, col = “Màu sắc”, border= “Màu đường viền”) Trong đó: + col= ‘orange’: cột có màu cam + border= ‘black’: cột ngăn cách viền đen Box plot: 52 Cú pháp: boxplot(, main = “Tên biểu đồ”, ylab = “Đơn vị”, col = “Màu sắc”) Trong đó: + col= ‘orange’: cột có màu cam + border= ‘black’: cột ngăn cách viền đen Bằng ngôn ngữ Python a Tính tốn tốn giá giá trị: trị: Count, Count, Min, Max, Mean, Mean, Median, Median, Mode, Quantile, Range, Mode, Variance, Standard Deviation, Deviation, Coefficient of Deviation, Skewness, Kurtosis Bước 1: Khai 1: Khai báo thư viện pandas Đọc file Excel Thư viện pandas: thư viện mã nguồn mở xây dựng dựa NumPy, sử dụng thao tác phân tích liệu, thiết kế phép bạn làm việc với liệu gắn nhãn quan hệ theo cách trực quan Bước 2: Tiến hành tính tốn giá trị Thực số hàm đơn giản không cần thư viện: 53 Sử dụng thư viện pandas khai báo để chạy hàm lại: Viện Vi ện gọi gọi hàm hàm rong thu thu viện viện pand pandas as chỉ cần cần ghi ghi: Sai lầm lầm loại loại (Type (Type I error) error) H0 sai sai mà kiểm định cũng lại thất thất bại việc việc bác bỏ H0 => Sai Sai lầm loại (Type II error) H0 sai kiểm định bác bỏ được H0 c) Giá trị: α p-value: α xác suất cho Sai lầm loại xảy (TH2) Giá trị tự đặt p-value xác suất giả thuyết H0 (TH1 TH2) Giá trị trị phải tính tốn Áp dụng a) Giả Câuthuyết cho H Example 7.525 : μ = μ = H 1: μ ≠ 25 Ta có = 5% ∝ t n− , -t n ∝ = t 43,0.025 = 1.68 /2 = - t 43,0.025 = -1.68 −1 , ∝ / Độ lệch chuẩn s = 19.49 t = x − μ0 s / √ n = Ra định: -t n−1 , / 2 < t < t n−1 , ∝ ∝ 21.91−25 19.49 / √ 44 44 = −3.09 2.938 =−1.05 /2 -1.68 < -1.05 < 1.68 58 => Chấp nhận giả thuyết H 0 (Những kiện t mẫu không đủ mạnh để bác bỏ H 0) b) Câu cho Example 7.15, 7.16, 7.17 Sử dụng kiểm định mức ý nghĩa 5%, xác định xem giới tính nhãn hiệu ưa thích nước tăng lực coi biến độc lập hay khơng? H 0: Giới tính nhãn hiệu biến độc lập H 1: Giới tính nhãn hiệu biến phụ thuộc Hình 47: Số liệu thu thập số lượng nam nữ tương ứng với số lượng nhãn hàng thích họ Dựa cơng thức tính tần số mong đợi, ta tính tần số mong đợi tng giới tính Áp dụng cơng thức tính Chi-Square: 59 Hình 48: Cơng thức nh Chi - square Áp dụng công thức giá trị tới hạn (critical value) Chi-Square: 60 Áp dụng công thức p-value: Với cách tiếp cận giá trị tr ị tới hạn: Ta thấy 6.49 > 5.99 Giá trị Chi-Square > giá trị Chi-Square critical value (6.49 > 5.99) Bác bỏ H Với cách tiếp cận p-value: Ta thấy 0.0389 < 0.05 Giá trị p-value < mức ý nghĩa Bác bỏ H 61 62 Phần II: Phân công Thành viên Lê Thị Ái Nhi Lê Hữu Thắng Trịnh Thị Thanh Trúc Đặng Vũ Phương Uyên Công việc Thực yêu cầu câu 1b tập liệu Purchase Orders Mức độ hoàn thành Thực 1C: yêu cầu câu - Tìm hi hiểu cá cách áp áp dụ dụng kiến thức cho example 7.5, 7.15, 7.16, 7.17 Thực yêu cầu câu 1a: - Tính cá gi giá trị trị ngôn ngữ R Python - Dùng MS Excel visualize giá trị tính Thực yêu cầu câu 1C: - Tìm hi hiểu cá cách áp áp dụ dụng kiến thức cho example 7.5, 7.15, 7.16, 7.17 Thực yêu cầu câu 1C: - Phân bi biệt Null hypothesis Alternative hypothesis - Phân Phân biệt biệt Type Type I erro rror 100% Type error - Phân Phân biệt biệtIIGiá Gi trị trị:: α p-value - Tìm hi hiểu cá cách áp áp dụ dụng kiến thức cho example 7.5, 7.15, 7.16, 7.17 Trình bày báo cáo 100% Thực yêu cầu câu 1b tập liệu Computer Repair Times 100% 100% 63 Nguyễn Thị Thu Phương Thực yêu cầu câu 1a: - Tính cá gi giá trị trị ngôn ngữ R Python - Dùng MS Excel visualize giá trị tính Thực yêu cầu câu 1C: - Tìm hiểu cách áp dụng kiến thức cho example 7.5, 7.15, 7.16, 7.17 100% Tài liệu tham khảo 64 ... Số liệu cụ thể tập n Purchase Orders 18 Hình 40: Số liệu cụ thể tập n Purchase Orders Phâ Phânn tích tích liệu liệu Purc Purchase hase ord order er Bằng côngcột c? ?dữ MSliệu Excel Phân tích. .. Tứ phân vị đại lượng mô tả phân bố phân tán tập liệu có giá trị số phân chia nhóm kết quan sát số thành bốn phần, phần có số liệu quan sát (=25% số kết quan sát) Tứ phân vị có giá trị, tứ phân. .. Range : vùng liệu muốn thống kê + Output Range : vùng mà kết xuất + Group By: - Colu Column mns: s: Dữ liệu liệu nguồ nguồnn bố bố trí trí th theo eo cột cột - Rows Rows:: Dữ Dữ liệ liệuu ngu nguồn