Bài tập 1 Phân tích dữ liệu kinh doanh

76 434 4
Bài tập 1 Phân tích dữ liệu kinh doanh

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Bài 1a. (Chapter 34) Dùng công cụ trực quan hóa dữ liệu (Data Visualization) và Thống kê mô tả (Descriptive Statistics) thực hiện yêu cầu sau: Theo số liệu về kinh tế Việt Nam tại website:http:finance.vietstock.vndulieuvimoDefault.htmVới tập tin dữ liệu:GDP binh quan cua VN1. Sử dụng MS Excel, SPSS và ngôn ngữ R với số liệu về GDP bình quân của VN từ 2010 đến 2016 hãy tính và giải thích ý nghĩa của các giá trị: Count, Min, Max, Mean, Median, Mode, Quantile, Range, Mode, Variance, Standard Deviation, Coefficient of Deviation, Skewness, Kurtosis.2. Dùng chức năng Visualization: Histogram, Box Plot hãy hiển thị các giá trị sauBox Plot: Min, Max, Mean, Median, Mode, Quantile, RangeHistogram: Count, Mode, Variance, Standard Deviation, Coefficient of Deviation, Skewness, Kurtosis.

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MNH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA HỆ THỐNG THÔNG TIN BÁO CÁO LAB Môn học: PHÂN TÍCH DỮ LIỆU KINH DOANH Giảng viên hướng dẫn: TS Nguyễn Đình Thn Nhóm thực hiện: Nhóm 5Girls: - Nguyễn Thị Cẩm Hoài – 17520499 - Phạm Huỳnh Mỹ Hạnh – 17520433 - Hồ Thị Ngọc Huyền – 17520596 - Trương Thị Mỹ Linh – 17520692 - Trà Thảo Nguyên - 17520831 TP HCM, Ngày 12 tháng 03 năm 2020 Lab1_IS403.K21 Mục lục I BÀI 1A: GDP BÌNH QUÂN CỦA VN 1.Sử dụng MS Excel: 1.1 Thống kê mô tả: 1.2 Tính tốn lại Excel: 1.3 Công cụ trực quan hóa liệu (Data Visualization): .7 Sử dụng ngôn ngữ R .9 2.1 Thống kê mô tả 2.2 Công cụ trực quan hóa liệu (Data Visualization): 11 Sử dụng Spss 13 3.1 Thống kê mô tả 13 3.2 Công cụ trực quan hóa liệu (Data Visualization) 16 II BÀI 1B: PURCHASE ORDERS .20 Sử dụng R: 20 1.1 Thống kê mô tả (Descriptive Statistics) 20 1.2 Cơng cụ trực quan hóa liệu (Data Visualization) 22 Sử dụng SPSS 24 2.1 Thống kê mô tả (Descriptive Statistics): 24 2.2 Công cụ trực quan hóa liệu (Data Visualization) .30 Sử dụng MS Excel: 38 3.1 Thống kê mô tả (Descriptive Statistics): 38 3.2 Cơng cụ trực quan hóa liệu (Data Visualization) .42 II BÀI 1B: COMPUTER REPAIR TIMES 50 Sử dụng R 50 1.1 Thống kê mô tả (Descriptive Statistics) 50 1.2 Cơng cụ trực quan hóa liệu (Data Visualization) 51 Sử dụng SPSS 54 2.1 Thống kê mô tả (Descriptive Statistics) 54 Sử dụng Microsoft Excel 63 3.1 Thống kê mô tả (Descriptive Statistics) 63 3.2 Cơng cụ trực quan hóa liệu (Data Visualization) 67 3.3 Tính tốn lại 70 TÀI LIỆU THAM KHẢO 73 BẢNG PHÂN CÔNG 74 Lab1_IS403.K21 I BÀI 1A: GDP BÌNH QUÂN CỦA VN 1.Sử dụng MS Excel: 1.1 Thống kê mô tả: Vào data chọn data analysis sau chọn Descriptive Statistics Nhập vùng liệu Lab1_IS403.K21 Kết quả: Lab1_IS403.K21 - - - Count : số lượng giá trị quan sát : Count(data range) Min, max dùng để xác định giá trị nhỏ lớn dãy quan sát: Min(data range) ; Max(data range) Mean: giá trị trung bình tất dãy số tập hợp: AVERAGE(data range) Median: dùng để tính trung vị trung bình Trung bình vị số nằm dãy số hay nói cách khác số mà nửa số dãy lớn nửa số cịn lại dãy nhỏ MEDIAN(data range) Mode: dùng để xác định giá trị xuất nhiều dãy quan sát: MODE.SNGL (data range) Quantitle: Tứ phân vị đại lượng mô tả phân bố phân tán tập liệu  Tứ phân vị tối thiểu.: QUARTILE.INC(Data range,0)  Tứ phân vị thứ (phân vị thứ 25).: QUARTILE.INC(Data range,1)  Tứ phân vị giá trị trung bình (phân vị thứ 50) QUARTILE.INC(Data range,2)  Tứ phân vị giá trị thứ (phân vị thứ 75).: QUARTILE.INC(Data range,3)  Tứ phân vị giá trị tối đa: QUARTILE.INC(Data range,4) Range: khoảng cách giá trị quan sát nhỏ đến giá trị quan sát lớn Range=Max-Min - Variance: Phương sai, Dùng để đo lường mức độ phân tán tập giá trị quan sát xung quanh giá trị trung bình tập quan sát VAR.S(data range) - Standard Deviation : Độ lệch chuẩn, Một công cụ khác dùng để đo lường độ phân tán liệu xung quanh giá trị trung bình STDE.S(data range) - Coefficient of Deviation: Hệ số biến thiên có cách chia độ lệch chuẩn cho giá trị trung bình trung bình Lab1_IS403.K21 = STDE.S/AVERAGE - Skewness : dùng để tính độ lệch phân bố Độ lệch thể độ không đối xứng phân bố quanh trục Độ lệch dương cho biết phân bố có phía khơng đối xứng mở rộng đến nhiều giá trị dương Độ lệch âm cho biết phân bố có phía khơng đối xứng mở rộng đến nhiều giá trị âm SKEW(data range) - Kurtosis: dùng để tính xác định độ nhọn hay cịn gọi độ lồi KURT( data range) 1.2 Tính tốn lại Excel: Variance: Phương sai trung bình bình phương sai lệch giá S - trị quan sát giá trị trung bình quan sát n i i 1  (x   x) n Standard Deviation : Lab1_IS403.K21 1.3 Cơng cụ trực quan hóa liệu (Data Visualization): 1.3.1 Histogram: Lab1_IS403.K21 1.3.2 Box Plot Lab1_IS403.K21 Sử dụng ngôn ngữ R 2.1 Thống kê mô tả - Nhập liệu: - Tính Count, Min, Max, Mean, Median, Mode, Quantile, Range, Variance, Standard Deviation, Coefficient of Deviation, Skewness, Kurtosis - Count : số lượng giá trị GDP - Min : Giá trị nhỏ GDP - Max: Giá trị lớn GDP - Mean : Giá trị trung bình GDP - Variance: Phương sai - Standard Deviation: Độ lệch chuẩn Lab1_IS403.K21 10 - Median: Trung vị trung binh GDP - Range: Độ chênh lệch giá trị lớn nhỏ - Quantile: Tứ phân vị - Mode : Giá trị xuất nhiều GDP - Coefficient of Deviation: Hệ số biến thiên GDP, Độ lệch chuẩn (sd) chia Giá trị Trung bình(mean) - Skewness: Độ xiên GDP - Kurtosis: Độ nhọn GDP Lab1_IS403.K21 2.2 - Cơng cụ trực quan hóa liệu (Data Visualization) Chọn Graphs -> Legacy Dialogs 2.2.1 BoxPlot - 62 Chọn Summaries of separate variables Lab1_IS403.K21 Case Processing Summary Cases Valid N Repair Time (Days) 2.2.2 Histogram 63 Missing Percent 250 100.0% N Total Percent 0.0% N Percent 250 100.0% Lab1_IS403.K21 Nhận xét: - Đồ thị lệch phía bên phải 64 Lab1_IS403.K21 - Đỉnh đồ thị có hình chng cao nhọn ngắn - Phân phối tập trung cao giá trị mean - Thời gian sửa máy tính chủ yếu từ 10 – 18 ngày Sử dụng Microsoft Excel 3.1 65 Thống kê mô tả (Descriptive Statistics) - Vào Data chọn Data Analysis - Sau chọn Descriptive Statistics, chọn OK - Nhập vùng liệu Lab1_IS403.K21 - Hiển thị kết cho cột Repair Time (Days) - Count: Là dùng để đếm số có chứa liệu số vùng liệu (phạm vi) tất quan sát: Count(data range) - Mean: Là giá trị trung bình số học biến, tính tổng giá trị quan sát chia cho số quan sát: Average (data range) 66 Lab1_IS403.K21 - Min: Là giá trị nhỏ tất quan sát: Min (data range) - Max: Là giá trị lớn tất quan sát: Max (data range) - Median: Là số nằm (nếu lượng quan sát số lẻ) giá trị trung bình hai quan sát nằm (nếu số lượng quan sát số chẳn) dãy quan sát xắp xếp theo thứ tự từ nhỏ đến lớn: Median (data range) - Mode: Là giá trị có tần suất xuất lớn tập hợp số đo: mode (data range) - Range: Là khoảng cách giá trị quan sát nhỏ đến giá trị quan sát lớn (Max – Min) - Quartile: Tứ phân vị đại lượng mô tả phân bố phân tán tập liệu Tứ phân vị có giá trị, tứ phân vị thứ nhất, thứ nhì, thứ ba Ba giá trị chia tập hợp liệu (đã xếp liệu theo trật từ từ bé đến lớn) thành phần có số lượng quan sát + Tứ phân vị tối thiểu: Quartile (data range, 0) (bằng với giá trị min) + Tứ phân vị thứ nhất: Quartile (data range, 1) + Tứ phân vị thứ hai: Quartile (data range, 2) (bằng với giá trị median) + Tứ phân vị thứ ba: Quartile (data range, 3) + Tứ phân vị tối đa: Quartile (data range ,4) (bằng với giá trị tối đa) 67 Lab1_IS403.K21 - Variance: Dùng để đo lường mức độ phân tán tập giá trị quan sát xung quanh giá trị trung bình tập quan sát Phương sai trung bình bình phương sai lệch giá trị quan sát giá trị trung bình quan sát đó: Var (data range) - Standard Deviation: Độ lệch chuẩn bậc hai phương sai, dùng để đo lường độ phân tán liệu xung quanh giá trị trung bình nó: Stdev (data range) - Skewness: đo lường đối xứng phân phối giá trị quan sát sử dụng để kiểm nghiệm tính phân phối chuẩn: Skew (data range) Hệ số dương giá trị mean nằm gần giá trị xa giá trị max đồ thị lệch phía bên phải Ngược lại hệ số âm giá trị mean nằm xa giá trị nằm gần giá trị max đồ thị lệch phía bên trái - Kurtosis: Dùng để đánh giá đỉnh đường cong quan sát với dạng đường cong phân phối chuẩn: Kurt (data range) Khi hệ số 3, phân phối tập trung mức độ bình thường Khi hệ số lớn 3, phân phối tập trung mức bình thường; đỉnh đồ thị hình chng phân phối cao nhọn 68 Lab1_IS403.K21 đuôi ngắn Còn hệ số nhỏ 3, phân phối tập trung mức bình thường; đỉnh đồ thị hình chng phân phối thấp tù hơn, với đuôi dài 3.2 Công cụ trực quan hóa liệu (Data Visualization) 3.2.1 BoxPlot - Chọn bơi đen cột Repair Time (Days) - Vào Insert  Charts  chọn Box Plot Box Plot 45 40 35 30 25 20 15 10 Repair Time (Days) 3.2.2 Histogram - Chọn liệu cần phân tích  Chọn Add-ins  Chọn Real Statistics  Chọn Data Analysis Tools 69 Lab1_IS403.K21 - 70 Chọn Histogram with Normal Curve Overlay  Chọn OK Lab1_IS403.K21 Frequency Histogram -20 -10 90 80 70 60 50 40 30 20 10 0 10 20 30 40 50 Bin Nhận xét: - Đồ thị lệch phía bên phải - Đỉnh đồ thị có hình chng cao nhọn ngắn ngắn - Phân phối tập trung cao giá trị mean Thời gian sửa máy tính chủ yếu 10 -15 ngày 3.3 Tính tốn lại 3.3.1 Mean Cơng thức: 71 Lab1_IS403.K21 Đối chiếu kết vừa tính với kết tính Excel, SPSS, R: giống 3.3.2 Variance n S2  Công thức 72  (x i  x)2 i 1 n Lab1_IS403.K21 Đối chiếu kết vừa tính với kết tính Excel, SPSS, R: giống 3.3.3 Skewness Cơng thức: 73 Lab1_IS403.K21 Đối chiếu kết vừa tính với kết tính Excel, SPSS, R: giống 74 Lab1_IS403.K21 TÀI LIỆU THAM KHẢO 1.http://ranalytics.vn/blog/2018/11/20/2018-11-20-import_exportexcel_voi_r/ 2.https://rstudio-pubsstatic.s3.amazonaws.com/381066_29ddbf0445814ac28cfe0abb91a6 e7c6.html - 1_c%C3%A1c_h%C3%A0m_trong_tidyverse 3.https://cran.r-project.org/doc/contrib/Intro_to_R_Vietnamese.pdf 75 Lab1_IS403.K21 BẢNG PHÂN CƠNG Thơng tin SV Phần việc làm Phạm Huỳnh Mỹ Hạnh-17520433 Bài 1a: GDP bình quân VN(SPSS, R, Excel) Nguyễn Thị Cẩm Hoài-17520499 Bài 1b: Purchase Orders(R) Chỉnh Sửa Word Hồ Thị Ngọc Huyền-17520596 Bài 1b: Computer Repair Time (Excel, SPSS) Trương Thị Mỹ Linh-17520692 Bài 1b: Computer Repair Time (R) Chỉnh Sửa Word Trà Thảo Nguyên-17520831 76 Bài 1b: Purchase Orders (SPSS, Excel) ... Lab1_IS403.K 21 Vào Graphs  Legacy Dialogs -> Boxplot 18 Lab1_IS403.K 21 Kết 19 Lab1_IS403.K 21 II BÀI 1B: PURCHASE ORDERS Sử dụng R: 20 Lab1_IS403.K 21 1 .1 Thống kê mô tả (Descriptive Statistics) - Nhập liệu. .. 94 17 Statistics V5 V6 94 94 17 17 V7 V8 94 17 94 17 500.000 6703 .12 500 0000000000 5462.00 3.7000 19 15.000 15 656.2500 0000000000 7258.00 25.6875 10 000.00 28468.7500 0000000000 30.00 411 1.00 1. 6500... ? ?1  (x   x) n Standard Deviation : Lab1_IS403.K 21 1.3 Công cụ trực quan hóa liệu (Data Visualization): 1. 3 .1 Histogram: Lab1_IS403.K 21 1.3.2 Box Plot Lab1_IS403.K 21 Sử dụng ngôn ngữ R 2.1

Ngày đăng: 22/08/2020, 15:52

Từ khóa liên quan

Mục lục

  • I. BÀI 1A: GDP BÌNH QUÂN CỦA VN

    • 1.Sử dụng MS Excel:

      • 1.1. Thống kê mô tả:

      • 1.2. Tính toán lại bằng Excel:

      • 1.3 Công cụ trực quan hóa dữ liệu (Data Visualization):

        • 1.3.1. Histogram:

        • 1.3.2. Box Plot

        • 2. Sử dụng ngôn ngữ R

          • 2.1 Thống kê mô tả

          • 2.2 Công cụ trực quan hóa dữ liệu (Data Visualization):

            • 2.2.1. Histogram

            • 2.2.2. Box Plot

            • 3. Sử dụng Spss

              • 3.1 Thống kê mô tả

              • 3.2 Công cụ trực quan hóa dữ liệu (Data Visualization)

                • 3.2.1. Histogram

                • 3.2.2. Box Plot

                • II. BÀI 1B: PURCHASE ORDERS

                  • 1. Sử dụng R:

                    • 1.1. Thống kê mô tả (Descriptive Statistics)

                    • 1.2. Công cụ trực quan hóa dữ liệu (Data Visualization)

                      • 1.2.1. Box Plot: Sử dụng lệnh “boxplot” trong cột dữ liệu Cost per order

                      • 1.2.2. Histogram: Sử dụng lệnh “hist” trong cột dữ liệu Cost per order

                      • 2. Sử dụng SPSS

                        • 2.1. Thống kê mô tả (Descriptive Statistics):

                        • 2.2. Công cụ trực quan hóa dữ liệu (Data Visualization)

                          • 2.2.1. Box Plot

                          • 2.2.2. Histogram

                          • 3. Sử dụng MS Excel:

                            • 3.1. Thống kê mô tả (Descriptive Statistics):

                            • 3.2. Công cụ trực quan hóa dữ liệu (Data Visualization)

                              • 3.2.1. Box Plot

                              • 3.2.2. Histogram

                              • II. BÀI 1B: COMPUTER REPAIR TIMES

                                • 1. Sử dụng R

                                  • 1.1. Thống kê mô tả (Descriptive Statistics)

Tài liệu cùng người dùng

Tài liệu liên quan