BẢN PHÂN CÔNG NHIỆM VỤ 2 BÀI 1: THỐNG KÊ MÔ TẢ (EXPLORING DATA) 4 1.1 Cases, variables, and levels of measurement 4 1.2 Mode, mean, median 4 1.3 Disperson (mức độ phân tán của dữ liệu ) 5 1.4 Phương sai, độ lệch chuẩn, zscores 7 BÀI 2: HISTOGRAM AND CONTROL CHART 8 BÀI 3. KIỂM ĐỊNH ANOVA 11 3.1 One way anova 11 3.2 Two way anova with replications 13 3.3 Two – way anova without replications 15 3.4 Bài tập ANOVA One way 15 BÀI 4. CORRELATION AND REGRESSION 17 4.1. Biểu đồ tán xạ và hệ số tương quan r 17 4.2. Hồi qui tuyến tính (Regression) 20 4.2 Tương quan không phải là nhân quả (correlation is not causation) 22 BÀI 5. T – TEST 23 5.1. One sample T – test: 23 5.2. Independent sample T – test 24 5.3. Paired sample t – test 26 BÀI 1: THỐNG KÊ MÔ TẢ (EXPLORING DATA) 1.1 Cases, variables, and levels of measurement Cases: Đối tượng (một cái gì đó hoặc một người nào đó) Variables: Biến (đặc điểm của một cái gì đó của một người nào đó, cần phải thay đổi) không dao động thì không có giá trị Biến thì có 2 loại: Biến định tính: không đo được bằng con số (Categorial variable). Biến định tính được thể hiện qua biểu đồ tròn và cột. Biến định lượng: đo được bằng con số (Quantitative variable). Biến định lượng không thể thể hiện qua biểu đồ. Muốn thể hiện qua biểu đồ ta phải mã hóa (recode) từ biến định lượng sang biến định tính. Biểu đồ tròn biểu diễn % (sử dụng khi số lượng mẫu 5) Levels of measurement: bao gồm 4 cấp Nominal level Ordinal level Interval level Ratio level 1.2 Mode, mean, median Mode: Là giá trị xuất hiện nhiều nhất (cao nhất). Dùng lệnh MODE Median (trung vị): Là giá trị ở giữa chúng ta quan sát được khi sắp tất cả các giá trị hay nói cách khác thì trung vị là trung bình của các vị trí. Để xác định được trung vị thì cần sắp xếp các số từ nhỏ đến lớn (có trùng số vẫn sắp) sau đó chọn số ở giữa. Dùng lệnh MEDIAN Mean: Là giá trị trung bình. Dùng lệnh AVERAGE = : Là tổng của tất cả các phần tử chia cho tổng số lượng phân tử. Khi nào sử dụng trung vị và trung bình? Nếu trong dữ liệu có outlier (giá trị lạ) thì tính theo median. Vì outlier là giá trị ngoại lai đó là giá trị nằm bên ngoài nếu tin outlier thì sẽ bị sai. 1.3 Disperson (mức độ phân tán của dữ liệu ) Mức độ phân tán của dữ liệu sẽ được biểu thị thông qua: Range, Interquartile range, Boxplot (biểu đồ hộp) Range: Giá trị lớn nhất – Giá trị nhỏ nhất = Max (x) – Min (x) Interquartile range (IQR): hay còn gọi là khỏang tứ phân vị, là sự chênh lệch của giá trị cao nhất và thấp nhất của các tứ phân vị. sử dụng hàm QUARTIEL Đại lượng này được tính ra bằng cách lấy giá trị tứ phân vị thứ 3 trừ đi giá trị tứ phân vị thứ nhất.
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THỰC PHẨM TP HCM KHOA CÔNG NGHỆ THỰC PHẨM BÁO CÁO ỨNG DỤNG CÔNG NGHỆ TIN HỌC TRONG CÔNG NGHỆ THỰC PHẨM LỚP: THỨ 6, TIẾT - 11 GVHD: LÊ MINH TÂM SVTH: VÕ NGỌC THANH TRANG 2005150243 06DHTP5 PHẠM NGÔ XUÂN TRANG 2005150372 06DHTP5 TP HỒ CHÍ MINH, 2019 BẢN PHÂN CƠNG NHIỆM VỤ BÀI HỌ VÀ TÊN CÔNG VIỆC Võ Ngọc Thanh Trang Bài 2, 3, tổng hợp Phạm Ngô Xuân Trang Bài 1,4,5 ĐÁNH GIÁ KÝ TÊN MỤC LỤC BÀI 1: THỐNG KÊ MÔ TẢ (EXPLORING DATA) 1.1 Cases, variables, and levels of measurement Cases: Đối tượng (một người đó) Variables: Biến (đặc điểm một người đó, cần phải thay đổi) khơng dao động khơng có giá trị Biến có loại: • Biến định tính: khơng đo số (Categorial variable) Biến định tính thể qua biểu đồ trịn cột • Biến định lượng: đo số (Quantitative variable) Biến định lượng thể qua biểu đồ Muốn thể qua biểu đồ ta phải mã hóa (recode) từ biến định lượng sang biến định tính • Biểu đồ trịn biểu diễn % (sử dụng số lượng mẫu 5) Levels of measurement: bao gồm cấp • • • • Nominal level Ordinal level Interval level Ratio level 1.2 Mode, mean, median Mode: Là giá trị xuất nhiều (cao nhất) Dùng lệnh MODE Median (trung vị): Là giá trị quan sát tất giá trị hay nói cách khác trung vị trung bình vị trí Để xác định trung vị cần xếp số từ nhỏ đến lớn (có trùng số sắp) sau chọn số Dùng lệnh MEDIAN Mean: Là giá trị trung bình Dùng lệnh AVERAGE = : Là tổng tất phần tử chia cho tổng số lượng phân tử Khi sử dụng trung vị trung bình? Nếu liệu có outlier (giá trị lạ) tính theo median Vì outlier giá trị ngoại lai giá trị nằm bên ngồi tin outlier bị sai 1.3 Disperson (mức độ phân tán liệu ) Mức độ phân tán liệu biểu thị thông qua: Range, Interquartile range, Boxplot (biểu đồ hộp) • Range: Giá trị lớn – Giá trị nhỏ = Max (x) – Min (x) • Interquartile range (IQR): hay cịn gọi khỏang tứ phân vị, chênh lệch giá trị cao thấp tứ phân vị sử dụng hàm QUARTIEL Đại lượng tính cách lấy giá trị tứ phân vị thứ trừ giá trị tứ phân vị thứ 𝐼𝐼𝐼 = 𝐼3 − 𝐼1 Boxplot (biểu đồ hộp): Biểu diễn đại lượng quan trọng dãy số Min, Max, Quartile (Q1, Q2, Q3), Interquartile range cách dễ hiểu Min (max, 𝐼3 + 1.5 ∗ 𝐼𝐼𝐼) 𝐼𝐼𝐼 (𝐼 𝐼𝐼, 𝐼1 − 1.5 ∗ 𝐼𝐼𝐼) Ví dụ: Grou p1 Grou p2 34.2 32.6 33.4 34.5 33.9 34.5 33.8 32.9 33.6 33.5 34.5 34.3 33.5 33.7 33.6 33.5 32.9 34.6 Bước 1: Ta nhập dữu liệu vào exel theo cột Bước 2: ta tính giá trị sửu dụng hàm exel • • • • • • • • Mode vào fx chọn hàm mode -> khối cột nhập Median vào fx chọn hàm median Mead vào fx chọn hàm average Q1, Q2, Q3 vào fx chọn hàm quartile Min vào fx chọn hàm Max vào fx chọn hàm max Range = max – IQR = Q3 – Q1 • • • • Q1 - 1.5* IQR Q3 + 1.5* IQR Min (max(x), Q3 + 1.5* IQR) Max(min(x), Q1 - 1.5* IQR) Bước 3: tải box plot xoát hết dữu liệu nhập lệu ta biểu đồ 1.4 Phương sai, độ lệch chuẩn, z-scores Phương sai: bình phương độ lệch phần tử so với giá trị trung bình Sử dụng hàm VAR.S Độ lệch chuẩn: độ lệch trung bình phần tử so với giá trị trung bình Z-scores: khoảng cách từ điểm đến giá trị trung bình BÀI 2: HISTOGRAM AND CONTROL CHART Ví dụ: Tại nhà máy sản xuất bánh cookie sử dụng dây chuyền đóng gói mới, khối lượng tịnh chuẩn theo mong muốn công ty cho gói sản phẩm 150g Một mẻ cho 300 sản phẩm Nhân viên lấy 150 sản phẩm mẻ cân lại số liệu sản phẩm lỗi sau: Mẻ Số sản phẩm lỗi Mẻ Số sản phẩm lỗi 20 21 15 17 22 14 19 23 16 20 24 19 16 25 20 15 26 16 15 27 17 18 28 19 17 29 19 10 16 30 18 11 15 31 14 12 14 32 14 13 16 33 15 14 18 34 17 15 20 35 15 16 17 36 18 17 14 37 19 18 15 38 20 19 18 39 14 20 19 40 14 Nhập bảng số liệu vào excel tìm giá trị MAX, MIN • MAX: =MAX(data defective) • MIN: =MIN(data defective) Bảng tần số • Hàm COUNTIF BIN FREQUENCY 14 15 16 17 18 19 20 Vẽ Histogram • Với: input: số liệu ban đầu • Bin: Số frequency theo min, max 10 Data 𝐼 Data Analysic 𝐼 Anova: Two-Factor Without Replication Chọn α = 0,05, ta có bảng kết 3.4 Bài tập ANOVA One way Dưới kết đánh giá mức độ ưa thích loại hương liệu (A, B, C) phương pháp cho điểm (1 – 9) với 15 người thử Có đủ chứng cho thấy mức độ ưa thích 03 loại hương liệu khác khơng? Nếu có, rõ cặp hương liệu khác có nghĩa Đặt giả thuyết: 16 Ho: = = Ha: Bảng số liệu: A B C 8 9 7 Data 𝐼 Data Analysic 𝐼 Anova: Single Factor 0,027 < = 0,05 Kết luận: bác bỏ Ho hay ba loại hương liệu có tồn khác với mức ý nghĩa = 0,05 17 BÀI CORRELATION AND REGRESSION 4.1 Biểu đồ tán xạ hệ số tương quan r a Biểu đồ tán xạ (Scatter plot) Scatter plot biểu đồ biểu diễn trực quan mối quan hệ biến định lượng Dựa vào đồ thị ta xác định dạng quan hệ biến X Y Biểu đồ thể mối quan hệ x y x tăng y tăng theo Trong đồ thị tán xạ, điểm quy tụ xung quanh đường thẳng (d) ta nói hai biến ngẫu nhiên X Y có tương quan tuyến tính Đường thẳng (d) gọi đường hồi quy tuyến tính b Hệ số tương quan ( Pearson’s r ) 18 Là số giải thích mối quan hệ hai biến, giá trị chạy từ -1 đến +1 • • • • • • r (+) : gọi tương quan tuyến tính thuận (x↑,y↑) r (-): gọi tương quan tuyến tính nghịch (x↑, y↓) (x↓, y↑) r= 0.8-1: tương quan mạnh r = 0,6÷0,8 : tương quan mạnh r = 0,4÷0,6 : tương quan trung bình r < 0,4 : tương quan yếu Hệ số r lớn tương quan X Y chặt chẽ Cách tính hệ số tương quan: r = Trong đó: Zx, ZY số Zscores = biến X Y n: cỡ mẫu ( c mẫu lớn tỷ lệ xác cao) 19 Ví dụ 1: Tính Mean = Hàm AVERAGE Tính sd = Hàm STDEV.S ZX = ; ZY = ; ZX.ZY = ZX ×ZY Tính r vào : Dùng lệnh Data > Data analysis > Correlation: Với r = 0.99 Kết luận: Tương quan tuyến tính thuận (x↑,y↑) r > 0,8 : tương quan mạnh Đường tương quan biểu diễn đường thẳng 20 4.2 Hồi qui tuyến tính (Regression) Ta có: • yi = b0+b1x • = b0+b1x+ ArgMin (∑(yi − ) �) Đường thẳng có ArgMin (∑(yi − b1= )�) nhỏ đường thẳng hồn hảo =r ; b = - b1 Trong đó: : giá trị trung bình biến độc lập X giá trị trung bình biến phụ thuộc Y xi : Là giá trị biến độc lập X lần quan sát thứ i yi : Là giá trị biến phụ thuộc Y lần quan sát thứ i Tiêu chí để đánh giá mơ hình tốt hay xấu: • Tốt: giá trị tiên lượng gần với giá trị quan sát (+) • Xấu: giá trị tiên lượng khác xa với giá trị quan sát (-) Ví dụ 2: Lấy số liệu vi dụ ta tính theo cơng thức tìm b1 b0 21 Vậy phương trình hồi quy viết lại thành: y=1.96x+4.88 • Giải excel: Vào Insert > Charts > scatter Vào Design > Chart layouts chọn Layouts ta kết quả: Kết thu được: 22 Kết luận: Những thay đổi y giải thích khoảng 98.52% yếu tố x 4.2 Tương quan nhân (correlation is not causation) Nghĩa là: Hai biến tương quan khơng có nghĩa biến có quan hệ nhân Bài tập ứng dụng: Tìm hiểu mối quan hệ số người tử vong tai nạn giao thông từ năm 2008-2018: 23 Kết luận: Số người tử vong giải thích khoảng 20,61% tai nạn giao thơng 24 BÀI T – TEST T – test dùng để kiểm định có hay khơng khác biệt giá trị trung bình biến đơn với giá trị cụ thể, với giả thuyết ban đầu cho giá trị trung bình cần kiểm nghiệm với số cụ thể 5.1 One sample T – test: Dùng để so sánh giá trị trung bình mẫu với giá trị biết Ví dụ: Một nhà máy sản xuất bánh quy làm sản phẩm có khối lượng 8g Kiểm tra chất lượng sản phẩm người ta lấy 10 mẫu từ day chuyền để kiểm tra xem khối lượng sản phẩm chênh lệch khối lượng chuẩn STT Khối lượng 7,50 8,12 8,15 7,83 7,60 8,40 8,91 9 10 8,32 Nhập bảng số liệu vào execl Phải nhập thêm cột “trick” số liệu ảo execl khơng thể tính one sample T- test 25 Vào Data 𝐼 Data Analysic 𝐼 t-Test: Two-Sample Assuming Unequal Variances Chọn = 0,05 Ta bảng kết 5.2 Independent sample T – test So sánh giá trị trung bình tổng thể dựa hai mẫu độc lập xét từ tổng thể Ví dụ: Nghiên cứu hiệu hai phương pháp diệt chuột phương pháp bẫy (vật lý) phương pháp hóa học Ta có bảng liệu 26 STT Vật lý Hóa học 3 10 4 11 6 12 7 20 17 9 10 15 Nhập bảng số liệu vào excel Data 𝐼 Data Analysic 𝐼 t-Test: Two-Sample Assuming Equal Variances 27 Chọn α = 0,05, ta bảng kết 5.3 Paired sample t – test So sánh giá trị thời điểm trước sau xử lý Ví dụ: cơng ty muốn so sánh mức độ yêu thích người tiêu dùng loại siro trước sau thay đổi loại đường sử dụng Ta bảng liệu: STT TRƯỚC SAU 8 7,5 8,3 9 8,4 9,2 6,5 7,2 8,1 8,8 9,5 7,5 28 10 6,5 9.4 Nhâp bảng liệu vào excel Data 𝐼 Data Analysic 𝐼 t-Test: Paired Two Sample for Means Chọn α = 0,05 Ta có kết 29 30 ... cookie sử dụng dây chuyền đóng gói mới, khối lượng tịnh chuẩn theo mong muốn công ty cho gói sản phẩm 150g Một mẻ cho 300 sản phẩm Nhân viên lấy 150 sản phẩm mẻ cân lại số liệu sản phẩm lỗi sau:... Một nhà máy sản xuất bánh quy làm sản phẩm có khối lượng 8g Kiểm tra chất lượng sản phẩm người ta lấy 10 mẫu từ day chuyền để kiểm tra xem khối lượng sản phẩm chênh lệch khối lượng chuẩn STT Khối... cho tổng số lượng phân tử Khi sử dụng trung vị trung bình? Nếu liệu có outlier (giá trị lạ) tính theo median Vì outlier giá trị ngoại lai giá trị nằm bên ngồi tin outlier bị sai 1.3 Disperson