Qua môn học này, chúng ta sẽ không chỉ mở rộng kiến thức mà còn phát triển kỹ năng quan trọng trong việc đưa ra quyết định và giải quyết vấn đề, từ đó làm nền tảng cho sự thành công tron
Thống kê
Định nghĩa
Thống kê là phương pháp thu thập, xử lý và phân tích số liệu của những hiện tượng để tìm ra bản chất và quy luật vốn có của chúng trong điều kiện không gian, thời gian cụ thể.
Phân loại
Thống kê được áp dụng rộng rãi trong đời sống hàng ngày Chúng ta có thể chia được thành hai loại lĩnh vực chính:
– Thống kê mô tả:bao gồm các phương pháp thu thập số liệu, tính toán các đặc trưng đo lường, mô tả và trình bày số liệu.
– Thống kê suy diễn:bao gồm các phương pháp như ước lượng, kiểm định, phân tích các mối liên hệ, dự đoán, trên cơ sở các thông tin thu thập từ mẫu, từ đó giúp ta có những hiểu biết về tổng thể.
Ứng dụng
Thống kê được ứng dũng rộng rãi ở các lĩnh vực trong đời sống, có thể kể đến như:
– Lĩnh vực kinh tế - xã hội tư nhiên, tài chính
– Dân số, nguồn lao động
Thống kê mô tả
Độ tập trung
Trung bình (Mean): Là giá trị trung bình của tất cả các giá trị trong tập dữ liệu. xPn i=1xi n (2.1)
Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
– n: là số lượng quan sát.
– x i : là giá trị quan sát lần thứ i.
Trung bình được sử dụng để mô tả giá trị trung bình của một tập dữ liệu, cung cấp cái nhìn tổng quan về giá trị trung ương của dữ liệu.
Trung vị (Median): Đối với tập dữ liệu đã được sắp xếp, trung vị là giá trị ở vị trí giữa.Nếu số lượng quan sát là chẵn, trung vị là trung bình của hai giá trị giữa Được sử dụng khi dữ liệu chứa giá trị ngoại lệ, không bị ảnh hưởng nhiều bởi giá trị cực đại hoặc cực tiểu.
Độ phân tán
Phạm vi (Range):Sự chênh lệch giữa giá trị lớn nhất và giá trị nhỏ nhất trong tập dữ liệu.
Phạm vi được sử dụng để mô tả biên độ của dữ liệu, tức là sự chênh lệch giữa giá trị lớn nhất và nhỏ nhất.
Phương sai (Variance): Đo lường mức độ biến động của các giá trị so với trung bình. σ 2 Pn i=1(x i −x) 2 n (2.3) Độ lệch chuẩn (Standard Deviation): Là căn bậc hai của phương sai, thường được sử dụng để đo lường độ biến động của dữ liệu. σ√ σ 2 (2.4)
Phân phối
Phân phối tần suất (Frequency Distribution): Giúp hiểu rõ về phổ biến của các giá trị và sự phân bố của chúng trong tập dữ liệu Phân phối tần suất là biểu đồ mô tả số lần xuất hiện của từng giá trị.
Biểu đồ hộp (Boxplot):Hiển thị phạm vi, trung vị và phân phối của tập dữ liệu.
Scatterplots:Là biểu đồ thường được sử dụng trong thống kê để biểu thị mối quan hệ giữa hai hoặc nhiều biến bằng các hiển thị điểm dữ liệu trên một hệ trục tọa độ.
Biểu đồ Histogram: Hiển thị một cách rõ ràng hình dạng của phân phối dữ liệu.
XÁC SUẤT THỐNG KÊ (MT2013) XÁC SUẤT THỐNG KÊ (MT2013) Page 10/49
Độ đo hình thái
Độ xiên (Skewness):Mô tả hình dạng của phân phối Nếu độ xiên > 0, phân phối lệch về phải; nếu < 0, lệch về trái.
(2.5) Độ nhọn (Kurtosis):Đo lường độ cụm của dữ liệu, đặc biệt là những giá trị nằm ở phần đuôi của phân phối.
Thống kê suy diễn
Multivariate Linear Regression - Hôi quy tuyến tính (MLR)
2.3.1.1 Khái niệm Định nghĩa 2.3.1.1 Trong thống kê, hồi quy tuyến tính là một phương pháp dùng để mô hình hóa mối quan hệ giữa một đại lượng vô hướng với một hoặc nhiều biến độc lập
2.3.1.2 Mô hình hồi quy tuyến tính đơn
Một mô hình thống kê tuyến tính đơn (Simple linear regession model) liên quan đến một biến phụ thuộc Y và một biến độc lập X là phương trình
– β 0 , β 1 là các hệ số chưa biết (hệ số hồi quy)
– xlà biến độc lập hay còn gọi là biến dự đoán
– Y là biến phụ thuộc hay còn gọi là biến kết quả
– ϵlà thành phần sai số
Trong mô hình (2.7), sự thay đổi của biến phụ thuộc được ảnh hưởng bởi 2 yếu tố:
– Mối liên hệ tuyến tính x và Y
Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
+ β0là hệ số chặn (Intercept)
+ β 0 là hệ số góc (Slope)
– Tác động của các yếu tố khác là thành phần ϵ
Với(x1, y1), ,(xn, yn)là n cặp giá trị quan trắc của một ngẫu nhiên cỡ n, từ biểu thức (2.7), ta có
Yi=β0+β1xi+ϵiV ii= 1,2, , n (2.9) Một mô hình hồi quy tuyến tính đơn cần các giả định:
– Các thành phần sai số ϵi là độc lập với nhau
2.3.1.3 Mô hình hồi quy tuyến tính bội
Hồi quy tuyến tính bội là một phương pháp trong thống kê để xác định mối quan hệ giữa một biến phụ thuộc vào hai hoặc nhiều biến độc lập Hồi quy tuyến tính bội sử dụng hai hoặc nhiều biến độc lập để dự đoán biến phụ thuộc Mô hình mối quan hệ tuyến tính giữa nhiều biến độc lập và biến phụ thuộc Mô hình này có thể được biễu diễn dưới dạng siêu phẳng (plane) hoặc siêu không gian (hyperplane) trong không gian nhiều chiều.
Giả xử X 1 , X 2 , X 3 , , X k là k biến độc lập dùng để dự báo (Predictor variables), Y là biến phụ thuộc cần dự báo (Reponse variables) Mô hình hồi quy tuyến tính như sau: với C là sai số ngẫu nhiên;β0, β1, β2, , βk là các hệ số chưa biết.
– β 0 là hằng số hồi quy (hệ số chẵn) - Hằng số này là đại diện biến phụ thuộc khi tất cả biến độc lập cùng bằng 0
– β 1 , β 1 , , β n là hệ số hồi quy (hệ số góc).
– C là sai số thể hiện sự chênh lệch cho sự sai lệch trong mối quan hệ các biến độc lập và phụ thuộc
Tiến hànhn quan sát độc lập vềk+1 biếnX1, X2, X3, , Xk vàY y 1 =β 0 +β 1 x 11 +β 2 X 12 + .+β k X 1k +C 1 y2=β1+β1x21+β2X22+ .+βkX2k+C2 yn=β n−1 +β1xn1+β2Xn2+ .+βkXnk+Cn
Mô hình có thể viết lại dưới dạng sau:
XÁC SUẤT THỐNG KÊ (MT2013) XÁC SUẤT THỐNG KÊ (MT2013) Page 12/49
2.3.1.4 Sự khác biệt giữa hồi quy tuyến tính đơn và hồi quy tuyến tính bội
Hồi quy tuyến tính đơn và bội là hay phương pháp khác nhau trong mô hình hồi quy, một phần của thống kê và máy học sử dụng để dự đoán giá trị của một biến phụ thuộc dựa trên một hoặc nhiều biến độc lập.
Analysis of Variance - Phân tích phương sai (ANOVA)
Mục tiêu của phân tích phương sai là so sánh trung bình của nhiều nhóm (tổng thể) dựa trên các giá trị trung bình của các mẫu quan sát từ các nhóm này, và thông qua kiểm đinh giả thuyết để kết luận sự bằng nhau của các trung bình tổng thể này Trong nghiên cứu, phân tích phương sai được xem như một công cụ để xem xét sự ảnh hưởng của một yếu tố nguyên nhân (định tính) đến một yếu tố kết quả (định lượng).
Ta có các mô hình phân tích phương sai như sau: phân tích phương sai một nhân tố, 2 nhân tố và 3 nhân tố Cụm từ nhân tố cho ta số lượng nhân tố nguyên nhân ảnh hưởng đến kết quả ta nghiên cứu.
2.3.2.2 Phân tích phương sai một nhân tố
Phân tích phương sai một nhân tố là phân tích ảnh hưởng của một nhân tố nguyên nhân (dạng biến định tính) ảnh hưởng đến một nhân tố kết quả (dạng biến định lượng) đang nghiên cứu.
Các giả định trong mô hình phân phương sai một nhân tố: Giả sử ta muốn so sánh trung bình của k tổng thể trên những mẫu ngẫu nhiên và độc lập n1, n2, n3, , nk quan sát từ k tổng thể này Cần ghi nhớ ba giả định sau đây để được tiến hành phân tích Anova:
– Các tổng thể này có phân phối chuẩn.
– Các phương sai của tổng thể bằng nhau.
– Các quan sát được lấy mẫu là độc lập.
Giả thiết cho bài toán phân tích phương sai một nhân tố:Nếu trung bình các tổng thể được ký hiệu là à 1 , à 2 , , à k thỡ ta cú cỏc giả thiết trong mụ hỡnh phõn tớch phương sai như sau:
Giả thiếtH0cho rằng trung bình củaktổng thể bằng nhau, tức nhân tố nguyên nhân không có tác động gì đến nhân tố kết quả ta đang nghiên cứu
Giả thiết H1 cho rằng có ít nhất 2 giá trị trung bình ở các tổng thể khác nhau, tức nhân tố nguyên nhân có tác động đến nhân tố kết quả ta đang nghiên cứu
2.3.2.3 Phân tích phương sai hai nhân tố Định nghĩa:Phân tích Anova 2 yếu tố hay phân tích Anova 2 chiều– Two way anova là việc ta xem xét cùng lúc hai yếu tố nguyên nhân (dưới dạng dữ liệu định tính) ảnh hưởng đến yếu tố kết quả (dưới dạng dữ liệu định lượng) đang nghiên cứu So với phân tích Anova một yếu tố thì phân tích Anova hai yếu tố mang lại nhiều giá trị hơn cho nghiên cứu.
Trường Đại Học Bách Khoa Tp.Hồ Chí Minh
Phân loại: Anova 2 yếu tố có lặp và Anova 2 yếu tố không lặp.
Giả sử ta nghiên cứu ảnh hưởng của 2 yếu tố nguyên nhân định tính đến một yếu tố kết quả định lượng nào đó Ta lấy mẫu không lặp lại, sau đó các đơn vị mẫu của yếu tố nguyên nhân thứ nhất sắp xếp thànhKnhóm (cột), các đơn vị mẫu của yếu tố nguyên nhân thứ hai sắp xếp thànhH khối (hàng) Như vậy, ta có bảng kết hợp 2 yếu tố nguyên nhân gồmKcột vàH hàng và(K×H)ô dữ liệu Tổng số mẫu quan sát làn= (K×H).
Các giả định trong mô hình phân phương sai hai nhân tố:
1 Mỗi mẫu tuõn theo phõn phối chuẩn N(à, σ 2 ).
2 Ta lấyK mẫu độc lập từK tổng thể,H mẫu độc lập từH tổng thể Mỗi mẫu được quan sát 1 lần không lặp.
1 Bước 1: Tính các số trung bình:
– Trung bình riêng của từng nhóm (K cột)
– Trung bình riêng của từng khối (H hàng)
– Trung bình chung của toàn bộ mẫu quan sát
2 Bước 2: Tính tổng các độ lệch bình phương
– SST (tổng các độ lệch bình phương chung) phản ánh biến động của yếu tố kết quả do ảnh hưởng của tất cả các yếu tố:
– SSK (tổng các độ lệch bình phương giữa các nhóm) phản ánh biến động của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân thứ nhất (xếp theo cột):
– SSH (tổng các độ lệch bình phương giữa các nhóm) phản ánh biến động của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân thứ hai (xếp theo hàng):
XÁC SUẤT THỐNG KÊ (MT2013) XÁC SUẤT THỐNG KÊ (MT2013) Page 14/49
– ERROR (tổng các độ lệch bình phương phần dư) phản ánh biến động của yếu tố kết quả do ảnh hưởng của yếu tố nguyên nhân khác không nghiên cứu:
3 Bước 3: Tính các phương sai.
– Phương sai giữa các nhóm(cột)(MSK)
K−1 – Phương sai giữa các khối (hàng) (MSH):
H−1 – Phương sai phần dư (MSE):
4 Bước 4 Kiểm định giả thuyết.
F1 dùng kiểm định cho yếu tố nguyên nhân thứ nhất:
M SE – M SK là phương sai giữa các nhóm (cột).
– M SE là phương sai phần dư.
F2 dùng kiểm định cho yếu tố nguyên nhân thứ hai:
– M SH là phương sai giữa các khối (hàng).
– M SE là phương sai phần dư.
Bảng phân tích phương sai hai yếu tố:
Nguồn biến động Tổng độ lệch bình phương(SS) Bậc tự do(df) Phương sai(MS) F-Tỷ số
Giữa các hàng SSH (h-1) MSH F1
Giữa các cột SSK (k-1) MSK F2
Tiền xử lý số liệu
1 Đọc dữ liệu từ file Intel_CPUs.csv vào bảngdata và in các thuộc tính mô tả trong bảng.
1 data