TÌM HIỂU CÁC PHƯƠNG PHÁP THỐNG KÊ VÀ ỨNG DỤNG ĐÁNH GIÁ CÁC SỐ LIỆU TRONG PHÂN TÍCH
MỤC LỤC LỜI MỞ ĐẦU Trong xã hội hiện đại, hoạt động hàng ngày của mỗi người gắn liền với thu thập thông tin, xử lí thông tin và ra quyết định. Trong các cách xử lí thông tin, thì xử lí thống kê có tính chất định lượng và có độ tin cậy cao là quan trọng nhất. Vì vậy có thể nói kiến thức xử lí thống kê thông tin là kiến thức thiết yếu của mỗi người. Tập tài liệu này là giáo trình "TÌM HIỂU CÁC PHƯƠNG PHÁP THỐNG KÊ VÀ ỨNG DỤNG ĐÁNH GIÁ CÁC SỐ LIỆU TRONG PHÂN TÍCH” được trình bầy theo cách tiếp cận các loại bài toán thống kê xác suất chính, nảy sinh trong quá trình thực nghiệm, nghiên cứu và xử lí thông tin. Tài liệu bao gồm hai phần chính là CÁC ĐẶC TRƯNG THỐNG KÊ CỦA MỘT TẬP SỐ LIỆU KẾT QUẢ NGHIÊN CỨU và ỨNG DỤNG ĐÁNH GIÁ TẬP SỐ LIỆU KẾT QUẢ NGHIÊN CỨU nhằm giúp bạn đọc hiểu thêm một số phương pháp xử lý số liệu sau khi tổng quan tính toán và thu thập dữ liệu. Tác giả chân thành cám ơn mọi sự chỉ dẫn và góp ý của bạn đọc về các sai sót trong tài liệu để kịp thời sửa chữa và bổ xung cho tài liệu ngày một hoàn thiện hơn. 2 CHƯƠNG 1. CÁC ĐẶC TRƯNG THỐNG KÊ CỦA MỘT TẬP SỐ LIỆU KẾT QUẢ NGHIÊN CỨU Những đại lượng đặc trưng chính cho một tập số liệu kết quả nghiên cứu được được phân làm 3 loại chính :1/ Các tham số đặc trưng về sự tập trung của tập số liêu, 2/ Các tham số đặc trưng về sự phân tán của tập số liệu, 3/ Đặc trưng phân phối thống kê của tập số liệu. 1.1. Các tham số đặc trưng về sự tập trung của tập số liêu: 1.1.1. Tần xuất (p i ): i i n p N = Giả thiết có một tập số liệu kết quả nghiên cứu gồm có N số liệu, trong đó có n i giá trị Xi (Xi xuất hiện ni lần). ni gọi là tần số của giá trị Xi, khi đó, tần suất của giá trị Xi được tính như sau: pi là tần suất xuất hiện giá trị Xi , khi N →∞ thì pi → Pi (Pi là xác suất xuất hiện giá trị 1.1.2. Số trội (Mo): Xi) Số trội (Mo) là số có tần suất lớn nhất (chính là số có tần số xuất hiện lớn nhất ) trong tập số liệu kết quả nghiên cứu 1.1.3. Khoảng của tập số (R): Khoảng của tập số ,R , là khoảng cách giữa giá trị lớn nhất và giá trị nhỏ nhất của tập số liệu kết quả nghiên cứu. Như vậy, khoảng của tập số được tính theo công thức sau: R=X max -X min 1.2 1.1.4. Số trung vị (Med) và số tứ phân vị (Q): Số trung vị (Med) là số đứng giữa tập số liệu đã được xắp xếp theo thứ tự từ bé đến lớn, chia dãy số đó làm 2 phần bằng nhau về số số liệu. Số tứ phân vị là các số chia tập số liệu thành 4 phần tư. Có 3 số tứ phân vị là 3 Q 1 = X 1/4 , Q 2 = X 2/4 và Q 3 = X 3/4 . Số Q 2 = X 2/4 trùng với số trung vị Med. a/ Đối với các số liệu không nhóm lại : Giả sử X1, X2, X3 Xn là dãy các giá trị của tập số liệu kết quả nghiên cứu, được sắp xếp theo thứ tự tăng dần, thì : -Số trung vị của tập N số lẻ được tính theo công thức sau: 1 2 N med X + = -Số trung vị của tập N số chẵn được tính theo công thức sau: 1 2 2 1 2 N N Med X X + = + -Số tứ phân vị của tập N giá trị chia hết cho 4, thì tính theo công thức: 1 1 4 4 2 3 3 1 4 4 1 2 1 2 N N N N Q X X Q X X + + = + = + - Số tứ phân vị của tập N không chia hết cho 4, thì tính theo công thức : 1 1 4 N Q X + = 1 3 1 4 N Q X + = và b/ Đối với số liệu gộp thành nhóm : Giả sử nhóm thứ i ( X i , X i+1 ) có n i giá trị nằm trong nhóm đó và ta có: 4 i i n N = ∑ thì Med nằm trong nhóm thứ k ( X k , X k+1 ) được tính như sau : 1 1 1 2 ( ) k i i k k k N n Me X X X nk − = + − = − + ∑ Tương tự, các tứ phân vị được xác định theo công thức chung sau đây: 1 1 1 4 ( ) k i i k k k N S n Qs X X X nk − = + − = − + ∑ Với S=1,2,3 1.1.5. Trung bình cộng: 1 1 N i i X X N = = ∑ Gọi X là giá trị trung bình cộng của một tập số liệu thì X được tính theo công thức sau: khi X i xuất hiện n i lần thì tính theo : 1 1 N i i i X X n N = = ∑ 5 i i n N = ∑ với 1.1.6. Trung bình nhân : 1 2 . n GMx x x x = Thường dùng để tính tốc độ tăng trung bình của tăng theo cấp số, sự pha loãng . . . 1 1 1 N i i HMx N x = ∑ 1.1.7. Trung bình điều hoà : Dùng để tính vạn tốc, thời gian trung bình. . . 1.1.8. Trung bình của hệ : . A A B B A B N X N X X h N N + = + Dùng để tính trung bình của hệ gồm nhiều tập số liệu. . . Ví dụ 1.1 : Khi khảo sát 100 đối tượng nghiên cứu X, thu được 100 số liệu cho ở bảng sau: Bảng 1.1- 100 số liệu kết quả thực nghiệm 1 2 3 4 5 6 7 8 9 10 1 4.37 4.13 4.46 4.45 4.73 4.20 3.64 4.15 3.96 3. 2 3.71 4.05 3.70 4.21 4.35 3.89 3.67 4.80 4.16 4. 3 4.31 4.08 3.65 4.23 4.00 4.58 4.30 4.42 3.90 4. 4 3.93 4.14 3.67 3.82 4.16 4.17 4.30 4.18 4.56 3. 5 4.60 3.94 4.32 4.55 4.40 4.55 4.82 4.58 4.19 4. 6 4.38 4.36 3.69 4.04 4.40 3.98 4.38 4.00 4.08 4. 6 7 4.10 3.84 4.03 4.58 4.20 4.37 4.58 4.14 4.88 4. 8 4.11 4.31 4.27 4.31 4.62 3.80 4.08 4.05 3.85 4. 9 3.87 4.05 3.94 4.23 3.95 4.32 4.03 3.91 4.18 4. 1 3.84 4.03 3.56 3.81 3.93 4.28 4.03 3.74 4.27 4. Khi sắp xếp lại theo thứ tự tăng dần, 100 số liệu kết quả nghiên cứu trên, ta có : Bảng 1.2- sắp xếp 100 số liệu theo chiều tăng dần 1 3.56 21 3.93 41 4.08 61 4.23 81 4.40 2 3.64 22 3.93 42 4.08 62 4.23 82 4.40 3 3.65 23 3.93 43 4.10 63 4.23 83 4.42 4 3.65 24 3.94 44 4.11 64 4.27 84 4.45 5 3.67 25 3.94 45 4.13 65 4.27 85 4.46 6 3.67 26 3.95 46 4.14 66 4.28 86 4.52 7 3.69 27 3.96 47 4.14 67 4.30 87 4.55 8 3.70 28 3.98 48 4.15 68 4.30 88 4.55 9 3.71 29 4.00 49 4.16 69 4.31 89 4.56 10 3.74 30 4.00 50 4.16 70 4.31 90 4.58 11 3.80 31 4.03 51 4.16 71 4.31 91 4.58 12 3.81 32 4.03 52 4.17 72 4.32 92 4.58 13 3.82 33 4.03 53 4.18 73 4.32 93 4.58 14 3.84 34 4.03 54 4.18 74 4.35 94 4.60 15 3.84 35 4.04 55 4.19 75 4.36 95 4.62 16 3.85 36 4.05 56 4.20 76 4.36 96 4.72 17 3.87 37 4.05 57 4.20 77 4.37 97 4.73 18 3.89 38 4.05 58 4.21 78 4.37 98 4.80 19 3.90 39 4.07 59 4.21 79 4.38 99 4.82 20 3.91 40 4.08 60 4.21 80 4.38 100 4.88 Bảng 1.3- biểu diễn số liệu thống kê 100 kết quả nghiên cứu từ 100 đối tượng đã cho trên đây theo phân nhóm cách nhau khoảng 17 đơn vị một trình bầy như sau: Lớp trội từ 4.18 đến 4.35 là lớp có tần suất lớn nhất (0.24). Bảng số liệu trên có thể được biểu diễn trên 2 loại đồ thị sau: 7 Lớp trội từ 4.18 đến 4.35 là lớp có tần suất lớn nhất (0.24). Bảng số liệu trên có thể được biểu diễn trên 2 loại đồ thị sau: 1.2. Các tham số đặc trưng cho sự phân tán của tập số liệu : Phương sai là trung bình của tổng bình phương sai khác giữa các giá trị của tập số liệu 1.2.1. Phương sai Phương sai là trung bình của tổng bình phương sai khác giữa các giá trị của tập số liệu so với giá trị trung bình của tập số liệu kết quả nghiên cứu: 8 công thức thực dụng để tìm phương sai: Với: N' = N khi N > 30 N’= N-1 khi N<30 (S 2 ) N' có bản chất là bậc tự do của tập số liệu kết quả nghiên cứu. 1.2.2. Phương sai của hệ : Trong đó : Phương sai đặc trưng cho sự sai biệt của các số liệu trong kết quả nghiên cứu. Phương sai càng lớn, sai biệt càng lớn. Ngược lại phương sai càng nhỏ thì sai biệt càng nhỏ. Phương sai còn biểu diễn độ phân tán của tập số liệu kết quả nghiên cứu đối với giá trị trung bình. Phương sai càng lớn độ phân tán chung quanh giá trị trung bình càng lớn và ngược lại. 1.2.3. Độ lệch chuẩn Độ lệch chuẩn của một tập số liệu kết quả nghiên cứu là giá trị căn bậc 2 trị số phương sai của nó: 9 Độ lệch chuẩn có cùng thứ nguyên và cũng có ý nghĩa như phương sai. Khi tiến hành phân tích, ta thu được nhiều kết quả, chúng phải được biểu diễn bằng những chỉ số thể hiện độ chính xác của phép đo. Có nhiều loại chỉ số như vậy, trong đó có độ lệch chuẩn, kí hiệu là σ . Ví dụ 1.2: Tính giá trị trung bình và độ lệch chuẩn của tập hợp các giá trị đo được sau: 15,67g; 15,69g; 16,03g. Xi xi-x (xi-x)2 15.67g 0.13g 0.0169 15.69g 0.11g 0.0121 16.03g 0.13g 0.0529 47.39g 0.47g 0.0819 X=15.80g s=0.20g Ta cũng có thể sử dụng công thức sau để tính độ lệch chuẩn: Công thức này tiện khi tính toán hơn, nhất là với máy tính. Nhiều máy có cài sẵn chương trình tính độ lệch chuẩn. Thí dụ dưới đây minh hoạ phương pháp tính này: Ví dụ 1.3: Tính độ lệch chuẩn với các giá trị như trên nhưng dùng công thức trên. 10