Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 20 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
20
Dung lượng
527,1 KB
Nội dung
104 Ít hơn 1 giờ 1 Từ 1 đến 3 giờ 2 Từ 3 đến 5 giờ 3 Từ 5 đến 7 giờ 4 Từ 7 đến 9 giờ 5 Trên 6 MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN PHÂN TÍCH VÀ DIỄN GIẢI DỮ LIỆU Phân tích và diễn giải dữ liệu đã xử lý có tác dụng quan trọng trong việc tìm hiểu và rút ra ý nghĩa của các dữ liệu, nhờ đó, các căn cứ cho đề xuất các giải pháp sẽ rõ ràng và khoa học hơn. Công việc này được tiến hành qua 2 giai đoạn chủ yếu: - Xếp các dữ liệu thô vào các thứ bậc đã được đo lường - Tóm lược các phương pháp phân tích để làm rõ mối quan hệ hỗ tương và các ý nghĩa định lượng giữa các dữ liệu (trong các nội dung sau chúng ta sẽ tìm hiểu một số phương pháp phân tích dữ liệu dựa trên cơ sở sử dụng các thành tựu của khoa học thống kê) Vấn đề hiệu quả của công tác xử lí dữ liệu Nguy cơ làm cho phí tổn và thời gian xử lý lâu là những nguyên nhân khiến cho các nhà nghiên cứu phải quan tâm đến tính hiệu quả của công tác dữ liệu. Để đảm bảo tính hiệu quả của công tác xử lý dữ liệu cần phải chú ý đến một số vấn đề sau: - Việc chuẩn bị các dữ liệu để xử lý phải làm sẵn trước khi đưa dữ liệu đến bộ phận computer. Việc này sẽ tiết kiệm được thời gian và tránh được những sai sót đáng tiếc do tình trạng các dữ liệu thô đổ dồn về trung tâm tính toán. - Tiên đoán trước các dữ liệu nào là cần thiết đưa vào xử lý và phân tích. Không được tùy tiện cắt xén dữ liệu vì việc bổ sung dữ liệu trong quá trình xử lý sẽ rất phức tạp và tốn nhiều công sức, tiền bạc. Nhưng cũng không nên đưa quá nhiều dữ liệu “râu ria” vào xử lý làm tăng khối lượng tính toán không cần thiết, kết quả phân tích sẽ phức tạp và nhiều khi vô dụng. Tóm lại phải đưa và chỉ nên đưa đủ những dữ liệu cần thiết cho mục đích nghiên cứu vào xử lý. Bản chất của sự diễn giải Định nghĩa Diễn giải là làm nổi bật ý nghĩa của dữ liệu, hay nói cách khác diễn giải là quá trình chuyển đổi các dữ liệu thuần túy thành thông tin. Người nghiên cứu sẽ đạt đến mục tiêu của quá trình nghiên cứu khi rút ra kết luận từ những dữ liệu để phân tích. Có hai giai đoạn về suy nghĩ lôgíc dùng để rút ra các suy luận từ dữ liệu và cả hai giai đoạn đều được ta thực hiện dù có ý thức hay không: đó là quy nạp và diễn giải. Boveridge đã định nghĩa các giai đoạn này như sau: “Các nhà lôgíc học phân biệt rõ giữa suy luận qui nạp (từ những ví dụ đặc biệt dẫn đến các qui tắc chung, từ dữ kiện cho đến lý thuyết) và suy luận diễn giải (từ cái chung đến cái đặc biệt, áp dụng lý thuyết vào một trường hợp nào đó). Ở quy nạp, người ta bắt đầu từ các dữ kiện, quan sát chúng và tiến đến một sự khái quát hóa để giải thích mối quan hệ giữa các đối tượng được quan sát. Ngược lại, ở phương pháp diễn giải, người ta bắt đầu từ các qui luật chung và áp dụng chúng vào một trường hợp cụ thể”. Các yêu cầu của việc diễn giải Để diễn giải tốt, cần phải lưu ý các vấn đề sau: 105 - Diễn giải một cách trung thực và tỉnh táo, không nên phóng đại hay bóp méo các dữ liệu để gây sự chú ý. - Luôn khách quan và đơn giản trong diễn giải, không nên làm phức tạp hóa vấn đề. - Lưu ý đến giới hạn của các mẫu thông tin nhỏ, tức là không nên sa vào “thổi phồng” kết quả quan sát được từ một mẫu nhỏ thành khái quát miêu tả một phạm vi lớn. - Công bằng, khách quan với mọi dữ liệu, không nên có thành kiến hoặc thiên hướng về một kết luận đặc biệt nào. - Chú ý đúng mức đến các câu trả lời quá bất thường. - Phân biệt nguyên nhân và kết quả, không nên nhầm lẫn chúng với nhau. Những lưu ý về phân tích dữ liệu Chọn phương pháp phân tích Lĩnh vực phân tích dữ liệu rất rộng vì vậy, có rất nhiều phương pháp phân tích có thể sử dụng. Người nghiên cứu cần phải cân nhắc nhiều khía cạnh để lựa chọn phương pháp thích hợp, bao gồm: đặc tính ngẫu nhiên của dữ liệu, cần nêu bật ý nghĩa nào của kết quả nghiên cứu?, có xem xét sự sai lệch đáng kể của dữ liệu không?, qui luật phân phối ngẫu nhiên của dữ liệu thuộc đại lượng nghiên cứu nào? Dữ liệu tham số và dữ liệu phi tham số Những dữ liệu được gọi là tham số khi chúng được phân phối xung quanh giá trị trung bình hoặc giá trị trung tâm của chúng một cách đối xứng nhau, tương tự như đường cong của hàm số mật độ phân phối xác suất chuẩn. Những dữ liệu phi tham số thì khác, chúng không được phân phối theo đường cong của hàm phân phối chuẩn. Tương ứng với các loại dữ liệu đó, các phương pháp kiểm định giả thuyết được áp dụng có những khác biệt theo các tiêu chuẩn kiểm định khác nhau, do vậy, khi phân tích dữ liệu cần nhận diện rõ ràng đó là loại dữ liệu tham số hay dữ liệu phi tham số. Số lượng những biến số cần được phân tích Số lượng những biến số thường hay thay đổi từ một đến nhiều biến số: Chúng ta xếp loại chúng theo 3 nhóm phương pháp phân tích: - Phương pháp biến số đơn: trong đó chỉ có một biến số duy nhất được phân tích. - Phương pháp biến số kép: được sử dụng để tìm hiểu sự liên hệ giữa hai biến số. - Phương pháp đa biến: được sử dụng để tìm hiểu sự liên hệ giữa các biến số với nhau. Tính độc lập và phụ thuộc lẫn nhau Liên quan đến số lượng biến số được phân tích là sự liên hệ giữa các biến số với nhau. Từ “liên hệ” được sử dụng để ám chỉ sự biến thiên của hai (hay nhiều) biến số sẽ có ảnh hưởng giữa chúng với nhau. Sẽ có hai trường hợp phân tích: (1) Trường hợp trong đó chỉ có một biến số được kiểm nghiệm về tính phụ thuộc của nó với những biến số độc lập khác. (2) Trường hợp người nghiên cứu tìm kiếm những mối liên hệ hay phụ thuộc lẫn nhau giữa tất cả các biến số. 106 LẬP BẢNG PHÂN PHỐI TẦN SUẤT VÀ LẬP BẢNG SO SÁNH Lập bảng phân phối tần suất (lập bảng theo thứ tự ABC) Hình thức đơn giản nhất trong xử lý dữ liệu là sắp xếp chúng theo chuỗi số (hoặc theo hướng tăng dần từ thấp đến cao, hoặc giảm dần từ cao xuống thấp), sau đó phân chia thành từng lớp (theo nguyên tắc phân tổ trong thống kê). Ở loại bảng đơn giản này, các dạng dữ liệu được thể hiện bao gồm: - Đại lượng nghiên cứu đã được phân tổ. - Tần số quan sát ứng với từng lớp. - Tần số tích lũy. Chẳng hạn, sau khi thu thập các dữ liệu về thu nhập, ta có thể sắp xếp chúng như sau: Thu thập hàng tháng (triệu đồng) Số người (Tần số) Tần số lũy tích Dưới 500.000 đồng Từ 500.000 đồng đến 1.000.000 đồng Từ 1.000.000 đồng đến 1.500.000 đồng Từ 1.500.000 đồng đến 2.000.000 đồng Từ 2.000.000 đồng đến 2.500.000 đồng Trên 2.500.000 đồng 39 51 123 47 25 15 39 90 113 160 185 200 Lập bảng so sánh toàn diện Trong dạng bảng này người ta đưa thêm các nhân tố ảnh hưởng để phân tích cụ thể hơn đặc tính của dữ liệu. Ví dụ, khi nghiên cứu quan hệ giữa thu nhập và giáo dục (trình độ học vấn), có thể lập bảng dạng sau: Thu nhập (triệu đồng/tháng) Trình độ học vấn Dưới 1,0 1,0-2,0 2,0-3,0 Trên 3,0 -Tiểu học -Trung học - Đại học - Thạc sĩ - Tiến sĩ Nếu xem xét thêm một số nhân tố khách như: Giới tính, tuổi, nghề nghiệp có thể ảnh hưởng đến mức thu nhập từng người, khi đó có thể xem xét tác động của nhiều nhân tố đến thu nhập, và có thể lập bảng sau: Thu nhập (triệu đồng/tháng) Trình độ học vấn Dưới 1,0 1,0-2,0 2,0-3,0 Trên 3,0 Nam -Tiểu học -Trung học - Đại học - Thạc sĩ - Tiến sĩ Nữ -Tiểu học -Trung học - Đại học - Thạc sĩ - Tiến sĩ Để kiểm tra sự phân bố dữ liệu có thể tuân theo quy luật phân phối chuẩn hay không, hai tham số mà chúng ta đề cập là tham số skewness và kurtosis, hai tham số này biểu hiện độ "nhọn" của phân phối tần suất. Hệ số skewness Skewness là thước đo mức độ không đối xứng của phân phối tần suất, các giá trị trung bình ( X ), số mode (M 0 ), số trung vị (M d ) đều tham gia vào quá trình xem xét. Trong một dãy phân phối có dạng đối xứng hoàn toàn các tham số trung bình, trung vị và mode có cùng giá trị ( X = M 0 = M d ). Hệ số skewness nhận giá trị từ -3 đến + 3, nếu dữ liệu tuân theo phân phối chuẩn thì thông số skewness bằng 0 và hệ số skewness được tính như sau: s Mx S k )(3 0 − = hoặc n s S Z k = S k : Hệ số Skewness M 0 : Số Mode s : Độ lệch chuẩn của mẫu x : Số trung bình mẫu Hệ số kurtosis Hệ số Kurtosis là thước đo mức độ phẳng của phân phối tần suất, nếu dữ liệu tuân theo phân phối chuẩn thì thông số này bằng 0. Tính hệ số Kurtose từ n Kurtose Z 24 = ĐO LƯỜNG KHUYNH HƯỚNG HỘI TỤ CỦA DỮ LIỆU Có 3 tham số cơ bản để đó lường khuynh hướng hội tụ của dữ liệu là mốt (mode), trung vị (median) và số trung bình. Mode: Mode là giá trị trung tâm xảy ra thường xuyên nhất trong dãy phân phối tần suất. Nó được tính ra dễ dàng khi xếp dữ liệu và các lớp trong một bảng tần suất phân phối vì “mode” là lớp chứa số lần quan sát lớn nhất. Số mode được tính theo công thức sau: i dd d LM Mo * 21 1 0 + += 107 Trong đó: M o - Trị số mode L Mo - Giới hạn dưới của lớp có tần suất xuất hiện lớn nhất. d 1 - Sai biệt về tầìn suất của lớp có tần suất xuất hiện lớn nhất với lớp đứng liền trước nó trong dãy phân phối. d 2 - Sai biệt về tần suất của lớp có tần suất xuất hiện lớn nhất với lớp đứng liền sau nó trong dãy phân phối. i - Độ lớn của khoảng cách của lớp có tần suất xuất hiện lớn nhất. Một số đặc trưng quan trọng của mode: - Dễ xác định và có khả năng xác định nhanh. - Có thể xác định vị trí của nó trong dãy phân phối mở (opended distribution), tức là các dãy phân phỗi mà giá trị sau cùng chưa xác định còn mở cuối dãy. - Mode có thể không tồn tại trong một dãy phân phối, đôi khi có thể không tìm ra được số mode hoặc có thể có nhiều số mode. Một dãy phân phối có hai đỉnh (gọi là “bimodal - hai lớp chứa mode”). Khi đó ta có thể không tìm ra được xu hướng trọng tâm của phân phối. - Mode không bị ảnh hưởng bởi các giá trị ở hai đầu (giá trị đầu cuối) của dãy phân phối. - Mode có thể tiêu biểu cho dãy phân phối nếu những quan sát được tập trung vào một giá trị hoặc một lớp. Trung vị: Trung vị (medial) thể hiện giá trị trung bình tiêu biểu nhất của các giá trị trong dãy phân phối, vì nó bằng đúng ngay giữa giá trị cao nhất và giá trị thấp nhất. Trước khi xác định giá trị trung vị, cần phải sắp xếp các dữ liệu theo thứ tự dưới lên hoặc từ trên xuống. Đối với những dữ liệu không được phân nhóm mà số quan sát là lẻ thì chọn giá trị trung vị rất dễ dàng. Giá trị trung vị được xác định theo công thức: i f f n LM Md c Mdd * 2 − += Trong đó: M d - Giá trị trung vị L Md - Giới hạn dưới của lớp chứa trung vị. n - Tổng tần suất trong dãy phân phối f c - Tần suất lũy tích của lớp đứng trước lớp chứa trung vị. f Md -Tần suất của lớp chứa trung vị. i - Độ lớn khoảng cách lớp chứa trung vị. Một số đặc tính quan trọng của trung vị: - Có thể tính được ở những bảng phân phối mở vì giá trị trung vị nằm trong khoảng cách của lớp chứa trung vị, và khoảng cách không thể là khoảng cách mở. - Không bị ảnh hưởng bởi các giá trị ở hai đầu mút của dãy phân phối, vì vậy, nếu bảng phân phối có độ lệch lớn nên chọn phép tính giá trị trung vị hơn là trung bình. 108 - Không bị tác động của giá trị quan sát được mà bị tác động bởi số lần quan sát, vì vậy các giá trị ở hai đầu của dãy phân phối không làm biến đổi kết quả của trị số này. - Nếu các khoảng cách lớp có kích thước không bằng nhau thì trung vị được xem là sự đo lường xu hướng phân phối phù hợp nhất vì nó dễ tính hơn nhiều so với giá trị trung bình. Giá trị trung bình ( Mean) : Nếu mẫu ngẫu nhiên w có các giá trị x = ( x 1 , x 2 , ,x n ) thì giá trị trung bình của x là: ∑ = = i i x n x 1 1 n . Nếu các giá trị x 1 ,x 2 , ,x n lần lượt có các tần suất n 1 ,n 2 , ,n k , thì )( 1 1 nnnx n x i i ii == ∑∑ = n Một số đặc tính quan trọng của giá trị trung bình: - Giá trị trung bình chịu sự tác động bởi các giá trị của mỗi quan sát, như vậy khi giá trị của mỗi quan sát thay đổi sẽ làm thay đổi giá trị trung bình. - Nếu có một dãy phân phố mà tính chất đối xứng lệch nhau quá lớn thì giá trị trung bình cũng bị thay đổi phụ thuộc theo các giá trị đầu mút. - Các đặc tính toán học của giá trị trung bình đóng vai trò rất quan trọng khi các dữ liệu của mẫu được dùng để suy rộng ra tổng thể (ước lượng) hoặc khi được dùng trong các thí nghiệm thống kê. Phương pháp trung bình số học rất thích hợp khi phân tích các dữ liệu theo khoảng cách. - Không thể tính được giá trị trung bình với các dãy phân phối mở. Ước lượng khuynh hướng hội tụ: Với các tham số biểu thị khuynh hướng hội tụ như trên, nên chọn tham số nào đặc trưng nhất ? Không có quy tắc chung nào chỉ ra việc sử dụng tham số nào là thích hợp. Muốn chọn đúng tham số cần phải xem xét đặc tính của từng loại và đánh giá được các loại biến số dữ liệu. Trong một dãy phân phối có dạng đối xứng hoàn toàn, phương pháp chọn lựa rất đơn giản vì các số trung bình, trung vị và mode đều có cùng giá trị. Nhưng nếu dãy phân phối quá lệch thì giá trị của 3 tham số này sẽ khác nhau. Vì vậy, việc hiểu biết về các loại phân phối giúp ra quyết định nên chọn tham số nào để ước lượng. Ngoài ra, để lựa chọn ước lượng thích hợp, có thể sử dụng các tiêu chuẩn do các nhà thống kê đưa ra mà một khi một ước lượng thỏa mãn được chúng thì đó sẽ là một ước lượng tốt. - Tính không chệch: Khi kỳ vọng toán của tham số đó gần trùng với tham số tổng thể thì ước lượng được xem là không chệch. - Tính phù hợp: Khi kích thước mẫu tăng lên mà một ước lượng rút ra từ mẫu đó cũng tiếp cận đến tham số tổng thể (giá trị thực sự của tổng thể) thì ước lượng đó gọi là một ước lượng phù hợp của tham số tổng thể. - Tính đầy đủ: Một ước lượng thống kê được xem là mang tính đẩy đủ nếu nó sử dụng hết các thông tin về tham số mẫu mà mẫu nó chứa, nghĩa là không có mẫu nào khác có thể có thể cho thêm thông tin về tham số. ĐO LƯỜNG ĐỘ PHÂN TÁN CỦA DỮ LIỆU Các tham số đo lường khuynh hướng hội tụ của dữ liệu đã không nói gì về khả năng mở rộng hay chia nhỏ các dữ liệu quan sát. Vì thế, cần nghiên cứu độ phân tán để so sánh “sự mở rộng” của hai tập dữ liệu và tính đặc trưng của các giá trị trung bình. Ví dụ, nếu các dữ liệu được “mở rộng" 109 nhiều quá thì việc sử dụng giá trị trung bình để quan sát tính hội tụ sẽ không thể biểu trưng cho các dữ liệu đang nghiên cứu. Khoảng biến thiên: Khoảng biến thiên là đặc trưng phân tán đơn giản nhất. Nó là sự sai biệt giữa giá trị cao nhất và thấp nhất trong một dãy hay bảng phân phối. Nó chỉ làm nổi bật khoảng cách của dữ liệu mà không so sánh với giá trị trung bình. Vì vậy các giá trị tiêu biểu của dữ liệu có thể không được đề cập đến và đặc trưng này có thể làm méo mó đi hình ảnh của dãy phân phối. Phương sai và độ lệch chuẩn: Phương sai và độ lệch chuẩn dựa trên mức độ sai lệch của các quan sát với giá trị trung bình. Phương sai được định nghĩa như là số trung bình của bình phương các độ lệch giữa giá trị quan sát với giá trị trung bình trong dãy phân phối. Căn bậc hai của phương sai gọi là độ lệch chuẩn. Vì phương sai là đặc trưng hơi khó diễn dịch hơn nên độ lệch chuẩn thường được sử dụng nhất trong các đặc trưng phân tán. Phương sai mẫu s 2 là đại lượng được xác định : ∑ = −= n i i xx n s 1 22 )( 1 Nếu các x i có tần số n i (Σn i = n ) thì : ∑ − −= k i ii nxx n s 1 22 )( 1 Độ lệch chuẩn ∑ = −== n i i xx n ss 1 22 )( 1 hoặc ∑ = −== n i ii nxx n ss 1 22 )( 1 Độ lệch chuẩn hiệu chỉnh ∑∑ == − − =− − = − = n i ii n i ii nxx n nxx nn n s n n s 1 2 1 22 )( 1 1 )( 1 * 11 ' Một số đặc trưng quan trọng của độ lệch chuẩn: - Sự thay đổi của bất kỳ giá trị quan sát nào thì làm sẽ làm thay đổi giá trị của độ lệch chuẩn. - Cũng như giá trị trung bình, độ lệch chuẩn có thể mất tính đại diện nếu dãy phân phối quá lệch. - Không thể tính được độ lệch chuẩn đối với các dãy phân phối mở. Hệ số biến thiên: (Coefficient of variation) Nếu cần phải so sánh sự phân tán của nhiều hơn một dãy phân phối có các đơn vị đo lường khác nhau, ta có thể dùng một đặc trưng phân tán tương đối được gọi là “hệ số biến thiên”, công thức là : Cv = σ.(100)/μ hay Cv = s.(100)/X Trong đó : Cv : Hệ số biến thiên σ : Độ lệch chuẩn của tổng thể. s : Độ lệch chuẩn của mẫu. X : Giá trị trung bình của mẫu 110 ƯỚC LƯỢNG THAM SỐ Như chúng ta đã biết trong thống kê toán, giả sử một đại lượng ngẫu nhiên X tuân theo qui luật phân phối nào đó đã biết dạng, nhưng chưa biết một tham số θ nào đó của nó, vì vậy cần ước lượng giá trị của θ thông qua kết quả thực nghiệm. Để thuận tiện trên phương diện ứng dụng, phần này sẽ không nhắc lại những kiến thức nền tảng của thống kê toán mà chỉ trình bày những ứng dụng của thống kê toán đối với ước lượng một số tham số chủ yếu. Ước lượng tham số trung bình μ trong luật phân phối chuẩn N(μ,σ 2 ) Trường hợp σ đã biết Gọi α là mức ý nghĩa của quá trình ước lượng, khi đó, độ tin cậy của quá trình ước lượng là γ=1- α, giả sử hàm phân phối của mẫu tuân theo quy luật phân phối chuẩn N(μ,σ 2 ), ta có: 211 U )X( U αα σ μ − < − < n với α= α 1 + α 2 (1) Lưu ý rằng, trong thực tế có vô số cặp α 1 , α 2 thỏa mãn α 1 +α 2 =α, do đó có vô số khoảng tin cậy ứng với cùng một độ tin cậy (1-α) cho trước. Khi đó, (1) có thể biến đổi thành 12-1 UxUx αα σ μ σ nn −<<− (2) Ba trường hợp có thể xảy ra là: - Trường hợp 1: α 1 = 0, α 2 = α (khoảng tin cậy “phía trái” (giá trị min của μ)) +∞<<−⇒ − μ σ α 1 Ux (2) n - Trường hợp 2: α 1 = α, α 2 = 0 (khoảng tin cậy “phía phải” (giá trị max của μ)) α σ μ − +<<−∞⇒ 1 Ux (2) n hoặc α σ μ − +<<⇒ 1 Ux 0 (2) n - Trường hợp 3: α 1 = α 2 = α/2 (khoảng tin cậy đối xứng của μ) 2 1 2 1 UxUx (2) αα σ μ σ −− +<<−⇒ nn Trường hợp σ chưa biết Nếu kích thước mẫu nhỏ (n<30): Trong trường hợp kích thước mẫu nhỏ (n<30), hàm phân phối mà chúng ta cần dùng là hàm phân phối T-student, khi đó khoảng tin cậy tham số trung bình sẽ là: 1-n 21 1-n 1 t )X( t αα σ μ − < − < n với α= α 1 + α 2 (2) Ba trường hợp có thể xảy ra là: - Trường hợp 1: α 1 = 0, α 2 = α (khoảng tin cậy “phía trái” (giá trị min của μ)) 111 +∞<<−⇒ μ σ α n tx (2) n - Trường hợp 2: α 1 = α, α2 = 0 (khoảng tin cậy “phía phải” (giá trị max của μ)) n tx (2) α σ μ n +<<∞−⇒ - Trường hợp 3: α 1 = α 2 = α/2 (khoảng tin cậy đối xứng của μ) 1 2 1 2 xx (2) −− +<<−⇒ nn t n t n αα σ μ σ Nếu kích thước mẫu lớn (n≥30): Trong trường hợp kích thước mẫu lớn (n≥30), cần phải tính tham số phương sai điều chỉnh mẫu (s’), các trường hợp ước lượng cũng giống như trường hợp σ đã biết và chúng ta thay thế giá trị σ bằng giá trị s’ Để dễ dàng cho việc theo dõi, có thể tóm gọn các phương pháp ước lượng đối xứng tham số trung bình như sau: ƯỚC LƯỢNG KHOẢNG TIN CẬY CỦA GIÁ TRỊ TRUNG BÌNH Đã biết phương sai tổng thể ( σ 2 ) Chưa biết phương sai tổng thể ( σ 2 ) Khi n<30 Phân phối Student với (n-1) là bậc tự do s’: Độ lệch chuẩn hiệu chỉnh mẫu 112 Phân phối chuẩn σ : Độ lệch chuẩn của tổng thể μ : Trung bình tổng thể α =1- γ : Mức ý nghĩa Khi n≥30 Phân phối chuẩn s’: Độ lệch chuẩn hiệu chỉnh mẫu 1 2 1 2 '' −− +<<− nn t n s xt n s x αα μ 2 1 2 1 '' αα μ −− +<<− U n s xU n s x 2 1 2 1 αα σ μ σ −− +<<− U n xU n x Tính kích thước mẫu trong trường hợp ước lượng tham số trung bình Gọi I là độ dài khoảng tin cậy, khi đó I = giá trị giới hạn trên – giá trị giới hạn dưới. Chúng ta đã biết từ thông kê toán rằng, trong mọi khoảng tin cậy với cùng độ tin cậy thì khoảng tin cậy đối xứng có độ dài ngắn nhất (khi α 1 = α 2 = α/2 thì I có giá trị Imin). Độ dài khoảng tin cậy I được tính bởi: 2 1 2 1 2 1 2 ααα σσσ −−− = ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ −− ⎟ ⎟ ⎠ ⎞ ⎜ ⎜ ⎝ ⎛ += U n U n XU n XI Khi đó, nếu cho trước độ dài khoảng tin cậy bất kỳ I 0 , thì kích thước mẫu n cần phải xác định để đảm bảo với độ tin cậy đã cho là: )( 2 1 4 2 2 0 2 α σ − ≥ U I n Ví dụ: Thời gian gia công một chi tiết máy là một đại lượng ngẫu nhiên tuân theo qui luật phân phối chuẩn với độ lệch chuẩn là σ = 2 phút. Để ước lượng thời gian gia công trung bình cho loại sản phẩm đó, người ta đã tiến hành sản xuất thử 25 sản phẩm và thu được bảng số liệu sau: Thời gian (phút) Số chi tiết 20-22 22-24 24-26 26-28 28-30 2 6 10 4 3 Hãy ước lượng thời gian gia công trung bình cho các loại chi tiết đó bằng khoảng tin cậy đối xứng với độ tin cậy 95%. Giải: gọi μ là thời gian gia công một chi tiết, theo giả thiết μ là đại lượng ngẫu nhiên tuân theo quy luật phân phối chuẩn. Đây là bài toán ước lượng tham số trung bình, trường hợp biết σ với σ = 2, μ là thời gian gia công trung bình chưa biết cần ước lượng. Với độ tin cậy 95%, công thức cho phép tìm khoảng tin cậy đối xứng của μ trong trường hợp này là: 2 )1( 2 )1( αα σ μ σ −− +<<− nn T n xT n x . Trong đó giá trị trung bình của biến x là: )824,025()06,2* 25 2 25((1) đó 06,2 TT đó khi ,975,0 2 105,095,01 )( 25 25 3*294*2710*256*232*211 x 24 0,975 1)-(n 2 5 1 ±⇔±⇔ ===−⇒=−= = ++++ == ∑ = Khi phútxn n i ii α α α Hay thời gian gia công trung bình ước lượng (24,176; 25,824) Ước lượng khoảng tin cậy tham số tỷ lệ p trong luật phân phối A(p): Ước lượng khoảng tin cậy tỷ lệ Đối với ước lượng khoảng tin cậy tham số tỷ lệ, chúng ta cũng có 3 trường hợp ước lượng là ước lượng phía trái, phải và đối xứng. Chúng tôi sẽ tóm tắt phần ước lượng đối xứng khoảng tin cậy tỷ lệ ở bảng sau: ƯỚC LƯỢNG KHOẢNG TIN CẬY TỶ LỆ (P) 2 1 2 1 )1()1( αα −− − +≤≤ − − U n ff fPU n ff f nn n nn n Với: n: Số quan sát của mẫu α (1- γ ): Mức ý nghĩa ( α = 1- γ =1-độ tin cậy) 113 [...]... di=(xi-yi) (di-D)2 1 73 69 4 0,34027 2 50 54 -4 55,0 069 4 3 83 82 1 5,84027 4 78 67 11 57,5 069 4 5 56 60 -4 55,0 069 4 6 74 73 1 5,84027 7 74 75 -1 19,5 069 4 8 87 78 9 31,17 361 9 69 64 5 2,5 069 4 10 72 72 0 11 ,67 361 1 16 11 77 70 7 12,84028 12 75 63 12 73 ,67 361 Tổng 41 330,9 167 0 Trung bình D=3,4 167 Sd=5,4848 Như vậy D=3,4 167 , Sd=5,4848, t(11;0,025)=2,201 Thay vào công thức ta có: 3,4 167 − 5,4848 5,4848 2,201... DỮ LIỆU TRONG NGHIÊN CỨU MARKETING Ngày nay, việc ứng dụng tin học để phân tích dữ liệu trong nghiên cứu marketing là hết sức phổ biến Có một số phần mềm được sử dụng để phân tích dữ liệu trong nghiên nghiến marketing, mỗi loại đều có những ưu nhược điểm nhất định Do vậy, cần xác định phần mềm nào được sử dụng trong quá trình phân tích để đạt được hiệu quả cao nhất Trong khuôn khổ học phần này, chúng... 2 y = 51, 2 117 Với σx=8 phút, σy=9,5 phút, ( 46 ,5 − 51 ,2 ) − nx=40 sp, ny=38 sp, U1-α/2=1, 96 8 2 9 ,5 2 + 1, 96 < ( μ x − μ y ) < ( 46 ,5 − 51,2 ) − 40 38 8 2 9 ,5 2 + 1, 96 40 38 -8 ,60 77 (phút) . 73 69 4 0,34027 2 50 54 -4 55,0 069 4 3 83 82 1 5,84027 4 78 67 11 57,5 069 4 5 56 60 -4 55,0 069 4 6 74 73 1 5,84027 7 74 75 -1 19,5 069 4 8 87 78 9 31,17 361 9 69 64 5 2,5 069 4 10 72 72 0 11 ,67 361 . TRONG NGHIÊN CỨU MARKETING Ngày nay, việc ứng dụng tin học để phân tích dữ liệu trong nghiên cứu marketing là hết sức phổ biến. Có một số phần mềm được sử dụng để phân tích dữ liệu trong nghiên. 31,17 361 9 69 64 5 2,5 069 4 10 72 72 0 11 ,67 361 11 77 70 7 12,84028 12 75 63 12 73 ,67 361 Tổng 41 330,9 167 0 Trung bình D=3,4 167 S d =5,4848 Như vậy D=3,4 167 , S d =5,4848, t(11;0,025)=2,201 Thay