Giáo trình nghiên cứu Marketing- Chương 7
Trang 1- Các phương pháp và nguyên tắc mã hoá dữ liệu
- Một số vấn đề liên quan đến xử lý và diễn giải dữ liệu
- Bảng phân phối tần suất và bảng so sánh
- Ước lượng tham số
- Ứng dụng tin học vào phân tích dữ liệu nghiên cứu Marketing
- Phân tích thống kê mô tả
Trang 2CHUẨN BỊ DỮ LIỆU
Quy trình phân tích và xử lí bắt đầu sau khi dữ liệu đã được thu thập Nhưng trước khi xử lí phải diễn giải các dữ liệu ra một dạng thích hợp vì những dữ liệu mới được thu thập vẫn còn ở dạng ''thô'' chưa thể xử lí ngay được mà chúng cần được sắp xếp, được mã hóa theo những cách thức nhất định để dễ dàng cho việc sử dụng máy vi tính trợ giúp xử lí dữ liệu sau này
Làm cho dữ liệu có giá trị
Sau khi thu thập dữ liệu phải kiểm tra các dữ liệu để bảo đảm chúng có ý nghĩa, tức là có giá trị đối với việc xử lý và phân tích Việc làm cho dữ liệu có giá trị tiến hành theo hai bước:
- Bước thứ nhất: Tiến hành xem xét một cách kỹ lưỡng các phương pháp và các biện pháp đã
được sử dụng để thu thập dữ liệu (tức kiểm tra các công cụ dùng để thu thập dữ liệu)
- Bước thứ hai: Tiến hành nghiên cứu kỹ các bảng câu hỏi đã được phỏng vấn và những chỉ dẫn
về thủ tục phỏng vấn để phát hiện ra những nguyên nhân dẫn đến các sai sót
Hiệu chỉnh dữ liệu
Do những nguyên nhân khách quan và chủ quan, quá trình thu thập dữ liệu dù được chuẩn bị chu đáo vẫn còn có thể tồn tại những sai sót, vì vậy phải hiệu chỉnh để dữ liệu có ý nghĩa đối với quá
trình nghiên cứu Hiệu chỉnh dữ liệu là sửa chữa các sai sót về ghi chép hoặc ngôn từ phát hiện
được qua kiểm tra Trong khi hiệu chỉnh cần sửa chữa những sai sót phổ biến sau:
- Những cuộc phỏng vấn giả tạo do người đi phỏng vấn “phịa” ra
- Như câu trả lời không đầy đủ (là những câu trả lời không rõ ý hoặc trả lời nửa chừng)
- Những câu trả lời thiếu nhất quán
- Những câu trả lời không thích hợp
- Những câu trả lời không đọc được
Có 3 cách tiếp cận được sử dụng để xử lí các dữ liệu ''xấu'' từ các tình huống đó
Quay trở lại người đi phỏng vấn hay người trả lời câu hỏi để làm sáng tỏ vấn đề
Việc liên hệ với các cá nhân để tìm câu trả lời đúng làm nảy sinh hai vấn đề:
- Làm tăng chi phí và sẽ quá đắt nếu cuộc khảo sát có quy mô vì chi phí phỏng vấn này đã được tính trong dự án nghiên cứu Theo kinh nghiệm, ngwời nghiên cứu có thể không cần tìm cách thu thập thêm dữ liệu nếu tỉ lệ các câu hỏi nghi vấn tương đối nhỏ và / hoặc quy mô của mẫu tương đối lớn (tỉ lệ các câu hỏi nghi vấn nhỏ hơn 20% và mẫu lớn hơn 500)
- Nếu quyết định đi ngược trở lại để thu thập dữ liệu, những dữ liệu mới có thể sẽ khác với dữ liệu đã được thu thập trong cuộc phỏng vấn đầu tiên do các cá nhân có thể không nhớ thông tin cần thiết, cũng như có thể do sử dụng phương pháp khác và điều này ảnh hưởng rất lớn đến kết quả của câu trả lời (liên quan đến độ tin cậy của cuộc điều tra)
Suy luận từ những câu trả lời khác
Theo cách này, người hiệu chỉnh phỏng đoán từ các dữ liệu khác để làm rõ câu trả lời nào đúng Nhưng đây là cách làm đầy rủi ro Khó có thể minh định được các quy luật để suy luận các câu trả lời Do đó để an toàn khi hiệu chỉnh dữ liệu, người nghiên cứu cần hết sức thận trọng với phương pháp này, và không nên suy luận một câu trả lời trừ phi biết tương đối chắc chắn về ý định của người trả lời
Loại toàn bộ câu trả lời
Trang 3Đây là việc dễ thực hiện nhất Theo cách này, người hiệu chỉnh chỉ việc loại đi những câu trả lời
có nghi vấn Trong trường hợp quy mô của mẫu tương đối lớn, người hiệu chỉnh có thể loại bỏ toàn bộ các câu trả lời nếu thông tin thiếu nhất quán và người hiệu chỉnh không thể giải quyết vấn
đề thiếu nhất quán đó trong các dữ liệu được thu thập từ các đối tượng phỏng vấn Tuy nhiên, khuyết điểm trong cách tiếp cận này là sự thiên vị trong kết quả nếu những người trả lời thiếu nhất quán đó bị loại ra khỏi cuộc nghiên cứu, khi đó kết quả đạt được sẽ bị lệch nếu ý kiến những người trả lời bị loại này khác với những người còn được giữ lại trong mẫu điều tra
Một cách giải quyết khác là tập hợp một báo cáo riêng các loại dữ liệu bị thiếu hoặc không nhất quán, không rầng nếu người nghiên cứu thật sự tin rằng các dữ liệu đó có thể có ích cho việc ra quyết định của các nhà lãnh đạo
CẤU TRÚC VÀ MÃ HÓA DỮ LIỆU
Mã hóa dữ liệu là một quá trình liên quan tới việc nhận diện và phân loại mỗi câu trả lời trên một
ký hiệu được chỉ định (ký hiệu có thể bằng số hoặc bằng chữ) Dữ liệu này phải được mã hóa thì máy điện toán mới đọc và xử lý được
Cấu trúc dữ liệu
Cấu trúc của dữ liệu là cách sắp xếp thông tin đã được trả lời vào vị trí ô lưu trữ dữ liệu của máy điện toán Do đó các nhà nghiên cứu phải tổ chức các dữ liệu được mã hóa thành một cấu trúc thích ứng của các dữ liệu
Mã hóa dữ liệu
Việc mã hóa có thể được thực hiện vào một trong hai thời điểm, là mã hóa trước và mã hóa sau:
Mã hóa trước
Mã hóa trước là việc quyết định chọn các mã số cho các câu hỏi và các phương án trả lời từ khi thiết kế bản câu hỏi, và do vậy có thể in ngay các mã số lên bảng câu hỏi Hình thức mã hóa này thích hợp cho các câu hỏi dạng luận lý (chỉ chọn một trong hai cách trả lời: có, không) hay dạng chọn một trong các câu trả lời ghi sẵn Đối với các câu hỏi này người nghiên cứu đã định rõ được câu trả lời và do đó dễ dàng ký hiệu cho các câu trả lời đó Việc mã hóa này có tác dụng làm giảm đi rất nhiều khối lượng công việc trong bước chuẩn bị dữ liệu
Để làm rõ ta hãy xem xét ví dụ về một phần trong bảng câu hỏi về sản phẩm ti vi sau đây:
Q1 Bà/ cô có TV hoặc xem ti vi không ?
Không (0) → chấm dứt và sang phần kế
Có (1) → hỏi tiếp từ Q2a
Q2a Bà/ cô thường bao lâu xem TV một lần ? Mỗi ngày/ hầu như mỗi ngày (1)
4-5 ngày/ tuần (2)
2-3 ngày/tuần (3)
1 lần/ tuần (4)
2-3 ngày/ tháng (5)
1 lần/ tháng (6)
Không thường xuyên (7)
Không xem (8) → chuyển sang câu hỏi tiếp theo Q2b Lần gần đây nhất bà/ cô xem TV khi nào ? Ngày hôm qua (1)
Trước ngày hôm qua (2)
Trang 4Q2c Trung bình, một ngày bình thường trong tuần bà/cô xem chương trình TV trong bao lâu?
Có hai cách:
- Cách thứ nhất: Người nghiên cứu tiến hành mã hóa các câu trả lời trước khi nghiên cứu thực
địa Trường hợp này, người nghiên cứu phải dự kiến về mặt lý thuyết các câu trả lời hoặc sử dụng kinh nghiệm của các cuộc nghiên cứu trước, đồng thời mất thời gian huấn luyện những người đi phỏng vấn cách phân loại các câu trả lời được ghi nguyên văn đúng loại mã hóa đã dự kiến
- Cách thứ hai: Chờ đến khi thu thập xong dữ liệu mới tiến hành mã hóa Khi đó, người nghiên
cứu phải xem xét ngẫu nhiên 30% các bản câu hỏi đã được trả lời để tính toán các loại tình huống trả lời và mã hóa nó Trước khi mã hóa, phải rà soát lại toàn bộ các câu hỏi đã phỏng vấn để xem xét có còn tình huống trả lời nào khác không Để tiện lợi cho việc phân tích, không nên phân loại quá 10 tình huống trả lời cho một vấn đề
Các nguyên tắc thiết lập kiểu mã hóa
Để làm cho chức năng mã hóa được tốt hơn cần phải tuân thủ các nguyên tắc sau đây trong việc thiết lập các kiểu mã hóa
- Số “ kiểu mã hóa” thích hợp: số kiểu mã cần phải đủ lớn để bao quát hết được các sự khác biệt trong dữ liệu Nếu số lượng mã quá ít thì có thể một số thông tin quan trọng sẽ không được bao quát
- Những thông tin trả lời được sắp xếp trong cùng một “ loại mã hóa” thì phải tương tự nhau về đặc trưng nghiên cứu
- Ranh giới rõ ràng giữa các “loại mã hóa”
Với các đặc trưng đang được nghiên cứu, những sự khác biệt về thông tin trả lời giữa các “loại mã” phải không giống nhau đến mức đủ xếp vào cùng một “loại mã”
Ví dụ: Chúng ta đang nghiên cứu đặc trưng về tuổi tác của người được hỏi, giả sử cần tiến hành
mã hóa các tình huống trả lời như sau:
Trang 5- Nhỏ hơn 20 tuổi
- Từ 21 tuổi đến 30 tuổi
- Trên 30 tuổi
Nếu có một câu trả lời là 20 tuổi 4 tháng thì sẽ không rõ phải được xếp vào loại nào vì ở khoảng thứ nhất phải là 20 tuổi và thứ 2 phải là từ 21 tuổi đến 30 tuổi Khi đó người nghiên cứu phải làm tròn theo nguyên tắc là 20 tuổi như vậy được xếp vào loại thứ 1
- Nguyên tắc loại trừ giữa các loại mã hóa: các loại mã hóa phải không được chồng chéo lên nhau, cần phải thiết lập chúng như thế nào để bất cứ tình huống trả lời nào cũng chỉ được xếp vào một loại mã hóa thôi (đã được xếp vào loại mã này thì không xếp vào mã khác)
- Nguyên tắc toàn diện: theo nguyên tắc này, cấu trúc của một loại mã phải bao quát được tất cả các tình huống trả lời nhằm đảm bảo tất cả các tình huống đều được mã hóa
- Nguyên tắc “đóng kín” những khoảng cách lớp: theo nguyên tắc này, không được “để mở” khoảng cách lớp của mã hóa, bởi vì việc không chỉ rõ những giới hạn về khoảng cách lớp sẽ làm lu mờ đi những giá trị phân tán ở hai đầu mút của dãy phân phối và do đó sẽ không cho phép tính toán được giá trị trung bình của những quan sát trong mỗi khoảng cách lớp
Ví dụ, xem xét việc mã hóa câu hỏi về thu nhập bình quân đầu người của những người được phỏng vấn:
Từ 100USD - 200USD 1
Trên 200USD - 300USD 2
Trên 300USD - 400USD 3
Trên 400USD -500 USD 4
Có thể nhận thấy nếu mã hóa như trên thì sẽ chưa đảm bảo “đóng kín” những khoảng cách lớp vì với các tình huống trả lời có thu nhập dưới 100USD hoặc trên 600USD chưa được mã hóa mặc dù tần suất xuất hiện các giá trị ở hai đầu mút này rất nhỏ
- Nguyên tắc về những khoảng cách lớp: Khoảng cách các lớp nên được quy định tương đương nhau thì tốt hơn là để chúng có độ rộng thay đổi Nếu không tuân thủ các nguyên tắc này có thể đưa đến tình trạng khoảng cách lớp thiếu sự dàn trải phù hợp Tuy nhiên, có thể chấp nhận các khoảng cách có độ rộng không tương đương nhau khi đã định rõ các “loại mã” chứa đựng các phần tương đối nhỏ của tổng thể mà những đặc trưng trả lời từ những phần nhỏ đó có thể không cung cấp những thông tin hữu ích nào cả
- Nguyên tắc định điểm giữa các khoảng cách lớp: đối với những câu hỏi mà khi trả lời người ta hay làm tròn số thì những khoảng cách lớp cần được thiết kế sao cho những con số được làm tròn (lớn hơn) đó rơi vào những điểm giữa của khoảng cách lớp
Lập danh bạ mã hóa
Danh bạ mã hóa gồm nhiều cột, trong từng cột chứa đựng những lời giải thích về những mã hiệu
đã được sử dụng trong những trường dữ liệu (data fields) và những mối liên hệ của chúng đối với những câu trả lời của các câu hỏi
Chức năng của danh bạ mã hóa là giúp người làm mã hóa thực hiện việc làm biến đổi từ câu trả lời ra một ký hiệu thích hợp mà máy điện toán có thể đọc được, giúp các nhà nghiên cứu nhận diện các loại biến số khi in bản phân tích bằng máy điện toán
Trang 6Lượng thông tin tối thiểu được chứa đựng trong một danh bạ mã hóa đối với một câu hỏi bao gồm: số của câu hỏi, số cột cần có trong máy điện toán, tên của biến số, vấn đề của câu hỏi và mã hiệu đã được sử dụng
- Có phải chỉ cần mô tả bề mặt của các tình huống nào đó hay không?
- Có phải chúng ta đang tìm kiếm một ngoại lệ hay một dạng nào đó trong tình huống hay không?
- Cần dự đoán trạng thái tương lai hay giá trị của một biến hay không?
- Nếu có những mối liên hệ quá khứ giữa các biến nào đó thì có cần làm rõ không? Nếu như vậy chúng ta có phải quan tâm đến những mối liên hệ bên trong giữa các biến hay không?
- Chúng ta có muốn thăm dò cấu trúc bên trong của một hiện tượng bề ngoài về phản ứng của người tiêu dùng, qua đó tìm hiểu được hoặc chứng minh cho các nguyên nhân bên trong hay không ?
- Nếu dùng mô hình thử nghiệm thì (1) có những biến thiên cùng chiều nào giữa các biến thích hợp? (2) các biến đặc biệt nào là nguồn nhập cho từng phương pháp hay cho các bảng tính, (3) việc tính toán được thực hiện theo trình tự nào?
- Những tính toán nào phụ thuộc vào kết quả tính toán của các bước trước?
- Những tính toán nào phải chờ đợi những kết quả của các tính toán khác thì mới đi đến quyết định kết quả của chúng có ý nghĩa hay không?
- Những câu trả lời cho câu hỏi thứ (3) đòi hỏi những phép toán thống kê phải được lập thành một trình tự logic nhất định Khi thiết lập những trình tự như thế cần nêu rõ những thứ tự ưu tiên tính toán và những gì còn đang nghi vấn đối với kết quả đưa ra
Ví dụ, có thể lập một danh bạ mã hóa cho mẫu phỏng vấn sản phẩm tivi như sau:
Q1 Có hoặc không xem tivi
Không 0
Có 1
Q2a Số lần xem tivi Mỗi ngày/ hầu như mỗi ngày 1
4-5 ngày/ tuần 2
2-3 ngày/tuần 3
1 lần/ tuần 4
2-3 ngày/ tháng 5
1 lần/ tháng 6
Không thường xuyên 7
Không xem 8
Q2b Lần xem tivi gần đây nhất Ngày hôm qua 1
Trước ngày hôm qua 2
Q2c Thời gian xem tivi ngày thường Ít hơn 1 giờ 1 Từ 1 đến 3 giờ 2
Từ 3 đến 5 giờ 3
Từ 5 đến 7 giờ 4
Từ 7 đến 9 giờ 5
Trên 6
Q2d Thời gian xem tivi ngày cuối tuần
Trang 7MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN PHÂN TÍCH VÀ DIỄN GIẢI DỮ LIỆU
Phân tích và diễn giải dữ liệu đã xử lý có tác dụng quan trọng trong việc tìm hiểu và rút ra ý nghĩa của các dữ liệu, nhờ đó, các căn cứ cho đề xuất các giải pháp sẽ rõ ràng và khoa học hơn Công việc này được tiến hành qua 2 giai đoạn chủ yếu:
- Xếp các dữ liệu thô vào các thứ bậc đã được đo lường
- Tóm lược các phương pháp phân tích để làm rõ mối quan hệ hỗ tương và các ý nghĩa định lượng giữa các dữ liệu (trong các nội dung sau chúng ta sẽ tìm hiểu một số phương pháp phân tích dữ liệu dựa trên cơ sở sử dụng các thành tựu của khoa học thống kê)
Vấn đề hiệu quả của công tác xử lí dữ liệu
Nguy cơ làm cho phí tổn và thời gian xử lý lâu là những nguyên nhân khiến cho các nhà nghiên cứu phải quan tâm đến tính hiệu quả của công tác dữ liệu Để đảm bảo tính hiệu quả của công tác
xử lý dữ liệu cần phải chú ý đến một số vấn đề sau:
- Việc chuẩn bị các dữ liệu để xử lý phải làm sẵn trước khi đưa dữ liệu đến bộ phận computer Việc này sẽ tiết kiệm được thời gian và tránh được những sai sót đáng tiếc do tình trạng các dữ liệu thô đổ dồn về trung tâm tính toán
- Tiên đoán trước các dữ liệu nào là cần thiết đưa vào xử lý và phân tích Không được tùy tiện cắt xén dữ liệu vì việc bổ sung dữ liệu trong quá trình xử lý sẽ rất phức tạp và tốn nhiều công sức, tiền bạc Nhưng cũng không nên đưa quá nhiều dữ liệu “râu ria” vào xử lý làm tăng khối lượng tính toán không cần thiết, kết quả phân tích sẽ phức tạp và nhiều khi vô dụng
Tóm lại phải đưa và chỉ nên đưa đủ những dữ liệu cần thiết cho mục đích nghiên cứu vào xử lý
Bản chất của sự diễn giải
Định nghĩa
Diễn giải là làm nổi bật ý nghĩa của dữ liệu, hay nói cách khác diễn giải là quá trình chuyển đổi các dữ liệu thuần túy thành thông tin Người nghiên cứu sẽ đạt đến mục tiêu của quá trình nghiên cứu khi rút ra kết luận từ những dữ liệu để phân tích Có hai giai đoạn về suy nghĩ lôgíc dùng để rút ra các suy luận từ dữ liệu và cả hai giai đoạn đều được ta thực hiện dù có ý thức hay không:
đó là quy nạp và diễn giải
Boveridge đã định nghĩa các giai đoạn này như sau: “Các nhà lôgíc học phân biệt rõ giữa suy
luận qui nạp (từ những ví dụ đặc biệt dẫn đến các qui tắc chung, từ dữ kiện cho đến lý thuyết) và suy luận diễn giải (từ cái chung đến cái đặc biệt, áp dụng lý thuyết vào một trường hợp nào đó)
Ở quy nạp, người ta bắt đầu từ các dữ kiện, quan sát chúng và tiến đến một sự khái quát hóa để giải thích mối quan hệ giữa các đối tượng được quan sát Ngược lại, ở phương pháp diễn giải, người ta bắt đầu từ các qui luật chung và áp dụng chúng vào một trường hợp cụ thể”
Các yêu cầu của việc diễn giải
Để diễn giải tốt, cần phải lưu ý các vấn đề sau:
Trang 8- Diễn giải một cách trung thực và tỉnh táo, không nên phóng đại hay bóp méo các dữ liệu để gây sự chú ý
- Luôn khách quan và đơn giản trong diễn giải, không nên làm phức tạp hóa vấn đề
- Lưu ý đến giới hạn của các mẫu thông tin nhỏ, tức là không nên sa vào “thổi phồng” kết quả quan sát được từ một mẫu nhỏ thành khái quát miêu tả một phạm vi lớn
- Công bằng, khách quan với mọi dữ liệu, không nên có thành kiến hoặc thiên hướng về một kết luận đặc biệt nào
- Chú ý đúng mức đến các câu trả lời quá bất thường
- Phân biệt nguyên nhân và kết quả, không nên nhầm lẫn chúng với nhau
Những lưu ý về phân tích dữ liệu
Chọn phương pháp phân tích
Lĩnh vực phân tích dữ liệu rất rộng vì vậy, có rất nhiều phương pháp phân tích có thể sử dụng Người nghiên cứu cần phải cân nhắc nhiều khía cạnh để lựa chọn phương pháp thích hợp, bao gồm: đặc tính ngẫu nhiên của dữ liệu, cần nêu bật ý nghĩa nào của kết quả nghiên cứu?, có xem xét sự sai lệch đáng kể của dữ liệu không?, qui luật phân phối ngẫu nhiên của dữ liệu thuộc đại lượng nghiên cứu nào?
Dữ liệu tham số và dữ liệu phi tham số
Những dữ liệu được gọi là tham số khi chúng được phân phối xung quanh giá trị trung bình hoặc giá trị trung tâm của chúng một cách đối xứng nhau, tương tự như đường cong của hàm số mật độ phân phối xác suất chuẩn
Những dữ liệu phi tham số thì khác, chúng không được phân phối theo đường cong của hàm phân phối chuẩn
Tương ứng với các loại dữ liệu đó, các phương pháp kiểm định giả thuyết được áp dụng có những khác biệt theo các tiêu chuẩn kiểm định khác nhau, do vậy, khi phân tích dữ liệu cần nhận diện rõ ràng đó là loại dữ liệu tham số hay dữ liệu phi tham số
Số lượng những biến số cần được phân tích
Số lượng những biến số thường hay thay đổi từ một đến nhiều biến số:
Chúng ta xếp loại chúng theo 3 nhóm phương pháp phân tích:
- Phương pháp biến số đơn: trong đó chỉ có một biến số duy nhất được phân tích
- Phương pháp biến số kép: được sử dụng để tìm hiểu sự liên hệ giữa hai biến số
- Phương pháp đa biến: được sử dụng để tìm hiểu sự liên hệ giữa các biến số với nhau
Tính độc lập và phụ thuộc lẫn nhau
Liên quan đến số lượng biến số được phân tích là sự liên hệ giữa các biến số với nhau Từ “liên hệ” được sử dụng để ám chỉ sự biến thiên của hai (hay nhiều) biến số sẽ có ảnh hưởng giữa chúng với nhau Sẽ có hai trường hợp phân tích:
(1) Trường hợp trong đó chỉ có một biến số được kiểm nghiệm về tính phụ thuộc của nó với những biến số độc lập khác
(2) Trường hợp người nghiên cứu tìm kiếm những mối liên hệ hay phụ thuộc lẫn nhau giữa tất cả các biến số
Trang 9LẬP BẢNG PHÂN PHỐI TẦN SUẤT VÀ LẬP BẢNG SO SÁNH
Lập bảng phân phối tần suất (lập bảng theo thứ tự ABC)
Hình thức đơn giản nhất trong xử lý dữ liệu là sắp xếp chúng theo chuỗi số (hoặc theo hướng tăng dần từ thấp đến cao, hoặc giảm dần từ cao xuống thấp), sau đó phân chia thành từng lớp (theo nguyên tắc phân tổ trong thống kê) Ở loại bảng đơn giản này, các dạng dữ liệu được thể hiện bao gồm:
- Đại lượng nghiên cứu đã được phân tổ
- Tần số quan sát ứng với từng lớp
- Tần số tích lũy
Chẳng hạn, sau khi thu thập các dữ liệu về thu nhập, ta có thể sắp xếp chúng như sau:
Thu thập hàng tháng (triệu đồng) Số người (Tần số) Tần số lũy tích
Thu nhập (triệu đồng/tháng) Trình độ
Nam
-Tiểu học -Trung học
- Đại học
Trang 10- Thạc sĩ
- Tiến sĩ
Nữ
-Tiểu học -Trung học
- Đại học
- Thạc sĩ
- Tiến sĩ
Để kiểm tra sự phân bố dữ liệu có thể tuân theo quy luật phân phối chuẩn hay không, hai tham số
mà chúng ta đề cập là tham số skewness và kurtosis, hai tham số này biểu hiện độ "nhọn" của
phân phối tần suất
Hệ số skewness
Skewness là thước đo mức độ không đối xứng của phân phối tần suất, các giá trị trung bình (X),
số mode (M0), số trung vị (Md) đều tham gia vào quá trình xem xét Trong một dãy phân phối có dạng đối xứng hoàn toàn các tham số trung bình, trung vị và mode có cùng giá trị (X= M0 = Md)
Hệ số skewness nhận giá trị từ -3 đến + 3, nếu dữ liệu tuân theo phân phối chuẩn thì thông số skewness bằng 0 và hệ số skewness được tính như sau:
s
M x
S k 3( − 0)
n s
24
=
ĐO LƯỜNG KHUYNH HƯỚNG HỘI TỤ CỦA DỮ LIỆU
Có 3 tham số cơ bản để đó lường khuynh hướng hội tụ của dữ liệu là mốt (mode), trung vị (median) và số trung bình
Mode: Mode là giá trị trung tâm xảy ra thường xuyên nhất trong dãy phân phối tần suất Nó được tính ra dễ dàng khi xếp dữ liệu và các lớp trong một bảng tần suất phân phối vì “mode” là lớp chứa số lần quan sát lớn nhất
Số mode được tính theo công thức sau:
i d d
d L
2 1
1 0
++
=
Trang 11Trong đó: Mo - Trị số mode
LMo - Giới hạn dưới của lớp có tần suất xuất hiện lớn nhất
d1 - Sai biệt về tầìn suất của lớp có tần suất xuất hiện lớn nhất với lớp đứng liền trước
nó trong dãy phân phối
d2 - Sai biệt về tần suất của lớp có tần suất xuất hiện lớn nhất với lớp đứng liền sau nó trong dãy phân phối
i - Độ lớn của khoảng cách của lớp có tần suất xuất hiện lớn nhất
Một số đặc trưng quan trọng của mode:
- Mode không bị ảnh hưởng bởi các giá trị ở hai đầu (giá trị đầu cuối) của dãy phân phối
- Mode có thể tiêu biểu cho dãy phân phối nếu những quan sát được tập trung vào một giá trị hoặc một lớp
Trung vị: Trung vị (medial) thể hiện giá trị trung bình tiêu biểu nhất của các giá trị trong dãy phân phối, vì nó bằng đúng ngay giữa giá trị cao nhất và giá trị thấp nhất Trước khi xác định giá trị trung vị, cần phải sắp xếp các dữ liệu theo thứ tự dưới lên hoặc từ trên xuống Đối với những
dữ liệu không được phân nhóm mà số quan sát là lẻ thì chọn giá trị trung vị rất dễ dàng
Giá trị trung vị được xác định theo công thức:
i f
f n L
M
Md
c Md
−+
=Trong đó: Md - Giá trị trung vị
LMd - Giới hạn dưới của lớp chứa trung vị
n - Tổng tần suất trong dãy phân phối
fc - Tần suất lũy tích của lớp đứng trước lớp chứa trung vị
fMd -Tần suất của lớp chứa trung vị
i - Độ lớn khoảng cách lớp chứa trung vị
Một số đặc tính quan trọng của trung vị:
- Có thể tính được ở những bảng phân phối mở vì giá trị trung vị nằm trong khoảng cách của lớp chứa trung vị, và khoảng cách không thể là khoảng cách mở
- Không bị ảnh hưởng bởi các giá trị ở hai đầu mút của dãy phân phối, vì vậy, nếu bảng phân phối có độ lệch lớn nên chọn phép tính giá trị trung vị hơn là trung bình
Trang 12- Không bị tác động của giá trị quan sát được mà bị tác động bởi số lần quan sát, vì vậy các giá trị ở hai đầu của dãy phân phối không làm biến đổi kết quả của trị số này
- Nếu các khoảng cách lớp có kích thước không bằng nhau thì trung vị được xem là sự đo lường
xu hướng phân phối phù hợp nhất vì nó dễ tính hơn nhiều so với giá trị trung bình
Giá trị trung bình ( Mean) : Nếu mẫu ngẫu nhiên w có các giá trị x = ( x1 , x2 , ,xn) thì giá trị
trung bình của x là: ∑
=
=
i i
x n
Một số đặc tính quan trọng của giá trị trung bình:
- Giá trị trung bình chịu sự tác động bởi các giá trị của mỗi quan sát, như vậy khi giá trị của mỗi quan sát thay đổi sẽ làm thay đổi giá trị trung bình
- Nếu có một dãy phân phố mà tính chất đối xứng lệch nhau quá lớn thì giá trị trung bình cũng
bị thay đổi phụ thuộc theo các giá trị đầu mút
- Các đặc tính toán học của giá trị trung bình đóng vai trò rất quan trọng khi các dữ liệu của mẫu được dùng để suy rộng ra tổng thể (ước lượng) hoặc khi được dùng trong các thí nghiệm thống
kê Phương pháp trung bình số học rất thích hợp khi phân tích các dữ liệu theo khoảng cách
- Không thể tính được giá trị trung bình với các dãy phân phối mở
Ước lượng khuynh hướng hội tụ:
Với các tham số biểu thị khuynh hướng hội tụ như trên, nên chọn tham số nào đặc trưng nhất ? Không có quy tắc chung nào chỉ ra việc sử dụng tham số nào là thích hợp Muốn chọn đúng tham
số cần phải xem xét đặc tính của từng loại và đánh giá được các loại biến số dữ liệu
Trong một dãy phân phối có dạng đối xứng hoàn toàn, phương pháp chọn lựa rất đơn giản vì các
số trung bình, trung vị và mode đều có cùng giá trị Nhưng nếu dãy phân phối quá lệch thì giá trị của 3 tham số này sẽ khác nhau Vì vậy, việc hiểu biết về các loại phân phối giúp ra quyết định nên chọn tham số nào để ước lượng
Ngoài ra, để lựa chọn ước lượng thích hợp, có thể sử dụng các tiêu chuẩn do các nhà thống kê đưa ra mà một khi một ước lượng thỏa mãn được chúng thì đó sẽ là một ước lượng tốt
- Tính không chệch: Khi kỳ vọng toán của tham số đó gần trùng với tham số tổng thể thì ước lượng được xem là không chệch
- Tính phù hợp: Khi kích thước mẫu tăng lên mà một ước lượng rút ra từ mẫu đó cũng tiếp cận đến tham số tổng thể (giá trị thực sự của tổng thể) thì ước lượng đó gọi là một ước lượng phù hợp của tham số tổng thể
- Tính đầy đủ: Một ước lượng thống kê được xem là mang tính đẩy đủ nếu nó sử dụng hết các thông tin về tham số mẫu mà mẫu nó chứa, nghĩa là không có mẫu nào khác có thể có thể cho thêm thông tin về tham số
ĐO LƯỜNG ĐỘ PHÂN TÁN CỦA DỮ LIỆU
Các tham số đo lường khuynh hướng hội tụ của dữ liệu đã không nói gì về khả năng mở rộng hay chia nhỏ các dữ liệu quan sát Vì thế, cần nghiên cứu độ phân tán để so sánh “sự mở rộng” của hai tập dữ liệu và tính đặc trưng của các giá trị trung bình Ví dụ, nếu các dữ liệu được “mở rộng"
Trang 13nhiều quá thì việc sử dụng giá trị trung bình để quan sát tính hội tụ sẽ không thể biểu trưng cho các dữ liệu đang nghiên cứu
Khoảng biến thiên:
Khoảng biến thiên là đặc trưng phân tán đơn giản nhất Nó là sự sai biệt giữa giá trị cao nhất và thấp nhất trong một dãy hay bảng phân phối Nó chỉ làm nổi bật khoảng cách của dữ liệu mà không so sánh với giá trị trung bình Vì vậy các giá trị tiêu biểu của dữ liệu có thể không được đề cập đến và đặc trưng này có thể làm méo mó đi hình ảnh của dãy phân phối
Phương sai và độ lệch chuẩn:
Phương sai và độ lệch chuẩn dựa trên mức độ sai lệch của các quan sát với giá trị trung bình Phương sai được định nghĩa như là số trung bình của bình phương các độ lệch giữa giá trị quan sát với giá trị trung bình trong dãy phân phối Căn bậc hai của phương sai gọi là độ lệch chuẩn
Vì phương sai là đặc trưng hơi khó diễn dịch hơn nên độ lệch chuẩn thường được sử dụng nhất trong các đặc trưng phân tán
Phương sai mẫu s2 là đại lượng được xác định : ∑
n i
i
n n
x x n n
n s
n
n s
1
2 1
2
1
1)
(
1
*11
'
Một số đặc trưng quan trọng của độ lệch chuẩn:
- Sự thay đổi của bất kỳ giá trị quan sát nào thì làm sẽ làm thay đổi giá trị của độ lệch chuẩn
- Cũng như giá trị trung bình, độ lệch chuẩn có thể mất tính đại diện nếu dãy phân phối quá lệch
- Không thể tính được độ lệch chuẩn đối với các dãy phân phối mở
Hệ số biến thiên: (Coefficient of variation)
Nếu cần phải so sánh sự phân tán của nhiều hơn một dãy phân phối có các đơn vị đo lường khác nhau, ta có thể dùng một đặc trưng phân tán tương đối được gọi là “hệ số biến thiên”, công thức
là :
Cv = σ.(100)/μ hay Cv = s.(100)/X
Trong đó : Cv : Hệ số biến thiên
σ : Độ lệch chuẩn của tổng thể
s : Độ lệch chuẩn của mẫu
X : Giá trị trung bình của mẫu
Trang 14ƯỚC LƯỢNG THAM SỐ
Như chúng ta đã biết trong thống kê toán, giả sử một đại lượng ngẫu nhiên X tuân theo qui luật phân phối nào đó đã biết dạng, nhưng chưa biết một tham số θ nào đó của nó, vì vậy cần ước lượng giá trị của θ thông qua kết quả thực nghiệm Để thuận tiện trên phương diện ứng dụng, phần này sẽ không nhắc lại những kiến thức nền tảng của thống kê toán mà chỉ trình bày những ứng dụng của thống kê toán đối với ước lượng một số tham số chủ yếu
Ước lượng tham số trung bình μ trong luật phân phối chuẩn N(μ,σ 2 )
Trường hợp σ đã biết
Gọi α là mức ý nghĩa của quá trình ước lượng, khi đó, độ tin cậy của quá trình ước lượng là
γ=1-α, giả sử hàm phân phối của mẫu tuân theo quy luật phân phối chuẩn N(μ,σ2), ta có:
2 1
Ux
Trường hợp σ chưa biết
Nếu kích thước mẫu nhỏ (n<30):
Trong trường hợp kích thước mẫu nhỏ (n<30), hàm phân phối mà chúng ta cần dùng là hàm phân phối T-student, khi đó khoảng tin cậy tham số trung bình sẽ là:
1 - n 2 1 1
Trang 15Nếu kích thước mẫu lớn (n≥30):
Trong trường hợp kích thước mẫu lớn (n≥30), cần phải tính tham số phương sai điều chỉnh mẫu
(s’), các trường hợp ước lượng cũng giống như trường hợp σ đã biết và chúng ta thay thế giá trị σ bằng giá trị s’
Để dễ dàng cho việc theo dõi, có thể tóm gọn các phương pháp ước lượng đối xứng tham số trung
bình như sau:
ƯỚC LƯỢNG KHOẢNG TIN CẬY CỦA GIÁ TRỊ TRUNG BÌNH
Đã biết phương sai tổng thể (σ2 ) Chưa biết phương sai tổng thể (σ2 )
Khi n<30 Phân phối Student với (n-1) là bậc tự do s’: Độ lệch chuẩn hiệu chỉnh mẫu
Phân phối chuẩn
1 2
'' − < < + −
n
s x t
n
s
2 1 2
n
s x
2 1 2
n
x
Tính kích thước mẫu trong trường hợp ước lượng tham số trung bình
Gọi I là độ dài khoảng tin cậy, khi đó I = giá trị giới hạn trên – giá trị giới hạn dưới Chúng ta đã biết từ thông kê toán rằng, trong mọi khoảng tin cậy với cùng độ tin cậy thì khoảng tin cậy đối xứng có độ dài ngắn nhất (khi α1 = α2= α/2 thì I có giá trị Imin)
Độ dài khoảng tin cậy I được tính bởi:
2 1 2
1 2
1
2α α
α
σσ
n X
I
Khi đó, nếu cho trước độ dài khoảng tin cậy bất kỳ I0, thì kích thước mẫu n cần phải xác định để đảm bảo với độ tin cậy đã cho là:
) (
21
Trang 16Ví dụ : Thời gian gia công một chi tiết máy là một đại lượng ngẫu nhiên tuân theo qui luật phân phối chuẩn với độ lệch chuẩn là σ = 2 phút Để ước lượng thời gian gia công trung bình cho loại sản phẩm đó, người ta đã tiến hành sản xuất thử 25 sản phẩm và thu được bảng số liệu sau:
20-22 22-24 24-26 26-28 28-30
) 1
σ − < < + −
n x T
n
)824,025()06,2
*25
225((1)
đó
06,2T
Tđókhi ,975,02105,095,01
)(2525
3
*294
*2710
*256
*232
*211
x
24 0,975 1)
(n
++
n
n i i i
α
αα
Hay thời gian gia công trung bình ước lượng (24,176; 25,824)
Ước lượng khoảng tin cậy tham số tỷ lệ p trong luật phân phối A(p):
Ước lượng khoảng tin cậy tỷ lệ
Đối với ước lượng khoảng tin cậy tham số tỷ lệ, chúng ta cũng có 3 trường hợp ước lượng là ước lượng phía trái, phải và đối xứng Chúng tôi sẽ tóm tắt phần ước lượng đối xứng khoảng tin cậy
tỷ lệ ở bảng sau:
ƯỚC LƯỢNG KHOẢNG TIN CẬY TỶ LỆ (P)
2 1 2
1
)1()
1(
α
−
−+
P U
n
f f
n n
n n
Với: n: Số quan sát của mẫu
α (1-γ): Mức ý nghĩa (α = 1-γ =1-độ tin cậy)