Đối với dữ liệu định lượng có số lượng hữu hạn các giá trị lượng biến như số con của các cặp vợ chồng trẻ tại thành thị, số thành viên trong gia đình, số vụ kẹt xe xảy ra tại thành phố H
Trang 1Chương 3 TRÌNH BÀY DỮ LIỆU DẠNG BẢNG VÀ
ĐỒ THỊ
3.1 Bảng tần số
Dữ liệu sau khi thu thập và nhập liệu là những thông tin ngẫu nhiên, rời rạc Để có
được cái nhìn tổng quát hoặc đưa ra một nhận xét chung về dữ liệu thu thập được; trước
hết, ta cần sắp xếp, tinh chỉnh và trình bày lại một cách có hệ thống Trong đó, bảng phân phối tần số (còn được gọi là bảng tần số frequency) là một cách thức sắp xếp và trình bày
dữ liệu một cách có hệ thống bằng cách phân chia chúng thành từng nhóm (lớp) khác nhau Bảng tần số còn là căn cứ để hình thành nên biểu đồ phân phối tần số Tổng quát của một bảng phân phối tần số như sau
n k
f
Về cơ bản, bảng tần số (frequency) gồm 2 phần:
- trị số của biến nghiên cứu, kí hiệu ;
- số lần xuất hiện của trị số gọi là tần số (kí hiệu )
Cũng có thể thể hiện tần số bằng hình thức phần trăm % (percent)
Dữ liệu thể hiện trong bảng phân phối tần số là của mẫu hoặc của tổng thể
Mặt khác, dữ liệu thống kê có thể phân thành 2 loại, dữ liệu định tính và dữ liệu định
lượng Ứng với mỗi loại dữ liệu, ta đều có thể sử dụng bảng tần số cho từng loại biến này.
Trang 23.1.1 Bảng tần số cho dữ liệu định tính
Tinh trang hon nhan
Frequency Percent Valid Percent
Cumulative Percent
3.1.2 Bảng tần số cho dữ liệu định lượng
Mức lương của các nhân viên trong một công ty gồm 474 nhân viên mỗi năm nhận được
được ghi nhận như sau:
Mức lương
Tần số
Tần suất (%)
Độ tuổi của các nhân viên trong công ty đó được ghi nhận như sau:
Gioi tinh nguoi tra loi
Frequency Percent Valid Percent
Cumulative Percent
Trang 3Do tuoi
Frequency Percent Valid Percent
Cumulative Percent
3.1.3 Bảng tần số kết hợp 2 tiêu thức thống kê
Tùy theo yêu cầu so sánh và phân tích, bên cạnh những bảng tần số đơn biến, ta còn có thể tóm tắt và trình bày bằng những bảng kết quả, bảng tần số phức tạp hơn, trong đó tóm tắt dữ liệu có thể cho 2 hoặc 3 biến.
Ví dụ: Bảng tần số kết hợp hai biến độ tuổi và số năm đi học của người được khảo sát.
So nam di hoc * Do tuoi Crosstabulation
Do tuoi
Total Duoi 30 tuoi
Tu 30 den 45 tuoi Tren 45 tuoi
Ví dụ: Bảng kết hợp giữa giới tính và độ tuổi người được trả lời.
Do tuoi * Gioi tinh nguoi tra loi Crosstabulation
Gioi tinh nguoi tra loi
Total
Trang 4Ví dụ: Bảng kết hợp giữa tình trạng hôn nhân và giới tính của người được trả lời.
Tinh trang hon nhan * Gioi tinh nguoi tra loi Crosstabulation
Gioi tinh nguoi tra loi
Total
Ngoài ra, chúng ta có thể có bảng kết hợp thống kê giữa 3 biến.
Ví dụ:
Luong cua lao dong * Employment Category * Gender Crosstabulation
Count
Gender
Employment Category
Total Clerical Custodial Manager
3.2 Đồ thị thống kê
Trong tóm tắt và trình bày dữ liệu, bên cạnh việc dùng những bảng tần số đơn biến (1 biến) hoặc bảng tần số đa biến (hai biến trở lên) Thông thường, người ta còn dùng các loại đồ thị để tóm tắt và trình bày dữ liệu Tùy theo loại dữ liệu là định tính hay định
Trang 5lượng, nhà nghiên cứu có thể chọn các loại đồ thị khác nhau để tóm tắt và trình bày dữ
liệu
Nói cách khác, đồ thị là một cách biểu hiện các của bảng tần số bằng cách dùng các hìnhvẽ, đường nét hình học dùng để mô tả có tính quy ước các số liệu thống kê Biểu
đồ có thể phản ánh khái quát các đặc điểm về cơ cấu, mối liên hệ, quan hệ so sánh các xu hướng biến động của hiện tượng nghiên cứu
Dùng đồ thị, với những hình vẽ, đường nét và màu sắc để biểu hiện các mức độ
của hiện tượng nghiên cứu nên đồ thị thống kê sinh động, có sức hấp dẫn mạnh mẽ và
giúp người đọc có thể nhận thức được những đặc điểm cơ bản của hiện tượng một cách
dễ dàng, nhanh chóng
3.2.1 Đồ thị thống kê cho dữ liệu định lượng
Đối với dữ liệu định lượng, được xem là dữ liệu có sự đo lường chi tiết cao nhất
trong các loại thang đo Vì thế, cách tóm tắt đối với dữ liệu định lượng thông thường
được sử dụng nhất là thống kê thành các chỉ tiêu thống kê mô tả (làm rõ trong chương
IV) Tuy nhiên, trong một số trường hợp, nhà nghiên cứu vẫn có thể dùng đồ thị để tóm tắt kết quả nghiên cứu một cách trực quan sinh động tạo hiệu quả cao trong bài viết
Đối với dữ liệu định lượng có số lượng hữu hạn các giá trị lượng biến như số con
của các cặp vợ chồng trẻ tại thành thị, số thành viên trong gia đình, số vụ kẹt xe xảy ra tại thành phố HCM trong 1 ngày, 1 tuần,… nhà nghiên cứu có thể sử dụng biểu đồ hình bánh (pie) hoặc hình cột (bar, column) để biểu thị như dữ liệu định tính (sẽ được nghiên cứu ở phần sau)
Thông thường nhất, khi dùng đồ thị để biểu diễn cho dữ liệu định lượng, các nhà
nghiên cứu sử dụng đồ thị nhánh và lá (stem & leaf), đồ thị tần số (Histogram), đồ thị hộp
và râu
1 Đồ thị nhánh và lá (stem & leaf)
Nội dung cơ bản của phương pháp nhánh và lá là các dữ liệu thu thập được sẽ được tách thành 2 phần: phần nhánh và phần lá Việc phân chia này chỉ có tính quy ước và khá linh hoạt các chữ số bên phải của dữ liệu là lá, tương ứng các chữ số còn lại bên tay trái
là nhánh
Trang 6Ví dụ: Chúng ta có dữ liệu trong mẫu điều tra về tuổi của các sinh viên tại chức đang
học năm 1 tại một lớp học như sau:
Chúng ta thực hiện biểu đồ nhánh và lá theo các bước sau:
Nhận định: dữ liệu hiện có chỉ ở hàng chục, số nhỏ nhất là 19 và lớn nhất là 39 Vậy, nhánh là hàng chục và lá là hàng đơn vị Vậy nhánh sẽ có 3 giá trị là 1, 2 và 3
Bước 1: Xây dựng nhánh cho biểu đồ.
Sắp xếp các giá trị nhánh theo thứ tự tăng dần
1
2
3
Bước 2: Xây dựng lá cho biểu đồ.
Lần lược xếp các dữ liệu quan sát về tuổi sinh viên vào 3 nhánh ở bước 1 Bắt đầu
từ dòng 1 của dữ liệu và từ trái qua phải
Ví dụ, số đầu tiên là 28, như vậy người này có nhánh là 2 và lá là 8 Tương tự, làm cho số 23 và các số còn lại trong dòng 1 và 3
Kết quả ta có
1 9
2 8 3 4 1 2 2 0 1 6 7 5 9 7 1 5 8 6 9 9 2 7
3 0 9 1 7 3 0 5 2
Bước 3: Sắp xếp lại theo thứ tự tăng dần của lá để có biểu đồ đẹp hơn
1 9
2 0 1 1 1 2 2 2 3 4 5 5 6 6 7 7 7 8 8 9 9 9
3 0 0 1 2 3 5 7 9
Trong thực tế, đồ thị nhánh và lá có thể được biểu thị thêm giá trị tần số (số lần xuất hiện của các nhánh) và có thể tách nhánh nếu như một nhánh là khá dài như sau:
Trang 7tuoi Stem-and-Leaf Plot
2 Đồ thị phân phối tần số Histogram
Một cách thể hiện khác của dữ liệu định lượng, ta có thể sử dụng đồ thị tần số (histogram):
Đồ thị tần số Histogram có mối liên hệ chặt chẽ với bảng tần số nhằm biểu diễn sự phân phối tần
số bằng các cột sao cho diện tích của cột tỷ lệ tần số.
Các cột của tần số có độ rộng có thể bằng nhau hoặc khác nhau Chiều cao của các cột biểu thị số quan sát mà cột đó đại diện.
Trang 8Ưu điểm của đồ thị histogram như sau:
Cho cảm nhận về sự tập trung của dữ liệu
Cho cảm nhận về sự phân tán tương đối của đồ thị
Cho cảm nhận sơ bộ về hình dạng phân phối của dữ liệu
3.2.2 Đồ thị thống kê cho dữ liệu định tính
Từ kết quả của bảng tần số, hai thành phần quan trọng nhất của bảng tần số là tần
số (frequency) và tần suất (percent) Với đồ thị, khi biểu thị, ta cũng thường căn cứ vào một trong hai thành phần trên
1 Đồ thị hình tròn (bánh, pie)
Khi muốn tóm tắt và trình bày dữ liệu định tính và chọn tần suất (percent) để biểu thị, các nhà nghiên cứu thông thường chọn biểu đồ hình bánh, (hình tròn; pie) để biểu thị
Trang 9Trong trường hợp này, đồ thị hình bánh thường được áp dụng để biểu thị cơ cấu của các
thành phần trong tổng thể như nghiên cứu cơ cấu các khu vực kinh tế trong GDP của môt quốc gia, một địa phương, cơ cấu giới tính của những người được khảo sát, cơ cấu về doanh số của các sản phẩm trong một công ty,…
Ví dụ: Biểu đồ biểu diễn cơ cấu giới tính của những người được khảo sát.
Ví dụ: Cơ cấu GDP của Vĩnh Long năm 2008
Tuy nhiên, khi mục đích của nhà nghiên cứu muốn biểu thị sự chuyển dịch cơ cấu giữa các thành phần trong một tổng thể, như nghiên cứu sự chuyển dịch cơ cấu giữa các
51%
dịch vụ 55%
Trong trường hợp này, đồ thị hình bánh thường được áp dụng để biểu thị cơ cấu của các
thành phần trong tổng thể như nghiên cứu cơ cấu các khu vực kinh tế trong GDP của môt quốc gia, một địa phương, cơ cấu giới tính của những người được khảo sát, cơ cấu về doanh số của các sản phẩm trong một công ty,…
Ví dụ: Biểu đồ biểu diễn cơ cấu giới tính của những người được khảo sát.
Ví dụ: Cơ cấu GDP của Vĩnh Long năm 2008
Tuy nhiên, khi mục đích của nhà nghiên cứu muốn biểu thị sự chuyển dịch cơ cấu giữa các thành phần trong một tổng thể, như nghiên cứu sự chuyển dịch cơ cấu giữa các
49%
Nam Nu
Nông nghiệp 31%
công nghiệp 15%
Trong trường hợp này, đồ thị hình bánh thường được áp dụng để biểu thị cơ cấu của các
thành phần trong tổng thể như nghiên cứu cơ cấu các khu vực kinh tế trong GDP của môt quốc gia, một địa phương, cơ cấu giới tính của những người được khảo sát, cơ cấu về doanh số của các sản phẩm trong một công ty,…
Ví dụ: Biểu đồ biểu diễn cơ cấu giới tính của những người được khảo sát.
Ví dụ: Cơ cấu GDP của Vĩnh Long năm 2008
Tuy nhiên, khi mục đích của nhà nghiên cứu muốn biểu thị sự chuyển dịch cơ cấu giữa các thành phần trong một tổng thể, như nghiên cứu sự chuyển dịch cơ cấu giữa các
Nam Nu
Trang 10thành phần kinh tế trong GDP Nhà nghiên cứu thường chọn tần suất (percent) nhưng
không dùng đồ thị hình bánh (pie) và dùng đồ thị hình cột (column, bar) để biểu thị
Đồ thị hình cột
Đặc điểm của đồ thị hình cột trong trường hợp này là các cột đều có tổng giá trị là 100%
biểu diễn tổng cơ cấu của các thành phần Mỗi cột biểu thị cho một mốc thời gian nhất
định Quan sát các cột, ta có thể nhận diện được sự chuyển dịch cơ cấu giữa các thành
phần theo từng mốc thời gian khác nhau
Cơ cấu GDP của tình Vĩnh Long qua các năm 2000, 2005, 2008
2 Đồ thị hình trụ (thanh, bar, colunm)
Thành phần quan trọng thứ hai của bảng tần số là số lần xuất hiện của các thành phần trong biến định tính (tần số: frequency) Khi dùng giá trị này để biểu diễn trên đồ thị, nhà nghiên cứu thường chọn đồ thị hình cột (column: bar) Nhằm đơn giản hóa biểu đồ, khi biểu diễn đồ thị hình cột (column: bar), tùy theo số lượng kí tự trong tên gọi của các thành phần, ta nên chọn đồ thị hình cột đứng hoặc thanh ngang cho phù hợp
Khi tên của các thành phần trong biến định tính có số kí tự “ít”, biểu đồ hình cột đứng
thông thường được chọn biểu hiện, ví dụ biến giới tính có tên của hai thành phần là nam
(3 kí tự) và nữ (2 kí tự) (Số lượng kí tự “ít” ở đây được hiểu: nếu như tên của thành phần
có thể đặt ở vị trí ngay tại cột biểu thị của chính thành phần đó và không chiếm vị trí của cột bên cạnh)
0%
20%
40%
60%
80%
100%
2000
28.8%
11.9%
59.3%
Nông nghiệp
thành phần kinh tế trong GDP Nhà nghiên cứu thường chọn tần suất (percent) nhưng
không dùng đồ thị hình bánh (pie) và dùng đồ thị hình cột (column, bar) để biểu thị
Đồ thị hình cột
Đặc điểm của đồ thị hình cột trong trường hợp này là các cột đều có tổng giá trị là 100%
biểu diễn tổng cơ cấu của các thành phần Mỗi cột biểu thị cho một mốc thời gian nhất
định Quan sát các cột, ta có thể nhận diện được sự chuyển dịch cơ cấu giữa các thành
phần theo từng mốc thời gian khác nhau
Cơ cấu GDP của tình Vĩnh Long qua các năm 2000, 2005, 2008
2 Đồ thị hình trụ (thanh, bar, colunm)
Thành phần quan trọng thứ hai của bảng tần số là số lần xuất hiện của các thành phần trong biến định tính (tần số: frequency) Khi dùng giá trị này để biểu diễn trên đồ thị, nhà nghiên cứu thường chọn đồ thị hình cột (column: bar) Nhằm đơn giản hóa biểu đồ, khi biểu diễn đồ thị hình cột (column: bar), tùy theo số lượng kí tự trong tên gọi của các thành phần, ta nên chọn đồ thị hình cột đứng hoặc thanh ngang cho phù hợp
Khi tên của các thành phần trong biến định tính có số kí tự “ít”, biểu đồ hình cột đứng
thông thường được chọn biểu hiện, ví dụ biến giới tính có tên của hai thành phần là nam
(3 kí tự) và nữ (2 kí tự) (Số lượng kí tự “ít” ở đây được hiểu: nếu như tên của thành phần
có thể đặt ở vị trí ngay tại cột biểu thị của chính thành phần đó và không chiếm vị trí của cột bên cạnh)
thành phần kinh tế trong GDP Nhà nghiên cứu thường chọn tần suất (percent) nhưng
không dùng đồ thị hình bánh (pie) và dùng đồ thị hình cột (column, bar) để biểu thị
Đồ thị hình cột
Đặc điểm của đồ thị hình cột trong trường hợp này là các cột đều có tổng giá trị là 100%
biểu diễn tổng cơ cấu của các thành phần Mỗi cột biểu thị cho một mốc thời gian nhất
định Quan sát các cột, ta có thể nhận diện được sự chuyển dịch cơ cấu giữa các thành
phần theo từng mốc thời gian khác nhau
Cơ cấu GDP của tình Vĩnh Long qua các năm 2000, 2005, 2008
2 Đồ thị hình trụ (thanh, bar, colunm)
Thành phần quan trọng thứ hai của bảng tần số là số lần xuất hiện của các thành phần trong biến định tính (tần số: frequency) Khi dùng giá trị này để biểu diễn trên đồ thị, nhà nghiên cứu thường chọn đồ thị hình cột (column: bar) Nhằm đơn giản hóa biểu đồ, khi biểu diễn đồ thị hình cột (column: bar), tùy theo số lượng kí tự trong tên gọi của các thành phần, ta nên chọn đồ thị hình cột đứng hoặc thanh ngang cho phù hợp
Khi tên của các thành phần trong biến định tính có số kí tự “ít”, biểu đồ hình cột đứng
thông thường được chọn biểu hiện, ví dụ biến giới tính có tên của hai thành phần là nam
(3 kí tự) và nữ (2 kí tự) (Số lượng kí tự “ít” ở đây được hiểu: nếu như tên của thành phần
có thể đặt ở vị trí ngay tại cột biểu thị của chính thành phần đó và không chiếm vị trí của cột bên cạnh)
Trang 11Biểu đồ tần số giới tính được khảo sát.
Trong trường hợp tên của các thành phần có số kí tự “nhiều” (có nguy cơ tràn sang cột bên cạnh), nếu dùng đồ thị hình cột, đôi khi tạo hiệu ứng quan sát không tốt cho
người đọc Trong trường hợp này, nhà nghiên cứu nên chọn đồ thị thanh ngang để biểu
thị sẽ tạo hiệu ứng tốt hơn
Ví dụ: Mức độ ưa thích cua người dân thành phố HCM đối với thể loại nhạc classical.
Nam 450
Rat la thich Thich Khong thich
cung khong ghet
171
290
Biểu đồ tần số giới tính được khảo sát
Trong trường hợp tên của các thành phần có số kí tự “nhiều” (có nguy cơ tràn sang cột bên cạnh), nếu dùng đồ thị hình cột, đôi khi tạo hiệu ứng quan sát không tốt cho
người đọc Trong trường hợp này, nhà nghiên cứu nên chọn đồ thị thanh ngang để biểu
thị sẽ tạo hiệu ứng tốt hơn
Ví dụ: Mức độ ưa thích cua người dân thành phố HCM đối với thể loại nhạc classical.
Nu 470
Khong thich cung khong ghet
214
135
76
Biểu đồ tần số giới tính được khảo sát
Trong trường hợp tên của các thành phần có số kí tự “nhiều” (có nguy cơ tràn sang cột bên cạnh), nếu dùng đồ thị hình cột, đôi khi tạo hiệu ứng quan sát không tốt cho
người đọc Trong trường hợp này, nhà nghiên cứu nên chọn đồ thị thanh ngang để biểu
thị sẽ tạo hiệu ứng tốt hơn
Ví dụ: Mức độ ưa thích cua người dân thành phố HCM đối với thể loại nhạc classical.
Trang 12Chú ý: Trong trường hợp dữ liệu định tính có quá nhiều thành phần, biểu hiện trong cùng
một biến (số hàng hóa trong một cửa hàng, siêu thị, các vật dụng trong gia đình,…), để tóm tắt hiệu quả, nhà nghiên cứu cần căn cứ vào những yếu tố tương đồng về đặc điểm, tính chất hoặc mục đích sử dụng của các quan sát và gộp chúng thành một nhóm có những biểu hiện, tính chất tương đồng Như vậy, số lượng các biểu hiện, thành phần của biến định tính trong trường hợp này sẽ giảm đi Ví dụ hàng hóa trong siêu thị có thể phân thành hàng tiêu dùng, may mặc, thực phẩm, hàng làm đẹp, điện gia dụng…
Rat la thich Thich Khong thich cung khong ghet
Ghet Rat la ghet
Chú ý: Trong trường hợp dữ liệu định tính có quá nhiều thành phần, biểu hiện trong cùng
một biến (số hàng hóa trong một cửa hàng, siêu thị, các vật dụng trong gia đình,…), để tóm tắt hiệu quả, nhà nghiên cứu cần căn cứ vào những yếu tố tương đồng về đặc điểm, tính chất hoặc mục đích sử dụng của các quan sát và gộp chúng thành một nhóm có những biểu hiện, tính chất tương đồng Như vậy, số lượng các biểu hiện, thành phần của biến định tính trong trường hợp này sẽ giảm đi Ví dụ hàng hóa trong siêu thị có thể phân thành hàng tiêu dùng, may mặc, thực phẩm, hàng làm đẹp, điện gia dụng…
30
133
203
319 182
Chú ý: Trong trường hợp dữ liệu định tính có quá nhiều thành phần, biểu hiện trong cùng
một biến (số hàng hóa trong một cửa hàng, siêu thị, các vật dụng trong gia đình,…), để tóm tắt hiệu quả, nhà nghiên cứu cần căn cứ vào những yếu tố tương đồng về đặc điểm, tính chất hoặc mục đích sử dụng của các quan sát và gộp chúng thành một nhóm có những biểu hiện, tính chất tương đồng Như vậy, số lượng các biểu hiện, thành phần của biến định tính trong trường hợp này sẽ giảm đi Ví dụ hàng hóa trong siêu thị có thể phân thành hàng tiêu dùng, may mặc, thực phẩm, hàng làm đẹp, điện gia dụng…