Phần 2 - Khám phá và tìm hiểu dữ liệu định lượng. Nội dung chính trong phần này gồm có: Trình bày dữ liệu định lượng, mô tả phân phối bằng số, độ lệch chuẩn như thước đo và mô hình chuẩn. Mời các bạn cùng tham khảo.
9/7/2010 Phần 02 Nguyễn Duy Long, Tiến Sỹ Bộ môn Thi Cơng QLXD ©2010, Nguyễn Duy Long, Tiến Sỹ Trình bày liệu định lượng Mô tả phân phối số Độ lệch chuẩn thước đo mơ hình chuẩn ©2010, Nguyễn Duy Long, Tiến Sỹ 9/7/2010 ©2010, Nguyễn Duy Long, Tiến Sỹ Tóm tắt liệu giúp xem xét tập hợp liệu định lượng lớn Nế khơng Nếu khơ tóm ó tắt, ắ ẽ ấ khó để biết biế liệu cho biết điều Khơng dùng biểu đồ bánh cho biến định lượng ©2010, Nguyễn Duy Long, Tiến Sỹ 9/7/2010 1997 1998 1999 2000 2001 Tháng -$1.44 0.78 3.28 5.72 14.38 Tháng -0.75 0.62 3.34 21.06 -1.08 Tháng -0.69 2.44 -1.22 4.50 -10.11 Tháng -0.88 -0.28 0.47 4.56 -12.11 Tháng 0.12 2.22 5.62 -1.25 5.84 Tháng 0.75 -0.50 -1.59 -1.19 -9.37 Tháng 0.81 2.06 4.31 -3.12 -4.74 Tháng -1.75 -0.88 1.47 8.00 -2.69 Tháng 0.69 -4.50 -0.72 9.31 -10.61 Tháng 10 -0.22 4.12 -0.38 1.12 -5.85 Tháng 11 -0.16 1.16 -3.25 -3.19 -17.16 Tháng 12 0.34 -0.50 0.03 -17.75 -11.59 (Nguồn: De Veaux et al., 2006) ©2010, Nguyễn Duy Long, Tiến Sỹ Chia khoản giá trị biến định lượng thành cột có chiều rộng, gọi hộc (bins) Các hộc số đếm hộc cho phân phối biến định lượng Giá thay đổi hàng tháng cổ phiếu hiế Cty C Enron: E Số tháng Thay đổi giá ($) ©2010, Nguyễn Duy Long, Tiến Sỹ 9/7/2010 Biểu đồ tần suất tương đối mô tả phần trăm trường hợp cho hộc thay số đếm % số ttháng Biểu đồ tần suất tương đối: Thay đổi giá hàng tháng cổ phiếu Enron Thay đổi giá ($) ©2010, Nguyễn Duy Long, Tiến Sỹ Biểu đồ cành-và-lá (stem-and-leaf displays) biểu diễn p phân p phối biến định ị lượng ợ g biểu đồ tần suất, giữ giá trị riêng rẽ Biểu đồ cành-và-lá: ◦ chứa tất thơng tin có biểu đồ tần suất ◦ thỏa mãn nguyên lý diện tích, ◦ biểu ể thị phân phối ố ©2010, Nguyễn Duy Long, Tiến Sỹ 9/7/2010 Cắt giá trị liệu thành số chủ đạo (cành) số kéo theo (lá) Dùng cành để gán hộc Chỉ dùng số cho – làm tròn cắt giá trị liệu để có vị trí thập phân phía sau cành ©2010, Nguyễn Duy Long, Tiến Sỹ Xây dựng biểu đồ cành cho liệu sau: ◦ Với hộc 10 triệu VNĐ ◦ Với hộc triệu VNĐ Cơng trình Chi phí móng (triệu VNĐ) 01 33 02 35 03 50 04 41 05 48 06 33 07 45 08 47 09 52 10 63 11 45 12 71 ©2010, Nguyễn Duy Long, Tiến Sỹ 10 9/7/2010 So sánh biểu đồ tần suất biểu đồ cành-và-lá hiển thị nhịp tim 24 phụ nữ trạm y tế Sự hiển thị có nhiều thơng tin hơn? Biểu đồ cành-và-lá: Nhịp tim 24 phụ nữ Tần suất T Biểu đồ tần xuất Nhịp tim (nhịp/phút) 11 Đồ thị điểm (dotplot) hiển thị đơn giản đặt dấu chấm (dot) dọc trục cho trường hợp liệu Đồ thị điểm biểu diễn theo phương ngang phương đứng Thời gian chiến thắng đua ngựa Kentucky Derby, 1875-2004 (hình bên) Thời gia an chiến thắng (giây) ©2010, Nguyễn Duy Long, Tiến Sỹ Nguồn: http://en.wikipedia.org/wiki/Kentucky_Derby ©2010, Nguyễn Duy Long, Tiến Sỹ Số đua 12 9/7/2010 Khi mơ tả phân phối, ln nói ba điều: hình dạng g ((shape), p ), trung g tâm ((center), ), sải (spread) Hình dạng phân phối gì? ◦ Phân phối có gị (hump) trung tâm hay có vài mỏm (bump) phân tán? ể đồ tần ầ suất ấ có ó đối đố xứng?? ◦ Biểu ◦ Có đặc điểm bất thường lộ khơng? ©2010, Nguyễn Duy Long, Tiến Sỹ 13 Câu hỏi 1: Phân phối có gị (hump) trung tâm hay có vài mỏm (bump) phân tán? ◦ Gò biểu đồ tần suất gọi mốt (mode) ◦ Biểu đồ tần suất có đỉnh gọi mốt (unimodal), hai đỉnh gọi hai mốt (bimodal), ba đỉnh trở lên gọi nhiều (đa) mốt (multimodal) ©2010, Nguyễn Duy Long, Tiến Sỹ 14 9/7/2010 Biểu đồ tần suất hai mốt có hai đỉnh: Lượng số đếm ©2010, Nguyễn Duy Long, Tiến Sỹ Tần suất (uniform): Biểu đồ tần suất dường khơng có mốt tất có chiều cao gần ầ nhau: Lượ ợng số đếm 15 ©2010, Nguyễn Duy Long, Tiến Sỹ 16 9/7/2010 Câu hỏi 2: Biểu đồ tần suất có đối xứng? Gấp ấ dọc đường đứt Biểu đồ tần suất đối xứng… … gấp cho hai bên gần trùng ©2010, Nguyễn Duy Long, Tiến Sỹ 17 Số nữ bệnh tim Số nữ bệnh tim ◦ Các đầu mỏng phân phối gọi đuôi (tails) Nếu đuôi trải xa đuôi lại, biểu đồ tần suất lệch (skewed) phía có dài ◦ Biểu đồ tần suất màu xanh bên gọi lệch trái (skewed left), biểu đồ màu hồng lệch phải (skewed right) Tuổi Lệ phí ($) ©2010, Nguyễn Duy Long, Tiến Sỹ 18 9/7/2010 Câu hỏi 3: Có đặc điểm bất thường lộ g không? ◦ Thỉnh thoảng đặc điểm bất thường cho ta biết có lý thú liệu ◦ Luôn đề cập đến giá trị ngoại lệ (outliers) mà đứng tách phần thân phân phối ◦ Có chỗ gián đoạn (gap) phân phối? Nếu vậy, liệu có từ nhóm ©2010, Nguyễn Duy Long, Tiến Sỹ Biểu đồ tần suất sau có giá trị ngồi lệ Có ba thành phố xa bên trái Theo bạn, bạn điều xảy ra? Số nhân hộ thành phố chọn lựa Số ành phố 19 Nhân khẩu/hộ ©2010, Nguyễn Duy Long, Tiến Sỹ 20 10 9/7/2010 Bất kể hình dạng phân phối, phối trị trung bình điểm mà biểu đồ tần suất cân bằng: Tuổi thọ nước thành viên Liên Hiệp Quốc (2001) Số nước Tuổi thọ Điểm cân ©2010, Nguyễn Duy Long, Tiến Sỹ 43 Phân phối đối xứng có giá trị trung bình trung vị gần nhau, nên dùng trị trị để trung tâm â Với phân phối lệch nhiều dùng trung vị để xác định trung tâm ©2010, Nguyễn Duy Long, Tiến Sỹ 44 22 9/7/2010 Độ lệch chuẩn (standard deviation) đo lường sải (spread) tốt IQR, cách xem xét giá trị dự liệu cách trị trung bình bao xa Độ lệch (deviation) khoảng cách từ giá trị liệu đến trị trung bình ©2010, Nguyễn Duy Long, Tiến Sỹ Phương sai (variance), với ký hiệu s2: s2 45 y y i i n 1 Vấn đề phương sai đo lường sải đo lường theo bình phương đơn vị đo liệu ban đầu ©2010, Nguyễn Duy Long, Tiến Sỹ 46 23 9/7/2010 Độ lệch chuẩn (standard deviation), s, (hay SD): s i yi y n 1 ©2010, Nguyễn Duy Long, Tiến Sỹ 47 Vì thống kê học biến đổi (variation), sải khái niệm quan trọng thống kê học Đ độ sải Đo ải giúp iú chúng hú t bàn ta bà ề hữ chúng hú t ta Khi giá trị liệu cụm lại xung quyanh trung tâm phân phối, IQR SD nhỏ Khi giá trị liệu phân tán xa trung tâm phân phối, IQR SD lớn ©2010, Nguyễn Duy Long, Tiến Sỹ 48 24 9/7/2010 Khi mô tả biến định lượng, ln cho biết hình dạng phân phối nó, với trung tâm sải ◦ Nếu hình dạng bị lệch, cho biết trung vị khoảng tứ phân vị ◦ Nếu hình dạng đối xứng, cho biết trị trung bình độ lệch chuẩn trung vị khoảng tứ trung vị ©2010, Nguyễn Duy Long, Tiến Sỹ 49 Nếu có trị ngoại lề rõ ràng mà cho biết trị trung bình độ lệch chuẩn cho biết chúng có trị ngoại lệ khơng có trị ngoại lệ Sự khác bộc lộ Chú ý: Trung vị khoảng tứ trung vị khả bị ảnh hưởng trị ngoại lệ trị trung bình độ lệch chuẩn ©2010, Nguyễn Duy Long, Tiến Sỹ 50 25 9/7/2010 Mô tả liệu số Hình dạng Sải Trung tâm Đối xứng hay lệch Trung bình Khoảng tứ trung vị Trị ngoại lệ Trung vị Khoảng Khoảng Độ lệch chuẩn 51 ©2010, Nguyễn Duy Long, Tiến Sỹ Mô tả liệu phân phối Đối xứng hay lệch Lệch trái Đối xứng Lệch phải Mean