Trong số đó không thể kể đến“xác suất” là nền tảng quan trọng của thống kê ứng dụng, kinh tế lượng, định phí bảohiểm… Ngày nay trong thời đại công nghệ thông tin, với số lượng dữ liệu kh
Trang 1ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT
TIỂU LUẬN MÔN: LÍ THUYẾT XÁC SUẤT
Giảng viên: Hà Văn Hiếu
ĐỀ TÀI:
Lớp học phần: 212TO0724
Nhóm sinh viên:
Phan Nguyễn Trúc Loan - K214110838
Trần Trương Ngọc Hân - K214110832
Lê Quang Khai Nguyên - K204010939
TP Hồ Chí Minh, tháng 5, năm 2022
1. Mục lục
Trang 21 Mục lục 1
2 Lời mở đầu 2
3 Lí do chọn đề tài 2
4 Nội dung 2
4.1 Giá trị và tập hợp các giá trị 2
4.2 Đo lường xu hướng tập trung 3
4.2.1 Mean (Trung bình) 3
4.2.2 Median (Trung vị): 7
4.2.3 Mode (Yếu vị) 9
4.3 So sánh Mean, Median và Mode 11
4.4 Những thuộc tính của số đo bình quân/ đo lường xu hướng tập trung) 13
4.4.1.The mean, the mode, and the median running for president! 13
4.4.2 A warm-up simulation 14
4.5 Ứng dụng của Mode, Mean, Median 14
4.5.1 Mode 14
4.5.2 Mean 14
4.5.3 Median 14
5 Kết luận 14
6 Biên bản họp (phân chia công việc trong nhóm) 15
2 Lời mở đầu
Trang 3Trong thời kỳ chuyển đổi số và kinh tế số như hiện nay thì những vấn đề thực tiễn đang vẫn cần chúng ta giải quyết Đặc biệt là Việt Nam- quốc gia đang phát triển nền kinh tế vững mạnh của các quốc gia Đặc biệt là Việt Nam – quốc gia đang phát triển cần rất nhiều vốn để phát triển tất cả các mặt của đời sống xã hội Trong số đó không thể kể đến
“xác suất” là nền tảng quan trọng của thống kê ứng dụng, kinh tế lượng, định phí bảo hiểm… Ngày nay trong thời đại công nghệ thông tin, với số lượng dữ liệu khổng lồ chưa từng có, kiến thức liên quan “xác suất” càng phát huy được tác dụng của nó
Nhận thức về yêu cầu đó, hôm nay nhóm chúng em gồm 5 thành viên xin trình bày về
“Ba tham số Mean, Mode, Median đại diện cho khuynh hướng tập trung dữ liệu”.Nhóm sinh viên chúng em xin chân thành cảm ơn sự chỉ dẫn tận tâm của thầy trong suốt thời gian vừa qua, nhưng với sự hiểu biết và lượng kiến thức còn hạn hẹp, nhóm sinh viên chúng em vẫn chưa thể hoàn thành bài tập này một cách hoàn chỉnh nhất, vì vậy xin thầy thông cảm
Cuối cùng, nhóm sinh viên chúng em rất mong nhận được sự nhận xét và đánh giá của thầy cho tiểu luận này
3 Lí do chọn đề tài
Khi nhắc tới 1 giá trị đại diện cho một tập hợp người thường nghĩ ngay đến giá trị trung bình ví dụ như chìu cao trung bình của các thành viên trong 1 lớp sẽ đại diện cho chìu cao của cả lớp Thông thường giá trị này sẽ được tính bằng cách chia tổng chìu cao của các thành viên trong lớp cho tổng số thành viên trong lớp Nhưng liệu lúc nào giá trị trung bình cũng là giá trị đại diện tốt nhất cho một tập hợp hay không? Nếu không thì liệu có những giá trị nào khác đại diện cho một tập hợp nữa không? “Mean”, “Median” và
“Mode” là những thuật ngữ cơ bản trong thống kê, lý thuyết xác suất, … Trong thống kê,
3 thuật ngữ này là những ví dụ về số bình quân, hay còn gọi là giá trị đại diện chỉ tiêu biểu hiện mức độ điển hình của một tổng thể gồm nhiều đơn vị cùng loại được xác định theo một tiêu thức nào đó
4 Nội dung
4.1 Giá trị và tập hợp các giá trị
Giá trị ở đây đơn giản là các số, như 5,1,3,6, 1041, 0, 200, 0,5, -100,
Trang 4Vậy những con số này có thể thể hiện được điều gì? Đó có thể là số đo chiều cao, cân nặng, số tuổi, thu nhập, điểm số hoặc cao hơn là đại diện cho số lượng các sự cố giao thông cho một quốc gia, nhiệt độ hàng ngày ở thành phố,…
Còn tập hợp các giá trị là tập hợp các giá trị liên quan với nhau thỏa mãn một điều kiện nào đó hay đơn giản là danh sách các số có liên quan Ví dụ như tập hợp chiều cao của học sinh trong một lớp, tập hợp số lượng sự cố giao thông trong một năm,
4.2 Đo lường xu hướng tập trung
Số đo bình quân được sử dụng phổ biến trong nguyên lý thống kê để nêu lên đặc điểm chung nhất, phổ biến nhất của hiện tượng kinh tế xã hội trong các điều kiện không gian
và thời gian cụ thể
Ví dụ 1: Tiền lương bình quân của một công nhân trong doanh nghiệp là mức lương phổ
biến nhất, đại diện cho các mức lương khác nhau của công nhân trong doanh nghiệp
Ví dụ 2: Thu nhập bình quân đầu người của một địa bàn là mức thu nhập phổ biến nhất,
đại diện cho các mức thu nhập khác nhau của mọi người trong địa bàn đó
Số đo bình quân còn dùng để so sánh đặc điểm của những hiện tượng không có cùng một quy mô hay làm căn cứ để đánh giá trình độ đồng đều của các đơn vị tổng thể
Khuynh hướng tập trung của dữ liệu thường được đo lường qua 3 tham số đó là số trung bình, số trung vị và số mode
4.2.1 Mean (Trung bình)
Đầu tiên ta có: [4, 4, 4]
Tập hợp trên có: N = 3, MEAN = 4
Trong đó, phần tử (x = 4) được lặp lại N lần và giá trị trung bình là chính phần tử đó Điều đó có nghĩa miễn là x là phần tử duy nhất trong tập hợp thì MEAN = x Điều này đúng với bất kỳ N và bất kỳ x nào
Bây giờ xét hai tập hợp:
[3, 4, 5]
[4, 4, 4]
Trang 5Cả 2 tập hợp trên đều có N = 3, MEAN = 4 Giá trị trung bình trong hai trường hợp này
là giống nhau MEAN lúc này là đại lượng đo lường tốt vì ta có thể thấy các số 3,4,5 đều rất rất gần (hoặc giống hệt) với MEAN = 4
Bây giờ xét tiếp hai tập hợp khác:
[-94, -58, 164]
[4, 4, 4]
Cả 2 tập hợp trên đều có N = 3, MEAN = 4 Giá trị trung bình trong hai trường hợp này
là giống nhau MEAN lúc này là đại lượng đo lường không tốt lắm vì các số trong tập hợp quá xa so với MEAN = 4
Vậy ta có thể rút ra rằng: Việc sử dụng MEAN để mô tả một tập hợp các số giống như việc giảm tập hợp thành một tập hợp tương ứng có cùng N nhưng trong đó mọi phần tử được thay thế bằng giá trị trung bình được tính toán
Trực giác toán học đằng sau giá trị trung bình MEAN:
Xét tập hợp khác: [1, 1, 1, 3, 3, 6, 7, 10], có giá trị trung bình MEAN cũng bằng 4 Ta có hình ảnh trực quan từ Watier, Lamontagne, & Chartier (2011) như sau:
Chú ý rằng, với mỗi phần tử x trong tập hợp, có một sự khác biệt tương ứng
Gọi d = x - MEAN
Nếu x < MEAN, d sẽ âm
Nếu x = MEAN, d sẽ bằng 0
Trang 6Nếu x > MEAN, d sẽ dương.
Có nghĩa là, MEAN sẽ bằng tổng của các số dương và số âm
Độ nhạy cảm của MEAN đối với giá trị mới
Hãy xem xét điều gì sẽ xảy ra với MEAN khi ta thêm một phần tử x mới vào tập hợp: Nếu x bằng đúng MEAN, MEAN mới sẽ bằng MEAN cũ
Nếu x không bằng MEAN, giá trị MEAN mới sẽ bị dịch sang trái hoặc sang phải, để cân bằng với tập hợp mới
So sánh giữa MEAN mới và MEAN cũ, ta có:
Công thức tính MEAN cũ:
Công thức tính MEAN mới, thêm một giá trị mới x và tổng mới trở thành S + x, trong khi
tổng số mới trở thành N + 1:
Vậy sự khác biệt tuyệt đối giữa 2 giá trị MEAN là:
Trang 7Ta có thể thấy rằng, bất kể giá trị của MEAN cũ là bao nhiêu, một phần tử x mới có thể kéo MEAN mới ra xa giá trị cũ một cách tùy ý, miễn là x đủ nhỏ hoặc đủ lớn Hoặc x sẽ lớn quá mức đến nổi kéo cả giá trị MEAN mới ra xa khỏi khuôn khổ của tập hợp ban đầu (sẽ làm rõ hơn ở phần dưới đây)
Đặc điểm:
Đơn giản, dễ hiểu, dễ tính toán
Đo lường khá chính xác về xu hướng tập trung của dữ liệu (vì ta quan tâm tới tất
cả các số trong tập hợp)
Một tập dữ liệu chỉ tồn tại một số trung bình
Bị ảnh hưởng bởi giá trị ngoại lai
(Nếu tính trung bình = , ta thấy không hợp lý vì các gt thuộc khoảng 12-17 => nếu dùng trung vị thì nó sẽ chia làm hai nửa (trung vị = ), một nửa < trung vị, một nửa > trung vị
=> hợp lý hơn
Khi nào nên sử dụng Mean: Khi kích thước của mẫu lớn, không có nhiều giá trị
ngoại lai: Dữ liệu về vận tốc, gia tốc
Liệu MEAN luôn là một thước đo tốt?
Ngay cả khi MEAN là một đại diện rất tốt cho tất cả các giá trị, việc thêm một giá trị mới quá "xa" so với những giá trị ban đầu trong tập hợp sẽ là cho giá trị MEAN lệch rất lớn thậm chí ra xa khỏi tập hợp ban đầu
Trang 8Ở hình ảnh minh họa trên Ban đầu tập hợp chỉ gồm những số xung quanh các giá trị từ 1 đến 5 Bây giờ thêm vào một số có giá trị quá “xa” so với các số ban đầu (số 59) Trong khi MEDIAN chỉ tăng thêm 1 đơn vị thì mặt khác, MEAN đã chuyển sang một nơi nào
đó ở giữa rất xa so với ban đầu MEAN bây giờ thật sự không đại diện hay thể hiện giá trị
gì lúc này cả
4.2.2 Median (Trung vị): Để tránh trường hợp giá trị bình quân bị độ phân tán của dữ
liệu làm cho méo mó, người ta còn thường dùng một giá trị trung bình khác gọi là median
Trung vị không quan tâm đến khoảng cách giá trị giữa các số trong phần tử Nó chỉ đơn giản là đại diện cho số ở giữa của tập hợp
Trong hình lúc nãy, Median hầu như ít di chuyển vì khi thêm một số duy nhất vào bất kỳ đâu của tập hợp thì MEDIAN chỉ đơn giản là tăng lên 1 Đó là lí do Median là giá trị ít nhạy cảm hơn so với Mean và Mode
Nhưng vẫn có trường hợp khi phần tử x mới thêm vào đủ lớn, ví dụ:
[0, 0, 100]
MEDIAN hiện giờ là 0, nhưng nếu thêm phần tử mới là 100:
[0, 0, 100, 100]
Trang 9Trung vị mới sẽ là 50.
Mặc dù các bước nhảy tận một nửa phạm vi ban đầu có thể xảy ra, nhưng chúng rất hiếm
và hầu hết trong thực tế Median mới sẽ dịch chuyển ít hơn nhiều
Trực giác toán học đằng sau trung vị MEDIAN
Để hiểu rõ hơn về MEDIAN, trước tiên ta sẽ đi tìm hiểu thế nào là giá trị trung bình bị cắt ngắn (Truncated mean) Giá trị trung bình bị cắt ngắn là giá trị trung bình được tính sau khi loại trừ một số số khỏi các đầu cực
Vd: [1, 1, 1, 3, 3, 6, 7, 10]
Trong tập hợp này, MEAN bằng 4 Bây giờ, hãy xóa 1 giá trị ngoài cùng bên trái và1 giá trị ngoài cùng bên phải Tập hợp mới được cắt ngắn là [1, 1, 3, 3, 6, 7], bây giờ MEAN = 3,33
Cắt bớt nó một lần nữa: [1, 3, 3, 6] MEAN = 3,25
Và một lần nữa: [3, 3] MEAN = 3
Chúng ta không thể cắt bớt nữa, vì điều đó sẽ không để lại số nào trong tập hợp
Và bây giờ ta có thể thấy rằng, khi một tập hợp không thể cắt ngắn nữa, giá trị trung bình
bị cắt ngắn (Truncated mean) sẽ bằng với Trung vị MEAN
Trên thực tế, điều này đúng với bất kỳ tập hợp nào Bạn tiếp tục tính giá trị trung bình bị cắt ngắn sau khi loại trừ ngày càng nhiều giá trị từ cả hai phía Giá trị trung bình bị cắt ngắn cuối cùng sẽ bằng trung vị của tập hợp ban đầu
Ví dụ:
[150, 150, 154, 165, 166]
[185, 193, 201, 205]
Đặc điểm:
Chỉ tồn tại một giá trị trung vị trong một tập dữ liệu
Ít bị ảnh hưởng bởi các giá trị ngoại lai.Median hầu như ít di chuyển vì khi thêm một số duy nhất vào bất kỳ đâu của tập hợp thì MEDIAN chỉ đơn giản là tăng lên
1 Đó là lí do Median là giá trị ít nhạy cảm hơn so với Mean và Mode
Khó tính toán khi các phần tử trong tập hợp là phân số, tỉ lệ phần trăm
Trang 10 Có thể được xác định bởi đồ thị
Khi nào nên sử dụng Median: Khi xuất hiện nhiều giá trị ngoại lai
Ví dụ :
Tại một quầy bar nọ có 10 người đang ngồi uống rượu Người ta thống kê ra thu nhập 10 người đều là 35.000 USD một năm, Bỗng nhiên tỷ phú Bill Gates đi vào quán và ngồi xuống quầy bar gọi một ly Năm 2013, thu nhập ước lượng của Bill Gates là 15,8 tỉ USD trước khi Bill Gates bước vào, số người ngồi ở quầy là 10 người, do đó median thu nhập
là một nửa tổng thu nhập của hai người có thu nhập cao thứ 5 và thứ 6 Vì hai người này đều có thu nhập 35.000 USD nên median của cả 10 người là 35.000 USD.Sau khi Bill Gates vào, số người tăng thêm một thành 11 người, do đó median thu nhập sẽ là thu nhập của người có thu nhập cao thứ 6 (vị trí người có thu nhập cao nhất đã bị Bill Gates chiếm mất, do đó người có thu nhập cao thứ 5 trong 10 người còn lại sẽ là người có thu nhập cao thứ 6 của cả 11 người) Thu nhập của người này là 35.000 USD nên median thu nhập của 11 người vẫn là 35.000 USD Bill Gates dù có giàu mấy cũng không thể làm thay đổi median của dữ liệu!
4.2.3 Mode (Yếu vị)
Trong hầu hết các tập hợp, mode không phải là một giá trị tốt để đo lường xu hướng trung tâm Theo một cách nào đó, hoạt động của mode rất nhất quán và không đáng tin cậy bởi vì:
Trang 11Thứ nhất, vì mode chỉ quan tâm đến chữ số có tần số xuất hiện nhiều nhất trong dãy số nên nó bỏ qua hết giá trị của những chữ số còn lại
Thứ hai, không phải tập hợp lúc nào cũng luôn luôn chỉ có 1 mode, có thể có 0 mode hoặc 2 mode hoặc nhiều hơn Điều này khiến mode trở nên không có giá trị trong trường hợp này
Nhìn chung, mode sẽ là một thước đo tốt khi các chữ số trong tập hợp có giá trị gần bằng nhau, ví dụ: [3,4,5,4,5,4,3,4,5,4] (Mode = 4) Còn các trường hợp khác, hãy tránh sử dụng mode làm thước đo duy nhất để chỉ giá trị trung tâm
Ví dụ:
[165, 150, 154, 166, 150]
[2, 6, 9, 9, 5, 7, 6, 7, 5, 2]
[1, 2, 1, 1, 2, 2]
[5, 5, 5, 4, 5, 4, 4, 4, 3, 3, 3, 3]
[1, 1, 1]
[8]
[13, 13, 13, 13, 13]
Đặc điểm:
Ưu điểm
Đơn giản để xác định nhất so với 2 giá trị Mean, Median
Ít bị ảnh hưởng bởi các giá trị ngoại lai
Thường được dùng cho kiểu dữ liệu phân loại Hữu ích cho các dữ liệu định tính
Ví dụ: Yếu vị của {táo, táo, chuối, cam, cam, cam, đào} là cam
Có thể được xác định bởi đồ thị Trong một phân phối chuẩn (đồ thị hình chuông, yếu vị nằm tại đỉnh) Do đó, yếu vị là giá trị đại diện nhất cho phân bố
Trang 12Nhược điểm:
Không độc nhất vì trong 1 tập có thể có nhiều hơn một giá trị mode
Một danh sách dữ liệu hoặc mẫu có thể có một yếu vị (unimodal), hai yếu vị (bimodal), ba yếu vị (trimodal) hoặc thậm chí không có yếu vị nào
Chỉ ổn định cho số lượng nhiều
Không được tạo thành dựa trên các phần tử của tập Nó không quan tâm đến tất cả các phần tử mà nó chỉ quan tâm đến phần tử nào xuất hiện nhiều nhất
Khi nào nên sử dụng Mode:Khi cần xác định tần số xuất hiện
4.3 So sánh Mean, Median và Mode
Ý nghĩa Là giá trị trung
bình trong một
tập dữ liệu
Là giá trị trung tâm của một tập dữ liệu/dãy số
Là giá trị có tần số xuất hiện nhiều nhất trong một tập dữ liệu
Ảnh hưởng bởi
giá trị ngoại lai
Tạo thành dựa
trên các phần tử
của tập
Trang 13Có thể xác định
bởi đồ thị
Trong 3 tham số Mean, Mode và Median thì Median có khả năng đo lường xu hướng tập trung của dữ liệu mạnh nhất
Trở lại ví dụ chạy 100 m trên, giả sử sau khi chạy hết 6 lần, bạn chạy tiếp lần thứ 7 Lần này đột nhiên chân bạn bị đau và bạn đi bộ thay vì chạy và kết quả thời gian của lần này
là 79.9 giây Bạn cố gắng thử thêm lần nữa và kết quả vẫn 79.9 giây Bây giờ ta có mẫu cho 8 lần chạy như sau:
x = {25.1, 21.2, 17.9, 23.0, 24.6, 19.5, 79.9, 79.9}
Nếu bạn quan sát cẩn thận, đối với 6 lần chạy đầu tiên thì thời gian chính gian chạy còn 2 lần sau có sự khác biệt rất lớn so với 6 lần chạy ban đầu (2 giá trị này được xem là bất thường của dữ liệu – outlier) thực chất nó không phải thời gian chạy mà là thời gian đi
bộ Nếu bạn không bị đau thì thời gian chạy dao động quanh Median
Theo bảng trên ta thấy rằng 2 Outliers không ảnh hưởng nhiều đến Median (từ 22.1 lên 23.8) nhưng ảnh hưởng rất lớn đến Mean (từ 21.9 lên 36.4) và Mode Mặc dù Median có khả năng đo lường xu hướng tập trung của dữ liệu mạnh hơn Mean vì Median không bị ảnh hưởng bởi các Outliers nhưng nhiều người vẫn thích sử dụng Mean để đo lường xu hướng tập trung của dữ liệu vì dễ tính hơn không cần phải sắp xếp dữ liệu như Median
Trang 144.4 Những thuộc tính của số đo bình quân/ đo lường xu hướng tập trung)
Khi đo lường một xu hướng tập trung (dùng giá trị điển hình để biểu thị/ tổng quát /đại diện hóa một tập hợp), ta phải đánh đổi bằng việc mất thông tin về các phần tử trong tập hợp Xét theo một khía cạnh, rút gọn một tập hợp, quy thành một số giống như việc nén dữ liệu Tuy nhiên như đã học trong KTLT, nén dữ liệu thì có thể khôi phục lại được
dữ liệu gốc nma sử dụng số bình quân/ đo lường xu hướng tập trung thì không thể khôi phục lại được các phần tử gốc
Để giải quyết được vấn đề này, ta nên biết được đặc điểm/thuộc tính những thông tin nào sẽ bị mất khi sử dụng từng loại số bình quân và khi nào nên sử dụng loại nào để phù hợp với tập hợp số mà ta đang xem xét
4.4.1.The mean, the mode, and the median running for president!
Xét tình huống có 3 ứng cử viên đang tham gia tranh cử Mỗi ứng viên sẽ thuyết phục bạn bầu cho họ bằng cách hứa hẹn rằng họ sẽ trở thành người đại diện cho bạn tốt hơn 2 ứng viên còn lại Và dĩ nhiên họ sẽ không chỉ thuyết phục mỗi bạn, mà để tối đa hóa cơ hội thắng họ sẽ cố gắng vận động được cử tri bầu cho họ nhất có thể Do đó, họ muốn trở thành đại diện của càng nhiều cử tri càng tốt Cuối cùng, đại diện tổng thể tốt nhất của cử tri sẽ thắng cuộc bầu cử
3 ứng viên trong ví dụ này cũng chính là ẩn dụ cho 3 số đo bình quân mà chúng tôi nêu tới tiếp theo đây Liệu giá trị trung bình, yến vị hay trung vị sẽ là các giá trị đại diện
tốt nhất cho tổng thể tập hợp? Phần tiếp theo chúng tôi sẽ làm rõ
Kể từ đây, tôi sẽ sử dụng ký hiệu sau:
x = một số thực cụ thể
S = tổng của tất cả các số trong một tập hợp
N = số lượng các số trong một tập hợp
MEAN, MODE, MEDIAN = các thước đo được tính toán tương ứng cho một tập hợp
Theo tinh thần của ẩn dụ bầu cử, chúng ta hãy nghe các lập luận ủng hộ từng biện pháp và xem chúng ta nên chọn biện pháp nào!