1. Trang chủ
  2. » Luận Văn - Báo Cáo

tiểu luận lí thuyết xác suất lý thuyết xác suất chương 4 the mode median

18 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Nội dung

Trong số đó không thể kể đến“xác suất” là nền tảng quan trọng của thống kê ứng dụng, kinh tế lượng, định phí bảohiểm… Ngày nay trong thời đại công nghệ thông tin, với số lượng dữ liệu kh

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT

TIỂU LUẬN MÔN: LÍ THUYẾT XÁC SUẤT

Giảng viên: Hà Văn Hiếu

ĐỀ TÀI:

Lớp học phần: 212TO0724

Nhóm sinh viên:

Phan Nguyễn Trúc Loan - K214110838

Trần Trương Ngọc Hân - K214110832

Lê Quang Khai Nguyên - K204010939

TP Hồ Chí Minh, tháng 5, năm 2022

1. Mục lục

Trang 2

1 Mục lục 1

2 Lời mở đầu 2

3 Lí do chọn đề tài 2

4 Nội dung 2

4.1 Giá trị và tập hợp các giá trị 2

4.2 Đo lường xu hướng tập trung 3

4.2.1 Mean (Trung bình) 3

4.2.2 Median (Trung vị): 7

4.2.3 Mode (Yếu vị) 9

4.3 So sánh Mean, Median và Mode 11

4.4 Những thuộc tính của số đo bình quân/ đo lường xu hướng tập trung) 13

4.4.1.The mean, the mode, and the median running for president! 13

4.4.2 A warm-up simulation 14

4.5 Ứng dụng của Mode, Mean, Median 14

4.5.1 Mode 14

4.5.2 Mean 14

4.5.3 Median 14

5 Kết luận 14

6 Biên bản họp (phân chia công việc trong nhóm) 15

2 Lời mở đầu

Trang 3

Trong thời kỳ chuyển đổi số và kinh tế số như hiện nay thì những vấn đề thực tiễn đang vẫn cần chúng ta giải quyết Đặc biệt là Việt Nam- quốc gia đang phát triển nền kinh tế vững mạnh của các quốc gia Đặc biệt là Việt Nam – quốc gia đang phát triển cần rất nhiều vốn để phát triển tất cả các mặt của đời sống xã hội Trong số đó không thể kể đến

“xác suất” là nền tảng quan trọng của thống kê ứng dụng, kinh tế lượng, định phí bảo hiểm… Ngày nay trong thời đại công nghệ thông tin, với số lượng dữ liệu khổng lồ chưa từng có, kiến thức liên quan “xác suất” càng phát huy được tác dụng của nó

Nhận thức về yêu cầu đó, hôm nay nhóm chúng em gồm 5 thành viên xin trình bày về

“Ba tham số Mean, Mode, Median đại diện cho khuynh hướng tập trung dữ liệu”.Nhóm sinh viên chúng em xin chân thành cảm ơn sự chỉ dẫn tận tâm của thầy trong suốt thời gian vừa qua, nhưng với sự hiểu biết và lượng kiến thức còn hạn hẹp, nhóm sinh viên chúng em vẫn chưa thể hoàn thành bài tập này một cách hoàn chỉnh nhất, vì vậy xin thầy thông cảm

Cuối cùng, nhóm sinh viên chúng em rất mong nhận được sự nhận xét và đánh giá của thầy cho tiểu luận này

3 Lí do chọn đề tài

Khi nhắc tới 1 giá trị đại diện cho một tập hợp người thường nghĩ ngay đến giá trị trung bình ví dụ như chìu cao trung bình của các thành viên trong 1 lớp sẽ đại diện cho chìu cao của cả lớp Thông thường giá trị này sẽ được tính bằng cách chia tổng chìu cao của các thành viên trong lớp cho tổng số thành viên trong lớp Nhưng liệu lúc nào giá trị trung bình cũng là giá trị đại diện tốt nhất cho một tập hợp hay không? Nếu không thì liệu có những giá trị nào khác đại diện cho một tập hợp nữa không? “Mean”, “Median” và

“Mode” là những thuật ngữ cơ bản trong thống kê, lý thuyết xác suất, … Trong thống kê,

3 thuật ngữ này là những ví dụ về số bình quân, hay còn gọi là giá trị đại diện chỉ tiêu biểu hiện mức độ điển hình của một tổng thể gồm nhiều đơn vị cùng loại được xác định theo một tiêu thức nào đó

4 Nội dung

4.1 Giá trị và tập hợp các giá trị

Giá trị ở đây đơn giản là các số, như 5,1,3,6, 1041, 0, 200, 0,5, -100,

Trang 4

Vậy những con số này có thể thể hiện được điều gì? Đó có thể là số đo chiều cao, cân nặng, số tuổi, thu nhập, điểm số hoặc cao hơn là đại diện cho số lượng các sự cố giao thông cho một quốc gia, nhiệt độ hàng ngày ở thành phố,…

Còn tập hợp các giá trị là tập hợp các giá trị liên quan với nhau thỏa mãn một điều kiện nào đó hay đơn giản là danh sách các số có liên quan Ví dụ như tập hợp chiều cao của học sinh trong một lớp, tập hợp số lượng sự cố giao thông trong một năm,

4.2 Đo lường xu hướng tập trung

Số đo bình quân được sử dụng phổ biến trong nguyên lý thống kê để nêu lên đặc điểm chung nhất, phổ biến nhất của hiện tượng kinh tế xã hội trong các điều kiện không gian

và thời gian cụ thể

Ví dụ 1: Tiền lương bình quân của một công nhân trong doanh nghiệp là mức lương phổ

biến nhất, đại diện cho các mức lương khác nhau của công nhân trong doanh nghiệp

Ví dụ 2: Thu nhập bình quân đầu người của một địa bàn là mức thu nhập phổ biến nhất,

đại diện cho các mức thu nhập khác nhau của mọi người trong địa bàn đó

Số đo bình quân còn dùng để so sánh đặc điểm của những hiện tượng không có cùng một quy mô hay làm căn cứ để đánh giá trình độ đồng đều của các đơn vị tổng thể

Khuynh hướng tập trung của dữ liệu thường được đo lường qua 3 tham số đó là số trung bình, số trung vị và số mode

4.2.1 Mean (Trung bình)

Đầu tiên ta có: [4, 4, 4]

Tập hợp trên có: N = 3, MEAN = 4

Trong đó, phần tử (x = 4) được lặp lại N lần và giá trị trung bình là chính phần tử đó Điều đó có nghĩa miễn là x là phần tử duy nhất trong tập hợp thì MEAN = x Điều này đúng với bất kỳ N và bất kỳ x nào

Bây giờ xét hai tập hợp:

[3, 4, 5]

[4, 4, 4]

Trang 5

Cả 2 tập hợp trên đều có N = 3, MEAN = 4 Giá trị trung bình trong hai trường hợp này

là giống nhau MEAN lúc này là đại lượng đo lường tốt vì ta có thể thấy các số 3,4,5 đều rất rất gần (hoặc giống hệt) với MEAN = 4

Bây giờ xét tiếp hai tập hợp khác:

[-94, -58, 164]

[4, 4, 4]

Cả 2 tập hợp trên đều có N = 3, MEAN = 4 Giá trị trung bình trong hai trường hợp này

là giống nhau MEAN lúc này là đại lượng đo lường không tốt lắm vì các số trong tập hợp quá xa so với MEAN = 4

Vậy ta có thể rút ra rằng: Việc sử dụng MEAN để mô tả một tập hợp các số giống như việc giảm tập hợp thành một tập hợp tương ứng có cùng N nhưng trong đó mọi phần tử được thay thế bằng giá trị trung bình được tính toán

Trực giác toán học đằng sau giá trị trung bình MEAN:

Xét tập hợp khác: [1, 1, 1, 3, 3, 6, 7, 10], có giá trị trung bình MEAN cũng bằng 4 Ta có hình ảnh trực quan từ Watier, Lamontagne, & Chartier (2011) như sau:

Chú ý rằng, với mỗi phần tử x trong tập hợp, có một sự khác biệt tương ứng

Gọi d = x - MEAN

Nếu x < MEAN, d sẽ âm

Nếu x = MEAN, d sẽ bằng 0

Trang 6

Nếu x > MEAN, d sẽ dương.

Có nghĩa là, MEAN sẽ bằng tổng của các số dương và số âm

Độ nhạy cảm của MEAN đối với giá trị mới

Hãy xem xét điều gì sẽ xảy ra với MEAN khi ta thêm một phần tử x mới vào tập hợp: Nếu x bằng đúng MEAN, MEAN mới sẽ bằng MEAN cũ

Nếu x không bằng MEAN, giá trị MEAN mới sẽ bị dịch sang trái hoặc sang phải, để cân bằng với tập hợp mới

So sánh giữa MEAN mới và MEAN cũ, ta có:

Công thức tính MEAN cũ:

Công thức tính MEAN mới, thêm một giá trị mới x và tổng mới trở thành S + x, trong khi

tổng số mới trở thành N + 1:

Vậy sự khác biệt tuyệt đối giữa 2 giá trị MEAN là:

Trang 7

Ta có thể thấy rằng, bất kể giá trị của MEAN cũ là bao nhiêu, một phần tử x mới có thể kéo MEAN mới ra xa giá trị cũ một cách tùy ý, miễn là x đủ nhỏ hoặc đủ lớn Hoặc x sẽ lớn quá mức đến nổi kéo cả giá trị MEAN mới ra xa khỏi khuôn khổ của tập hợp ban đầu (sẽ làm rõ hơn ở phần dưới đây)

Đặc điểm:

 Đơn giản, dễ hiểu, dễ tính toán

 Đo lường khá chính xác về xu hướng tập trung của dữ liệu (vì ta quan tâm tới tất

cả các số trong tập hợp)

 Một tập dữ liệu chỉ tồn tại một số trung bình

 Bị ảnh hưởng bởi giá trị ngoại lai

(Nếu tính trung bình = , ta thấy không hợp lý vì các gt thuộc khoảng 12-17 => nếu dùng trung vị thì nó sẽ chia làm hai nửa (trung vị = ), một nửa < trung vị, một nửa > trung vị

=> hợp lý hơn

Khi nào nên sử dụng Mean: Khi kích thước của mẫu lớn, không có nhiều giá trị

ngoại lai: Dữ liệu về vận tốc, gia tốc

Liệu MEAN luôn là một thước đo tốt?

Ngay cả khi MEAN là một đại diện rất tốt cho tất cả các giá trị, việc thêm một giá trị mới quá "xa" so với những giá trị ban đầu trong tập hợp sẽ là cho giá trị MEAN lệch rất lớn thậm chí ra xa khỏi tập hợp ban đầu

Trang 8

Ở hình ảnh minh họa trên Ban đầu tập hợp chỉ gồm những số xung quanh các giá trị từ 1 đến 5 Bây giờ thêm vào một số có giá trị quá “xa” so với các số ban đầu (số 59) Trong khi MEDIAN chỉ tăng thêm 1 đơn vị thì mặt khác, MEAN đã chuyển sang một nơi nào

đó ở giữa rất xa so với ban đầu MEAN bây giờ thật sự không đại diện hay thể hiện giá trị

gì lúc này cả

4.2.2 Median (Trung vị): Để tránh trường hợp giá trị bình quân bị độ phân tán của dữ

liệu làm cho méo mó, người ta còn thường dùng một giá trị trung bình khác gọi là median

Trung vị không quan tâm đến khoảng cách giá trị giữa các số trong phần tử Nó chỉ đơn giản là đại diện cho số ở giữa của tập hợp

Trong hình lúc nãy, Median hầu như ít di chuyển vì khi thêm một số duy nhất vào bất kỳ đâu của tập hợp thì MEDIAN chỉ đơn giản là tăng lên 1 Đó là lí do Median là giá trị ít nhạy cảm hơn so với Mean và Mode

Nhưng vẫn có trường hợp khi phần tử x mới thêm vào đủ lớn, ví dụ:

[0, 0, 100]

MEDIAN hiện giờ là 0, nhưng nếu thêm phần tử mới là 100:

[0, 0, 100, 100]

Trang 9

Trung vị mới sẽ là 50.

Mặc dù các bước nhảy tận một nửa phạm vi ban đầu có thể xảy ra, nhưng chúng rất hiếm

và hầu hết trong thực tế Median mới sẽ dịch chuyển ít hơn nhiều

Trực giác toán học đằng sau trung vị MEDIAN

Để hiểu rõ hơn về MEDIAN, trước tiên ta sẽ đi tìm hiểu thế nào là giá trị trung bình bị cắt ngắn (Truncated mean) Giá trị trung bình bị cắt ngắn là giá trị trung bình được tính sau khi loại trừ một số số khỏi các đầu cực

Vd: [1, 1, 1, 3, 3, 6, 7, 10]

Trong tập hợp này, MEAN bằng 4 Bây giờ, hãy xóa 1 giá trị ngoài cùng bên trái và1 giá trị ngoài cùng bên phải Tập hợp mới được cắt ngắn là [1, 1, 3, 3, 6, 7], bây giờ MEAN = 3,33

Cắt bớt nó một lần nữa: [1, 3, 3, 6] MEAN = 3,25

Và một lần nữa: [3, 3] MEAN = 3

Chúng ta không thể cắt bớt nữa, vì điều đó sẽ không để lại số nào trong tập hợp

Và bây giờ ta có thể thấy rằng, khi một tập hợp không thể cắt ngắn nữa, giá trị trung bình

bị cắt ngắn (Truncated mean) sẽ bằng với Trung vị MEAN

Trên thực tế, điều này đúng với bất kỳ tập hợp nào Bạn tiếp tục tính giá trị trung bình bị cắt ngắn sau khi loại trừ ngày càng nhiều giá trị từ cả hai phía Giá trị trung bình bị cắt ngắn cuối cùng sẽ bằng trung vị của tập hợp ban đầu

Ví dụ:

[150, 150, 154, 165, 166]

[185, 193, 201, 205]

Đặc điểm:

 Chỉ tồn tại một giá trị trung vị trong một tập dữ liệu

 Ít bị ảnh hưởng bởi các giá trị ngoại lai.Median hầu như ít di chuyển vì khi thêm một số duy nhất vào bất kỳ đâu của tập hợp thì MEDIAN chỉ đơn giản là tăng lên

1 Đó là lí do Median là giá trị ít nhạy cảm hơn so với Mean và Mode

 Khó tính toán khi các phần tử trong tập hợp là phân số, tỉ lệ phần trăm

Trang 10

 Có thể được xác định bởi đồ thị

Khi nào nên sử dụng Median: Khi xuất hiện nhiều giá trị ngoại lai

Ví dụ :

Tại một quầy bar nọ có 10 người đang ngồi uống rượu Người ta thống kê ra thu nhập 10 người đều là 35.000 USD một năm, Bỗng nhiên tỷ phú Bill Gates đi vào quán và ngồi xuống quầy bar gọi một ly Năm 2013, thu nhập ước lượng của Bill Gates là 15,8 tỉ USD trước khi Bill Gates bước vào, số người ngồi ở quầy là 10 người, do đó median thu nhập

là một nửa tổng thu nhập của hai người có thu nhập cao thứ 5 và thứ 6 Vì hai người này đều có thu nhập 35.000 USD nên median của cả 10 người là 35.000 USD.Sau khi Bill Gates vào, số người tăng thêm một thành 11 người, do đó median thu nhập sẽ là thu nhập của người có thu nhập cao thứ 6 (vị trí người có thu nhập cao nhất đã bị Bill Gates chiếm mất, do đó người có thu nhập cao thứ 5 trong 10 người còn lại sẽ là người có thu nhập cao thứ 6 của cả 11 người) Thu nhập của người này là 35.000 USD nên median thu nhập của 11 người vẫn là 35.000 USD Bill Gates dù có giàu mấy cũng không thể làm thay đổi median của dữ liệu!

4.2.3 Mode (Yếu vị)

Trong hầu hết các tập hợp, mode không phải là một giá trị tốt để đo lường xu hướng trung tâm Theo một cách nào đó, hoạt động của mode rất nhất quán và không đáng tin cậy bởi vì:

Trang 11

Thứ nhất, vì mode chỉ quan tâm đến chữ số có tần số xuất hiện nhiều nhất trong dãy số nên nó bỏ qua hết giá trị của những chữ số còn lại

Thứ hai, không phải tập hợp lúc nào cũng luôn luôn chỉ có 1 mode, có thể có 0 mode hoặc 2 mode hoặc nhiều hơn Điều này khiến mode trở nên không có giá trị trong trường hợp này

Nhìn chung, mode sẽ là một thước đo tốt khi các chữ số trong tập hợp có giá trị gần bằng nhau, ví dụ: [3,4,5,4,5,4,3,4,5,4] (Mode = 4) Còn các trường hợp khác, hãy tránh sử dụng mode làm thước đo duy nhất để chỉ giá trị trung tâm

Ví dụ:

[165, 150, 154, 166, 150]

[2, 6, 9, 9, 5, 7, 6, 7, 5, 2]

[1, 2, 1, 1, 2, 2]

[5, 5, 5, 4, 5, 4, 4, 4, 3, 3, 3, 3]

[1, 1, 1]

[8]

[13, 13, 13, 13, 13]

Đặc điểm:

Ưu điểm

 Đơn giản để xác định nhất so với 2 giá trị Mean, Median

 Ít bị ảnh hưởng bởi các giá trị ngoại lai

 Thường được dùng cho kiểu dữ liệu phân loại Hữu ích cho các dữ liệu định tính

Ví dụ: Yếu vị của {táo, táo, chuối, cam, cam, cam, đào} là cam

 Có thể được xác định bởi đồ thị Trong một phân phối chuẩn (đồ thị hình chuông, yếu vị nằm tại đỉnh) Do đó, yếu vị là giá trị đại diện nhất cho phân bố

Trang 12

Nhược điểm:

 Không độc nhất vì trong 1 tập có thể có nhiều hơn một giá trị mode

 Một danh sách dữ liệu hoặc mẫu có thể có một yếu vị (unimodal), hai yếu vị (bimodal), ba yếu vị (trimodal) hoặc thậm chí không có yếu vị nào

 Chỉ ổn định cho số lượng nhiều

 Không được tạo thành dựa trên các phần tử của tập Nó không quan tâm đến tất cả các phần tử mà nó chỉ quan tâm đến phần tử nào xuất hiện nhiều nhất

Khi nào nên sử dụng Mode:Khi cần xác định tần số xuất hiện

4.3 So sánh Mean, Median và Mode

Ý nghĩa Là giá trị trung

bình trong một

tập dữ liệu

Là giá trị trung tâm của một tập dữ liệu/dãy số

Là giá trị có tần số xuất hiện nhiều nhất trong một tập dữ liệu

Ảnh hưởng bởi

giá trị ngoại lai

Tạo thành dựa

trên các phần tử

của tập

Trang 13

Có thể xác định

bởi đồ thị

Trong 3 tham số Mean, Mode và Median thì Median có khả năng đo lường xu hướng tập trung của dữ liệu mạnh nhất

Trở lại ví dụ chạy 100 m trên, giả sử sau khi chạy hết 6 lần, bạn chạy tiếp lần thứ 7 Lần này đột nhiên chân bạn bị đau và bạn đi bộ thay vì chạy và kết quả thời gian của lần này

là 79.9 giây Bạn cố gắng thử thêm lần nữa và kết quả vẫn 79.9 giây Bây giờ ta có mẫu cho 8 lần chạy như sau:

x = {25.1, 21.2, 17.9, 23.0, 24.6, 19.5, 79.9, 79.9}

Nếu bạn quan sát cẩn thận, đối với 6 lần chạy đầu tiên thì thời gian chính gian chạy còn 2 lần sau có sự khác biệt rất lớn so với 6 lần chạy ban đầu (2 giá trị này được xem là bất thường của dữ liệu – outlier) thực chất nó không phải thời gian chạy mà là thời gian đi

bộ Nếu bạn không bị đau thì thời gian chạy dao động quanh Median

Theo bảng trên ta thấy rằng 2 Outliers không ảnh hưởng nhiều đến Median (từ 22.1 lên 23.8) nhưng ảnh hưởng rất lớn đến Mean (từ 21.9 lên 36.4) và Mode Mặc dù Median có khả năng đo lường xu hướng tập trung của dữ liệu mạnh hơn Mean vì Median không bị ảnh hưởng bởi các Outliers nhưng nhiều người vẫn thích sử dụng Mean để đo lường xu hướng tập trung của dữ liệu vì dễ tính hơn không cần phải sắp xếp dữ liệu như Median

Trang 14

4.4 Những thuộc tính của số đo bình quân/ đo lường xu hướng tập trung)

Khi đo lường một xu hướng tập trung (dùng giá trị điển hình để biểu thị/ tổng quát /đại diện hóa một tập hợp), ta phải đánh đổi bằng việc mất thông tin về các phần tử trong tập hợp Xét theo một khía cạnh, rút gọn một tập hợp, quy thành một số giống như việc nén dữ liệu Tuy nhiên như đã học trong KTLT, nén dữ liệu thì có thể khôi phục lại được

dữ liệu gốc nma sử dụng số bình quân/ đo lường xu hướng tập trung thì không thể khôi phục lại được các phần tử gốc

Để giải quyết được vấn đề này, ta nên biết được đặc điểm/thuộc tính những thông tin nào sẽ bị mất khi sử dụng từng loại số bình quân và khi nào nên sử dụng loại nào để phù hợp với tập hợp số mà ta đang xem xét

4.4.1.The mean, the mode, and the median running for president!

Xét tình huống có 3 ứng cử viên đang tham gia tranh cử Mỗi ứng viên sẽ thuyết phục bạn bầu cho họ bằng cách hứa hẹn rằng họ sẽ trở thành người đại diện cho bạn tốt hơn 2 ứng viên còn lại Và dĩ nhiên họ sẽ không chỉ thuyết phục mỗi bạn, mà để tối đa hóa cơ hội thắng họ sẽ cố gắng vận động được cử tri bầu cho họ nhất có thể Do đó, họ muốn trở thành đại diện của càng nhiều cử tri càng tốt Cuối cùng, đại diện tổng thể tốt nhất của cử tri sẽ thắng cuộc bầu cử

3 ứng viên trong ví dụ này cũng chính là ẩn dụ cho 3 số đo bình quân mà chúng tôi nêu tới tiếp theo đây Liệu giá trị trung bình, yến vị hay trung vị sẽ là các giá trị đại diện

tốt nhất cho tổng thể tập hợp? Phần tiếp theo chúng tôi sẽ làm rõ

Kể từ đây, tôi sẽ sử dụng ký hiệu sau:

x = một số thực cụ thể

S = tổng của tất cả các số trong một tập hợp

N = số lượng các số trong một tập hợp

MEAN, MODE, MEDIAN = các thước đo được tính toán tương ứng cho một tập hợp

Theo tinh thần của ẩn dụ bầu cử, chúng ta hãy nghe các lập luận ủng hộ từng biện pháp và xem chúng ta nên chọn biện pháp nào!

Ngày đăng: 26/08/2024, 12:57

w