Untitled ĐẠI HỌC QUỐC GIA TP HCM TRƯỜNG ĐẠI HỌC KINH TẾ LUẬT TIỂU LUẬN MÔN LÍ THUYẾT XÁC SUẤT Giảng viên Hà Văn Hiếu ĐỀ TÀI Lớp học phần 212TO0724 Nhóm sinh viên Phan Gia Huy K214110834 Phan Nguyễn Tr[.]
lOMoARcPSD|12114775 ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KINH TẾ - LUẬT TIỂU LUẬN MƠN: LÍ THUYẾT XÁC SUẤT Giảng viên: Hà Văn Hiếu ĐỀ TÀI: Lớp học phần: 212TO0724 Nhóm sinh viên: Phan Gia Huy Phan Nguyễn Trúc Loan Đỗ Thị Nhung Trần Trương Ngọc Hân Lê Quang Khai Nguyên TP Hồ Chí Minh, tháng 5, năm 2022 - K214110834 K214110838 K214110844 K214110832 K204010939 lOMoARcPSD|12114775 Mục lục Mục lục Lời mở đầu Lí chọn đề tài Nội dung 4.1 Giá trị tập hợp giá trị 4.2 Đo lường xu hướng tập trung 4.2.1 Mean (Trung bình) 4.2.2 Median (Trung vị): 4.2.3 Mode (Yếu vị) 4.3 So sánh Mean, Median Mode 11 4.4 Những thuộc tính số đo bình qn/ đo lường xu hướng tập trung) 13 4.4.1.The mean, the mode, and the median running for president! 13 4.4.2 A warm-up simulation 14 4.5 Ứng dụng Mode, Mean, Median 14 4.5.1 Mode .14 4.5.2 Mean 14 4.5.3 Median 14 Kết luận .14 Biên họp (phân chia cơng việc nhóm) .15 lOMoARcPSD|12114775 Lời mở đầu Trong thời kỳ chuyển đổi số kinh tế số vấn đề thực tiễn cần giải Đặc biệt Việt Nam- quốc gia phát triển kinh tế vững mạnh quốc gia Đặc biệt Việt Nam – quốc gia phát triển cần nhiều vốn để phát triển tất mặt đời sống xã hội Trong số khơng thể kể đến “xác suất” tảng quan trọng thống kê ứng dụng, kinh tế lượng, định phí bảo hiểm… Ngày thời đại công nghệ thông tin, với số lượng liệu khổng lồ chưa có, kiến thức liên quan “xác suất” phát huy tác dụng Nhận thức u cầu đó, hơm nhóm chúng em gồm thành viên xin trình bày “Ba tham số Mean, Mode, Median đại diện cho khuynh hướng tập trung liệu”.Nhóm sinh viên chúng em xin chân thành cảm ơn dẫn tận tâm thầy suốt thời gian vừa qua, với hiểu biết lượng kiến thức hạn hẹp, nhóm sinh viên chúng em chưa thể hồn thành tập cách hồn chỉnh nhất, xin thầy thơng cảm Cuối cùng, nhóm sinh viên chúng em mong nhận nhận xét đánh giá thầy cho tiểu luận Lí chọn đề tài Khi nhắc tới giá trị đại diện cho tập hợp người thường nghĩ đến giá trị trung bình ví dụ chìu cao trung bình thành viên lớp đại diện cho chìu cao lớp Thơng thường giá trị tính cách chia tổng chìu cao thành viên lớp cho tổng số thành viên lớp Nhưng liệu lúc giá trị trung bình giá trị đại diện tốt cho tập hợp hay khơng? Nếu khơng liệu có giá trị khác đại diện cho tập hợp không? “Mean”, “Median” “Mode” thuật ngữ thống kê, lý thuyết xác suất, … Trong thống kê, thuật ngữ ví dụ số bình qn, hay cịn gọi giá trị đại diện tiêu biểu mức độ điển hình tổng thể gồm nhiều đơn vị loại xác định theo tiêu thức Nội dung 4.1 Giá trị tập hợp giá trị Giá trị đơn giản số, 5,1,3,6, 1041, 0, 200, 0,5, -100, lOMoARcPSD|12114775 Vậy số thể điều gì? Đó số đo chiều cao, cân nặng, số tuổi, thu nhập, điểm số cao đại diện cho số lượng cố giao thông cho quốc gia, nhiệt độ hàng ngày thành phố,… Còn tập hợp giá trị tập hợp giá trị liên quan với thỏa mãn điều kiện hay đơn giản danh sách số có liên quan Ví dụ tập hợp chiều cao học sinh lớp, tập hợp số lượng cố giao thông năm, 4.2 Đo lường xu hướng tập trung Số đo bình quân sử dụng phổ biến nguyên lý thống kê để nêu lên đặc điểm chung nhất, phổ biến tượng kinh tế xã hội điều kiện không gian thời gian cụ thể Ví dụ 1: Tiền lương bình qn cơng nhân doanh nghiệp mức lương phổ biến nhất, đại diện cho mức lương khác cơng nhân doanh nghiệp Ví dụ 2: Thu nhập bình quân đầu người địa bàn mức thu nhập phổ biến nhất, đại diện cho mức thu nhập khác người địa bàn Số đo bình qn cịn dùng để so sánh đặc điểm tượng khơng có quy mơ hay làm để đánh giá trình độ đồng đơn vị tổng thể Khuynh hướng tập trung liệu thường đo lường qua tham số số trung bình, số trung vị số mode 4.2.1 Mean (Trung bình) Đầu tiên ta có: [4, 4, 4] Tập hợp có: N = 3, MEAN = Trong đó, phần tử (x = 4) lặp lại N lần giá trị trung bình phần tử Điều có nghĩa miễn x phần tử tập hợp MEAN = x Điều với N x Bây xét hai tập hợp: [3, 4, 5] [4, 4, 4] lOMoARcPSD|12114775 Cả tập hợp có N = 3, MEAN = Giá trị trung bình hai trường hợp giống MEAN lúc đại lượng đo lường tốt ta thấy số 3,4,5 rất gần (hoặc giống hệt) với MEAN = Bây xét tiếp hai tập hợp khác: [-94, -58, 164] [4, 4, 4] Cả tập hợp có N = 3, MEAN = Giá trị trung bình hai trường hợp giống MEAN lúc đại lượng đo lường không tốt số tập hợp xa so với MEAN = Vậy ta rút rằng: Việc sử dụng MEAN để mô tả tập hợp số giống việc giảm tập hợp thành tập hợp tương ứng có N phần tử thay giá trị trung bình tính tốn Trực giác tốn học đằng sau giá trị trung bình MEAN: Xét tập hợp khác: [1, 1, 1, 3, 3, 6, 7, 10], có giá trị trung bình MEAN Ta có hình ảnh trực quan từ Watier, Lamontagne, & Chartier (2011) sau: Chú ý rằng, với phần tử x tập hợp, có khác biệt tương ứng Gọi d = x - MEAN Nếu x < MEAN, d âm Nếu x = MEAN, d lOMoARcPSD|12114775 Nếu x > MEAN, d dương Có nghĩa là, MEAN tổng số dương số âm Độ nhạy cảm MEAN giá trị Hãy xem xét điều xảy với MEAN ta thêm phần tử x vào tập hợp: Nếu x MEAN, MEAN MEAN cũ Nếu x không MEAN, giá trị MEAN bị dịch sang trái sang phải, để cân với tập hợp So sánh MEAN MEAN cũ, ta có: Cơng thức tính MEAN cũ: Cơng thức tính MEAN mới, thêm giá trị x tổng trở thành S + x, tổng số trở thành N + 1: Vậy khác biệt tuyệt đối giá trị MEAN là: lOMoARcPSD|12114775 Ta thấy rằng, giá trị MEAN cũ bao nhiêu, phần tử x kéo MEAN xa giá trị cũ cách tùy ý, miễn x đủ nhỏ đủ lớn Hoặc x lớn mức đến kéo giá trị MEAN xa khỏi khuôn khổ tập hợp ban đầu (sẽ làm rõ phần đây) Đặc điểm: Đơn giản, dễ hiểu, dễ tính tốn Đo lường xác xu hướng tập trung liệu (vì ta quan tâm tới tất số tập hợp) Một tập liệu tồn số trung bình Bị ảnh hưởng giá trị ngoại lai (Nếu tính trung bình = , ta thấy khơng hợp lý gt thuộc khoảng 12-17 => dùng trung vị chia làm hai nửa (trung vị = ), nửa < trung vị, nửa > trung vị => hợp lý Khi nên sử dụng Mean: Khi kích thước mẫu lớn, khơng có nhiều giá trị ngoại lai: Dữ liệu vận tốc, gia tốc Liệu MEAN thước đo tốt? Ngay MEAN đại diện tốt cho tất giá trị, việc thêm giá trị "xa" so với giá trị ban đầu tập hợp cho giá trị MEAN lệch lớn chí xa khỏi tập hợp ban đầu lOMoARcPSD|12114775 Ở hình ảnh minh họa Ban đầu tập hợp gồm số xung quanh giá trị từ đến Bây thêm vào số có giá trị “xa” so với số ban đầu (số 59) Trong MEDIAN tăng thêm đơn vị mặt khác, MEAN chuyển sang nơi xa so với ban đầu MEAN thật không đại diện hay thể giá trị lúc 4.2.2 Median (Trung vị): Để tránh trường hợp giá trị bình quân bị độ phân tán liệu làm cho méo mó, người ta cịn thường dùng giá trị trung bình khác gọi median Trung vị khơng quan tâm đến khoảng cách giá trị số phần tử Nó đơn giản đại diện cho số tập hợp Trong hình lúc nãy, Median di chuyển thêm số vào đâu tập hợp MEDIAN đơn giản tăng lên Đó lí Median giá trị nhạy cảm so với Mean Mode Nhưng có trường hợp phần tử x thêm vào đủ lớn, ví dụ: [0, 0, 100] MEDIAN 0, thêm phần tử 100: [0, 0, 100, 100] lOMoARcPSD|12114775 Trung vị 50 Mặc dù bước nhảy tận nửa phạm vi ban đầu xảy ra, chúng hầu hết thực tế Median dịch chuyển nhiều Trực giác tốn học đằng sau trung vị MEDIAN Để hiểu rõ MEDIAN, trước tiên ta tìm hiểu giá trị trung bình bị cắt ngắn (Truncated mean) Giá trị trung bình bị cắt ngắn giá trị trung bình tính sau loại trừ số số khỏi đầu cực Vd: [1, 1, 1, 3, 3, 6, 7, 10] Trong tập hợp này, MEAN Bây giờ, xóa giá trị ngồi bên trái và1 giá trị bên phải Tập hợp cắt ngắn [1, 1, 3, 3, 6, 7], MEAN = 3,33 Cắt bớt lần nữa: [1, 3, 3, 6] MEAN = 3,25 Và lần nữa: [3, 3] MEAN = Chúng ta cắt bớt nữa, điều khơng để lại số tập hợp Và ta thấy rằng, tập hợp khơng thể cắt ngắn nữa, giá trị trung bình bị cắt ngắn (Truncated mean) với Trung vị MEAN Trên thực tế, điều với tập hợp Bạn tiếp tục tính giá trị trung bình bị cắt ngắn sau loại trừ ngày nhiều giá trị từ hai phía Giá trị trung bình bị cắt ngắn cuối trung vị tập hợp ban đầu Ví dụ: [150, 150, 154, 165, 166] [185, 193, 201, 205] Đặc điểm: Chỉ tồn giá trị trung vị tập liệu Ít bị ảnh hưởng giá trị ngoại lai.Median di chuyển thêm số vào đâu tập hợp MEDIAN đơn giản tăng lên Đó lí Median giá trị nhạy cảm so với Mean Mode Khó tính tốn phần tử tập hợp phân số, tỉ lệ phần trăm lOMoARcPSD|12114775 Có thể xác định đồ thị Khi nên sử dụng Median: Khi xuất nhiều giá trị ngoại lai Ví dụ : Tại quầy bar có 10 người ngồi uống rượu Người ta thống kê thu nhập 10 người 35.000 USD năm, Bỗng nhiên tỷ phú Bill Gates vào quán ngồi xuống quầy bar gọi ly Năm 2013, thu nhập ước lượng Bill Gates 15,8 tỉ USD trước Bill Gates bước vào, số người ngồi quầy 10 người, median thu nhập nửa tổng thu nhập hai người có thu nhập cao thứ thứ Vì hai người có thu nhập 35.000 USD nên median 10 người 35.000 USD.Sau Bill Gates vào, số người tăng thêm thành 11 người, median thu nhập thu nhập người có thu nhập cao thứ (vị trí người có thu nhập cao bị Bill Gates chiếm mất, người có thu nhập cao thứ 10 người cịn lại người có thu nhập cao thứ 11 người) Thu nhập người 35.000 USD nên median thu nhập 11 người 35.000 USD Bill Gates dù có giàu làm thay đổi median liệu! 4.2.3 Mode (Yếu vị) Trong hầu hết tập hợp, mode giá trị tốt để đo lường xu hướng trung tâm Theo cách đó, hoạt động mode quán không đáng tin cậy vì: lOMoARcPSD|12114775 Thứ nhất, mode quan tâm đến chữ số có tần số xuất nhiều dãy số nên bỏ qua hết giá trị chữ số lại Thứ hai, tập hợp lúc luôn có mode, có mode mode nhiều Điều khiến mode trở nên khơng có giá trị trường hợp Nhìn chung, mode thước đo tốt chữ số tập hợp có giá trị gần nhau, ví dụ: [3,4,5,4,5,4,3,4,5,4] (Mode = 4) Cịn trường hợp khác, tránh sử dụng mode làm thước đo để giá trị trung tâm Ví dụ: [165, 150, 154, 166, 150] [2, 6, 9, 9, 5, 7, 6, 7, 5, 2] [1, 2, 1, 1, 2, 2] [5, 5, 5, 4, 5, 4, 4, 4, 3, 3, 3, 3] [1, 1, 1] [8] [13, 13, 13, 13, 13] Đặc điểm: Ưu điểm Đơn giản để xác định so với giá trị Mean, Median Ít bị ảnh hưởng giá trị ngoại lai Thường dùng cho kiểu liệu phân loại Hữu ích cho liệu định tính Ví dụ: Yếu vị {táo, táo, chuối, cam, cam, cam, đào} cam Có thể xác định đồ thị Trong phân phối chuẩn (đồ thị hình chng, yếu vị nằm đỉnh) Do đó, yếu vị giá trị đại diện cho phân bố 10 lOMoARcPSD|12114775 Nhược điểm: Khơng độc tập có nhiều giá trị mode Một danh sách liệu mẫu có yếu vị (unimodal), hai yếu vị (bimodal), ba yếu vị (trimodal) chí khơng có yếu vị Chỉ ổn định cho số lượng nhiều Không tạo thành dựa phần tử tập Nó khơng quan tâm đến tất phần tử mà quan tâm đến phần tử xuất nhiều Khi nên sử dụng Mode: Khi cần xác định tần số xuất 4.3 So sánh Mean, Median Mode Mean Ý nghĩa Median Mode Là giá trị trung Là giá trị trung tâm Là giá trị có tần số bình một tập xuất nhiều Tính tập liệu liệu/dãy số tập liệu Có Có Khơng Khơng Khơng Khơng Khơng Ảnh hưởng Có giá trị ngoại lai Tạo thành dựa Có phần tử tập 11 lOMoARcPSD|12114775 Có thể xác định Khơng Có Có đồ thị Trong tham số Mean, Mode Median Median có khả đo lường xu hướng tập trung liệu mạnh Trở lại ví dụ chạy 100 m trên, giả sử sau chạy hết lần, bạn chạy tiếp lần thứ Lần chân bạn bị đau bạn thay chạy kết thời gian lần 79.9 giây Bạn cố gắng thử thêm lần kết 79.9 giây Bây ta có mẫu cho lần chạy sau: x = {25.1, 21.2, 17.9, 23.0, 24.6, 19.5, 79.9, 79.9} Nếu bạn quan sát cẩn thận, lần chạy thời gian gian chạy cịn lần sau có khác biệt lớn so với lần chạy ban đầu (2 giá trị xem bất thường liệu – outlier) thực chất khơng phải thời gian chạy mà thời gian Nếu bạn không bị đau thời gian chạy dao động quanh Median Theo bảng ta thấy Outliers không ảnh hưởng nhiều đến Median (từ 22.1 lên 23.8) ảnh hưởng lớn đến Mean (từ 21.9 lên 36.4) Mode Mặc dù Median có khả đo lường xu hướng tập trung liệu mạnh Mean Median không bị ảnh hưởng Outliers nhiều người thích sử dụng Mean để đo lường xu hướng tập trung liệu dễ tính không cần phải xếp liệu Median 12 lOMoARcPSD|12114775 4.4 Những thuộc tính số đo bình qn/ đo lường xu hướng tập trung) Khi đo lường xu hướng tập trung (dùng giá trị điển hình để biểu thị/ tổng quát /đại diện hóa tập hợp), ta phải đánh đổi việc thông tin phần tử tập hợp Xét theo khía cạnh, rút gọn tập hợp, quy thành số giống việc nén liệu Tuy nhiên học KTLT, nén liệu khơi phục lại liệu gốc nma sử dụng số bình qn/ đo lường xu hướng tập trung khơng thể khôi phục lại phần tử gốc Để giải vấn đề này, ta nên biết đặc điểm/thuộc tính thơng tin bị sử dụng loại số bình quân nên sử dụng loại để phù hợp với tập hợp số mà ta xem xét 4.4.1.The mean, the mode, and the median running for president! Xét tình có ứng cử viên tham gia tranh cử Mỗi ứng viên thuyết phục bạn bầu cho họ cách hứa hẹn họ trở thành người đại diện cho bạn tốt ứng viên cịn lại Và dĩ nhiên họ khơng thuyết phục bạn, mà để tối đa hóa hội thắng họ cố gắng vận động cử tri bầu cho họ Do đó, họ muốn trở thành đại diện nhiều cử tri tốt Cuối cùng, đại diện tổng thể tốt cử tri thắng bầu cử ứng viên ví dụ ẩn dụ cho số đo bình qn mà chúng tơi nêu tới Liệu giá trị trung bình, yến vị hay trung vị giá trị đại diện tốt cho tổng thể tập hợp? Phần làm rõ Kể từ đây, sử dụng ký hiệu sau: x = số thực cụ thể S = tổng tất số tập hợp N = số lượng số tập hợp MEAN, MODE, MEDIAN = thước đo tính tốn tương ứng cho tập hợp Theo tinh thần ẩn dụ bầu cử, nghe lập luận ủng hộ biện pháp xem nên chọn biện pháp nào! 13 lOMoARcPSD|12114775 4.4.2 A warm-up simulation 4.5 Ứng dụng Mode, Mean, Median 4.5.1 Mode Một công ty bán thị trường mặt hàng A B C Sau tháng cơng ty nhận thấy mặt hàng B có tần suất bán nhiều => Công ty gia tăng sản xuất mặt hàng B, giảm sản lượng mặt hàng A C để tối ưu hoa doanh thu giảm thiểu hàng tồn kho 4.5.2 Mean Một người mẹ muốn quản lý chi tiêu gia đình cách cộng tổng chi tiêu tháng viên tháng chia cho số ngày tháng để tính chi tiêu hộ gia đình/ ngày Sau tính thu nhập/ ngày nhà để từ chia lại mức chi tiêu tối đa/ ngày thành viên cho phù hợp với mức sống gia đình 4.5.3 Median Cơ sở y tế tiến hành đo chiều cao 1000 sinh viên địa bàn thành phố vào bảng xếp theo thứ tự tăng dần để phục vụ cho công tác nghiên cứu y học Cơ sở nhận thấy giá trị trung tâm 160cm Các giá trị bên trái nhỏ 160cm chủ yếu sinh viên năm năm Các giá trị bên phải lớn 160cm chủ yếu sinh viên năm năm Từ sở y tế biết đượt chiều cao chủ yếu nhóm sinh viên năm 1,2 năm 3,4 Kết luận 14 lOMoARcPSD|12114775 Việc sử dụng đại lượng để đặc trưng cho xu hướng tập trung cịn tùy thuộc tình hình cụ thể lĩnh vực khảo sát, mục đích sử dụng Trong khoa học cơng nghệ, số trung bình sử dụng rộng rãi nhất, đặc biệt trung bình cộng Trong trường hợp liệu định danh, mode giá trị gần bắt buộc mà ta sử dụng để đặc trưng cho xu hướng tập trung Mode hữu ích liệu có kiểu liệu phân loại (nominal) Đối với liệu có kiểu phân loại ta khơng thể dùng Mean hay Median khơng có ý nghĩa mà phải dùng Mode Ví dụ liệu mơ tả giới tính nominal nam, nữ Mean hay Median 0.5 khơng có ý nghĩa Trong Mode cho biết tần suất nam hay nữ xuất nhiều Biên họp (phân chia công việc nhóm) CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc BIÊN BẢN HỌP NHĨM Nhóm: Mơn học: Lý thuyết xác suất Thời gian bắt đầu: 14h00 02/05/2022 Địa điểm: Thư viện UEL tầng tịa B Thành viên có mặt: - Phan Gia Huy (nhóm trưởng) - K214110834 - Đỗ Thị Nhung - K214110844 - Trần Trương Ngọc Hân - K214110832 15 lOMoARcPSD|12114775 - Phan Nguyễn Trúc Loan - K214110838 - Lê Quang Khai Nguyên – K204010939 Vắng: Chủ trì: Phan Gia Huy (nhóm trưởng) Thư ký: Trần Trương Ngọc Hân Mục tiêu: Tìm hiểu đề án thuyết trình ( Chương 4: The mean, mode and , median) phân công công việc cho thành viên Nội dung họp: Liệt kê công việc cần làm: - Nhóm cần có nội dung nên liệt kê việc cần làm sau: ● Cùng bàn bạc có nhìn tổng quan thống phần cần trình bày nội dung thuyết trình ● Nhóm trưởng phân chia công việc cho thành viên.( Nội dung, powerpoint, người thuyết trình) Phân cơng cơng việc: STT Cơng việc Nội dung Mean + Ví dụ Thành viên phụ trách Hạn hoàn thành Hân, Nguyên 06/05/2022 16 lOMoARcPSD|12114775 Nội dung Mode + Ví dụ Gia Huy, Trúc Loan Nội dung Median + Ví dụ Nhung Powerpoint Gia Huy, Ngọc Hân 07/05/2022 Thuyết trình Loan, Nhung 10/05/2022 Xác định thời gian buổi họp tiếp theo: Cả nhóm thống thời gian buổi họp để tổng duyệt nội dung + thuyết trình 15h00 ngày 06/05/2022 UEL Startup & Language Space Cuộc họp kết thúc vào lúc 17h00 ngày 02/05/2022 Thư ký Nhóm trưởng (Ký ghi rõ họ tên) (Ký ghi rõ họ tên) Trần Trương Ngọc Hân Phan Gia Huy 17 ... kể đến ? ?xác suất? ?? tảng quan trọng thống kê ứng dụng, kinh tế lượng, định phí bảo hiểm… Ngày thời đại cơng nghệ thông tin, với số lượng liệu khổng lồ chưa có, kiến thức liên quan ? ?xác suất? ?? phát... thuật ngữ thống kê, lý thuyết xác suất, … Trong thống kê, thuật ngữ ví dụ số bình quân, hay gọi giá trị đại diện tiêu biểu mức độ điển hình tổng thể gồm nhiều đơn vị loại xác định theo tiêu thức... cho biết tần suất nam hay nữ xuất nhiều Biên họp (phân chia cơng việc nhóm) CỘNG HỊA XÃ HỘI CHỦ NGHĨA VIỆT NAM Độc lập - Tự - Hạnh phúc BIÊN BẢN HỌP NHĨM Nhóm: Mơn học: Lý thuyết xác suất Thời gian