Bài giảng: Xác Suất Thống Kê

18 228 0
Bài giảng: Xác Suất Thống Kê

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

Thông tin tài liệu

Xác Suất Thống Kê (Tác giả: Phạm Nguyễn Mạnh) 1/Giới thiệu xác suất: a/Định nghĩa xác suất: Quan sát tượng tự nhiên, ta thấy có tượng thường xảy ra, có tượng xảy Xác suất đại lượng thể mức độ xảy (thường xuyên hay khi) biến cố Ví dụ: +Chơi cào, dụng xác suất để tính khả Tây +Quan sát ngày trước xem dự báo thời tiết, đốn gần khả hôm mưa b/Phân biệt xác suất thống kê: Vấn đề mà xác suất thống kê giải gần trái ngược nhau: - Trong lý thuyết xác suất, dựa vào quy tắc thơng tin biết, (cùng với ngẫu nhiên) chuyển hóa thành số liệu để dự đốn chuyện đã, xảy Ví dụ: Dựa vào kiến thức biết cào 52 lá, ta có nút, ta dự đốn khả thắng -Trong thống kê, dựa vào xảy ra, chuyển hóa thành số liệu để dự đốn quy tắc thơng tin nhằm mục đích giải thích kiện Ví dụ: Dựa vào thống kê số người bị bệnh sởi theo độ tuổi, dự đoán đối tượng dễ mắc bệnh tác nhân gây bệnh (có liên quan tới đối tượng bị bệnh nhiều) -Bài giảng tập trung vào phần xác suất c/Luyện tập xác suất bản: Câu 1: Anh Tài sinh viên đại học Khoa Học Tự Nhiên, chun ngành cơng nghệ thơng tin, ế, sống Hồ Chí Minh thích chơi Liên Minh Trong kiện có khả xảy cao hơn: ‘Anh Tài 20 tuổi’ hay ‘Anh Tài 20 tuổi rành máy vi tính’? Câu 2: Khả để đổ xúc xắc 20 mặt số chia hết cho bao nhiêu? Câu 3: Trong câu sau câu có sở xác suất nhất: -Mình đổ xúc xắc lần số liên tiếp, số đâu! -Nãy trắc nghiện khơng có câu D nên câu có câu D - Thường 5h chiều đường Cách Mạng Tháng hay kẹt xe, khả cao hơm Câu 4: Dự đốn thử trường hợp sau trường hợp có khả xảy cao tính thử xấp xỉ khả trường hợp: Khả mặt ngửa tung đồng xu 10 lần khả 14 mặt ngửa tung đồng xu 20 lần Câu 5:Anh Linh anh Trung tham gia trò chơi sau: người đoán số nguyên dương (2 anh khơng biết kết người lại), đốn giống nhau, anh thắng Giả sử anh Trung biết số anh Linh thích nhất, biết điều Việc anh Linh biết số anh Trung thích có làm tăng khả thắng người không? d/Ứng dụng xác suất cổ điển đời sống: Ngoài ứng dụng dễ thấy chơi bài, cá cược vài mơn thể thao, xác suất sử dụng nhiều lĩnh vực khác Tài kinh doanh, machine learning, dự báo thời tiết, tính độ hiệu thuật tốn,… **: Hãy tìm ứng dụng xác suất 3-5 lĩnh vực tùy ý 2/ Các dạng kĩ xác suất quan trọng: a/Xác suất rời rạc: Giả sử ta tung đồng xu 100 lần, ta tính số lần kết mặt sấp Số mặt sấp số tự nhiên từ đến 100 mà số thực khác hay số ảo như: 25.5 hay 100i Ví dụ biểu diễn cho rời rạc xác suất rời rạc giải vấn đề mà kết không liên tiếp dãy số b/Xác suất liên tục: Giả sử tiêu chí làm lính cứu hỏa trạm cứu hỏa M cân nặng phải từ 85 đến 120kg lính cứu hỏa trạm có cân nặng số thực liên tục từ 85 đến 120 Ví dụ biểu diễn cho liên tục xác suất liên tục giải vấn đề mà kết chạy từ a đến b (a,b giới hạn kết quả) (Định nghĩa chưa hoàn chỉnh hi vọng giúp người hình dung rời rạc liên tục nào) c/Mật độ xác suất: (Tham khảo) Mật độ xác suất rời rạc Mật độ xác suất liên tục Hàm mật độ xác suất hàm biểu diễn xác suất xảy kết khả thi thử nghiệm (thường kết thực thử nghiệm nhiều lần) **Tham khảo thêm tại: https://vi.wikipedia.org/wiki/H%C3%A0m_m%E1%BA%ADt_%C4%91%E1%B B%99_x%C3%A1c_su%E1%BA%A5t Hoặc trang tiếng Anh: https://en.wikipedia.org/wiki/Probability_distribution d/Giá trị kì vọng số cơng thức xác suất quan trọng: -Giá trị kì vọng: +Khi tung đồng xu, ta quy ước mặt sấp ta viên kẹo, mặt ngửa khơng Như vậy, giá trị kì vọng số kẹo ta sau lần tung là: 50%*1 + 50%*0 = 0.5 Vậy giá trị kì vọng x, số kẹo ta sau 10 lần tung (kí hiệu E(x)) 0.5*10 = viên kẹo +Giá trị kì vọng biến X tính theo cơng thức: Trong khả biến X có giá trị x +Giá trị kì vọng hữu dụng nhiều trường hợp, ví dụ: vụ đầu tư đánh giá (theo tiêu chuẩn thông thường) lời giá trị kì vọng lớn lỗ nhỏ (để ý thực nhiều lần vụ đầu tư có GTKV lớn khả cao mang lại lợi nhuận); tính độ hiệu thuật tốn, ta hay dùng GTKV để tính (dựa big-O notation);… +1 số công thức khác GTKV (a,b,c số thực): **Tham khảo thêm tại: https://en.wikipedia.org/wiki/Expected_value (không khuyến khích) +Chỉ số hạnh phúc: Trong số trường hợp, giả sử anh A có 100000 đồng, anh không tham gia vụ cá cược 50% 120000 đồng 50% hết số tiền có dù giá trị kì vọng cho thấy cá cược lời Lí số hạnh phúc anh cho thấy vụ cá cược khơng có lợi Chỉ số hạnh phúc số hài lòng thân dựa giá trị x có (thường tiền không thiết) Quay lại trường hợp anh A, giả sử ta cho , vụ cá cược trên, dựa theo cơng thức có 50% khả anh tăng số hạnh phúc lên 50% khả giảm xuống vụ cá cược có lợi cho anh A Vậy Anh A buồn ngu​ thua cược **Hãy đánh giá số hạnh phúc cho ví dụ vụ cá cược công cho thân +​ ​1 điều nên lưu ý giá trị kì vọng: Giả sử tỉ lệ thắng vụ cá cược n (n nguyên dương), theo cơng thức giá trị kì vọng thực n vụ cá cược số lần ta kì vọng thắng Bây ta tính khả thực n vụ cá cược mà thắng vụ: Khả để thua hết n vụ (khi n đủ lớn): Suy tỉ lệ để thắng vụ khoảng 63,2%, thật không cao lắm, giá trị kì vọng 1? Phải phép tốn có vấn đề? Bạn thử suy nghĩ xem Câu trả lời đơn giản, giá trị kì vọng khác với khả xảy giá trị Giả ta cho biểu đồ tỉ lệ sau (biểu đồ ‘gần giống’ biểu đồ tỉ lệ vấn đề trên): Giả sử GTKV sơ đồ 1.5, điều khơng có nghĩa phần lớn giá trị có phải lớn 1.5 **Dựa vào đó, thực vụ cá cược, ngồi việc tính GTKV, ta tính khả lãi **Hãy tìm cơng thức tính GTKV kiện có xác suất liên tục (gợi ý: sử dụng tích phân) -Cơng thức tính xác suất quan trọng: P(A | B) = P(A∩B) / P(B) P(A∪B) = P(A) + P(B) - P(A∩B) Sự kiện A B không phụ thuộc vào khi: P(A∩B) = P(A).P(B) = P(X ≤ x) (phương trình mật độ xác suất) Trong P(A∩B) khả A xảy B xảy ra, P(A∩B) khả A B xảy ra, P(A∪B) khả A B xảy e/Phương pháp Monte Carlo: Phương pháp Monte Carlo phương pháp sử dụng thử nghiệm kiểm tra biến ngẫu nhiên (thường máy tính) để kiểm tra kết tổng quát Phương pháp tùy theo yêu cầu đề mà có khác thường theo quy luật sau: 1/Tạo vùng giới hạn cho biến 2/Tạo nên biến ngẫu nhiên theo tỉ lệ cho trước vùng giới hạn 3/Tính số biến vị trí cho trước 4/Tính kết dựa công thức tạo thông tin từ bước **Ví dụ: Ta muốn tính xấp xỉ giá trị số pi: 1/Vẽ hình vng vẽ hình tròn bên có tâm với hình vng (tiếp xúc với cạnh hình vng) 2/Chọn ngẫu nhiên (1000 điểm, 1000000 điểm,…) điểm vùng giới hạn hình vng, khả vị trí có điểm ngẫu nhiên 3/Tính số điểm nằm hình tròn 4/ Tính số pi cách lấy số điểm hình tròn chia cho tổng số điểm nhân Ưu điểm phương pháp này: -Có thể tính tốn máy tính mà khơng cần phải tốn nhiều công sức -Với đủ số biến khả cao cho kết gần chấp nhận Nhược điểm: -Không thể đảm bảo kết giới hạn chấp nhận **Hãy thử chứng minh cho nhiều biến ngẫu nhiên khả cho kết cao f/Phương sai, độ lệch chuẩn: -Phương sai công thức thống kê dùng để đo độ lệch giá trị biến ngẫu nhiên Độ lệch hiểu mức độ chênh lệch biến so với giá trị kì vọng chúng -Phương sai tính theo công thức sau: hay t​ heo công thức GTKV Do GTKV chẳng khác giá trị trung bình trường hợp biến có khả xảy Khi ta có: ​ ( giá trị trung bình biến) -Độ lệch chuẩn có cơng dụng tương tự phương sai, chí độ lệch chuẩn có giá trị bậc phương sai: -Sự khác biệt đại lượng độ lệch chuẩn có bậc 1, với bậc biến ngẫu nhiên, điều quan trọng nhiều lĩnh vực, điểm hình tài kinh doanh **Tại không sử dụng công thức Để thay cho độ lệch chuẩn? -Phương sai độ lệch chuẩn có nhiều cơng dụng, bật dùng để đánh giá độ ổn định số liệu Ví dụ như: chị Tiên có thử nghiệm chất lượng ăn phương pháp khác Phương pháp thứ đạt điểm phương pháp lại dao động từ điểm tới điểm 10 Chị khả cao chọn phương pháp muốn bán loại ăn ổn định **Tìm trường hợp mà kết có GTKV kết có phương sai cao có lợi hơn, phương sai thấp có lợi **Tham khảo thêm https://statistics.laerd.com/statistical-guides/measures-of-spread-range-quartiles.ph p g/ số lỗi thường gặp xác suất: -Trong tư tưởng: + Không đánh giá kiện a,b,c xảy có khả thấp kiện a,b xảy (vd: câu phần 1c) +Khơng đánh giá liệu cung cấp có làm tăng khả kiện xảy hay không (vd: lần tung đồng xu sấp liên tiếp không làm tăng khả lần tung thứ ngửa) -Trong tính tốn: + Khơng phân biệt kiện có phụ thuộc vào hay khơng, tính khả ngược lại không trừ lại (Vd: cần tính P(A∪B) = P(A) + P(B) P(A∩B) ta tính P(A∩B), qn tính phần lại) +Nhầm lẫn việc tính tốn số lượng lại sau trường hợp (vd: khả lấy bi đỏ từ rổ bi xanh đỏ (1/2)*(4/9) k phải 1/4) +Nhầm lẫn xác suất bình thường xác suất Bayesian (Sẽ đọc chương sau) h/Luyện tập xác suất nâng cao: (Khuyến khích sử dụng Python để xác định đáp số) 1/ Anh Mạnh muốn mua nhẫn tặng chị Y, anh chọn loại 20 loại khác nên anh nghĩ cách sau: chọn k nhẫn (biết loại có nhẫn) lấy nhẫn loại (nếu có) k Hỏi anh nên chọn nhẫn thì: a/ Khả cao có cặp nhẫn khơng phải chọn q nhiều b/ *Khả có cặp nhẫn cao nhất( đáp số k =9; 47,2%) 2/ A B chơi đổ xúc xắc 20 mặt, khả để A cao điểm B bao nhiêu? 3/ Cổ phiểu công ti tuần có 50% khả tăng 1% so với giá trị đầu tư từ thời điểm 50% khả giảm 1% Hỏi sau lần khả sinh lời bao nhiêu? 4/Bạn cần điểm cho mơn tốn trắc nghiệm để đỗ đại học, hỏi bạn cần chắn làm câu để có khả cao đạt điểm, đề tốn có 50 câu? 100 câu? (Bạn chọn 60%, 70%, 80% 90%) 5/*Khả công ty TA có thương vụ lỗ năm (biết tháng khả nhau) 95%, hỏi khả cơng ty có thương vụ lỗ tháng bao nhiêu? 6/a/Trong lượt, lượt anh Nhật chọn số từ đến 100, giá trị kì vọng tích số anh chọn bao nhiêu? b/Nếu anh chọn số áp dụng tiếp cho lượt lại GTKV bao nhiêu? 3/Cơng thức Bayesian: a/Bài tốn Monty Hall:​ (Từng sử dụng chương trình truyền hình có thật Mĩ) Trò chơi sau: Có cánh cửa, cảnh cửa đằng sau xe cửa lại đằng sau dê Người chơi chọn cánh cửa người dẫn chương trình (biết trước cửa có xe hơi) mở cánh cửa người chơi không chọn, cánh cửa chắn mở có dê phía sau Người chơi định có thay đổi lựa chọn sang cửa lại hay khơng để tìm cửa có xe **Nếu người chơi bạn định nào? b/Công thức Bayesian: Trong phần trước biết công thức P(A | B) = P(A∩B) / P(B) Như vậy, có P(B | A) = P(A∩B) / P(A) A,B kiện Kết hợp cơng thức lại ta có: hay: (H,E hypothesis evidence, giả thuyết chứng) Cơng thức xác suất có điều kiện, giúp ta tính khả kiện H xảy có liệu E Quay lại tốn Monty Hall, ví dụ kinh điển cho công thức Giả sử bạn chọn cửa số người dẫn chương trình mở cho xem cửa số 3, E kiện MC mở cửa số (anh ta biết cửa có dê cửa số cửa khác), P(E) = 0.5 khả mở cửa mở cửa lại Nếu người chơi không thay đổi đáp án, gọi H khả xe cửa số 1, P(E|H) 0.5 MC chọn cửa cửa 3, theo công thức Bayesian, P(H|E) P(H) = 1/3 khả người chơi thắng 1/3 Nếu người chơi định thay đổi,gọi H khả xe cửa P(E|H)=1 P(H|E) = 2/3, khả người chơi thắng 2/3 Bài toán cho thấy lầm tưởng xảy không cập nhật xác xuất dựa liệu (nghĩ đổi hay không đổi nhau) Chúng ta thử tìm hiểu tốn khác bạn chưa tin khả bị mắc bẫy công thức Bayesian (nếu tin làm cho vui): Gia đình X có con, đứa trai, khả có trai hay gái (chỉ có giới tính thơi), hỏi khả gia đình có đứa trai bao nhiêu? Các bạn nghĩ đến 50%? Chúng ta dựa vào cơng thức Bayesian để tính Ta đặt H giả thuyết gia đình có E thơng tin gia đình có đứa trai Ta có: P(H) = ¼, P(E|H) = 1, P(E)? Ta có khả năng: gia đình có gái, chị gái em trai, anh trai em gái trai, P(E) = ¾, ta rút kết luận P(H|E) = 1/3, khả có trai 1/3 **Lưu ý, đặt H,E cần phải tính toán kĩ lưỡng trước đặt E phải kiện diễn Bài toán Monty Hall kết sai 50-50 ta đặt H E sai c/​ ​Ứng dụng công thức Bayesian đời sống: Công thức Bayesian quan trọng đời sống Dựa theo nguyên lí xác suất, giả thuyết thay đổi có thêm liệu cập nhật Cơng thức có ứng dụng nhiều lĩnh vực khác nhau: Y học, Kinh tế, Tài chính-Kinh doanh, Thể thao (nhất cá cược), Dự báo Thời tiết, Máy học (Machine Learning),… Cơng thức Bayesian đóng vai trò quan trọng nhiều nghiên cứu y học, điển cơng ti Plague Inc Chúng ta thử tìm hiểu ứng dụng củ công thức Bayesian y học qua toán sau: Các nhà khoa học nghiên cứu thành cơng máy chuẩn đốn bệnh Trumpf, bệnh dễ lây nhiễm khơng thể phát người bệnh mắt thường Hiện họ dự đốn có khoảng 10% dân số thành phố A bị bệnh Trumpf máy chuẩn đốn bệnh có tỉ lệ xác 90% (tức người bị bệnh chuẩn đốn 90% máy cho kết dương tính, 10% âm tính ngược lại) Anh Tài chuẩn đốn kết dương tính, hỏi khả anh thật bị bệnh bao nhiêu? Ta đặt H giả thuyết anh bị bệnh Trumpf, E kết dương tính Ta có: P(E|H) = 90%, P(H) = 10% (bỏ qua yếu tố phụ vị trí, độ tuổi, ), P(E)= 10%.90% +90%.10% (dù khơng bị bệnh có 10% anh Tài kết dương tính) = 18% Vậy P(H|E) = 50%! Tuy máy chuẩn đốn hiệu quả, thật áp dụng vào thực tế lại không đem lại nhiều hiệu quả, chí gây hoang mang cho người không bị bệnh **Hãy nghĩ phương án để cải thiện vấn đề d/Ứng dụng công thức Bayesian nâng cao đời sống luyện tập (tham khảo): -Luyện tập: 1/Hãy tính tỉ lệ thật bị bệnh Trumpf phần anh Hồng chuẩn đốn lần dương tính? lần đầu dương tính lần cuối âm tính? 2/Giả sử đứa trẻ có khả sinh nam nữ, sinh vào 12 tháng Gọi p khả gia đình có đứa gái, biết có đứa gái Gọi q khả gia đình có đứa gái, biết có đứa gái sinh vào tháng So sánh p q 3/Hưng thi Phổ Thông Năng Khiếu không tốt lo kết Theo nguồn tin nội bộ, bạn Hưng biết kết số bạn đậu vào trường Hưng từ chối hỏi thông tin sợ làm giảm khả khơng có anh Anh Hưng có hay khơng? Giải thích -Cơng thức Bayesian nâng cao: ứng dụng khác công thức Bayesian để lọc thư spam e-mail, xem ví dụ sau (Đáp số thứ quan trọng ví dụ nên khơng đọc lời giải khơng sao): Thư mẫu Thư bình thường 400 Thư rác 600 Tổng cộng 1000 Có từ “miễn phí” 100 300 400 Có từ “thơng báo” 10 90 100 Trong ví dụ trên, ta đặt R khả thư đến thư rác, B là khả thư đến thư bình thường, M khả thư đến có từ “miễn phí”, T khả thư đến có từ “thơng báo” Ta có: Câu hỏi đặt : khả thư đến thư rác có từ trên? Kí hiệu P(R|M^T) Hiển nhiên ta có: Theo công thức xác suất, kiện X,Y không phụ thuộc vào : P(X^Y|Z) = P(X|Z).P(Y|Z) Do đó, ta giả sử kiện M,T khơng phụ thuộc vào (có thể điều giả sử sai sai số chấp nhận so với việc đếm tổng số lần từ xuất hiện) (**Chấp nhận sai số nhỏ điều quan trọng tốn ứng dụng) Do ta có : P(M^T|R) = P(M|R).P(T|R) P(M^T|B) = P(M|B).P(T|R) Ta có : Do thư thư bình thường thư rác : Vậy ta đưa kết luận : **Lưu ý : Để ý kết xấp xỉ Thử ghép vào câu hỏi ban đầu, ta có tỉ lệ thư có từ “miễn phí” “thơng báo” thư rác : Theo phương pháp ta rút công thức tổng quát : (Nhớ thông tin không phụ thuộc vào nhau) **Có thể tham khảo thêm ứng dụng nâng cao côn g thức Bayesian http://mlg.eng.cam.ac.uk/zoubin/talks/lect1bayes.pdf​ (khơng khuyến khích) Hết Nếu có câu hỏi chủ đề này, liên lạc thêm qua: manhphamnguyen2810@gmail.com ... rạc liên tục nào) c/Mật độ xác suất: (Tham khảo) Mật độ xác suất rời rạc Mật độ xác suất liên tục Hàm mật độ xác suất hàm biểu diễn xác suất xảy kết khả thi thử nghiệm (thường kết thực thử nghiệm... (1/2)*(4/9) k phải 1/4) +Nhầm lẫn xác suất bình thường xác suất Bayesian (Sẽ đọc chương sau) h/Luyện tập xác suất nâng cao: (Khuyến khích sử dụng Python để xác định đáp số) 1/ Anh Mạnh muốn mua... báo thời tiết, tính độ hiệu thuật tốn,… **: Hãy tìm ứng dụng xác suất 3-5 lĩnh vực tùy ý 2/ Các dạng kĩ xác suất quan trọng: a /Xác suất rời rạc: Giả sử ta tung đồng xu 100 lần, ta tính số lần

Ngày đăng: 09/11/2017, 20:57

Tài liệu cùng người dùng

Tài liệu liên quan