1. Trang chủ
  2. » Giáo Dục - Đào Tạo

NHẬP MÔN THỐNG KÊ HƯỚNG TỚI MÁY HỌC

62 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nhập Môn Thống Kê Hướng Tới Máy Học
Tác giả Phạm Minh Hoàng
Trường học Đại học Bách Khoa Hà Nội
Chuyên ngành Khoa học dữ liệu
Thể loại sách
Năm xuất bản 2022
Thành phố Hà Nội
Định dạng
Số trang 62
Dung lượng 1,22 MB

Nội dung

DB TB NHẬP MÔN THỐNG KÊ HƯỚNG TỚI MÁY HỌC Phạm Minh Hoàng Diễn đàn VBA Việt Nam Website: tuhocvba.net Ngày 17 tháng năm 2022 LỜI GIỚI THIỆU Nói tới diễn đàn THVBA, người ta nghĩ tới viết dễ hiểu, phương châm chúng tơi viết để người ngu hiểu Triết lý móng phát triển diễn đàn THVBA chuyên lĩnh vực VBA đóng góp nhiều viết VBA cộng đồng đánh giá cao Nhiều người muốn tìm hiểu lĩnh vực thường nói đùa rằng, ước anh em quản trị viên THVBA mở thêm mảng mà họ quan tâm, họ mong chờ viết với phong cách dễ hiểu Lập trình AI hay Khoa học liệu lĩnh vực khó Python hỗ trợ nhiều Nếu vận dụng code có sẵn làm theo chẳng có để nói, vấn đề hiểu chất để từ làm chủ tri thức Kiến thức tốn thống kê sử dụng nhiều, phần lớn người giảng cho nghe nói tới khái niệm chung chung, khơng minh họa ví dụ cụ thể để người hình dung chất Một số khác công nhận điều người khác nói mà khơng hiểu rõ ràng khái niệm thống kê Theo tơi biết, sách tốn thống kê Việt Nam khơng thiếu, liên kết tới vấn đề AI, khoa học liệu, chưa có sách giáo khoa làm tốt Trước nhu cầu cấp bách đó, tơi ấp ủ tạo nên sách này, với lối trình bày dễ hiểu, làm rõ khái niệm xác suất, đồng thời sử dụng Python làm công cụ kiểm chứng kết tính tốn thống kê Tơi khơng mong muốn sách thực có ích cho bạn Và tương lai trở thành sách gối đầu giường bạn sinh viên theo học ngành khoa học liệu, hay máy học, niềm vui Nội dung sách biên dịch từ Chúc bạn gặt hái nhiều thành cơng! Admin Forum THVBA nickname: tuhocvba Phạm Minh Hồng Tốt nghiệp ĐH Bách Khoa Hà Nội khóa 2003-2008 Cựu học sinh chun tốn Chun Hùng Vương Phú Thọ khóa 2000-2003 Mục lục Thống kê mô tả Suy luận thống kê 1.1 Phạm vi khóa học 1.2 Sử dụng Python khóa học 1.3 Thống kê gì? 5 Giá 2.1 2.2 2.3 2.4 2.5 2.6 trị đại diện Giá trị đại diện liệu Trung bình số học thường biết đến (trung bình Sử dụng tỷ suất (trung bình hình học) Trung bình điều hịa Tính chất quan trọng giá trị trung bình cộng Tổng kết Giá 3.1 3.2 3.3 trị đại diện khác 15 Giá trị trung vị, giá trị 15 Giá trị xuất nhiều lần nhất: Tối Tần Trị 16 Tổng kết 18 Mức độ phân tán (Sử dụng phạm vi vị trí phần tư) 4.1 Phạm vi giá trị 4.2 Phạm vi sử dụng phần tư độ lệch phần tư 4.3 Điểm hạn chế phạm vi phạm vi phần tư 4.4 Tổng kết Nhất định hiểu phân tán độ lệch chuẩn 5.1 Độ lệch trung bình 5.2 Phân tán độ lệch chuẩn 5.3 Sử dụng Python để tính tốn phân tán độ lệch chuẩn 5.4 Phân tán Phân tán bất thiên 5.5 Tổng kết cộng) 9 10 11 12 13 19 19 20 21 21 23 23 24 25 26 27 Phân tán bất thiên gì? Tại phân tán từ liệu tiêu lại nhỏ phân tán từ liệu cha? 29 6.1 Ước lượng phân tán liệu cha tốt? 30 MỤC LỤC 6.2 6.3 6.4 6.5 6.6 [Lý giải hình ảnh]Tại độ phân tán liệu tiêu lại nhỏ độ phân tán liệu cha? [Lý giải Số Học]Tại độ phân tán liệu tiêu lại nhỏ độ phân tán liệu cha? Phân tán bất thiên (Phương sai khơng chệch) sử dụng làm cơng cụ ước tính cho phương sai tổng thể (phân tán liệu cha) Tại lại n − 1, bất thiên gì? Tổng kết Lý độ phân tán bất thiên tính phép chia cho bất thiên nghĩa gì? 7.1 Tính bất thiên gì? 7.2 Cách nghĩ giá trị kỳ vọng 7.3 Lý độ phân tán bất thiên chia cho n − 7.4 Tổng kết 31 32 33 34 34 n − Tính Làm để đọc độ phân tán từ độ lệch chuẩn? 8.1 Có liệu nằm khoảng: Trung bình ± độ lệch chuẩn 8.2 Nên nhớ phân bố chuẩn 8.3 Với phân bố chuẩn, 95% liệu nằm phạm vi Giá Trị Trung Bình ±1.96 *Độ Lệch Chuẩn 8.4 Tổng kết 35 35 37 39 40 43 43 46 47 47 Rất quan trọng! Chuẩn hóa trị số lệch gì? Tính điểm z tính điểm T 9.1 So sánh nhóm có liệu khác cách tính điểm z 9.2 Trị số lệch gì? 9.3 Tổng kết 49 49 52 57 I 59 Thuật Ngữ Bài Thống kê mô tả Suy luận thống kê 1.1 Phạm vi khóa học Ở khóa học học nội dung thống kê học Những điều điều Tôi chưa nghiên cứu thống kê! !! Tơi muốn bạn thực khóa học trước đọc sách khó thống kê Phạm vi khóa học bắt đầu từ thống kê mơ tả xem nhẹ ước tính thử nghiệm Sau đó, tơi ước kết nối với khóa học máy học Tuy nhiên, tơi nghĩ bạn đọc sách thống kê khác bạn học qua khóa học bạn học cách vững ý tưởng thống kê Đó kiến thức cần thiết để nghiên cứu học máy, củng cố kiến thức khóa học này! 1.2 Sử dụng Python khóa học Trong khóa học tơi sử dụng Python để tiếp cận với thống kê, nhiên bạn khơng hiểu code python bạn bỏ qua phần chứa code python Tuy nhiên, mục đích nhắm tới sau khoa học liệu (Data Science ), dù nữa, bạn có chút kiến thức Python tốt Ở khóa học này, thư viện python sử dụng chủ yếu NumPy, Pandas, matplotlib, seaborn, muốn giới thiệu tới hai thư viện SciPy (stats) scikitlearn SciPy thư viện mở python khoa học, đọc sai-pai Nó dựa NumPy BÀI THỐNG KÊ MÔ TẢ VÀ SUY LUẬN THỐNG KÊ có mơ-đun hữu ích khoa học kỹ thuật, chẳng hạn toán thống kê tối ưu hóa, tích phân đại số tuyến tính Trong khóa học này, sử dụng module stats có SciPy để nghiên cứu thống kê scikit-learn thư viện mở python ứng dụng máy học Nó có mặt hầu hết thuật tốn máy học Vì scikit xuất phát từ SciPy Toolkit , thư viện mở rộng SciPy, từ quan điểm người dùng, bạn coi thư viện riêng biệt từ SciPy scikit-learn thư viện ứng dụng máy học sử dụng chút thống kê Cả SciPy scikit-learn có Anaconda Trong khóa học này, chúng tơi thực viết code python, xin lưu ý code khóa học khơng thiết phải "tối ưu" (Bởi khơng phải khóa học “Python”) 1.3 Thống kê gì? Nào, bắt đầu với câu hỏi, thống kê gì? Thống kê môn khoa học nghiên cứu phương pháp, cách nghĩ phân tích liệu thống kê Dữ liệu thống kê là: Khi có vật mà muốn quan sát, tập hợp giá trị quan sát được, giá trị đo từ đối tượng Chẳng hạn, muốn biết thu nhập năm người làm khoa học liệu Nhật Bản, thực tế, trước hết phải tìm kiếm liệu có tên liên quan tới thu nhập hàng năm người làm khoa học liệu Giá trị mà thu thập, tập hợp lại, gọi liệu thống kê Trong khóa học này, tơi chia thống kê làm hai nhóm lớn: • Thống kê mơ tả ( descriptive statistics ) • Thống kê luận lý ( thống kê suy luận) ( inferential statistics ) Nghe qua từ ngữ bạn đừng nghĩ khó nhé, khơng khó đâu Tầm quan trọng việc trực quan hóa liệu cách sử dụng biểu đồ phân tán thực khóa học Python Tuy nhiên, thực tế có biểu đồ phân tán, ta hiểu khuynh hướng liệu, có giới hạn, tơi muốn sử dụng kiến thức số học để nói liệu · · · Ví dụ, nhìn vào thu nhập năm người bạn làm khoa học liệu Nhật Bản, có cảm nhận thu nhập cao người bình thường, cao bao nhiêu, cần có số dễ hiểu Chẳng hạn nhìn vào mức thu nhập bình quân (trung bình) được, hoăc sử dụng giá trị trung tâm Nếu sử dụng số thế, dù liệu nhìn thấy (khơng cần nhiều người) nữa, ta phân tích khơng 1.3 THỐNG KÊ LÀ GÌ? À, bạn nghĩ việc làm hay sao, phải cố học thống kê thơi! Từ liệu có ý nghĩa mà bạn thu thập thực tế, gọi liệu mẹ(cha) Tiếng anh population, từ liệu quan sát thực tế ta lấy phần liệu để nghiên cứu, phần liệu gọi liệu mẫu, hay liệu tiêu bản, tiếng anh sample Suy luận thống kê sử dụng liệu mẫu để từ suy luận đặc tính liệu cha Suy luận thống kê có hai kiểu Ước lượng Kiểm định Ước lượng suy tỷ lệ liệu cha trung bình từ mẫu liệu (Ví dụ: "Thu nhập trung bình hàng năm nhà khoa học liệu Nhật Bản chắn XX!" Hoặc "Tỷ lệ nam-nữ nhà khoa học liệu Nhật Bản chắn XX!") Kiểm định đưa câu trả lời Có / Khơng cho "câu hỏi" dựa kết khảo sát mẫu (Ví dụ: trả lời Có / Khơng cho "Thu nhập hàng năm nhà khoa học liệu Nhật Bản có tăng so với năm ngối khơng?") Nói chung, hầu hết người nghĩ "thống kê" thống kê suy luận Trên thực tế, thống kê ước lượng phần thống kê Tuy nhiên, kiến thức thống kê mô tả thiếu để ước lượng kiểm định, khóa học này, nghiên cứu thống kê mô tả trước vào thống kê suy luận BÀI THỐNG KÊ MÔ TẢ VÀ SUY LUẬN THỐNG KÊ Ồ từ từ nhớ hết đâu!!! Bạn không cần phải biết! Bạn không cần phải nhớ từ nào! Hãy làm quen nhé! Sau đó, từ lần sau, tơi giải thích "giá trị đại diện" thống kê mô tả! Bài Giá trị đại diện Ở học trước chia gồm có thống kê mô tả thống kê suy luận Thống kê mơ tả lĩnh vực phân tích liệu thống kê từ liệu quan sát Tuy nhiên để hiểu kết phân tích liệu, ta cần có số thể đặc tính liệu Ở học giới thiệu số nói lên đặc tính liệu Cũng từ đây, sử dụng Python để tính toán số liệu 2.1 Giá trị đại diện liệu Nó có tên khó hiểu, mấu chốt giá trị sử dụng để giải thích ý nghĩa liệu Ví dụ, giả sử bạn mua táo siêu thị Khi hỏi táo nặng bao nhiêu, bạn thường trả lời trọng lượng trung bình năm táo phải khơng? "Giá trị trung bình" sử dụng giá trị đại diện thể trọng lượng táo mua Nó đại diện số sử dụng để đánh giá tài sản tổng thể Bạn vô tình sử dụng "giá trị đại diện" sống hàng ngày để xác định xem tổng thể táo bạn mua hơm có to không, không? Lần này, xem xét kỹ "giá trị trung bình" 2.2 Trung bình số học thường biết đến (trung bình cộng) Ồ, nói có kiểu giá trị trung bình khơng? Đúng Và giá trị trung bình cộng (arithmetic mean) số nhiều giá trị trung bình Ví dụ: Tơi có táo có trọng lượng sau 295g, 300g, 300g, 310g, 311g Chúng có khối lượng trung bình là: (295g + 300g + 300g + 310g + 311g) = 303.2g Trong python, ta dùng thư viện numpy để tính tốn giá trị trung bình cộng sau: 10 BÀI GIÁ TRỊ ĐẠI DIỆN ✞ ✝ ✞ ✝ ☎ import numpy as np apple_weights = [ , 0 , 0 , , 1 ] np mean ( apple_weights ) Kết ta được: ☎ 303.2 ✆ Giá trị trung bình cộng dãy số tổng số dãy số chia cho số số hạng Nếu bạn viết điều công thức tốn học, sau: x¯ = 2.3 ✆ x1 + x2 + · · · + xn n Sử dụng tỷ suất (trung bình hình học) Chúng ta xem xét ví dụ sau: Người ta thống kê nhân viên công ty từ gia nhập vào cơng ty có độ thăng tiến thu nhập sau: -Sau năm làm việc lương tăng so với năm trước 5% -Sau hai năm làm việc lương tăng so với năm trước 10% -Sau ba năm làm việc lương tăng so với năm trước 30% Giả sử gia nhập công ty, lương anh nhân viên 500 la Vậy (sau năm) lương anh bao nhiêu? 500 (1 + 0.05) (1 + 0.1) (1 + 0.3) = 750.75 Như mức tăng trung bình hàng năm % câu hỏi nghĩ tới Nếu tính cơng thức tính giá trị trung bình 5%, 10%, 30% mức tăng 5% + 10% + 30% lương bình quân hàng năm là: = 15% hay sao? Nào, giả định tỷ suất tăng lương hàng năm g Khi ta có: 500 (1 + g) (1 + g) (1 + g) = 500 (1 + g)3 = 750.75 Nếu ta coi mg = (1 + g), ta có: x1 = (1 + 0.05),x2 = (1 + 0.01),x3 = (1 + 0.3) √ Ta có cơng thức: mg = x1 x2 x3 ⇒ mg = x1 x2 x3 Giá trị gọi trung bình hình học (geometric mean) Nó sử dụng tính tỷ suất trung bình x1 + x2 + x Như trung bình cộng ta có cơng thức: √ Trong trường hợp tính tỷ suất trung bình là: x1 x2 x3 Tổng quát ta có: 48 BÀI LÀM THẾ NÀO ĐỂ ĐỌC ĐỘ PHÂN TÁN TỪ ĐỘ LỆCH CHUẨN? • Đường ranh giới mà có 95% liệu phân bố Giá Trị Trung Bình ±1.96*Độ lệch chuẩn Hệ số 1.96 sử dụng nhiều thống kê học, ghi nhớ lấy Trong thống kê, khơng có nhiều số để nhớ, 1.96 số số đáng nhớ, ghi nhớ Các bạn vận dụng lý thuyết để kiểm chứng nhiều vấn đề thực tế Chẳng hạn trường học có kiểm tra tiếng anh, trường học khác có kiểm tra tiếng anh Nếu nhìn vào điểm số khơng thể so sánh thành tích trường tốt Tuy nhiên sử dụng độ lệch chuẩn, trường tính tốn vị trí, từ so sánh tương đối thành tích học sinh trường với Tất nhiên trường trình độ học sinh khơng giống hồn tồn, khơng thể nói phép so sánh hồn mỹ mang ý nghĩa Những người ứng dụng điều đương nhiên biết độ lệch (Thiên Sai Trị) Số liệu thống kê sử dụng nhiều sống xung quanh ta Bài Rất quan trọng! Chuẩn hóa trị số lệch gì? Tính điểm z tính điểm T Ở học trước ta sử dụng độ lệch chuẩn nói mức độ phân bố, khái niệm vơ quan trọng giúp phán đoán phạm vi có liệu phân bố Chúng ta so sánh nhóm liệu khác sử dụng trung bình cộng độ lệch chuẩn Ví dụ có hai ngơi trường cho học sinh làm kiểm tra Nếu nhìn vào điểm số, khơng thể so sánh kết trường tốt Khi sử dụng trung bình cộng độ lệch chuẩn, tính tốn so sánh thành tích điểm số vị trí bảng phân bố liệu Trong học này, có khái niệm quan trọng tơi muốn bạn ghi nhớ 9.1 So sánh nhóm có liệu khác cách tính điểm z Tính điểm z gì? Hẳn điều bạn thắc mắc Trong học trước, ta xác định vị trí liệu nằm phạm vi nào, từ độ trung bình tới lần độ lệch chuẩn, từ biết phạm vi có mức độ phân bố liệu phần trăm Và tơi nói, lý thuyết quan trọng, giúp so sánh hai liệu khác Ví dụ, bạn Bình trường A có điểm tiếng anh 40, bạn An trường B có điểm tiếng anh 60 Nếu nhìn vào điểm kiểm tra khơng thể so sánh mức độ thành thạo tiếng anh Chẳng hạn trường A kiểm tra q khó, Bình 40 điểm học sinh tốp đầu trường A Vậy ta phải tính tốn với bạn Bình bạn An bạn phải tính tốn điểm nằm phạm vi từ giá trị trung bình tới lần độ lệch chuẩn bạn biết trình độ mức trường 49 50BÀI RẤT QUAN TRỌNG! CHUẨN HÓA VÀ TRỊ SỐ LỆCH LÀ GÌ? TÍNH ĐIỂM Z VÀ TÍNH ĐIỂ Từ vấn đề đặt đó, đề xuất cơng thức sau đây, ta gọi cơng thức tính điểm z z= x − x¯ s x¯ giá trị trung bình, s độ lệch chuẩn Ví dụ, có hai lớp học có điểm mơn thi Tiếng Anh mơn Tốn sau: Lớp Tiếng Anh Lớp Toán A 40 F 30 B 30 G 50 C 80 H 40 D 70 I 30 E Trung Bình 69 56 J 20 34 Độ lệch chuẩn 18.5472 10.198 Vậy câu hỏi đặt ra, người giỏi nhất? Nếu nhìn vào điểm số có lẽ bạn khẳng định C người giỏi nhất, điều có hay không? Dữ liệu khác mà so sánh thông thường khơng có ý nghĩa Vậy muốn so sánh ta phải chuẩn hóa Chuẩn hóa có nghĩa ta phải thực biến đổi để liệu có giá trị trung bình độ lệch chuẩn Cơng thức có nghĩa là: Điểm = Điểm thực tế−Điểm trung bình÷Độ lệch chuẩn Như áp dụng công thức ta có liệu sau chuẩn hóa sau: Lớp Tiếng Anh Lớp Toán ✞ ✝ ✞ ✝ A B −0.8626 −1.4018 F G −0.39223 1.5689 C D E 1.2939 0.7548 0.2156 H I J 0.5883 −0.3922 −1.3728 Các bạn tính toán code Python sau: ☎ import numpy as np data_tienganh = [ , , , , ] mean_tienganh = np mean ( data_tienganh ) std = np std ( data_tienganh ) # Chuan hoa z = ( data_tienganh - mean_tienganh ) / std print ( ’ standardized data tieng anh ( z ) : {} ’ format ( z ) ) print ( ’ mean mean_tienganh : {:.2 f } ’ format ( np mean ( z ) ) ) print ( ’ std mean_tienganh : {} ’ format ( np std ( z ) ) ) ✆ Kết tương tự trên: standardized data tieng anh ( z ) : [ - 6 - 0.21566555] mean mean_tienganh : - 0 std mean_tienganh : ☎ 1.29399328 0.75482941 Như ta thấy C = −1.29 G = 1.56, so sánh cách tương đối ta thấy G người đạt điểm cao Chuẩn hóa (standardize) nào? Mục tiêu chuẩn hóa cố gắng để liệu có giá trị trung bình Và mục tiêu để độ phân tán (đồng thời độ lệch chuẩn) có giá ✆ 9.1 SO SÁNH GIỮA CÁC NHÓM CÓ DỮ LIỆU KHÁC NHAU BẰNG CÁCH TÍNH ĐIỂM Z.51 trị Tính xác sao? Điều lo ngại mức độ tin cậy liệu sau chuẩn hóa Thật cách so sánh nói có ổn khơng? Hãy cẩn thận trường hợp sau Quy mô liệu thống kê nhỏ Đương nhiên cần nói, mẫu số nhỏ khơng cịn tính xác Chẳng hạn ta có ba người A có số điểm 20, B có điểm 50, C có điểm 80 Giá trị trung bình 50 Trong trường hợp điểm số chuẩn hóa C trở nên đáng kể Giả sử kiểm tra khó, chí B C chuyên gia lĩnh vực Khi so sánh với kết người làm kiểm tra thông thường, chí C cịn bị đánh giá Khi quy mơ liệu thống kê q giá trị cực đoan xuất Không phải phân bố chuẩn Giả sử ta có người đạt số điểm 0, có người đạt số điểm 100 Trong trường hợp điểm trung bình 50 Với thí nghiệm ta thấy việc chuẩn hóa khơng có ý nghĩa Các phân bố mà liệu tập trung vào hai đầu mút, lớn hay bé, độ xác khơng có ✞ 10 ✝ ✞ ✝ Chuẩn hóa sử dụng nhiều Machine Learning Có nhiều trường hợp xử lý liệu để ngun ban đầu mà khơng thực chuẩn hóa Khi đào tạo mơ hình Machine Learning, liệu thường chuẩn hóa trước đó, ta gọi tiền xử lý (preprocessing) from sklearn preprocessing import Stan dardSc aler data = np array ( [ , , , , ] ) print ( ’ data shape : {} ’ format ( data shape ) ) data = np expand_dims ( data , axis=- ) print ( ’ reshaped data shape : {} ’ format ( data shape ) ) # Instance creation scaler = Sta ndardS caler ( ) # Doi so cho fit_transform phai la mot mang hai chieu scaled = scaler fit_transform ( data ) print ( scaled ) Kết quả: data shape : ( , ) reshaped data shape : ( , ) [ [ - 0.39223227] [ 1.56892908] [ 0.58834841] [ - 0.39223227] [ - 1.37281295]] Cách tính đưa kết tính tốn giống với code giới thiệu Lần sử dụng sklearn.preprocessing.StandardScaler , gọi lớp (Class) viết theo cách hướng đối tượng scaler = StandardScaler() thực thi, tạo mơ hình (instance) dựa ☎ ✆ ☎ ✆ 52BÀI RẤT QUAN TRỌNG! CHUẨN HĨA VÀ TRỊ SỐ LỆCH LÀ GÌ? TÍNH ĐIỂM Z VÀ TÍNH ĐIỂ Class StandardScaler Có lẽ bạn chưa quen với hướng đối tượng, nói cách đơn giản, từ sơ đồ thiết kế tạo thứ (instance) gọi scaler Đương nhiên scaler có chức chuẩn hóa cách gọi hàm fit_transform() Tơi nghĩ code khơng khó, bạn làm quen với code .fit_transform() chuẩn hóa đối số đầu vào mà mảng ndarray Và tiếp nhận mảng hai chiều trước thơng qua np.expand_dims() để chuyển thành mảng hai chiều Về điều nêu chi tiết học số khóa học Data Science Bạn vừa xem tài liệu tham khảo vừa tiếp tục theo dõi học Bạn khơng cần phải nhớ, thực thi xuất lỗi đầu vào mảng hai chiều, bạn phải xoay sở để chuyển mảng chiều thành mảng hai chiều, cách hay cách khác bạn khắc phục google giúp bạn tìm giải pháp sklearn.preprocessing.StandardScaler sử dụng nhiều, từ bạn nhớ 9.2 Trị số lệch gì? Kết kỳ thi hơm trước nào? So với lần trước, điểm tiếng anh cao 10 điểm Chúc mừng Trị số lệch nào? À, so với kỳ thi trước giảm chút Tơi điểm tốn giảm trị số lệch tăng Vậy nhỉ? Trị số lệch (giá trị độ lệch) có liên quan lớn đến điểm trung bình kiểm tra phân bố điểm tất thí sinh tham dự kỳ thi Vì điểm trung bình biểu thị 50 nên phụ thuộc vào phân bố điểm tồn nhóm Phức tạp q nhỉ! Hãy suy nghĩ ý nghĩa trị số lệch cách sử dụng Ví dụ, có hai kỳ thi diễn hai kỳ thi tơi có 80 điểm Tuy nhiên mức độ khó kỳ thi khác nhau, điểm số trung bình kỳ thi khác Vậy kết kỳ thi lần lần hai, kết tốt mà tơi có số điểm 80 ? Rõ ràng dựa vào điểm số khơng thể đưa phán đốn xác Khi đó, cần tới khái niệm mới, trị số lệch Bằng cách biến đổi liệu để giá trị trung bình có giá trị 50 có độ lệch chuẩn 9.2 TRỊ SỐ LỆCH LÀ GÌ? 53 10 Điểm số sau qua biến đổi gọi trị số lệch Trị số lệch cao có nghĩa điểm số tơi có thứ hạng cao Và ngược lại, trị số lệch thấp có ngĩa thứ hạng số người tham dự kỳ thi thứ hạng thấp ✞ 10 11 12 13 14 ✝ ✞ ✝ Trị số lệch tính nào? Bước 1: Chuyển điểm số cách tính điểm z Cách tính tạo điểm số có giá trị trung bình có độ lệch chuẩn Bước 2: Trị số lệch = Điểm z ∗ 10 + 50 Như điểm số trị số lệch, chúng có giá trị trung bình 50 có độ lệch chuẩn 10 from sklearn preprocessing import Stan dardSc aler data = np array ( [ , , , , ] ) print ( ’ data shape : {} ’ format ( data shape ) ) data = np expand_dims ( data , axis=- ) print ( ’ reshaped data shape : {} ’ format ( data shape ) ) # Instance creation scaler = Sta ndardS caler ( ) # Doi so cho fit_transform phai la mot mang hai chieu scaled = scaler fit_transform ( data ) # Tinh diem T scaled = scaled ∗10+50 print ( f " mean of scaled { np mean ( scaled ) } " ) print ( f " std of scaled { np std ( scaled ) } " ) print ( scaled ) Kết quả: data shape : ( , ) reshaped data shape : ( , ) mean of scaled 9 9 9 9 9 9 9 std of scaled 9 9 9 9 9 9 9 [[46.0776773 ] [65.68929081] [55.88348405] [46.0776773 ] [36.27187054]] ☎ ✆ ☎ ✆ 54BÀI RẤT QUAN TRỌNG! CHUẨN HÓA VÀ TRỊ SỐ LỆCH LÀ GÌ? TÍNH ĐIỂM Z VÀ TÍNH ĐIỂ Giá trị trung bình tính sang trị số lệch bao nhiêu? Trị số lệch có giá trị cao bao nhiêu? Do việc chuẩn hóa để tính điểm T để giá trị trung bình 50 điểm bạn ngồi thực tế có giá trị số điểm trung bình chuyển sang cách tính điểm T, trị số lệch bạn định 50 Ngoài trị số lệch kỳ thi thông thường nằm phạm vi từ 25 ∼ 75 tính tốn sang điểm T, có trường hợp trị số lệch âm trị số lệch lớn 100 Tơi lấy ví dụ kỳ thi có 100 người dự thi 99 người có số điểm 0, có người có số điểm 100, tính điểm T người điểm có trị số lệch −49 người có điểm 100 có trị số lệch 149.5 Những trường hợp cực đoan, mà liệu tập trung phân bố vào hai đầu mút, nhỏ nhất, lớn nhất, trường hợp thực suy nghĩ được, kết tính trị số lệch khơng có ý nghĩa Cách xem trị số lệch tỷ lệ Bảng mơ tả mối quan hệ thứ hạng với trị số lệch Nếu trị số lệch 75 vị trí 0.62% tính từ xuống Điều tức có 1000 người dự thi có thức hạng trước sau thứ hạng thứ Nếu trị số lệch 35 thứ hạng tính từ xuống 93.32% (tính từ lên 6.68%), tức thứ hạng tính từ cao xuống thấp, vị trí trước sau thứ hạng thứ 933 Lợi điểm trị số lệch bạn biết vị trí lực học tập nhóm điểm số hay thứ hạng Trị số lệch 80 75 70 65 60 55 50 45 40 35 30 Tỷ lệ từ xuống 0.13% 0.62% 2.28% 6.68% 15.87% 30.85% 50.00% 69.15% 84.13% 93.32% 97.72% Thứ hạng 1000 người Vị trí 1.3 Vị trí 6.2 Vị trí 22.8 Vị trí 66.8 Vị trí 158.7 Vị trí 308.5 Vị trí 500.0 Vị trí 691.5 Vị trí 841.3 Vị trí 933.2 Vị trí 977.2 Trong học trước tơi nói phạm vi Giá trị trung bình±2∗Độ lệch chuẩn có 95% liệu, tính tốn trị số lệch 70 (khi tính sang điểm T độ lệch chuẩn 10 phạm vi liệu lúc nằm từ 30 ∼ 70) có khoảng 2.5% liệu, 100% − 95% = 5%, bảng phân bố chuẩn đối xứng trái phải nên ta có số 2.5% Tức người có trị số lệch 70 nằm tốp 25 người cao có 1000 người dự thi Điều phù hợp với bảng 9.2 TRỊ SỐ LỆCH LÀ GÌ? ✞ 55 Hình vẽ bạn vẽ code sau: ☎ import numpy as np import matplotlib pyplot as plt import seaborn as sns %matplotlib inline ✝ samples = np random randn ( 0 0 ) tscore = samples ∗10 + 50 sns distplot ( tscore ) plt vlines ( , , , ’r ’ ) ✆ Lợi điểm sử dụng trị số lệch Thầy ơi, kết kỳ thi lần này, mơn Tốn em 70 điểm mơn Tiếng Anh em 90 điểm Mơn Tốn khó nên điểm khơng tốt, nhiên mơn Tiếng Anh điểm cao nên em vui Chúc mừng em, trị số lệch nào? Cả hai mơn có trị số lệch 62.2 Mơn Tốn nhiên khó nên điểm thấp kỳ thi có điểm trung bình khác nhau, nhiên sau chuẩn hóa tính trị số lệch, so sánh điểm số hai kỳ thi khác Đây lợi điểm trị số lệch Giống bạn học sinh trên, điểm Tiếng Anh điểm Tốn khác nhau, tính tốn trị số lệch có giá trị 62.2 Để dễ hình dung ta xem bạn học sinh A: Người dự thi Tiếng Anh Toán A 90 70 B 80 60 C 70 50 Điểm trung bình 80 Vị trí 60 Trị số lệch A 62.2 62.2 Điểm trung bình mơn Tiếng Anh 80 điểm trung bình mơn Tốn 60, thấy mơn Tốn khó mơn Tiếng Anh, nên trị số lệch hai môn thi có giá trị điểm thi bạn A môn Tiếng Anh cao môn Tốn Xét Dù 56BÀI RẤT QUAN TRỌNG! CHUẨN HĨA VÀ TRỊ SỐ LỆCH LÀ GÌ? TÍNH ĐIỂM Z VÀ TÍNH ĐIỂ mặt thứ hạng khơng thay đổi Như thấy, khơng so sánh điểm số hay thứ hạng kỳ thi, mà cịn so sánh điểm hai kỳ thi khác Chú ý đến thay đổi điểm số Để đánh giá kết thi cách công hơn, cần xem xét không chênh lệch so với điểm trung bình, mà cần quan tâm phân bố điểm số Ví dụ tóm tắt kết năm người làm kiểm tra Tiếng Anh Toán Người dự thi D E F G H Điểm trung bình Độ lệch chuẩn Trị số lệch D Tiếng Anh 70 36 50 64 80 60 15.4 56.5 Toán 70 16 38 82 94 60 28.8 53.5 Điểm bạn D mơn Tốn Tiếng Anh 70 điểm, điểm trung bình Tốn Tiếng Anh 60 điểm Tuy nhiên mơn Tiếng Anh, người có điểm số gần điểm số trung bình Trong với mơn Tốn điểm người khác nhiều Trong kỳ thi phần lớn người có số điểm tập trung quanh điểm số trung bình với mật độ dày đặc điều chứng tỏ việc có điểm số vượt qua số trung bình việc khó khăn Do có điểm cao mức trung bình trị số lệch trở nên lớn Ngược lại kỳ thi mà điểm thi nhiều người cách xa mốc điểm trung bình, dù điểm số cao mức điểm trung bình trị số lệch khơng gia tăng Do để đánh giá cơng thành tích kỳ thi, cần xem xét hai yếu tố, độ lệch so với điểm số trung bình, phân bố điểm 9.3 TỔNG KẾT 57 Do đó, D có điểm số giống hai kỳ thi mà kỳ thi có điểm trung bình giống nhau, nhiên trị số lệch lại có khác 9.3 Tổng kết Lần tơi giải thích cho bạn cách tính điểm z trị số lệch Nhờ tính tốn từ điểm liệu tới giá trị trung bình, khoảng cách lần độ lệch chuẩn, biết phân bố tồn liệu vận dụng để tính vị trí thứ hạng điểm liệu tồn tổng thể liệu, thơng qua ta so sánh hai đữ liệu khác cho dù chúng có độ trung bình độ lệch chuẩn khác Để thực việc so sánh cần bước biến đổi liệu, cơng việc gọi tiêu chuẩn hóa chuẩn hóa • Chuẩn hóa biến đổi liệu để giá trị trung bình độ lệch chuẩn 1, ta gọi cách tính điểm z • Cơng thức chuẩn hóa z = x − x¯ s • Trị số lệch giá trị liệu sau biến đổi liệu ban đầu cho giá trị trung bình 50 có độ lệch chuẩn 10 Trị số lệch mang tính giới thiệu, sau thống kê học hay máy học khơng thực quan trọng Về bạn nắm rõ cách tính điểm z Từ cơng thức ta biến đổi liệu cho có giá trị trung bình độ lệch chuẩn tùy ý mà ta mong muốn 58BÀI RẤT QUAN TRỌNG! CHUẨN HÓA VÀ TRỊ SỐ LỆCH LÀ GÌ? TÍNH ĐIỂM Z VÀ TÍNH ĐIỂ Phần I Thuật Ngữ 59 61 STT Tiếng Nhật Cách đọc Tiếng Anh Tiếng Việt 分散 ブンサン Variance Phân tán 分布 ブンプ Distribution Phân bố 範囲 ハンイ Range Phạm vi 四分位数 シブンイスウ P Phần tư 四分位偏差 シブンイヘンサ quartile deviation 四分位範囲 シブンイハンイ interquartile range: IQR Độ lệch phần tư Phạm vi phần tư 四分位偏差 シブンイヘンサ quartile Độ lệch phần deviation: QD tư 平均偏差 ヘイキンヘンサ mean deviation 平均絶対偏差 mean absoヘイキンゼッタイヘ lute ンサ deviation 10 標準偏差 ヒョウジュンヘンサ standard deviation 11 不偏分散 フヘンブンサン unbiased vari- Phân tán ance bất thiên 12 不偏 フヘン unbiased 13 不偏推定量 フヘンスイテイリョ unbiased esti- Ước lượng ウ mator bất thiên 14 期待値 キタイチ expected value Giá trị kỳ vọng 15 統計的記述(記述統計) トウケイテキ キジュツトウケイ descriptive statistics Thống kê mô tả 16 統計的推論(推測統計) トウケイテキスイロ inferential ン statistics スイソクトウケイ Thống kê suy luận 17 母集団 ボシュウダン population Dữ liệu cha Độ lệch trung bình Độ lệch trung bình tuyệt đối Độ lệch chuẩn Bất thiên 18 標本 ヒョウホン sample Dữ liệu tiêu bản, liệu mẫu 19 算術平均 サンジュツヘイキン arithmetic mean Trung bình cộng 62 STT Tiếng Nhật Cách đọc Tiếng Anh Tiếng Việt 20 幾何平均 G geometric mean Trung bình hình học 21 調和平均 G harmonic mean Trung bình điều hịa 22 偏差 G deviation Thiên sai, độ lệch 23 中央値 G median Trung vị 24 外れ値 G outlier Giá trị ngoại lệ 25 最頻値 G mode Tối tần trị 26 平方根 ヘイホウコン - Căn bậc hai 27 感覚値 カンカクチ - Giá trị cảm quan 28 境目 サカイメ - Đường ranh giới 29 偏差値 ヘンサチ - Trị số lệch ... Bài Thống kê mô tả Suy luận thống kê 1.1 Phạm vi khóa học Ở khóa học học nội dung thống kê học Những điều điều Tôi chưa nghiên cứu thống kê! !! Tơi muốn bạn thực khóa học trước đọc sách khó thống. .. thống kê Phạm vi khóa học bắt đầu từ thống kê mô tả xem nhẹ ước tính thử nghiệm Sau đó, tơi ước kết nối với khóa học máy học Tuy nhiên, tơi nghĩ bạn đọc sách thống kê khác bạn học qua khóa học. .. Tuy nhiên, kiến thức thống kê mô tả thiếu để ước lượng kiểm định, khóa học này, nghiên cứu thống kê mô tả trước vào thống kê suy luận 8 BÀI THỐNG KÊ MÔ TẢ VÀ SUY LUẬN THỐNG KÊ Ồ từ từ nhớ hết

Ngày đăng: 10/07/2022, 11:39

HÌNH ẢNH LIÊN QUAN

Giá trị trung bình là 17.8kg và có phạm vi là 19kg, lúc này người nghe có thể hình dung được thực tế ra sao - NHẬP MÔN THỐNG KÊ HƯỚNG TỚI MÁY HỌC
i á trị trung bình là 17.8kg và có phạm vi là 19kg, lúc này người nghe có thể hình dung được thực tế ra sao (Trang 20)
6.2. [LÝ GIẢI BẰNG HÌNH ẢNH]TẠI SAO ĐỘ PHÂN TÁN CỦA DỮ LIỆU TIÊU BẢN LẠI NHỎ HƠN ĐỘ PHÂN TÁN CỦA DỮ LIỆU CHA? 31 lượng độ phân tán của dữ liệu tiêu bản hay không? - NHẬP MÔN THỐNG KÊ HƯỚNG TỚI MÁY HỌC
6.2. [LÝ GIẢI BẰNG HÌNH ẢNH]TẠI SAO ĐỘ PHÂN TÁN CỦA DỮ LIỆU TIÊU BẢN LẠI NHỎ HƠN ĐỘ PHÂN TÁN CỦA DỮ LIỆU CHA? 31 lượng độ phân tán của dữ liệu tiêu bản hay không? (Trang 31)
Chúng ta thử vẽ đồ thị cho dễ hình dung, sau đây tôi sẽ sử dụng thư viện seaborn và mathplotlib và thực hiện code như sau: - NHẬP MÔN THỐNG KÊ HƯỚNG TỚI MÁY HỌC
h úng ta thử vẽ đồ thị cho dễ hình dung, sau đây tôi sẽ sử dụng thư viện seaborn và mathplotlib và thực hiện code như sau: (Trang 44)
scaler = StandardScaler() khi được thực thi, nó sẽ tạo ra các mơ hình (instance) dựa - NHẬP MÔN THỐNG KÊ HƯỚNG TỚI MÁY HỌC
scaler = StandardScaler() khi được thực thi, nó sẽ tạo ra các mơ hình (instance) dựa (Trang 51)
Bảng dưới đây mô tả mối quan hệ về thứ hạng với trị số lệch. Nếu trị số lệch là 75 thì nó ở vị trí0.62%tính từ trên xuống - NHẬP MÔN THỐNG KÊ HƯỚNG TỚI MÁY HỌC
Bảng d ưới đây mô tả mối quan hệ về thứ hạng với trị số lệch. Nếu trị số lệch là 75 thì nó ở vị trí0.62%tính từ trên xuống (Trang 54)
Hình vẽ trên các bạn có thể vẽ bằng code như sau: - NHẬP MÔN THỐNG KÊ HƯỚNG TỚI MÁY HỌC
Hình v ẽ trên các bạn có thể vẽ bằng code như sau: (Trang 55)
Để dễ hình dung ta hãy xem bạn học sinh A: - NHẬP MÔN THỐNG KÊ HƯỚNG TỚI MÁY HỌC
d ễ hình dung ta hãy xem bạn học sinh A: (Trang 55)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN