Câu 3 Chọn một biến định lượng nào đó và thực hiện Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý Tìm các đặc trưng từ mẫu dữ liệu Ý một Tìm các giá trị ngoại lại (outlier) nếu có và[.]
Câu Chọn biến định lượng thực hiện: Tìm giá trị ngoại lại (outlier) có nêu đề xuất xử lý Tìm đặc trưng từ mẫu liệu Ý một: Tìm giá trị ngoại lại (outlier) có nêu đề xuất xử lý: *Giới thiệu: Giá trị ngoại lại (Outlier) có ảnh hưởng lớn đến độ xác mơ hình dự đốn Phát xử lý điểm ngoại lai bước quan trọng q trình chuẩn bị liệu cho mơ hình dự đốn *Phương pháp xử lý: Dùng Quartile để tìm giá trị ngoại lai Hàm QUARTILE có dạng: QUARTILE(array,quart), với: Array: Là list giá trị colunm Quart: Các option để lựa chọn cho phù hợp với mục đích tính tốn *Q trình xử lý: Chọn biến Đoạn ST giảm điện tâm đồ bảng liệu để khảo sát Q1: Tứ phân vị thứ nhất( phân vị thứ 25) Q3: Tứ phân vị thứ ba ( phân vị thứ 75) IQR: Là độ rộng từ giá trị Q1 đến Q3 Tình bằng: IQR = Q3-Q1 Lower Bound = Q1 – (1.5*IQR) : Biên miền liệu, công thức xác định dựa theo định nghĩa thống kê Uppon Bound = Q3+(1.5*IQR): Biên miền liệu Giá trị ngoại lai (Oulier) xác định (Values > Uppon Bound || Values < Lower Bound) TRUE Cuối cùng, dùng hàm COUNTIF([dữ liệu cột Outlier],TRUE) để đếm xem có giá trị ngoại lai xuất *Kết quả: *Đề xuất xử lý giá trị ngoại lại (Outlier) Xóa dịng liệu chưa outlier khỏi liệu phân tích Việc làm số thông tin cột khác cần phân tích Các giá trị outlier thay giá trị trung bình liệu Xóa giá trị outlier đặt lại NULL(empty) Đổi outlier thành giá trị cụ thể(do người phân tích, chuyên gia đề xuất) Ý hai: Tìm đặc trưng từ mẫu liệu Giới thiệu: Mẫu liệu bao gồm số đặc trưng như: Giá trị trung bình, phương sai, độ lệch chuẩn, Tính tốn giá trị đặc trưng mẫu cơng việc cần thiết phân tích số liệu thống kê Phương pháp: Tại phần mềm Excel, chức Descriptive Statistics hổ trợ việc tính tốn giá trị đặc trưng mẫu Để mở chức Excel, thực bước: Data -> Data Analysis -> Hộp option xuất hiện, chọn Descriptive Statistics nhấn OK Quá trình xử lý: Chọn biến Đoạn ST giảm điện tâm đồ bảng liệu để thực tính tốn giá trị đặc trưng Tại Input Range Descriptive Statistics ta nhập độ rộng column liệu Option chọn Summary statistics Kết quả: Sau nhập giá trị Input Range nhấn OK, kết cho sau: Statistic Mean Standard Error Median Mode Standard Deviation Sample Variance Kurtosis Skewness Range Minimum Maximum Sum Count Describle Giá trị trung bình mẫu liệu Giá trị sai số tiêu chuẩn mẫu( thước đo khác dự đoán thực tế) Trung vị mẫu liệu Mốt mẫu liệu Độ lệch chuẩn Phương sai Giá trị KURT Giá trị SKEW Khoảng khảo sát Giá trị nhỏ Giá trị lớn Tổng giá trị phần tử mẫu liệu Tổng số lượng phần tử mẫu Câu 4: Kiểm định xem biến có phù hợp với dạng phân phối xác suất cụ thể hay không *Cơ sở lý thuyết: Bài toán: Giả sử đại lượng ngẫu nhiên X chưa rõ phân phối Cho mẫu có kích thước n Hãy kiểm định giả thuyết: H: X có phân phối F(x) - Trường hợp mẫu đại lượng ngẫu nhiên rời rạc Xét mẫu: xi ni x x xk n1 n2 n3 Từ mẫu trên, ta tính ước lượng hợp lý cực đại tham số F(x) tham số chưa biết Từ tham số ta tính xác suất: pi < P(X = x i) , i = , k Ta có quy tắc kiểm định sau: B1: Tìm X α (k-r-1) từ bảng phân phối X , r số tham số F(x) k (Oi−Ei ) B2: Tính thống kê => X = ∑ Ei đây: O i = ni tần số từ thực nghiệm Ei = npi tần số lý thuyết theo giả thuyết H 2 2 Nếu X ≤ X α chấp nhận H Nếu X > X α bác bỏ H - Trường hợp X đại lượng ngẫu nhiên liên tục Viết lại mẫu cho bảng: xi (-∞ ; a 1) (a ; a ¿ (a ; a ¿ a ( k−1 ; +∞) ni n1 n2 n3 nk ∑ ni = n Từ mẫu ta tìm ước lượng hợp lý cực đại tham số F(x) tham số chưa biết Từ ta tính được: p1 = P(X < a 1), p2 = P(a 1< X a k−1) Ta có quy tắc kiểm định sau: 2 B1: Tìm X α = X α (k-r-1) từ bảng phân phối X , tham số F(x) k (O i−Ei ) B2: Tính thống kê => X = ∑ Ei đây: O i = ni tần số từ thực nghiệm Ei = npi tần số lý thuyết theo giả thuyết H 2 2 Nếu X ≤ X α chấp nhận H Nếu X > X α bác bỏ H * Thực câu hỏi: Ở này, dùng biến Huyết áp lúc nghỉ ngơi(tạm gọi A) để kiểm định dạng phân phối Để thuận tiện cho việc kiểm định, ta phân tổ liệu: + Xác định số tổ cần chia (k): Ở dùng công thức: k = (2*n)^(1/3) Biểu thức nhập Excel: =(2*COUNT(D2:D151))^(1/3) Kết quả: 6.69433 Vậy k = + Xác định khoảng cách h theo công thức: h = Xmax− Xmin k Nhập biểu thức vào Excel: =(MAX(D2:D151)-MIN(D2:D151))/7 Kết quả: 12,2857 Chọn h = 13 Dùng chức Data/Data Analysis/Histogram Và kết cho sau: Kiểm định A: Với mức ý nghĩa 5%, coi mẫu A phù hợp với phân phối chuẩn hay không? Giả thuyết kiểm định H : Mẫu phù hợp với phân phối chuẩn Giả thuyết kiểm định H 1: Mẫu khơng phù hợp với phân phối chuẩn Tính đặc trưng mẫu : x = 128.8267 n = 150 ^s= 16.16323 (Excel: =STDEV.P(D2:D151)) + x ước lượng hợp lý cực đại cho a => a= 128.8267 + ^s2 ước lượng hợp lý cực đại choσ => σ = 16.16323 Nếu X có phân phối chuẩn thi X ~ N(128.8267; (16.16)2) Khoảng Tần số -∞ - 107 107- 120 12 45 120 – 133 37 133 – 146 35 146 – 159 14 159 – 172 172- +∞ Pi=¿ P( β−a α −a ) -P( ) Hàm NORMSDIST σ σ =(NORM.S.DIST((106-O16)/O17,TRUE)) - =(NORM.S.DIST((118-O16)/O17,TRUE)NORM.S.DIST((106-O16)/O17,TRUE)) =(NORM.S.DIST((130-O16)/O17,TRUE)NORM.S.DIST((118-O16)/O17,TRUE)) =(NORM.S.DIST((142-O16)/O17,TRUE)NORM.S.DIST((130-O16)/O17,TRUE)) =(NORM.S.DIST((154-O16)/O17,TRUE)NORM.S.DIST((142-O16)/O17,TRUE)) =(NORM.S.DIST((166-O16)/O17,TRUE)NORM.S.DIST((154-O16)/O17,TRUE)) =(NORM.S.DIST((178-O16)/O17,TRUE)NORM.S.DIST((166-O16)/O17,TRUE)) Số tham số phân phối chuẩn r =2, nên: 2 Với k = 8, r = 2=> X α = X 0.04 (7−2−1) = 9.487729 (Excel =CHIINV(0.05,4)) Miền bác bỏ W α = (9.487729 ; +∞) Kết Pi 0.07893 0.17254 0.27745 0.26353 0.14784 0.04895 0.00955 (ni−n pi )2 = 19.1429 (Excel =SUM(P19:P26) X =∑ n pi i=1 o 2 Vì X o > X α nên khơng thể coi mẫu phân phối chuẩn