Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 20 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
20
Dung lượng
291,76 KB
Nội dung
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC KINH TẾ BÀI BÁO CÁO MÔN THỐNG KÊ KINH DOANH & KINH TẾ Đề tài: Bài tập dịch Thống kê ứng dụng Tên thành viên nhóm 2: Lê Nguyễn Thành Đạt Hồ Thị Thanh Trúc Lê Hoàng Kim Ngân Võ Châu Nhật Lai Nguyễn Thị Thùy Dương Huỳnh Lê Khoa Hồ Văn An Quân Nguyễn Khoa Diệu Quỳnh Trần Lê Kim Khánh GVHD: Đoàn Thị Ngọc Cảnh Đà Nẵng, 20/10/2021 Chương Tổng hợp liệu Khi xác định cách phân tích thích hợp tập hợp liệu nào, điều cần cân nhắc phải đặc tính số liệu Một số có cách sử dụng phân tích thủ tục, mà giả định liệu có đặc điểm mà thực tế chúng khơng có Các kết giả định sai diễn giải cung cấp phân tích khơng xác, khơng đến kết luận cách khơng cần thiết Do đó, chúng tơi bắt đầu sách với thảo luận đặc điểm chung liệu tài nguyên nước Những đặc điểm xác định lựa chọn thủ tục phân tích liệu thích hợp Một cơng việc thường xun phân tích liệu mơ tả tóm tắt liệu hình thức truyền tải đặc tính quan trọng chúng “Nồng độ sunfat mà người ta mong đợi lượng mưa vị trí bao nhiêu”? “ Độ dẫn điện thủy lực thay đổi nào”? “Trận lụt 100 năm” (phân vị thứ 99 cực đại lũ lụt hàng năm)? Uớc tính thống kê tóm tắt tương tự cách để hiểu liệu Các đặc tính thường mơ tả bao gồm: giá trị trung tâm liệu, giá trị độ rộng hay độ biến động , phân phối đối xứng liệu có lẽ ước tính cực trị, chẳng hạn ước tính phân vị lớn nhỏ Trong chương thảo luận phương pháp tóm tắt mơ tả liệu Chương nhanh chóng thể chủ đề sách - Việc sử dụng kỹ thuật bền vững chắn Những lý người ta thích sử dụng thước đo bền vững, chẳng hạn trung vị, thước đo điển hình giá trị trung bình, giải thích Nhóm Dữ liệu tính tốn bảng tóm tắt thực gọi tổng thể, đơi mục tiêu tổng thể Đây nồng độ tất nguồn nước tầng ngậm nước phạm vi tiếp cận luồng tất luồng chảy theo thời gian địa điểm cụ thể Hiếm tất liệu có sẵn cho nhà khoa học Có lẽ thu thập tất liệu quan tâm (tất nước dòng chảy thời gian nghiên cứu), khơng thể thu liệu chúng mặt tài Thay vào đó, tập hợp liệu gọi mẫu chọn đo lường theo cách kết luận mẫu mở rộng cho tổng thể Số liệu thống kê tính tốn từ mẫu suy luận ước tính đặc tính tổng thể, chẳng hạn vị trí, độ lan truyền độ lệch Các phép đo vị trí thường trung bình mẫu trung vị mẫu Các phép đo độ chênh lệch bao gồm độ lệch chuẩn mẫu tứ phân vị Việc sử dụng thuật ngữ "mẫu" trước thống kê chứng minh rõ ràng ước tính giá trị tổng thể, số trung vị trung bình tổng thể, Vì ước tính mẫu phổ biến thước đo dựa tổng thể Thuật ngữ “số trung bình” nên hiểu “trung bình mẫu”, tương tự số liệu thống kê khác sử dụng sách Khi giá trị tổng thể xem xét, chúng trình bày rõ ràng 1.1 Đặc điểm liệu tài nguyên nước Dữ liệu nhà khoa học tài nguyên nước phân tích thường có đặc điểm sau Giới hạn số khơng Khơng thể có giá trị âm Sự diện 'các ngoại biên,theo quan sát cao thấp đáng kể so với hầu hết liệu Các giá trị ngoại lai phía cao thường gặp nước tài nguyên Độ lệch dương, mục Một ví dụ phân phối lệch, phân phối xác suất loga chuẩn, trình bày hình 1.1 Giá trị quan sát trục hoành vẽ dựa tần suất xuất giá trị Các hàm mật độ giống biểu đồ tập liệu lớn mà trở nên hẹp vơ hạn Có thể mong đợi độ lệch giá trị ngoại lai xảy theo hướng Phân phối liệu không chuẩn tắc, mục 1-3 Hình 1.2 cho thấy phân phối đối xứng Trong nhiều thử nghiệm thống kê giả định liệu tuân theo phân phối chuẩn hình 1.2, liệu tài nguyên nước thường giống Nhóm hình 1.1.Thêm vào đó, tính đối xứng khơng đảm bảo tính chuẩn tắc Dữ liệu đối xứng với nhiều quan sát hai cực trị xuất phân phối chuẩn phân phối không chuẩn Dữ liệu báo cáo số ngưỡng (dữ liệu kiểm duyệt) Những ví dụ bao gồm nồng độ nhiều giới hạn phát hiện, giai đoạn lũ lụt hàng năm biết đến thấp mức gây kỷ lục công khai lũ lụt, đường dẫn nước biết đến bề mặt đất (Giếng Artesian đồ cũ) Các mẫu theo mùa Giá trị có xu hướng cao thấp số phạm vi định năm Tự tương quan chuỗi Các quan sát liên tiếp có xu hướng tương quan chặt chẽ với Đối với loại tự tương quan phổ biến tài nguyên nước (tương quan đồng biến), giá trị cao có xu hướng theo giá trị cao giá trị thấp có xu hướng theo giá trị thấp Sự phụ thuộc vào biến khơng kiểm sốt khác Giá trị đồng biến mạnh mẽ với dòng chảy nước, độ dẫn thủy lực, kích thước hạt, số biến số khác Phương pháp phân tích liệu nguồn nước, liệu phương pháp tóm tắt đơn giản nêu chương này, quy trình phức tạp chương sau, cần hiểu đặc điểm chung 1.2 Các đơn vị đo vị trí Giá trị trung bình trung vị hai thước đo vị trí sử dụng phổ biến nhất, chúng thước đo có sẵn Các tính chất hai đơn vị đo gì, nên sử dụng đơn vị thay đơn vị kia? 1.2.1 Đơn vị đo cổ điển - Giá trị trung bình Giá trị trung bình mẫu ( X ) tính tổng tất lượng biến X i , chia cho số đơn vị tổng thể n : n X= ∑ i=1 Xi n [1-1] Nhóm Đối với liệu thuộc k nhóm, phương trình [1.1] viết lại để giá trị trung bình tổng thể phụ thuộc vào giá trị trung bình nhóm, có trọng số số lần quan sát giá trị ni , nhóm: n X =∑ X i=1 ni n [1-2] Xi trung bình nhóm i Có thể thấy ảnh hưởng lần quan sát giá trị X j lên giá trị trung bình cách đặt tất trừ lần quan sát "nhóm", X = X ( j) (n−1) + X j n n = X ( j) + ( X ( j) - X ( j) ) n [1-3] Trong X ( j) giá trị trung bình tất lần quan sát không bao gồm X j Ảnh hưởng quan sát trung bình tổng thể X ( X j - X ( j) ), khoảng cách lần quan sát giá trị trung bình khơng bao gồm quan sát Vì vậy, tất quan sát khơng có ảnh hưởng đến giá trị trung bình Một quan sát 'ngoại lệ', cao thấp, có ảnh hưởng lớn nhiều đến giá trị trung bình tổng thể X so với quan sát 'điển hình' , lần quan sát gần với giá trị X ( j) Nhóm Hình 1-1 Hàm mật độ phân phối loga chuẩn Hình 1-2 Hàm mật độ phân phối chuẩn Một cách khác để minh họa ảnh hưởng nhận giá trị trung bình điểm cân liệu, điểm xếp chồng lên đường số (hình 1.3a) Các điểm liệu xa trung tâm tác động lực hướng xuống mạnh điểm gần trung tâm Nếu điểm gần trung tâm bị xóa, điểm cân cần điều chỉnh nhỏ để giữ cho tập liệu trạng thái cân Nhưng giá trị bên bị loại bỏ, điểm cân thay đổi đáng kể (hình 1.3b) Độ nhạy độ lớn số lượng nhỏ điểm tập liệu xác định lý giá trị trung bình khơng phải thước đo vị trí “chính xác" Nó khơng xác có thay đổi có mặt, thay đổi cường độ vài quan sát bên Khi tác động mạnh vài lần quan sát thỏa mãn, giá trị trung bình thước đo trung tâm thích hợp Điều thường xảy tính tốn đơn vị khối lượng, chẳng hạn nồng độ trung bình trầm tích từ mẫu mặt cắt ngang Giả sử nồng độ phù sa gần bờ sông cao nhiều so với trung tâm Nước mẫu chai có nồng độ cao gây ảnh hưởng nhiều (do khối lượng trầm tích lớn thể tích nước) nồng độ cuối so với nước nồng độ thấp trung bình Điều hồn tồn phù hợp, điều xảy Nhóm thân dịng chảy cách trộn cách máy móc tồn mặt cắt ngang Hình 1-3 Giá trị trung bình (hình tam giác) điểm cân tập liệu Hình 1-4 Sự dịch chuyển giá trị trung bình xuống sau loại bỏ giá trị ngoại lệ 1.2.2 Đơn vị mốc - Trung vị Trung vị, hay lượng biến P0.50, giá trị trung tâm phân phối liệu xếp theo độ lớn Đối với dãy số có lượng biến quan sát số lẻ, trung vị điểm liệu có lượng biến quan sát Đối với dãy số có lượng biến quan sát số chẵn, trung vị giá trị trung bình hai biến quan sát trung tâm Để tính giá trị trung vị, ta xếp lượng biến quan sát từ bé đến lớn, cho x biến quan sát nhỏ đến x n biến quan sát lớn Ta được: Trung vị (P0.50 )=X (n+1) /2 n lẻ Trung vị ( P0.50 )= ( X(n /2) + X(n /2+1 )) n chẵn [1-4] Trung vị bị ảnh hưởng giá trị lượng biến quan sát, xác định thứ tự tương đối lượng biến quan sát Sự kháng lại trước ảnh hưởng giá trị thay đổi có mặt lượng biến quan sát khác thường thường đặc tính kỳ vọng Để chứng minh kháng lại trung vị, giả sử giá trị cuối Nhóm tập liệu (a) gồm lượng biến quan sát nhân với 10 để thu tập liệu (b): Ví dụ 1: (a) 11 11 12 X = 8.1 (b) 11 11 120 X = 23.6 P.50= P.50= Giá trị trung bình tăng từ 8,1 lên 23,6 Trung vị, hay biến thứ theo thứ tự xếp (hay thứ tự (7+1) ) không bị ảnh hưởng thay đổi Khi giá trị tổng hợp kỳ vọng mà không bị ảnh hưởng mạnh vài lượng biến quan sát lớn, giá trị trung vị thích hợp giá trị trung bình Một ví dụ trường hợp nồng độ hóa chất tìm thấy nguồn nước khu vực định Khi sử dụng trung vị, nguồn nước với nồng độ cao bất thường không ảnh hưởng nhiều đến ước tính so với nồng độ thấp Nồng độ trung bình lớn cao nồng độ đo hầu hết dịng chảy Trung vị khơng bị ảnh hưởng nhiều 1.2.3 Các thước đo khác vị trí Có ba thước đo khác vị trí sử dụng: mốt, trung bình nhân trung bình tỉa Mốt giá trị quan sát thường xuyên Nó giá trị có tần số cao biểu đồ Mốt áp dụng nhiều cho bảng liệu, thường liệu ghi lại rơi vào số danh mục định, liệu liên tục Mốt dễ nhận thấy, ngoại trừ cách xác định vị trí hiệu với bảng liệu liên tục, giá trị thường phụ thuộc vào nhóm bảng liệu Giá trị trung bình nhân (GM) thường báo cáo tập liệu sai lệch Nó giá trị trung bình logarit, chuyển đổi trở lại đơn vị ban đầu chúng GM =exp(Y ), where Y i=ln (X ¿¿ i)¿ [1-5] Nhóm (Ở đây, logarit tự nhiên với số e viết tắt ln nghịch đảo e x viết tắt exp( x)) Đối với liệu sai lệch rõ ràng, giá trị trung bình nhân thường gần với giá trị trung vị Thực tế, logarit liệu đối xứng, giá trị trung bình nhân ước tính khơng chênh lệch trung vị Điều logarit trung bình trung vị nhau, hình 1.2 Khi chuyển đổi trở lại đơn vị ban đầu, giá trị trung bình nhân tiếp tục ước tính cho trung vị, khơng phải ước tính cho giá trị trung bình (hình 1.1) Sự thỏa hiệp giá trị trung vị trung bình có tính hiệu cắt bỏ số giá trị thấp cao nhất, sau tính giá trị trung bình lượng biến cịn lại Các ước tính vị trí khơng bị ảnh hưởng điểm kết thúc giới hạn (hoặc dị thường) mẫu, giá trị trung bình Tuy nhiên, chúng cho phép độ lớn hầu hết giá trị ảnh hưởng đến ước tính, khơng giống trung vị Những cơng thức ước tính gọi “phương tiện loại bỏ”, phần trăm liệu loại bỏ Cách loại bỏ phổ biến loại bỏ 25% liệu kết trung bình 50% liệu trung tâm thường gọi “giá trị bị cắt giảm”, xác giá trị trung bình cắt giảm 25% Một “giá trị cắt giảm 0%” giá trị mẫu nó, cắt bỏ tất ngoại trừ giá trị trung tâm tạo trung vị Phần trăm cắt giảm nên ghi rõ ràng Giá trị trung bình cắt giảm ước tính kháng lại, nói không bị ảnh hưởng mạnh yếu tố khác hiệu nhiều hình dạng phân phối khác (giá trị, log, v.v ) Nó xem giá trị trung bình có trọng số, liệu vượt giới hạn cho trọng số phần cịn lại có trọng số 1,0 (xem hình 1.4) Hình 1.4 Sơ đồ giá trị trung bình cắt giảm Nhóm 1.3 Thước đo độ chênh lệch Dữ liệu thay đổi quan trọng vị trí chung Sự thay đổi tập liệu đo đơn vị đo chênh lệch 1.3.1 Đơn vị đo cổ điển Phương sai mẫu, bậc hai độ lệch chuẩn mẫu, đơn vị đo thường sử dụng Tương tự giá trị trung bình, đơn vị ảnh hưởng giá trị ngoại lai n s=∑ i=1 ( X i− X) (n−1) [1-6] s = √ s2 [1-7] Chúng tính tốn cách bình phương độ lệch chuẩn liệu so với gía trị trung bình, giá trị ngoại lai ảnh hưởng đến đơn vị nhiều so với giá trị trung bình Khi giá trị ngoại lai thay đổi, đơn vị biểu tính bất ổn định Chính đơn vị cho thấy chênh lệch rõ so với với quan sát tập liệu 1.3.2 Thước đo phân tán Khoảng tứ phân vị (IQR) đơn vị đo sử dụng phổ biến Nó chứa 50% biến số trung tâm khơng bị ảnh hưởng 25% hai đầu Do đó, chiều rộng cửa sổ trọng số khác cho giá trị trung bình cắt hình 1.4 IQR định nghĩa phân vị thứ 75 trừ phân vị thứ 25 Phân vị thứ 75, phân vị thứ 50 (trung vị) phân vị thứ 25 chia dãy liệu thành phần tư Phân vị thứ 75 (P.75), đợi gọi tứ phân vị trên, giá trị mà khơng vượt q 75% tập liệu khơng nhỏ 25% lại Tứ phân vị thứ 25 (P.25) phần tư nhỏ có giá trị khơng vượt 25% tập liệu nhỏ hươn 75% Nếu xét tập liệu theo thứ tự tăng dần: Xi,i=1,…,n Bách phân vị (Pj) tính cơng thức (1.8) Nhóm Pj = X(n+1)j [1-8] Trong n kích thuớc mẫu Xi J phần liệu nhỏ với phân vị (đối với phân vị thứ 25,50 75, J= 25,.50 75) Các giá trị không nguyên (n+1)j ám phép nội suy tuyến tính giá tị liền kề X Ví dụ tập liệu cho trước, n=7, phân vị thứ 25 X (7+1)25 X2 = 4, giá trị quan sát thấp thứ Phân vị thứ 75 X 6, Giá trị quan sát thấp thứu 6, 11 Do IQR 11-4=7 Một đo chênh lệch khác với IQR độ lệch tuyệt đối trung bình, hay MAD MAD tính cách trước hết liệt kê giá trị tuyệt đối giá trị quan sát trung vị Trung vị giá trị tuyệt đối MAD MAD (Xi) = median |di| Trong di = Xi – trung vị ( Xi) [1-9] So sánh ước tính chênh lệch cho tập liệu ví dụ sau Khi giá trị cuối đổi từ 12 thành 120, độ lệch chuẩn tăng từ 3.8 lên 42.7 IQR MAD giữ nguyên 10 Data 11 11 12 IQR=11-4=7 (Xi- X )2 37 16 0.0 0.8 8.4 8.4 15.2 1 1 2 s =(3.8) |di=Xi-P.50| 2 MAD=median|di|=2 Data 11 11 120 IQR=11-4=7 (Xi- X )2 37 16 0.0 0.8 8.4 8.4 12.52 1 1 2 s = (42.7) 2 111 |di=Xi-P.50| Nhóm 1.4 C MAD=median|di|=2 ác số đo độ lệch Dữ liệu thủy văn thường bị lệch, có nghĩa tập liệu khơng đối xứng xung quanh giá trị trung bình số trung vị, với giá trị cực trị kéo dài theo hướng Hàm mật độ cho phân phối loga chuẩn hiển thị trước hình 1.1 minh họa độ lệch Khi giá trị cực trị mở rộng đuôi bên phải phân phối, chúng làm với hình 1.1, liệu cho lệch sang phải, lệch dương Độ lệch trái, đuôi kéo dài sang trái, gọi lệch âm Khi liệu bị lệch giá trị trung bình khơng dự tính trung vị, kéo về phía phân phối Do độ lệch dương giá trị trung bình vượt 50% liệu, hình 1.1 Độ lệch chuẩn bị thổi phồng liệu phần Do đó, bảng thống kê tóm tắt bao gồm giá trị trung bình đội lệch chuẩn phương sai có giá trị đáng ngờ liệu tài nguyên nước, liệu thường có độ lệch dương Giá trị trung bình độ lệch chuẩn báo cáo khơng mô tả phần lớn liệu tốt Cả hai bị thổi phồng quan sát bên ngồi Bảng tóm tắt bao gồm giá trị trung bình giá trị khác phần trăm có khả lớn nhiều cho liệu bị lệch Dữ liệu sai lệch đặt câu hỏi khả áp dụng thử nghiệm giả thuyết dựa giả định đữ liệu có phân phối chuẩn Các thử nghiệm này, gọi thử nghiệm tham số, có giá trị đáng ngờ áp dụng cho liệu tài nguyên nước, liệu 11 Nhóm thường khơng bình thường chí không đối xứng Các chương sau thảo luận chi tiết vấn đề đề xuất số giải pháp 1.4.1 Số đo độ lệch cổ điển Hệ số độ lệch (g) thước đo độ lệch sử dụng thường xuyên Nó thời điểm thứ ba điều chỉnh chia cho khối độ lệch chuẩn: ( x i− X) n g= ∑ (n−1)(n−2) i=0 s n [1-10] Một phân phối lệch phải có g dương; phân phối lệch trái có g âm Một lần nữa, ảnh hưởng vài giá trị ngoại lệ quan trọng – không phân phối đối xứng có giá trị ngoại lệ tạo thước đo lệch lớn (và gây hiểu lầm) Đối với liệu ví dụ 1, hệ số độ lệch g tăng từ -0,5 lên 2,6 điểm liệu cuối thay đổi từ 12 thành 120 1.4.2 Số đo kháng độ lệch Một biện pháp kháng cự độ lệch tứ phân vị lệch hệ số qs (Kenny Keep, 1954): qs = ( P.75−P.50 ) −(P 50−P.25 ) P.75−P.25 [1-11] hiệu số khoảng cách điểm trị tứ phân so với trung vị, chia cho IQR Một phân phối lệch phải lại có qs dương; phân phối lệch trái có qs âm Tương tự giá trị trung bình IQR cắt bớt, qs sử dụng 50% số liệu trung tâm Cho số liệu ví dụ 1, qs = (11−9) - (9−4) / (11−4) = −0,43 trước sau thay đổi điểm liệu cuối Lưu ý kháng cự xảy độ nhạy cảm đến vài quan sát quan trọng 1.5 Các số đo bền vững khác Các phân vị khác sử dụng để tạo loạt số đo vị trí, bề rộng độ lệch Ví dụ như, 10 phần trăm độ chênh trung bình ghép đơi với khoảng 12 Nhóm biến thiên giao độ phân vị 90 phân vị 10 số đo bề rộng, tương ứng độ lệch : Qs.10 = [1-12] để tạo hàng loạt thống kê học quán không bị ảnh hưởng quan sát bất thường Các nhà địa chất sử dụng tỷ lệ phần trăm thứ 16 tỷ lệ phần trăm thứ 84 nhiều năm để tính tốn chuỗi tương tự độ đo vững việc phân phối hạt trầm tích (Inman, 1952) Tuy nhiên, độ đo dựa điểm tứ vi phân trở thành tiêu chuẩn nói chung, độ đo khác nên định nghĩa rõ ràng trước dùng chúng Trung vị (điểm giữa), IQR, lệch điểm trị tứ phân dễ dàng tóm tắt mặt đồ thị dùng biểu đồ hình hộp ( xem chương ) quen thuộc với nhiều nhà phân tích số liệu 1.6 Sai số Việc quan sát thấy giá trị có khác so với giá trị khác tập số liệu thường gây lo lắng hay hoang mang cho người điều khơng nên Những giá trị thường giải cách xóa trước bắt đầu mô tả số liệu, trước vài quy trình kiểm định giả thuyết thống kê chương sau lần nữa, người không nên lo sợ hay bận tâm sai số Những sai số điểm quan trọng tập số liệu cần phải nghiên cứu thêm Mọi người nói số liệu lỗ hổng tầng ozone Nam Cực (một khu vực có nồng độ ozone thấp bất thường) thu thập khoảng 10 năm, trước có phát thực tế Tuy nhiên, công việc thường làm ngày việc kiểm tra số liệu tự động suốt quy trình xử lý số liệu lại bao gồm hướng dẫn việc xóa “sai số” Những định nghĩa sai số dựa nồng độ ozone tìm thấy vĩ độ trung bình Vì tất số liệu vượt hai độ lệch chuẩn so với giá trị trung bình khơng xem xét hay nghiên cứu khoảng thời gian Nếu sai số bị xóa đi, rủi ro việc họ nhìn thấy thứ mà bọn họ mong đợi 13 Nhóm Sai số ba nguyên nhân: Lỗi đo lường việc ghi,thu âm thanh,hình ảnh, Sự quan sát tổng thể khác với hầu hết số liệu, chẳng hạn việc lũ lụt hình thành vụ vỡ đê lượng mưa Một biến cố hoi từ tổng thể đơn lẻ sai lệch Các phương pháp đồ thị Chương hữu ích việc xác định sai số Bất có sai số xảy ra, trước tiên kiểm tra lại khơng có chép lại, dấu thập phân lỗi khác rõ ràng thực hiện, khơng có lẽ khơng thể xác định giá trị có hợp lệ hay khơng Những nổ lực việc kiểm tra chẳng hạn tiến hành kiểm định lại mẫu phịng thí nghiệm, phụ thuộc vào lợi ích thu so với chi phí xác minh Các biến cố khứ khơng lại Nếu khơng có lỗi phát sửa chữa, sai số không nên bị loại bỏ dựa thực tế chúng xuất giá trị khác thường Các sai số thường bị loại bỏ để làm cho số liệu phù hợp với lý thuyết phân phối xác định sẵn Khơng có lý để họ làm Tồn số liệu xếp sai lệch ,phép toán logarit phép biến đổi khác tạo số liệu đối xứng Ngay khơng có biến đổi có đối xứng cả, sai số khơng cần phải bị loại bỏ Thay loại bỏ số liệu thực tế (có thể quan trọng) để sử dụng quy trình phân tích địi hỏi tính đối xứng chuẩn tắc, nên thiết lập bước theo trình tự có khả chống sai số Nếu tính trung bình giá trị có sai số, trung vị chứng minh thước đo thích hợp cho vị trí số liệu sai lệch Nếu thực kiểm định T (được mơ tả phía sau) bị vơ hiệu hóa tính bất thường tập số liệu, sử dụng kiểm tra tổng xếp hạng để thay Nói ngắn gọn, sử dụng hướng số liệu có quy trình phân tích thay đổi số liệu để sử dụng số quy trình có u cầu q hạn chế thứ trở nên dễ dàng 1.7 Phép biến đổi Phép biến đổi sử dụng cho ba mục đích: Để làm liệu đối xứng 14 Nhóm 2 Để làm liệu tuyến tính hơn, Để làm liệu có sai số không thay đổi Một số nhà khoa học tài nguyên nước sợ chuyển đổi liệu, kết tạo phù hợp với ý tưởng định trước Do đó, phép biến đổi phương thức để “thấy điều bạn muốn thấy” liệu Nhưng thực tế, vấn đề nghiêm trọng xảy biện pháp giả định tính đối xứng, tính tuyến tính, tương đồng (phương sai không đổi) sử dụng liệu mà khơng có đặc tính cần tìm Phép biến đổi tạo đặc tính đó, việc sử dụng biến dã biến đổi thỏa mãn mục tiêu Việc sử dụng phép biến đổi không đơn lựa chọn tùy ý Một đơn vị đo lường khơng có giá trị tiên nghiệm đơn vị đo khác Ví dụ, logarit âm nồng độ ion hydro, pH, hệ thống đo lường có hiệu lực nồng độ ion hydro Phép biến đổi bậc hai độ sâu nước giếng, bậc ba lượng mưa, không nên chịu đựng kỳ thị độ pH Các thang đo lường phù hợp cho việc phân tích liệu đơn vị ban đầu Hoaglin (1988) viết báo xuất sắc phép biến đổi ẩn, coi điều hiển nhiên, tất người sử dụng chung Các quãng tám âm nhạc biến đổi logarit tần số Mỗi lần chơi đàn piano, phép biến đổi logarit sử dụng! Tương tự, thang đo độ Richter động đất, dặm gallon để tiêu thụ xăng, đường kính lỗ mở (f-stops) phơi sáng máy ảnh, v.v tất sử dụng phép biến đổi Trong khoa học phân tích liệu, việc định sử dụng thang đo lường nên xác định liệu tiêu chí định sẵn Mục tiêu việc sử dụng phép biến đổi tính đối xứng, tính tuyến tính, đồng biến Hơn nữa, việc sử dụng nhiều phương pháp đối kháng bách phân vị quy trình kiểm định phi tham số (được thảo luận sau) không đổi thang đo lường Kết kiểm tra tổng thứ hạng, tương đương phi tham số kiểm định khác biệt (t-test), hoàn toàn giống cho dù đơn vị ban đầu logarit đơn vị sử dụng 15 Nhóm 1.7.1 Bậc thang lũy thừa Để mà làm phân phối bất đối xứng trở nên đối xứng hơn, liệu chuyển đổi biểu thị lại thành đơn vị Các đơn vị thay đổi khoảng cách quan sát biểu đồ đường Sự tác động bao gồm mở rộng thu hẹp khoảng cách giá trị quan sát biên bên dải phân cách, làm cho trơng cân xứng với phía bên Hầu hết phép biến đổi thường sử dụng tài nguyên nước logarit Logarit xả nước, độ dẫn thủy lực, nồng độ thường thực trước thực phân tích thống kê Các phép biến đổi thường liên quan đến hàm lũy thừa có dạng y = x θ, x liệu chưa biến đổi, y liệu biến đổi θ lũy thừa Trong hình 1.5, giá trị θ liệt kê “Bậc thang lũy thừa” (Velleman Hoaglin, 1981), cấu trúc hữu ích cho việc xác định giá trị thích hợp θ Như thấy từ bậc thang lũy thừa, phép biến đổi có θ nhỏ sử dụng để làm cho liệu lệch phải trở nên đối xứng Xây dựng biểu đồ hình hộp biểu đồ phân phối chuẩn (xem Chương 2) liệu chuyển đổi cho biết liệu việc chuyển đổi có phù hợp hay không Nếu phép biến đổi logarit bù mức cho độ lệch phải tạo phân phối lệch trái, phép biến đổi “nhẹ hơn” với θ gần với 1, phép biến đổi bậc hai lập phương, nên sử dụng thay Các phép biến đổi với θ> giúp làm cho liệu lệch trái đối xứng Hình 1.5 “BẬC THANG LŨY THỪA” (được sửa đổi từ Velleman Hoaglin, 1981) Sử dụng θ Biến đổi Tên gọi Ghi lũy thừa cao sử dụng cho độ lệch ¿ x lập phương 16 Nhóm 2 x2 bình phương x đơn vị gốc khơng có biến đổi 1/2 √x bậc hai thường sử dụng 1/3 √3 x bậc ba thường sử dụng logarit thường sử dụng Đóng log ( x ) vai trò x cho độ lệch ¿ -1/2 -1/√ x Nghịch đảo dấu trừ trì thứ tự quan sát -1 -1/ x -2 -1/ x nghịch đảo lũy thừa thấp sử dụng Tuy nhiên, nên tránh xu hướng tìm kiếm biến đổi “tốt nhất” Ví dụ, xử lý số tập liệu tương tự, có lẽ tốt nên tìm phương pháp chuyển đổi mà làm việc hợp lý cho tất cả, thay sử dụng phương pháp khác không đáng kể cho tập liệu Phải nhớ tập liệu mẫu từ tổng thể lớn mẫu khác từ tổng thể phương pháp chuyển đổi “tốt nhất” khác biệt không đáng kể Xác định “tốt nhất” với độ xác cao phương pháp đáng để nỗ lực 17 Nhóm Bài tập 1.1 Năng suất giếng xuyên qua đơn vị đá không bị đứt gãy đo Wright (1985), đưa Tính tốn a) Trung bình b) Độ chênh trung bình c) Trung bình nhân d) Trung vị e) So sánh ước tính vị trí Tại chúng khác nhau? Các đơn vị suất (tính gal/phút/ft) Virginia (Wright, 1985) 0.001 0,030 0.10 0.003 0.040 0.454 0.007 0.041 0.049 0.020 0.077 1.02 1.2 Theo liệu suất giếng tập 1.1, tính a) Độ lệch chuẩn b) Độ trải c) MAD d) Độ lệch độ lệch điểm trị tứ phân Thảo luận khác biệt a đến c 1.3 Amoniac cộng với nitơ hữu (tính mg / L) đo mẫu kết tủa Oltmann Shulters (1989) Một số liệu họ trình bày Tính tốn thống kê học cho liệu Quan sát coi ngoại lệ? Giá trị ảnh hưởng đến việc lựa chọn thống kê học sử dụng a) để tính khối lượng nitơ rơi dặm vng b) để tính tốn nồng độ độ biến thiên “điển hình” cho liệu này? 0.3 0.9 0.36 0.92 0.7 9.7 0.7 1.3 18 0.5 1.0 Nhóm Danh mục hình ảnh Hình Hình Hình Hình 1-1 Hàm mật độ phân phối loga chuẩn 1-2 Hàm mật độ phân phối chuẩn 1-3 Giá trị trung bình (hình tam giác) điểm cân tập liệu .6 1-4 Sự dịch chuyển giá trị trung bình xuống sau loại bỏ giá trị ngoại lệ Danh mục công thức [1-1] .3 [1-2] .4 [1-3] .4 [1-4] .6 [1-5] .7 [1-6] .9 [1-7] .9 [1-8] 10 [1-9] 10 [1-10] 12 [1-11] 12 [1-12] 13 19 ... bình mẫu”, tương tự số liệu thống kê khác sử dụng sách Khi giá trị tổng thể xem xét, chúng trình bày rõ ràng 1.1 Đặc điểm liệu tài nguyên nước Dữ liệu nhà khoa học tài nguyên nước phân tích thường... nghiệm thống kê giả định liệu tuân theo phân phối chuẩn hình 1.2, liệu tài nguyên nước thường giống Nhóm hình 1.1.Thêm vào đó, tính đối xứng khơng đảm bảo tính chuẩn tắc Dữ liệu đối xứng với... số liệu đối xứng Ngay biến đổi có đối xứng cả, sai số khơng cần phải bị loại bỏ Thay loại bỏ số liệu thực tế (có thể quan trọng) để sử dụng quy trình phân tích địi hỏi tính đối xứng chuẩn tắc,