1. Trang chủ
  2. » Thể loại khác

GIẢI THÍCH CÁC DỮ LIỆU THỐNG KÊ - PHẦN 4: PHÁT HIỆN VÀ XỬ LÝ CÁC GIÁ TRỊ BẤTTHƯỜNG

46 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 46
Dung lượng 2,14 MB

Nội dung

Công ty luật Minh Khuê www.luatminhkhue.vn TIÊU CHUẨN QUỐC GIA TCVN 8006-4 : 2013 ISO 16269-4:2010 GIẢI THÍCH CÁC DỮ LIỆU THỐNG KÊ - PHẦN 4: PHÁT HIỆN VÀ XỬ LÝ CÁC GIÁ TRỊ BẤT THƯỜNG Statistical interpretation of data - Part 4: Detection and treatment of outliers Lời nói đầu TCVN 8006-4:2013 hoàn toàn tương đương với ISO 16269-4:2010; TCVN 8006-4:2013 Ban kỹ thuật tiêu chuẩn quốc gia TCVN/TC 69 Ứng dụng phương pháp thống kê biên soạn, Tổng cục Tiêu chuẩn Đo lường chất lượng đề nghị, Bộ Khoa học Công nghệ công bố Bộ tiêu chuẩn TCVN 8006, chấp nhận tiêu chuẩn ISO 16269, gồm tiêu chuẩn có tên chung “Giải thích liệu thống kê”: - TCVN 8006-4:2013 (ISO 16269-4:2010), Phần 4: Phát xử lý giá trị bất thường - TCVN 8006-6:2009 (ISO 16269-6:2005), Phần 6: Xác định khoảng dung sai thống kê - TCVN 8006-7:2013 (ISO 16269-6:2001), Phần 7: Trung vị - Ước lượng khoảng tin cậy Bộ tiêu chuẩn ISO 16269 có tiêu chuẩn sau: - ISO 16269-8, Statistical interpretation of data - Part 8: Determination of prediction intervals Lời giới thiệu Xác định giá trị bất thường vấn đề lâu đời giải thích liệu Nguyên nhân giá trị bất thường bao gồm sai số đo, sai số lấy mẫu, báo cáo thấp báo cáo cao lên có chủ ý kết lấy mẫu, ghi chép sai, giả định phân bố hay mơ hình sai cho tập liệu, quan trắc hiếm, v.v Giá trị bất thường bóp méo giảm thơng tin nguồn liệu chế tạo liệu Trong công nghiệp chế tạo, có mặt giá trị bất thường làm giảm hiệu lực thiết kế trình/sản phẩm quy trình kiểm sốt chất lượng Các giá trị bất thường khơng thiết xấu hay sai lầm Trong số trường hợp, giá trị bất thường mang thơng tin thiết yếu cần nhận biết để nghiên cứu thêm Nghiên cứu phát giá trị bất thường từ trình đo mang lại hiểu biết tốt q trình phân tích liệu dẫn đến kết luận cải thiện Với lượng lớn tài liệu đề cập đến chủ đề giá trị bất thường, điều đặc biệt quan trọng cộng đồng quốc tế xác định chuẩn hóa tập phương pháp sử dụng việc nhận biết xử lý giá trị bất thường Việc áp dụng tiêu chuẩn cho phép doanh nghiệp ngành công nghiệp thừa nhận phân tích liệu quốc gia hay tổ chức thành viên tiến hành Tiêu chuẩn gồm sáu phụ lục Phụ lục A đưa thuật tốn để tính thống kê kiểm nghiệm giá trị tới hạn quy trình phát giá trị bất thường tập liệu lấy từ phân bố chuẩn Phụ lục B, D E cung cấp bảng cần thiết để thực quy trình khuyến nghị Phụ lục C cung cấp bảng lý thuyết thống kê làm sở cho việc vẽ đồ thị hộp sửa đổi phát giá trị bất thường Phụ lục F đưa hướng dẫn có cấu trúc lưu đồ q trình khuyến nghị tiêu chuẩn GIẢI THÍCH CÁC DỮ LIỆU THỐNG KÊ - PHẦN 4: PHÁT HIỆN VÀ XỬ LÝ CÁC GIÁ TRỊ BẤT THƯỜNG Statistical interpretation of data - Part 4: Detection and treatment of outliers Phạm vi áp dụng Tiêu chuẩn đưa mô tả chi tiết quy trình kiểm nghiệm thống kê vững phương pháp phân tích liệu đồ thị dùng cho việc phát giá trị bất thường liệu thu từ trình đo Tiêu chuẩn khuyến nghị ước lượng ổn định vững quy trình kiểm nghiệm để thỏa hiệp với có mặt giá trị bất thường LUẬT SƯ TƯ VẤN PHÁP LUẬT 24/7 GỌI 1900 6162 Công ty luật Minh Khuê www.luatminhkhue.vn Tiêu chuẩn xây dựng chủ yếu cho việc phát thích ứng giá trị bất thường từ liệu đơn biến Hướng dẫn định cung cấp liệu đa biến hồi quy Thuật ngữ định nghĩa Tiêu chuẩn áp dụng thuật ngữ, định nghĩa 2.1 Mẫu (sample) Tập liệu (data set) Phân tập tổng thể gồm nhiều đơn vị mẫu CHÚ THÍCH 1: Đơn vị mẫu cá thể, trị số chí thực thể trừu tượng phụ thuộc vào tổng thể quan tâm CHÚ THÍCH 2: Mẫu từ tổng thể phân bố chuẩn (2.22), gamma (2.23), hàm mũ (2.24), Weibull (2.25), loga chuẩn (2.26) hay cực trị loại I (2.27) thường đề cập tương ứng mẫu chuẩn, gamma, hàm mũ, Weibull, loga chuẩn hay cực trị loại I 2.2 Giá trị bất thường (outlier) Thành phần phân tập nhỏ quan trắc dường khơng khớp với phần cịn lại mẫu (2.1) cho CHÚ THÍCH 1: Việc phân loại quan trắc phân tập quan trắc giá trị bất thường có quan hệ với mơ hình chọn cho tổng thể từ tập liệu hình thành Những quan trắc không coi thành phần thực tổng thể CHÚ THÍCH 2: Giá trị bất thường bắt nguồn từ tổng thể sở khác kết ghi chép khơng xác sai số đo thơ CHÚ THÍCH 3: Phân tập gồm nhiều quan trắc 2.3 Che khuất (masking) Sự xuất nhiều giá trị bất thường (2.2) gây khó khăn cho việc phát giá trị bất thường 2.4 Tỷ lệ ngoại vi (some-outside rate) Xác suất để nhiều quan trắc mẫu không pha tạp bị phân loại nhầm giá trị bất thường (2.2) 2.5 Phương pháp thỏa hiệp giá trị bất thường (outlier accommodation method) Phương pháp không nhạy có mặt giá trị bất thường (2.2) đưa kết luận tổng thể 2.6 Ước lượng bền (resistant estimation) Phương pháp ước lượng đưa kết thay đổi đôi chút thay phần nhỏ giá trị liệu tập liệu (2.1), với giá trị liệu khác biệt với liệu ban đầu 2.7 Ước lượng ổn định (robust estimation) Phương pháp ước lượng không nhạy với sai lệch nhỏ so với giả định mơ hình xác suất sở liệu CHÚ THÍCH: Ví dụ phương pháp ước lượng áp dụng tốt cho phân bố chuẩn (2.22) tốt phân bố thực tế đối xứng lệch nặng đuôi Các loại phương pháp bao gồm ước lượng L [trung bình có trọng số thống kê thứ tự (2.10)] phương pháp ước lượng M (xem Tài liệu tham khảo [9]) 2.8 Thứ hạng (rank) Vị trí giá trị quan trắc tập hợp giá trị quan trắc xếp theo thứ tự CHÚ THÍCH 1: Các giá trị quan trắc xếp theo thứ tự tăng (đếm từ lên) thứ tự giảm (đếm từ xuống) CHÚ THÍCH 2: Với mục đích tiêu chuẩn này, giá trị quan trắc giống phân thứ hạng chúng khác đôi chút 2.9 Độ sâu (depth) giá trị nhỏ hai thứ hạng (2.8) xác định cách tính từ giá trị nhỏ LUẬT SƯ TƯ VẤN PHÁP LUẬT 24/7 GỌI 1900 6162 Công ty luật Minh Khuê www.luatminhkhue.vn mẫu (2.1) trở lên tính từ giá trị lớn trở xuống CHÚ THÍCH 1: Độ sâu khơng phải giá trị nguyên (xem Phụ lục C) CHÚ THÍCH 2: Đối với tất giá trị tóm lược trung vị (2.11), độ sâu cho xác định hai giá trị (dữ liệu), giá trị trung vị giá trị trung vị Ví dụ, hai giá trị liệu với độ sâu giá trị nhỏ (tối thiểu) giá trị lớn (tối đa) mẫu (2.1) cho 2.10 Thống kê thứ tự (order statistic) Thống kê xác định thứ tự xếp không giảm biến ngẫu nhiên [TCVN 8244-1:2010 (ISO 3534-1:2006), định nghĩa 1.9] CHÚ THÍCH 1: Cho giá trị quan trắc mẫu ngẫu nhiên {x 1, x2,…, xn} Sắp xếp lại giá trị quan trắc theo thứ tự không giảm ấn định x(1) ≤ x(2) ≤ … ≤ x(k) ≤ … ≤ x(n); x(k) giá trị quan trắc thống kê thứ tự thứ k mẫu cỡ n CHÚ THÍCH 2: Trong thực tế, lập thống kê thứ tự cho lượng mẫu (2.1) việc xếp liệu mơ tả thích 2.11 Trung vị (median) Trung vị mẫu (sample median) Trung vị tập hợp số (median of a set of numbers) Q2 Thống kê thứ tự (2.10) thứ [(n + 1)/2], cỡ mẫu n lẻ; tổng thống kê thứ tự thứ [n/2] thứ [(n/2) + 1] chia cho 2, cỡ mẫu n chẵn [TCVN 8244-1:2010 (ISO 3534-1:2006), định nghĩa 1.13] CHÚ THÍCH: Trung vị mẫu tứ phân vị thứ hai ( Q2) 2.12 Tứ phân vị thứ (first quartile) Tứ phân vị mẫu (sample lower quartile) Q1 Đối với số lượng quan trắc lẻ, trung vị (2.11) (n - 1)/2 giá trị quan trắc nhỏ nhất, số lượng quan trắc chẵn, trung vị n/2 giá trị quan trắc nhỏ CHÚ THÍCH 1: Có nhiều định nghĩa khác tài liệu từ phân vị mẫu, đưa kết khác Định nghĩa chọn dễ ứng dụng sử dụng rộng rãi CHÚ THÍCH 2: Các khái niệm điểm lề phần tư (2.19 2.20) biến phổ biến tứ phân vị Trong số trường hợp (xem Chú thích cho 2.19), tứ phân vị thứ phần tư (2.19) giống hệt 2.13 Tứ phân vị thứ ba (third quartile) Tứ phân vị mẫu (sample upper quartile) Q3 Đối với số lượng quan trắc lẻ, trung vị (n - 1)/2 giá trị quan trắc lớn nhất; số lượng quan trắc chẵn, trung vị n/2 giá trị quan trắc lớn CHÚ THÍCH 1: Có nhiều định nghĩa khác tài liệu tứ phân vị mẫu, đưa kết khác Định nghĩa chọn dễ ứng dụng sử dụng rộng rãi CHÚ THÍCH 2: Các khái niệm điểm lề phần tư (2.19 2.20) biến thể phổ biến tứ phân vị Trong số trường hợp (xem thích cho 2.20), tứ phân vị thứ ba phần tư (2.20) giống hệt 2.14 Khoảng tứ phân vị (interquartile range) IQR Hiệu tứ phân vị thứ ba (2.13) tứ phân vị thứ (2.12) CHÚ THÍCH 1: Đây thống kê sử dụng rộng rãi để mô tả khoảng tập liệu CHÚ THÍCH 2: Hiệu phần tư (2.20) phần tư (2.19) gọi khoảng thứ tư LUẬT SƯ TƯ VẤN PHÁP LUẬT 24/7 GỌI 1900 6162 Công ty luật Minh Khuê www.luatminhkhue.vn sử dụng thay cho khoảng tứ phân vị 2.15 Năm số tóm lược (five-number summary) Số nhỏ nhất, tứ phân vị thứ (2.12), trung vị (2.11), tứ phân vị thứ ba (2.13) số lớn CHÚ THÍCH: Năm số tóm lược cung cấp thơng tin số vị trí, độ trải độ rộng 2.16 Đồ thị hộp (box plot) Trình bày đồ thị nằm ngang thẳng đứng năm số tóm lược (2.15) CHÚ THÍCH 1: Đối với đồ thị nằm ngang, tứ phân vị thứ (2.12) tứ phân vị thứ ba (2.13) vẽ tương ứng bên trái bên phải hộp, trung vị (2.11) vẽ vạch đứng hộp, nét kéo dài từ tứ phân vị thứ xuống đến giá trị nhỏ rào chắn (2.17) từ tứ phân vị thứ ba lên đến giá trị lớn rào chắn (2.18), (các) giá trị rào chắn rào chắn đánh dấu riêng giá trị bất thường (2.2) Đối với đồ thị thẳng đứng, tứ phân vị thứ tứ phân vị thứ ba vẽ tương ứng phần đáy phần đỉnh hộp, trung vị vẽ vạch ngang hộp, nét kéo dài từ tứ phân vị thứ xuống đến giá trị nhỏ rào chắn từ tứ phân vị thứ ba lên đến giá trị lớn rào chắn (các) giá trị vượt rào chắn rào chắn đánh dấu (các) giá trị bất thường CHÚ THÍCH 2: Chiều rộng hộp chiều dài rìa đồ thị hộp cung cấp thơng tin đồ thị vị trí, độ trải, độ bất đối xứng, độ dài đuôi giá trị bất thường mẫu So sánh đồ thị hộp hàm mật độ phân bố a) đều, b) hình chng, c) bất đối xứng phải d) bất đối xứng trái đưa đồ thị Hình Trong phân bố, có biểu đồ tần số trình bày phía đồ thị hộp CHÚ THÍCH 3: Đồ thị hộp xây dựng với rào chắn (2.17) rào chắn (2.18) đánh giá cách lấy k giá trị dựa cỡ mẫu n kiến thức phân bố phổ biến liệu mẫu gọi đồ thị hộp sửa đổi (xem ví dụ, Hình 2) Cấu trúc đồ thị hộp sửa đổi nêu 4.4 a) Phân bố b) phân bố hình vng LUẬT SƯ TƯ VẤN PHÁP LUẬT 24/7 GỌI 1900 6162 Công ty luật Minh Khuê c) Phân bố bất đối xứng bên phải www.luatminhkhue.vn d) Phân bố bất đối xứng bên trái CHÚ DẪN: X giá trị liệu Y tần số Trong phân bố, biểu đồ tần số trình bày phía đồ thị hộp Hình - Đồ thị hộp biểu đồ cột phân bố a) đều, b) hình chuông, c) phân bố đối xứng bên phải d) đối xứng bên trái LUẬT SƯ TƯ VẤN PHÁP LUẬT 24/7 GỌI 1900 6162 Công ty luật Minh Khuê www.luatminhkhue.vn Hình - Đồ thị hộp chỉnh sửa với rào chắn 2.17 Rào chắn (lower fence) Ngưỡng giá trị bất thường (lower outlier cut-off) Giá trị liền kề (lower adjacent value) Giá trị đồ thị hộp (2.16) nằm cách k lần khoảng tứ phân vị (2.14) tứ phân vị thứ (2.12), với giá trị k xác định trước CHÚ THÍCH: Trong phần mềm thống kê có quyền, rào chắn thường lấy Q1 - k (Q3 Q1) với k lấy 1,5 3,0 Trước đây, rào chắn gọi “rào chắn bên trong” k 1,5 “rào chắn bên ngoài” k 3,0 2.18 Rào chắn (upper fence) Ngưỡng giá trị bất thường (upper outlier cut-off) Giá trị liền kề (upper adjacent value) Giá trị đồ thị hộp nằm cách k lần khoảng tứ phân vị (2.14) tứ phân vị thứ ba (2.13), với giá trị k xác định trước CHÚ THÍCH: Trong phần mềm thống kê có quyền, rào chắn thường lấy Q3 + k (Q3 Q1) với k lấy 1,5 3,0 Trước đây, rào chắn gọi “rào chắn bên trong” k 1,5 “rào chắn bên ngoài” k 3,0 2.19 Phần tư (lower fourth) xL:n Đối với tập giá trị quan trắc x(1) ≤ x(2) ≤ … ≤ x(n), đại lượng 0,5 [x(i) + x(i + 1)] f = x(i + 1) f > 0, i phần nguyên n/4 f phân phân số n/4 CHÚ THÍCH 1: Định nghĩa phần tư sử dụng để xác định giá trị khuyến nghị kL kU nêu Phụ lục C giá trị mặc định tùy chọn số phần mềm thống kê sử dụng rộng rãi CHÚ THÍCH 2: Phần tư phần tư (2.20) cặp đơi gọi điểm lề CHÚ THÍCH 3: Phần tư gọi tứ phân vị thứ (2.12) = 0; 0,5 0,75, phần tư giống tứ phân vị thứ Ví dụ: CHÚ THÍCH 4: Khi f LUẬT SƯ TƯ VẤN PHÁP LUẬT 24/7 GỌI 1900 6162 Công ty luật Minh Khuê www.luatminhkhue.vn Cỡ mẫu n i = phần nguyên n/4 f = phần phân số n/4 Tứ phân vị thứ Phần tư 0,25 [x(2) + x(3)]/2 x(3) 10 0,50 x(3) x(3) 11 0,75 x(3) x(3) 12 [x(3) + x(4)]/2 [x(3) + x(4)]/2 2.20 Phần tư (upper fourth) xU:n Đốivới tập giá trị quan trắc x(1) ≤ x(2) ≤ … ≤ x(n), đại lượng 0,5 [x(n - i) + x(n - i + 1)] f = x(n-i) f > 0, i phần nguyên n/4 f phần phân số n/4 CHÚ THÍCH 1: Định nghĩa phần tư sử dụng để xác định giá trị khuyến nghị kL kU nêu Phụ lục C giá trị mặc định tùy chọn số phần mềm thống kê sử dụng rộng rãi CHÚ THÍCH 2: Phần tư (2.19) phần tư cặp gọi điểm lề CHÚ THÍCH 3: Phần tư đơi đề cập đến tứ phân vị thứ ba (2.13) CHÚ THÍCH 4: Khi f = 0; 0,5 0,75, phần tư tứ phân vị thứ ba Ví dụ: Cỡ mẫu n i = phần nguyên n/4 f = phần phân số n/4 Tứ phân vị thứ Phần tư 0,25 [x(7) + x(8)]/2 x(7) 10 0,50 x(8) x(8) 11 0,75 x(8) x(9) 12 [x(9) + x(10)]/2 [x(9) + x(10)]/2 2.21 Sai lầm loại I (type I error) Bác bỏ giả thuyết không thực tế giả thuyết không [TCVN 8244-1:2010 (ISO 3534-1:2006), định nghĩa 1.46] CHÚ THÍCH 1: Sai lầm loại I định sai Do đó, mong muốn trì xác suất đưa định sai nhỏ tốt CHÚ THÍCH 2: Có khả số tình (ví dụ, phép kiểm nghiệm tham số nhị phân p), mức ý nghĩa quy định trước 0,05 đạt rời rạc kết 2.22 Phân bố chuẩn (normal distribution) Phân bố Gaussian (Gaussian distribution) Phân bố liên tục có hàm mật độ xác suất Trong - < x <  với tham số - < µ <   > [TCVN 8244-1:2010 (ISO 3534-1:2006), định nghĩa 2.50] CHÚ THÍCH 1: Tham số vị trí µ trung bình tham số thang đo  độ lệch chuẩn phân bố chuẩn CHÚ THÍCH 2: Mẫu chuẩn mẫu (2.1) ngẫu nhiên, lấy từ tổng thể tuân theo phân bố chuẩn 2.23 Phân bố gama (gamma distribution) Phân bố liên tục có hàm mật độ xác suất LUẬT SƯ TƯ VẤN PHÁP LUẬT 24/7 GỌI 1900 6162 Công ty luật Minh Khuê www.luatminhkhue.vn x > tham số  > 0,  > [TCVN 8244-1:2010 (ISO 3534-1:2006), định nghĩa 2.56] CHÚ THÍCH 1: Phân bố gamma sử dụng ứng dụng liên quan tới độ tin cậy mơ hình thời gian tính đến hỏng Phân bố bao gồm phân bố hàm mũ (2.24) trường hợp đặc biệt trường hợp khác có tỷ lệ hỏng tăng theo tuổi đời CHÚ THÍCH 2: Trung bình phân bố gamma  Phương sai phân bố gamma 2 CHÚ THÍCH 3: Mẫu gamma mẫu (2.1) ngẫu nhiên, lấy từ tổng thể tuân theo phân bố gamma 2.24 Phân bố hàm mũ (exponential distribution) Phân bố liên tục có hàm mật độ xác suất f(x) = -1 exp (-x / ) x > với tham số  > [TCVN 8244-1:2010 (iso 3534-1:2006), định nghĩa 2.58] CHÚ THÍCH 1: Phân bố hàm mũ cung cấp sở cho ứng dụng liên quan đến độ tin cậy, tương ứng với trường hợp “khơng lão hóa” tính chất khơng có nhớ CHÚ THÍCH 2: Trung bình phân bố hàm mũ  Phương sai phân bố hàm mũ 2 CHÚ THÍCH 3: Mẫu hàm mũ mẫu (2.1) ngẫu nhiên, lấy từ tổng thể tuân theo phân bố hàm mũ 2.25 Phân bố Weibull (Weibull distribution) Phân bố cực trị loại III (type III extreme-value distribution) Phân bố liên tục có hàm mật độ xác suất Trong x >  với tham số - <  < ,  > 0,  > [TCVN 8244-1:2010 (ISO 3534-1:2006), định nghĩa 2.63] CHÚ THÍCH 1: Ngồi việc dùng ba phân bố giới hạn có thống kê thứ tự cực trị, phân bố Weibull chiếm vị trí quan trọng ứng dụng khác nhau, đặc biệt độ tin cậy kỹ thuật Phân bố Weibull chứng tỏ cung cấp phù hợp áp dụng cho nhiều loại tập liệu khác CHÚ THÍCH 2: Tham số  tham số vị trí tham số ngưỡng theo nghĩa giá trị nhỏ có phân bố Weibull Tham số  tham số thang đo (liên quan đến độ lệch chuẩn biến Weibull) Tham số  tham số định dạng CHÚ THÍCH 3: Mẫu Weibull mẫu (2.1) ngẫu nhiên, lấy từ tổng thể tuân theo phân bố Weibull 2.26 Phân bố lôga chuẩn (lognormal distribution) Phân bố liên tục có hàm mật độ xác suất x > với tham số - < µ <   > [TCVN 8244-1:2010 (ISO 3534-1:2006), định nghĩa 2.52] 2.27 Phân bố cực trị loại I (type I extreme-value distribution) Phân bố Gumbel (Gumbel distribution) LUẬT SƯ TƯ VẤN PHÁP LUẬT 24/7 GỌI 1900 6162 Công ty luật Minh Khuê www.luatminhkhue.vn Phân bố liên tục có hàm mật độ xác suất - < x <  với tham số - < µ <   > CHÚ THÍCH: Phân bố cực trị đưa phân bố tham chiếu thích hợp cho thống kê thứ tự (2.10) cực trị x(1) x(n) [TCVN 8244-1:2010 (ISO 3534-1:2006), định nghĩa 2.61] Ký hiệu Tiêu chuẩn sử dụng ký hiệu thuật ngữ viết tắt đây: - Giá trị bất thường torng liệu đơn biến 4.1 Khái quát 4.1.1 Giá trị bất thường gì? Trong trường hợp đơn giản nhất, giá trị bất thường quan trắc dường không khớp với phần lại tập liệu cho Nhìn chung, có nhiều giá trị bất thường hai đầu tập liệu Vấn đề xác định xem quan trắc khơng phù hợp rõ ràng có phải giá trị bất thường thực tế hay không Việc xác định thực kiểm nghiệm ý nghĩa xác định trước phân bố phổ biến giả định Các quan trắc dẫn đến kết có ý nghĩa coi giá trị bất thường phân bố LUẬT SƯ TƯ VẤN PHÁP LUẬT 24/7 GỌI 1900 6162 Công ty luật Minh Khuê www.luatminhkhue.vn Không thể nhấn mạnh tầm quan trọng việc sử dụng phân bố phổ biến kiểm nghiệm giá trị bất thường Thông thường thực tế, phân bố chuẩn giả định liệu phát sinh từ phân bố khác Giả định sai dẫn đến phân loại sai quan trắc giá trị bất thường 4.1.2 Nguyên tắc giá trị bất thường gì? Các quan trắc bất thường giá trị bất thường điển hình nhiều nguyên nhân sau (xem Tài liệu tham khảo [1] chi tiết hơn): a) Sai số đo ghi chép Các phép đo tạo khơng xác, quan trắc khơng đúng, ghi chép sai nhập sai vào sở liệu b) Pha tạp Dữ liệu phát sinh từ hai hay nhiều phân bố, nghĩa phân bố phổ biến nhiều phân bố pha tạp Nếu phân bố pha tạp có giá trị trung bình khác đáng kể, độ lệch chuẩn lớn và/hoặc đuôi nặng phân bố phổ biến, có xác suất để quan trắc cực trị xuất phát từ phân bố pha tạp xuất giá trị bất thường phân bố phổ biến CHÚ THÍCH 1: Nguyên nhân pha tạp sai số lấy mẫu phần nhỏ liệu mẫu vơ tình coi lấy từ tổng thể khác với phần lại liệu mẫu; hay báo cáo thiếu báo cáo có chủ ý thực nghiệm hay điều tra lấy mẫu c) Giả định phân bố sai Tập liệu coi rút từ phân bố cụ thể, lại xem lấy từ phân bố khác VÍ DỤ: Tập liệu xem lấy từ phân bố chuẩn, lại xem lấy từ phân bố bất đối xứng cao (ví dụ, hàm mũ lơga chuẩn) phân bố đối xứng đuôi nặng (ví dụ phân bố t) Do đó, quan trắc bị chệch khỏi vị trí trung tâm bị ghi sai giá trị bất thường chúng quan trắc hợp lệ phân bố bất đối xứng cao phân bố nặng đuôi d) Quan trắc Quan trắc khơng có khả xuất xuất trường hợp hiếm, mẫu coi lấy từ phân bố xác suất giả định Các quan trắc cực trị thường gán sai giá trị bất thường xảy ra, chúng không thực giá trị bất thường CHÚ THÍCH 2: Sự xuất quan trắc phân bố phổ biến đối xứng nặng dẫn đến giả định phân bố sai 4.1.3 Tại cần phát giá trị bất thường? Các giá trị bất thường không thiết xấu hay sai lỗi Chúng lấy làm dấu hiệu tồn tượng lý cho việc nghiên cứu thêm Ví dụ, giá trị bất thường gây xử lý cơng nghiệp cụ thể thực phát kiến quan trọng cách điều tra nguyên nhân Nhiều kỹ thuật thống kê thống kê tóm lược nhạy cảm với xuất giá trị bất thường Ví dụ, trung bình mẫu độ lệch chuẩn mẫu dễ bị ảnh hưởng có mặt giá trị bất thường mà dẫn đến kết luận khơng hợp lệ Việc nghiên cứu tính chất tần suất giá trị bất thường vấn đề cụ thể dẫn đến sửa đổi thích hợp phân bố giả định mơ hình liên quan đến tập liệu dẫn đến việc lựa chọn phù hợp phương pháp ổn định chấp nhận xuất giá trị bất thường phân tích liệu dẫn đến kết luận cải thiện (xem Điều 6) 4.2 Sàng lọc liệu Sàng lọc liệu bắt đầu với việc kiểm tra đơn giản mắt tập liệu định Đồ thị liệu đơn giản, đồ thị điểm, đồ thị phân tán, biểu đồ, đồ thị thân lá, đồ thị xác suất, đồ thị hộp, đồ thị theo chuỗi thời gian xếp liệu theo thứ tự khơng giảm độ lớn, cho thấy nguồn biến động ngồi dự đốn điểm liệu cực trị/bất thường Ví dụ phân bố nhị thức tập liệu thể biểu đồ đồ thị thân chứng mẫu pha tạp pha trộn liệu coi lấy từ hai tổng thể khác Khuyến nghị dùng đồ thị xác suất đồ thị hộp cho việc nhận biết điểm liệu cực trị/bất thường Khi đó, giá trị bất thường có nghiên cứu thêm cách sử dụng phương pháp nêu 4.3 4.4 Đồ thị xác suất không cung cấp kiểm nghiệm đồ thị việc quan trắc phần lớn quan trắc coi theo phân bố giả định hay khơng; mà cịn cho thấy quan trắc bất thường tập liệu Các điểm liệu lệch rõ rệt khỏi đường thẳng khớp mắt với điểm đồ thị xác suất xem có khả giá trị bất thường Đồ thị xác suất nhiều phân bố LUẬT SƯ TƯ VẤN PHÁP LUẬT 24/7 GỌI 1900 6162

Ngày đăng: 18/04/2022, 10:43

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w