MỤC LỤC
Biểu đồ có thể được tạo bằng cách nhấp vào tùy chọn menu ‘Graphics’ và sau đó chọn ‘Histogram'. Chọn biến bạn muốn vẽ từ trình đơn thả xuống đầu tiên trong tab 'Main'. Thanh ở cuối cựng của biểu đồ biểu thị rừ ràng một quan sỏt với tần suất rất ớt mà giỏ trị rất cao so với các quan sát khác.
Để tạo các biểu đồ tăng đột biến, lần lượt chọn Graphics > Distributional graphs >. Chọn tên biến có liên quan, trong trường hợp này là 'Price' và nhấp vào 'Ok'. Không giống như biểu đồ tần suất nơi dữ liệu được tổng hợp trong các thùng,.
Mức tăng đột biến đối với các điểm dữ liệu được nhóm lại với nhau có thể được kết luận. Bất kỳ sự tăng đột biến nào ở một khoảng cách đáng kể so với các cụm này sẽ cho thấy sự hiện diện của một ngoại lệ.
Cả tần số và thống kê tóm tắt đều chỉ ra rằng dv có giá trị tối đa là 99, cao hơn nhiều so với các giá trị khác của dv.
Sau khi chúng ta đã chạy hồi quy, chúng ta có một số lệnh sau ước tính hơn có thể giúp chúng ta xác định các ngoại lai. Theo Hướng dẫn sử dụng Stata 12, "Một trong những biểu đồ chẩn đoán hữu ích nhất được cung cấp bởi lvr2plot (leverage so với biểu đồ bình phương dư), một biểu đồ leverage so với bình phương dư (chuẩn hóa)." Việc thêm tuỳ chọn mlabel làm cho biểu đồ lộn xộn hơn, nhưng bằng cách gắn nhãn các dấu chấm, sẽ dễ dàng hơn để xem vấn đề ở đâu. Các điểm trên đường ngang có điểm leverage cao hơn mức trung bình; Các điểm bên phải của đường thẳng đứng có dư lượng lớn hơn mức trung bình.".
Biểu đồ cho chúng ta thấy rằng trường hợp 9 có phần dư rất lớn (tức là sự khác biệt giữa giá trị dự đoán và quan sát được cho trường hợp 9 là đặc biệt lớn) nhưng nó không có nhiều đòn bẩy. Các trường hợp ở phía trên bên phải của biểu đồ (nếu có) sẽ đặc biệt quan trọng vì chúng sẽ là leverage cao và phần dư lớn.
Trong đó, σˆ2 ( là tổng dư trung bình của bình phương - mean residual Sum of Squares) được tính theo công thức. Theo phương pháp Studentized Residuals, nếu mô hình hồi quy là phù hợp - nghĩa là mô hình không có giá trị ngoại lệ, thì mỗi thành phần sẽ phải tuân theo phân phối t với bậc tự do là n-k-1. Phương pháp Jackknife Residuals là phần dư, với các giả định của phương sai tuân theo phân phối student, có bậc tự do là (n − k − 1).
PRESS là Tổng dự đoán của bình phương (Prediction sum of squares), dùng để đánh giá khả năng dự đoán của mô hình. Đây là phương pháp xét về khoảng cách Di của quan sát, i ở đây được định nghĩa là tổng của tất cả các thay đổi trong mô hình hồi quy khi loại bỏ quan sát i. Phương pháp này là sự kết hợp giữa giá trị đòn bẩy (hi) và studentized residual để tạo thành một thang đo tổng thể về mức độ bất thường của một quan sát.
Đây là phương pháp phân tích dùng để tăng cường độ nhạy của các biện pháp đo lường khoảng cách đến điểm đòn bẩy. Atkinson đã điều chỉnh phiên bản của phương pháp Cook, khiến phương pháp Atkinson thậm chí còn cho ra kết quả chặt chẽ hơn DFFIT. Phân phối thống kê: Dựa trên tính toán các tham số thống kê như trung bình, độ lệch chuẩn, quantile, ta có thể xác định giá trị ngoại lai dựa trên khoảng tin cậy hoặc ngưỡng quyết định.
Kỹ thuật đánh giá: Sử dụng các mô hình dự đoán hoặc mô hình học máy để đánh giá giá trị dự kiến và so sánh với giá trị quan sát để phát hiện giá trị ngoại lai. Phương pháp dự đoán: Sử dụng mô hình học máy để dự đoán giá trị dự kiến và sau đó so sánh với giá trị quan sát. Phương pháp dựa trên thuật toán: Sử dụng các thuật toán đặc biệt được thiết kế để phát hiện giá trị ngoại lai như Isolation Forest, Local Outlier Factor (LOF), One-Class SVM, và DBSCAN.
Các phương pháp đồ họa bao gồm đồ thị Scatter, Boxplot, đồ thị Williams, đồ thị Rankit (hoặc Biểu đồ Q-Q) và đồ thị của phần dư dự đoán. Các phương pháp phân tích là dự đoán dư lượng, dư lượng tiêu chuẩn, dư lượng sinh học, dư lượng dao Jack, khoảng cách của Cook, Different- in-fits (DFFITS) và thước đo của Atkinson. Tuy nhiên, không phải phương pháp nào cũng có thể tuỳ tiện áp dụng mà phương pháp phát hiện giá trị ngoại lệ cụ thể sẽ phụ thuộc vào bản chất của dữ liệu và mục tiêu của bạn trong việc phát hiện giá trị ngoại lệ.
Trước tiên, cần phải tải và cài đặt câu lệnh Winsorization vào Stata bằng lệnh: ssc install winsor2. Cách 1: Vì giá trị ngoại lai thường là các giá trị lớn nhất hoặc nhỏ nhất trong biến nên đối với các quan sát có giá trị bé hơn 5% và 95% percentile sẽ bị loại bỏ bằng lệnh: winsor2 x1, replace cuts(5 95) trim. Cách 2: Các quan sát có giá trị bé hơn 5% percentile sẽ được thay thế bằng giá trị 5%.
Hoặc chúng ta có thể dùng lệnh Extremes để dễ dàng xác định các giá trị cực đại và cực tiểu hơn. Nếu phần mềm Stata chưa hỗ trợ lệnh này, chúng ta có thể cài đặt bằng lệnh ssc install extremes. Kết quả cho thấy trường hợp 9 có vẻ rất khác so với các trường hợp còn lại và có giá trị rất đáng ngờ là 99.
Thông qua đồ thị Scatter, ta có thể thấy có một giá trị ngoại lệ ở phía trên bên phải đồ thị với giá trị xấp xỉ 100. Thông qua biểu đồ Box-plot, ta có thể thấy có một giá trị ngoại lệ ở phía trên cùng của đồ thị với giá trị xấp xỉ 100.