1. Trang chủ
  2. » Giáo Dục - Đào Tạo

bài tập nhóm phân tích dữ liệu

37 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích Giá Trị Ngoại Lai Trong Dữ Liệu
Tác giả Trần Bội Ngọc, Trần Hoàng Khánh Ly, Đỗ Nguyễn Thanh Tâm, Dương Minh Khuê, Trịnh Hải Vy
Người hướng dẫn Cô Võ Thị Lệ Uyển
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh, Trường Đại Học Kinh Tế - Luật
Chuyên ngành Kinh Tế Đối Ngoại
Thể loại Bài tập nhóm
Năm xuất bản 2022
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 37
Dung lượng 0,94 MB

Cấu trúc

  • I. Tổng quan về giá trị ngoại lai (5)
    • 1. Giá trị ngoại lai (5)
      • 1.1. Khái niệm (5)
      • 1.2. Phân loại (5)
    • 2. Ảnh hưởng của giá trị ngoại lai (5)
  • II. Các phương pháp phát hiện giá trị ngoại lai (6)
    • 1. Phương pháp dùng STATA (7)
      • 1.1. Phương pháp sắp xếp dữ liệu (7)
      • 1.2. Phương pháp Box Plot (7)
      • 1.3. Phương pháp Lệnh Extremes (8)
      • 1.4. Phương pháp biểu đồ (11)
      • 1.5. Phương pháp Spike Plots (12)
      • 1.6. Phương pháp Z-Score (14)
      • 1.7. Phương pháp thống kê mô tả (15)
      • 1.8. Phương pháp biểu đồ phân tán Scatter (16)
    • 2. Các phương pháp không dùng STATA (18)
      • 2.1. Phương pháp Studentized và Standardized Residuals (19)
      • 2.3. Phương pháp dự đoán - Cross-validated (21)
      • 2.4. Phương Pháp Cook’s Distance (22)
      • 2.5. Phương pháp Difference-in-fit (DFFIT) (22)
      • 2.6. Atkinson’s Measure (Ai) (23)
  • III. Phương pháp xử lý chung (25)
    • 1. Loại bỏ các dòng chứa ngoại lai khỏi tập dữ liệu (25)
    • 2. Thay thế bằng một giá trị khác (25)
    • 3. Thay thế giá trị của các điểm ngoại lai bằng NULL (empty) (25)
    • 4. Xử lý giá trị ngoại lai bằng Stata (26)
  • CHƯƠNG 2: THỰC HÀNH STATA (27)
    • 1. Bộ dữ liệu mẫu (27)
    • 2. Phát hiện giá trị ngoại lai (27)
      • 2.1. Thống kê mô tả (27)
      • 2.2. Lệnh Extremes (28)
      • 2.3. Đồ thị (30)
    • 3. Xử lí giá trị ngoại lai và so sánh, kết luận (31)

Nội dung

Khái niệm Giá trị ngoại lai hay còn gọi là điểm dị biệt outliers là một quan sát nằm cách xa bất thường so với các giá trị khác trong tập dữ liệu.Một vấn đề với bình phương nhỏ nhất xảy

Tổng quan về giá trị ngoại lai

Giá trị ngoại lai

Giá trị ngoại lai hay còn gọi là điểm dị biệt (outliers) là một quan sát nằm cách xa bất thường so với các giá trị khác trong tập dữ liệu.

Một vấn đề với bình phương nhỏ nhất xảy ra khi có một hoặc nhiều độ lệch lớn, tức là các trường hợp có giá trị khác biệt đáng kể so với các quan sát khác Những điểm này được gọi là ngoại lệ

Có hai nhóm các giá trị ngoại lai:

 Các giá trị không nằm trong miền xác định của dữ liệu Ví dụ, tuổi, thu nhập hay khoảng cách không thể là số âm.

 Các giá trị có khả năng xảy ra nhưng xác suất rất thấp Ví dụ, 120 tuổi, thu nhập 1 triệu đô la/tháng Những giá trị này có khả năng xảy ra nhưng thực sự hiếm có.

Ảnh hưởng của giá trị ngoại lai

Ảnh hưởng đến phân phối dữ liệu: Nếu có các giá trị ngoại lai trong tập dữ liệu, nó có thể làm thay đổi phân phối tổng thể của dữ liệu Điều này có thể làm biến đổi các tham số thống kê như trung bình, độ lệch chuẩn và phân vị. Ảnh hưởng đến các phép đo tóm tắt: Các giá trị ngoại lai có thể làm thay đổi các phép đo tóm tắt như giá trị trung bình, trung vị và phương sai Do đó, chúng có thể làm thay đổi cách chúng ta hiểu và diễn giải dữ liệu. Ảnh hưởng đến phân tích thống kê: Giá trị ngoại lai có thể gây ảnh hưởng đáng kể đến kết quả của các phân tích thống kê Chẳng hạn, nếu ta sử dụng trung bình làm phép đo trung tâm, một giá trị ngoại lai có thể làm biến đổi kết quả Điều tương tự cũng xảy ra khi sử dụng phương sai hay hệ số tương quan. Ảnh hưởng đến mô hình hồi quy: Trong mô hình hồi quy, giá trị ngoại lai có thể ảnh hưởng đáng kể đến các hệ số hồi quy và độ chính xác của mô hình Chúng có thể gây ra sai lệch trong ước lượng và dự đoán. Ảnh hưởng đến phân tích nhóm: Các giá trị ngoại lai có thể tạo ra các nhóm riêng biệt và ảnh hưởng đến quá trình phân tích nhóm hoặc so sánh giữa các nhóm Điều này có thể làm biến đổi kết quả và tạo ra sự hiểu lầm trong phân tích.

Các phương pháp phát hiện giá trị ngoại lai

Phương pháp dùng STATA

1.1 Phương pháp sắp xếp dữ liệu

Sắp xếp biến giá (theo thứ tự tăng dần) để xem các yếu tố ngoại lai có thể ảnh hưởng đến nó như thế nào, sử dụng lệnh:

Hình 1: Lệnh sắp xếp biến giá

Lệnh chỉnh sửa sẽ mở tập dữ liệu để bạn kiểm tra và chỉnh sửa Trong trường hợp này, biến giá dường như không có giá trị cực trị Sắp xếp và kiểm tra sẽ chỉ để cung cấp cái nhìn tổng quan trực quan về cách các giá trị của một biến tăng lên và liệu một vài giá trị cực đoan có tồn tại riêng lẻ hay không Ngoài ra việc sắp xếp này giúp cho việc xác định giá trị ngoại lai dễ dàng hơn.

Box plot là đồ họa tương đương với một bản tóm tắt gồm năm số hoặc phương pháp liên vùng để tìm các giá trị ngoại lai Để vẽ box plot, hãy nhấp vào tùy chọn menu

’Graphics’ và sau đó nhấp vào ‘Box plot’ Trong hộp thoại mở ra, hãy chọn biến mà bạn muốn kiểm tra các giá trị ngoại lệ từ trình đơn thả xuống trong tab đầu tiên có tên là 'Main'.

Nhấp vào 'Ok' để tạo biểu đồ.

Hình 2: Biểu đồ Box plot

Giá trị được biểu thị ở trên cùng biểu thị một ngoại lệ vì nó nằm ngoài phân phối/mẫu điển hình của biến.

Phương pháp thứ ba đòi hỏi phải sử dụng lệnh Extremes không được tích hợp sẵn trong Stata; nó là một lệnh do người dùng viết Để cài đặt nó, chúng ta gõ:

Hình 3: Lệnh cài đặt Extremes

Nhập lệnh sau cùng với những biến quan tâm:

Hình 4: Kết quả của lệnh Extremes cùng với biến quan tâm

Sau lệnh này, năm quan sát đầu tiên và cuối cùng của biến (dựa trên sắp xếp tăng dần) sẽ được thể hiện rõ Để điều chỉnh đầu ra theo một tỷ lệ phần trăm nhất định của IQR, ta thêm tùy chọn:

Hình 5: :Lệnh điều chỉnh đầu ra theo tỷ lệ phần trăm của IQR

Lệnh đầu tiên cho danh sách các biến ngoại lệ bằng 150% IQR Lệnh đầu tiên cho danh sách các biến ngoại lệ bằng 300% IQR.

Việc thêm một tên biến khác sau tên biến đầu tiên sẽ tạo ra cùng một đầu ra, ngoại trừ việc nó cũng thêm các giá trị/dữ liệu cho biến mới trong bảng đầu ra.

Hình 6: Bảng kết quả của lệnh extremes khi thêm một biến khác

Biểu đồ có thể được tạo bằng cách nhấp vào tùy chọn menu ‘ Graphics’ và sau đó chọn ‘Histogram ' Chọn biến bạn muốn vẽ từ trình đơn thả xuống đầu tiên trong tab 'Main'

Cũng thay đổi cài đặt Trục Y thành 'Tần số' (trong cùng một tab) Nhấn OK'.

Hình 7: Kết quả dưới dạng biểu đồ cột

Thanh ở cuối cùng của biểu đồ biểu thị rõ ràng một quan sát với tần suất rất ít mà giá trị rất cao so với các quan sát khác.

1.5 Phương pháp Spike Plots Để tạo các biểu đồ tăng đột biến, lần lượt chọn Graphics > Distributional graphs >

Spike plots và rootogram Chọn tên biến có liên quan, trong trường hợp này là 'Price' và nhấp vào 'Ok' Không giống như biểu đồ tần suất nơi dữ liệu được tổng hợp trong các thùng, biểu đồ tăng đột biến hiển thị mức tăng đột biến riêng lẻ của từng giá trị của một biến liên tục Mức tăng đột biến đối với các điểm dữ liệu được nhóm lại với nhau có thể được kết luận là không phải là ngoại lệ Bất kỳ sự tăng đột biến nào ở một khoảng cách đáng kể so với các cụm này sẽ cho thấy sự hiện diện của một ngoại lệ Trong trường hợp này, mức tăng đột biến ở mức 50.000 được nhìn thấy một cách cô lập.

Hình 8: Kết quả phương pháp Spike Plots

Phương pháp này đòi hỏi phải tính toán z-score của các biến Nếu bất kỳ giá trị nào trong số này nằm ngoài ba độ lệch chuẩn so với giá trị trung bình (trong trường hợp này, giá trị trung bình này sẽ bằng 0 do việc tính toán điểm số z liên quan đến việc chuẩn hóa), thì các quan sát tương ứng sẽ được coi là giá trị ngoại lệ Điểm Z có thể được tạo bằng cách chuẩn hóa một biến bằng cách sử dụng lệnh chuẩn hoá biển giả sau:

Hình 9: Lệnh chuẩn hoá biến giả

Z- score cho tất cả các quan sát đều nhỏ hơn 1,5 ngoại trừ quan sát có giá trị bằng 50.000 Z- score trong trường hợp này là 7,49.

1.7 Phương pháp thống kê mô tả:

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Hình 10: Kết quả của phương pháp thống kê sau khi chạy lệnh fre

Cả tần số và thống kê tóm tắt đều chỉ ra rằng dv có giá trị tối đa là 99, cao hơn nhiều so với các giá trị khác của dv Không có giá trị nào ngay lập tức dính ra cho iv

1.8 Phương pháp biểu đồ phân tán Scatter Đặc biệt khi mẫu nhỏ, có thể sử dụng lệnh scatter để vẽ dv và iv.

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Hình 11: Kết quả của phương pháp biểu đồ phân tán Scatter Lưu ý: với trường hợp này, giá trị ngoại biên nằm ở phía trên bên phải

Sau khi chúng ta đã chạy hồi quy, chúng ta có một số lệnh sau ước tính hơn có thể giúp chúng ta xác định các ngoại lai Theo Hướng dẫn sử dụng Stata 12, "Một trong những biểu đồ chẩn đoán hữu ích nhất được cung cấp bởi lvr2plot (leverage so với biểu đồ bình phương dư), một biểu đồ leverage so với bình phương dư (chuẩn hóa)." Việc thêm tuỳ chọn mlabel làm cho biểu đồ lộn xộn hơn, nhưng bằng cách gắn nhãn các dấu chấm, sẽ dễ dàng hơn để xem vấn đề ở đâu.

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Hình 12: Kết quả của phương pháp biểu đồ phân tán Scatter sau khi thêm mlabel

Hướng dẫn sử dụng Stata 12 cho biết "Các đường trên biểu đồ hiển thị các giá trị trung bình của leverage và bình phương dư (chuẩn hóa) Các điểm trên đường ngang có điểm leverage cao hơn mức trung bình; Các điểm bên phải của đường thẳng đứng có dư lượng lớn hơn mức trung bình."

Biểu đồ cho chúng ta thấy rằng trường hợp 9 có phần dư rất lớn (tức là sự khác biệt giữa giá trị dự đoán và quan sát được cho trường hợp 9 là đặc biệt lớn) nhưng nó không có nhiều đòn bẩy Các trường hợp ở phía trên bên phải của biểu đồ (nếu có) sẽ đặc biệt quan trọng vì chúng sẽ là leverage cao và phần dư lớn.

Các phương pháp không dùng STATA

Với mô hình mẫu được đưa ra có dạng tổng quát :

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

 yn1 là biến phụ thuộc

Sau đó, ta sẽ có:

 Ước tính bình phương nhỏ nhất :

 Giá trị dự đoán cho Y trung bình :

**Trong trường hợp trên thì các ngoại lệ sẽ được phát hiện bởi các phương pháp sau:

2.1 Phương pháp Studentized và Standardized Residuals Công thức :

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Trong đó, σˆ2 ( là tổng dư trung bình của bình phương - mean residual Sum of Squares) được tính theo công thức Với k là số biến như đã đề cập trong mô hình tổng quát

Theo phương pháp Studentized Residuals, nếu mô hình hồi quy là phù hợp - nghĩa là mô hình không có giá trị ngoại lệ, thì mỗi thành phần sẽ phải tuân theo phân phối t với bậc tự do là n-k-1.

Qua đó ta sẽ tính được:

Trong đó, sd (σ ) là độ lệch chuẩn của σˆ 2 được tính ở công thức trên.

Khi đó nếu di > 3 thì có khả năng chỉ ra ngoại lệ.

Phương pháp Jackknife Residuals là phần dư, với các giả định của phương sai tuân theo phân phối student, có bậc tự do là (n − k − 1)

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

 εS.i là giá trị được tính theo công thức của phương pháp Studentized Residuals Công thức (2.5).

Phương pháp Jackknife kiểm tra ảnh hưởng của từng biến riêng lẻ đến sai số bậc 2 của dự đoán.

2.3 Phương pháp dự đoán - Cross-validated

Phương pháp này dùng để kiểm tra quan sát thứ i Phương pháp này được hiểu là đánh giá phần dư của quan sát thứ i khi đã bỏ quan sát thứ i ra khỏi mô hình Tổng bình phương của phương sai dự đoán hay còn gọi là PRESS được xác định bởi công thức :

PRESS là Tổng dự đoán của bình phương (Prediction sum of squares), dùng để đánh giá khả năng dự đoán của mô hình PRESS tương tự như tổng dư của bình phương, là tổng bình phương của các phương sai sai số dự đoán Trong mô hình hồi quy PRESS được tính theo công thức:

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Trong đó εi = phần dư hi và hi là giá trị đòn bẩy cho quan sát thứ i Khi giá trị PRESS càng nhỏ thì khả năng dự đoán của mô hình càng tốt.

2.4 Phương Pháp Cook’s Distance Đây là phương pháp xét về khoảng cách Di của quan sát, i ở đây được định nghĩa là tổng của tất cả các thay đổi trong mô hình hồi quy khi loại bỏ quan sát i Cook đã đề xuất một phương pháp thống kê để phát hiện ngoại lệ như sau: là sai số bình phương trung bình của mô hình hồi quy Công thức tương đương khi dùng hi

Di ở đây là giá trị đo tổng các thay đổi bình phương trong các dự đoán khi quan sát”i” không được dùng để ước tính β Di xấp xỉ theo phân bố F (p, n-p)

** Giá trị được cho là ngoại lai theo Cook-Statistic là khi Di > 1 hoặc Di > 4/n

2.5 Phương pháp Difference-in-fit (DFFIT)

Với phương pháp này thì có phần tương đồng với phương pháp của Cook Nhưng phương pháp này không nhìn vào tất cả các giá trị dự đoán với việc bỏ quan sát thứ i ra Mà

Downloaded by ng?c trâm (ngoctram201217@gmail.com) phương pháp DFFIT nhìn vào các giá trị dự đoán cho quan sát thứ i Phương pháp này là sự kết hợp giữa giá trị đòn bẩy (hi) và studentized residual để tạo thành một thang đo tổng thể về mức độ bất thường của một quan sát

Trong đó: εi = dư, n = cỡ mẫu, k = số lượng tham số trong mô hình, σ2 = phương sai và hi = giá trị đòn bẩy cho quan sát thứ i.

** Giá trị cắt bỏ của DFFIT là 2kn

2.6 Atkinson’s Measure (Ai) Đây là phương pháp phân tích dùng để tăng cường độ nhạy của các biện pháp đo lường khoảng cách đến điểm đòn bẩy Atkinson đã điều chỉnh phiên bản của phương pháp Cook, khiến phương pháp Atkinson thậm chí còn cho ra kết quả chặt chẽ hơn DFFIT

 n,k, hi là các giá trị được định nghĩa ở công thức (2.13) ở trên

 εJ i là giá trị tuyệt đối của phần dư Jackknife.

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

** Biện pháp này cũng tạo nên sự thuận tiện khi giải thích bằng đồ hoạ.

Bên cạnh, các phương pháp trên còn một số phương pháp sau có thể cân nhắc:

Phân phối thống kê: Dựa trên tính toán các tham số thống kê như trung bình, độ lệch chuẩn, quantile, ta có thể xác định giá trị ngoại lai dựa trên khoảng tin cậy hoặc ngưỡng quyết định.

Kỹ thuật đánh giá: Sử dụng các mô hình dự đoán hoặc mô hình học máy để đánh giá giá trị dự kiến và so sánh với giá trị quan sát để phát hiện giá trị ngoại lai Ví dụ: các mô hình hồi quy, mạng neural, hay cây quyết định.

Phương pháp dự đoán: Sử dụng mô hình học máy để dự đoán giá trị dự kiến và sau đó so sánh với giá trị quan sát Các giá trị có sai số lớn hơn ngưỡng xác định có thể được xem là giá trị ngoại lai.

Phương pháp dựa trên thuật toán: Sử dụng các thuật toán đặc biệt được thiết kế để phát hiện giá trị ngoại lai như Isolation Forest, Local Outlier Factor (LOF), One-Class SVM, và DBSCAN.

Ngoài ra, còn có nhiều phương pháp để phát hiện các ngoại lệ trong hồi quy tuyến tính Chúng có thể được phân loại thành các phương pháp đồ họa và phân tích Các phương pháp đồ họa bao gồm đồ thị Scatter, Boxplot, đồ thị Williams, đồ thị Rankit (hoặc Biểu đồ Q-Q) và đồ thị của phần dư dự đoán Các phương pháp phân tích là dự đoán dư lượng, dư lượng tiêu chuẩn, dư lượng sinh học, dư lượng dao Jack, khoảng cách của Cook, Different- in-fits (DFFITS) và thước đo của Atkinson Tuy nhiên, không phải phương pháp nào cũng có thể tuỳ tiện áp dụng mà phương pháp phát hiện giá trị ngoại lệ cụ thể sẽ phụ thuộc vào bản chất của dữ liệu và mục tiêu của bạn trong việc phát hiện giá trị ngoại lệ Việc áp dụng các phương pháp khác nhau có thể cần được thực hiện để đảm bảo kết quả chính xác và toàn diện.

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Phương pháp xử lý chung

Loại bỏ các dòng chứa ngoại lai khỏi tập dữ liệu

Đây là cách xử lý ngoại lai đơn giản và dễ thực hiện nhất Sau khi phát hiện các điểm ngoại lai, thực hiện xóa các dòng dữ liệu chứa giá trị ngoại lai này khỏi tập dữ liệu Tuy nhiên, phương pháp này chỉ áp dụng cho tập dữ liệu chứa các biến độc lập Với dữ liệu dạng chuỗi thời gian (Time series data), chúng ta không thể sử dụng phương pháp này để loại bỏ một điểm ngoại lai tại một vị trí vì các điểm dữ liệu trong chuỗi thời gian có mối quan hệ tương quan với nhau Ngoài ra, với dữ liệu có nhiều thuộc tính khác nhau, nếu xóa cả dòng dữ liệu chứa một thuộc tính có giá trị ngoại lai sẽ làm mất thông tin trên các cột khác nếu cột này cần cho phân tích.

Thay thế bằng một giá trị khác

Thay thế giá trị của các điểm ngoại lai bằng một giá trị khác phù hợp hơn với tập dữ liệu Với phương pháp này vấn đề khó khăn gặp phải đó là lựa chọn giá trị nào để thay thế cho giá trị của điểm ngoại lai Câu trả lời là tùy thuộc vào từng loại dữ liệu, kiểu dữ liệu và trong những ngữ cảnh cụ thể để xác định được giá trị thay thế phù hợp nhất Trong một số trường hợp có thể thay thế các giá trị ngoại lại bằng giá trị trung bình (mean) của tập dữ liệu,hoặc thay thế bằng một giá trị cụ thể (specific value) do các nhà phân tích dữ liệu, chuyên gia đề xuất.

Thay thế giá trị của các điểm ngoại lai bằng NULL (empty)

Việc thực hiện này sẽ chuyển đổi các điểm ngoại lai thành các điểm thiếu dữ liệu (missing value) Các điểm ngoại lai bây giờ được xem xét như là một điểm dữ liệu thiếu trong tập dữ liệu để xử lý

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Xử lý giá trị ngoại lai bằng Stata

Trước tiên, cần phải tải và cài đặt câu lệnh Winsorization vào Stata bằng lệnh: ssc install winsor2

Cách 1: Vì giá trị ngoại lai thường là các giá trị lớn nhất hoặc nhỏ nhất trong biến nên đối với các quan sát có giá trị bé hơn 5% và 95% percentile sẽ bị loại bỏ bằng lệnh: winsor2 x1, replace cuts(5 95) trim

Cách 2: Các quan sát có giá trị bé hơn 5% percentile sẽ được thay thế bằng giá trị 5% percentile, Các quan sát có giá trị lớn hơn 95% percentile sẽ được thay thế bằng giá trị tại 95% percentile: winsor2 x1, replace cuts(5 95)

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

THỰC HÀNH STATA

Bộ dữ liệu mẫu

Sử dụng bộ dữ liệu mẫu được cung cấp trong nghiên cứu về Các giá trị ngoại lai củaRichard Williams (2016).

Phát hiện giá trị ngoại lai

Chúng ta dùng thống kê mô tả để mô tả những đặc tính cơ bản của dữ liệu thu thập được từ nghiên cứu Sử dụng lệnh sau:

Basic descriptive stats tab dv iv

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Hình 13: Bảng tần số của phương pháp thống kê mô tả

Bảng tần số chỉ ra rằng dv có giá trị tối đa là 99, cao hơn nhiều so với các giá trị khác của dv

Hoặc chúng ta có thể dùng lệnh Extremes để dễ dàng xác định các giá trị cực đại và cực tiểu hơn

Nếu phần mềm Stata chưa hỗ trợ lệnh này, chúng ta có thể cài đặt bằng lệnh ssc install extremes

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Hình 14: Bảng kết quả sau khi nhập nhập Extremes

Kết quả cho thấy trường hợp 9 có vẻ rất khác so với các trường hợp còn lại và có giá trị rất đáng ngờ là 99

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

2.3 Đồ thị a) Biểu đồ phân tán Scatter

Hình 15: Kết quả dưới dạng biểu đồ phân tán Scatter

Thông qua đồ thị Scatter, ta có thể thấy có một giá trị ngoại lệ ở phía trên bên phải đồ thị với giá trị xấp xỉ 100

Downloaded by ng?c trâm (ngoctram201217@gmail.com) b) Biểu đồ hộp Box-plot

Hình 16: Kết quả dưới dạng biểu đồ Box-plot

Thông qua biểu đồ Box-plot, ta có thể thấy có một giá trị ngoại lệ ở phía trên cùng của đồ thị với giá trị xấp xỉ 100.

Xử lí giá trị ngoại lai và so sánh, kết luận

a Xử lí giá trị ngoại lai

Chúng ta sử dụng phương pháp Winsorization để có thể thực hiện xử lý các giá trị ngoại lai Winsorization đề cập đến việc thay đổi giá trị của một ngoại lai thành quan sát gần nhất (đó không phải là ngoại lai).

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Nếu phần mềm Stata chưa hỗ trợ lệnh này, chúng ta có thể cài đặt bằng lệnh ssc install winsor2.

Hình 17: Lệnh cài đặt phương pháp Winsorization

Tiến hành chạy lệnh Winsorization

Lệnh này thay thế các ngoại lai bằng phần trăm mà chỉ định Có thể thu được tổng quan nhanh về phân phối của một biến ở dạng bảng bằng cách sử dụng lệnh detail với summarize – nó sẽ trả về các giá trị ở các phân vị khác nhau.

Hình 18: Bảng kết quả sau khi chạy lệnh Wínorization

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Có các cách để xử lý giá trị ngoại lai như sau:

Cách 1: Hồi quy mô hình đã loại bỏ giá trị ngoại lai

Cách 2: Loại bỏ các quan sát có giá trị bé hơn phân vị 5% và lớn hơn phân vị 95%

Trong phương pháp này, chúng tôi loại bỏ các ngoại lai mà chúng tôi sử dụng lại lệnh winsor2 Ở đây, chúng tôi thêm tùy chọn cắt để bỏ đi những giá trị ngoại lai Và sau đó chạy lại mô hình, được giá trị như sau:

Hình 19: Bảng kết quả của phương pháp hồi quy mô hình đã loại bỏ giá trị ngoai lai

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Hình 20: Bảng kết quả cho phương pháp loại bỏ các quan sát có giá trị bé hơn phân vị 5% và lớn hơn phân vị 95%

Cách 3: Các quan sát có giá trị bé hơn phân vị 5% sẽ được thay thế bằng giá trị tại phân vị 5% Các quan sát có giá trị lớn hơn phân vị 95% sẽ được thay thế bằng giá trị tại phân vị 95%:

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Hình 21: Bảng kết quả cho phương pháp các quan sát có giá trị bé hơn phân vị 5% sẽ được thay thế bằng giá trị tại phân vị 5% Các quan sát có giá trị lớn hơn phân vị 95% sẽ được thay thế bằng giá trị tại phân vị 95%

Tóm lại, tất cả các giá trị ngoài phân vị thứ 95% đã được thay thế bằng giá trị ở phân vị thứ 95% b So sánh và kết luận:

Ta có mô hình trước khi xử lí giá trị ngoại lai:

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Hình 22:Bảng kết quả so sánh

Theo lý thuyết, R2 là một chỉ số được sử dụng để đánh giá mức độ phù hợp của một mô hình tuyến tính với dữ liệu Chỉ số này thường có giá trị từ 0 đến 1, với giá trị càng gần 1 thì mô hình càng phù hợp với dữ liệu Nhìn vào mô hình hồi quy, ta thấy R2= 0.2290

Sau khi xử lí giá trị ngoại lai theo 3 cách được nêu trên, cách 1 và cách 3 cho ra hệ số β2của iv xấp xỉ nhau Nên nhóm đề xuất dùng cách xử lí tập trung vào giá trị ngoại lai, cụ thể là loại bỏ giá trị ngoại lai đó hoặc thay thế nó bằng giá trị tại phân vị 95% Hơn nữa, cách 1 và cách 3 lần lượt cho ra giá trị của R2 lần lượt là 0.4729, 0.4742 đều cao hơn cách 2. Điều đó có nghĩa rằng sau khi xử lí giá trị ngoại lai, giá trị R2 cao hơn, thì mô hình hồi quy có khả năng giải thích sự biến động của biến phụ thuộc càng tốt, phù hợp với dữ liệu mà nhóm phân tích.

Downloaded by ng?c trâm (ngoctram201217@gmail.com)

Ngày đăng: 27/05/2024, 15:24

HÌNH ẢNH LIÊN QUAN

Hình 2: Biểu đồ Box plot - bài tập nhóm phân tích dữ liệu
Hình 2 Biểu đồ Box plot (Trang 8)
Hình 4: Kết quả của lệnh Extremes cùng với biến quan tâm - bài tập nhóm phân tích dữ liệu
Hình 4 Kết quả của lệnh Extremes cùng với biến quan tâm (Trang 9)
Hình 6: Bảng kết quả của lệnh extremes khi thêm một biến khác - bài tập nhóm phân tích dữ liệu
Hình 6 Bảng kết quả của lệnh extremes khi thêm một biến khác (Trang 10)
Hình 7: Kết quả dưới dạng biểu đồ cột - bài tập nhóm phân tích dữ liệu
Hình 7 Kết quả dưới dạng biểu đồ cột (Trang 11)
Hình 8: Kết quả phương pháp Spike Plots - bài tập nhóm phân tích dữ liệu
Hình 8 Kết quả phương pháp Spike Plots (Trang 14)
Hình 10: Kết quả của phương pháp thống kê sau khi chạy lệnh fre - bài tập nhóm phân tích dữ liệu
Hình 10 Kết quả của phương pháp thống kê sau khi chạy lệnh fre (Trang 16)
Hình 11: Kết quả của phương pháp biểu đồ phân tán Scatter - bài tập nhóm phân tích dữ liệu
Hình 11 Kết quả của phương pháp biểu đồ phân tán Scatter (Trang 17)
Hình 12: Kết quả của phương pháp biểu đồ phân tán Scatter sau khi thêm mlabel - bài tập nhóm phân tích dữ liệu
Hình 12 Kết quả của phương pháp biểu đồ phân tán Scatter sau khi thêm mlabel (Trang 18)
Hình 13: Bảng tần số của phương pháp thống kê mô tả - bài tập nhóm phân tích dữ liệu
Hình 13 Bảng tần số của phương pháp thống kê mô tả (Trang 28)
Hình 14: Bảng kết quả sau khi nhập nhập Extremes - bài tập nhóm phân tích dữ liệu
Hình 14 Bảng kết quả sau khi nhập nhập Extremes (Trang 29)
Hình 15: Kết quả dưới dạng biểu đồ phân tán Scatter - bài tập nhóm phân tích dữ liệu
Hình 15 Kết quả dưới dạng biểu đồ phân tán Scatter (Trang 30)
Hình 16: Kết quả dưới dạng biểu đồ Box-plot - bài tập nhóm phân tích dữ liệu
Hình 16 Kết quả dưới dạng biểu đồ Box-plot (Trang 31)
Hình 17: Lệnh cài đặt phương pháp Winsorization - bài tập nhóm phân tích dữ liệu
Hình 17 Lệnh cài đặt phương pháp Winsorization (Trang 32)
Hình 19: Bảng kết quả của phương pháp hồi quy mô hình đã loại bỏ giá trị ngoai lai - bài tập nhóm phân tích dữ liệu
Hình 19 Bảng kết quả của phương pháp hồi quy mô hình đã loại bỏ giá trị ngoai lai (Trang 33)
Hình 20: Bảng kết quả cho phương pháp loại bỏ các quan sát có giá trị bé hơn phân vị 5% - bài tập nhóm phân tích dữ liệu
Hình 20 Bảng kết quả cho phương pháp loại bỏ các quan sát có giá trị bé hơn phân vị 5% (Trang 34)
Hình 22:Bảng kết quả so sánh - bài tập nhóm phân tích dữ liệu
Hình 22 Bảng kết quả so sánh (Trang 36)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w