ccc cceccccccccccccccceseescesetstecccceecececcssesssntttntssceeeecececeneeeeeseeeees 5 Hình 4: Kết quả của lệnh Extremes cùng với biến quan tâm...---- s- 22 2 SE ExEcrxrrsxe 6 Hình 5: :
Trang 1ĐẠI HỌC QUOC GIA THANH PHO HO CHI MINH TRUONG ĐẠI HỌC KINH TẾ - LUAT KHOA KINH TẾ ĐÓI NGOẠI
BÀI TẬP NHÓM Giảng viên hướng dẫn: Cô Võ Thị Lệ Uyén
Mã lớp học phần: 225TO3502
Người thực hiện:
Trần Bội Ngọc — K214021484 (Trưởng nhóm) Trần Hoàng Khánh Ly - K214021483
Đỗ Nguyễn Thanh Tâm — K214021486
Dương Minh Khuê — k214021480
Trinh Hai Vy — K214020167
MUC LUC
Trang 22 Ảnh hưởng của giá trị ngoại Ìai: 5 5s tt E21 1 E2 11212 1E 1 ng ngờ 3
IL Các phương pháp phát hiện giá trỊ ngOạI ÍaI cà 1 1n HH ng SH xu ng nay 4
1 Phương pháp dùng 2O TT QMMMMMMMMMMMMWNgHđđđđđđđ116A 5 1.1 Phương pháp sắp xếp dữ liệu 2 2 2212221112111 1112111212 81111 2821811 5 1.2 Phương pháp Box Pot - - 222 1211212121211 121 1112151211101 11 1811181120111 1 111k ky 5 1.3 Phuong phap Lénh Extremes eccrine etee entireties 6 1.4 Phương pháp biêu Ởỗ - 2 020 1221112212 1112 1152115111111 151151110111 151g key 8 1.5 Phương pháp SpIke PÏofs L0 22 222122211111 11121152111 1115111011511 115111811211 key 9 1.6 Phương pháp Z-ŠCOFC che 10 1.7 Phương pháp thông kê ¡00 ccc ccec cece cece ceeeeeeseseeeeeseeesesseesseeiseeeceseennteeees II 1.8 Phương pháp biêu đồ phân tán ŠScaffer c0 2212221112211 11112 2k re 12
2 Các phương pháp không dùng ŠTAÍTA: L2 1221122112211 111 112 115 Hy re 13 2.1 Phương pháp Studentized và Standardized ResidualÌs - - 2c c 2c ccsssc2 14 2.3 Phương pháp dự đoán - Cross-validated c2 12 n2 HH He 16 2.4 Phương Pháp Cook”s [DIstance L c c2 212121212112 1111511111115 2H key 17 2.5 Phương pháp Diference-in-ft (DFFFT) (2 222 222122121211 11111 15151151112 kxes 17
P NI s II 0i dýaiiiiDùDùDŨẶỤẶẰẶỤẶỤẠAI 18
IH Phương pháp xử lý chung 20
1 Loại bỏ các dòng chứa ngoại lai khỏi tập dữ liệu: 5 2 2222222122222 rrrxc2 20
2 Thay thế bằng một giá trị khác: - se tt E1 112111111 1121111101211 1 ru 20
3 Thay thế giá trị của các điểm ngoại lai bằng NULL (empty): - ¿5s cccccssrszczsrez 20
4 Xử lý giá trị ngoại lai bằng Stata - c1 n HH nga 21
CHƯƠNG 2: THỰC HANH STATA cssesscsssssssesssssssssssssssesscssscsscsssssseasecssssesesseneneesees 22
1 Bộ dữ liệu mẫu ¿52t 22t 22 12221122211221112211211 T1 T1 22
2 Phát hiện giá trị ngoạI ÌaI 2012211212112 211111 11121112111 111181 118111011 18111811 k tr 22
2.1 Thông kê mô tả 12 20121121121 121 15111118211 111 1011111 111111111011 11 11 H1 HH re 22
;886:.¡.0 5c: 23
PO ›)0 11a 25 a) Biêu đô phan tan Scatter ccc ccc cee cee ceceessecnseceeceseesseceesetessseeneentiees 25 b) Biêu đồ hộp Box-plo( 0 2.11222112211221 1111112115021 1111 1511120111111 111111 xe 26
3 Xử lí giá trị ngoại lai và so sánh, kết luận S2 2n TE ng TT TH HH HH He ea 26
Trang 4DANH MỤC HÌNH ẢNH
Hình I: Lệnh sắp xếp biến giá 5 SE 1E 151121111 111101121111 1 Hay 4 Hình 2: Biểu đồ Box pÏo( 5 151 2 12 1 121111 1121121111 12T 110121 tr gen 5
Hinh 3: Lệnh cài đặt Extremes ccc cceccccccccccccccceseescesetstecccceecececcssesssntttntssceeeecececeneeeeeseeeees 5
Hình 4: Kết quả của lệnh Extremes cùng với biến quan tâm s- 22 2 SE ExEcrxrrsxe 6 Hình 5: :Lệnh điều chỉnh đầu ra theo tỷ lệ phần trăm của [QR 2 cccnSEsserrr re 6 Hình 6: Bảng kết quá của lệnh extremes khi thêm một biến khác 2: 222cc ve szxe2 7
Hình 7: Kết quả dưới dạng biểu đỗ cột 5 S21 2E121121111 1 1110101211121 re 8
Hinh 8: Két qua phurong phap Spike Plots cccccccccsscsscssessesesseesessesevsessvseevevseseevsvareevseseees 9
Hinh 9: Lénh chuan hoa bién gia c.cccccccccsccssescssessessesssessesssssssessvsessesevssesecsvssesecsecevsevseceveees 9
Hình 10: Kết quá của phương pháp thống kê sau khi chạy lệnh fe -5- 2 c2 sec 10 Hình 11: Kết quả của phương pháp biểu đồ phân tán Scatter 2 5c cty lãi Hình 12: Kết quá của phương pháp biểu đồ phân tán Scatter sau khi thêm mlabel 12 Hình 13: Bảng tần số của phương pháp thống kê mô tả -2- 52 S1 EEESE ve SE Erkeri 22
Hình 14: Bang két qua sau khi nhập nhập Extremes - - 12c 2 2222221122212 1112 xe 23
Hình 15: Kết quả dưới dạng biểu đồ phân tán Scatter 5-55 nề nh He re 24 Hình 16: Kết quả dưới dạng biểu đồ Box-pÏot - 5s x1 E12 1 trêu 25 Hình I7: Lệnh cài đặt phương pháp WInsor1zatIon - 2 2221222112112 221112 tr key 26
Hình I8: Bảng kết quả sau khi chạy lệnh Wínor1zafion c2: 222211212 xxx re 26
Hình 19: Bảng kết quả của phương pháp hồi quy mô hình đã loại bỏ giá trị ngoai lai 27 Hình 20: Bảng kết quả cho phương pháp loại bỏ các quan sát có giá trị bé hơn phân vị 5% va
080198000585 077 27 Hình 21: Bảng kết quả cho phương pháp các quan sát có giá trị bé hơn phân vị 5% sẽ được thay thế bằng giá trị tại phân vị 5% Các quan sát có giá trị lớn hơn phân vị 95% sẽ được
thay thế bằng giá trị tại phân vị 95% - St THỰ 1101212211121 11111 28 Hình 22:Bảng kết quả so sánh 55 S12 11E1111211211111 11.111 1 1111 1 ng to 29
Trang 5CHUONG 1: CO SO LY THUYET
I Tổng quan về giá trị ngoại lai
1 Giá trị ngoại lai:
1.1 Khái niệm
Giá trị ngoại lai hay còn gọi là điểm dị biệt (outliers) la m6t quan sat nam cach xa bat
thường so với các giá trị khác trong tập dữ liệu
Một vấn đề với bình phương nhỏ nhất xảy ra khi có một hoặc nhiều độ lệch lớn, tức là
các trường hợp có giá trị khác biệt đáng kê so với các quan sát khác Những điểm này được
gọi là ngoại lệ
1.2 Phân loại:
Có hai nhóm các giá trị ngoại lai:
¢ Cac gia tri khong nam trong miền xác định của dữ liệu Ví dụ, tuổi, thu nhập hay khoảng cách không thể là số âm
« - Các giá trị có khả năng xảy ra nhưng xác suất rất thấp Ví dụ, 120 tuôi, thu nhập 1 triệu đô la/tháng Những giá trị này có khả năng xảy ra nhưng thực sự hiểm có
2 Ánh hưởng của giá trị ngoại lai:
Ảnh hưởng đến phân phối dữ liệu: Nếu có các giá trị ngoại lai trong tập dữ liệu, nó có
thê làm thay đổi phân phôi tông thê của dữ liệu Điều này có thể làm biến đổi các tham số
thống kê như trung bình, độ lệch chuẩn và phân vị
Ảnh hưởng đến các phép đo tóm tắt: Các giá trị ngoại lai có thé làm thay đối các phép
đo tóm tắt như giá trị trung bình, trung vị và phương sai Do đó, chúng có thể làm thay đổi
cách chúng ta hiểu và diễn giải dữ liệu.
Trang 6Anh hưởng đến phân tích thống kê: Giá trị ngoại lai có thê gây ảnh hưởng đáng kế đến kết quả của các phân tích thống kê Chẳng hạn, nếu ta sử dụng trung bình làm phép đo trung tâm, một giá trị ngoại lai có thé làm biến đôi kết quả Điều tương tự cũng xảy ra khi sử dụng phương sai hay hệ số tương quan
Ảnh hưởng đến mô hình hồi quy: Trong mô hình hồi quy, giá trị ngoại lai có thé anh
hưởng đáng kể đến các hệ số hồi quy và độ chính xác của mô hình Chúng có thé gây ra sai lệch trong ước lượng và dự đoán
Ảnh hưởng đến phân tích nhóm: Các giá trị ngoại lai có thể tạo ra các nhóm riêng biệt
và ảnh hưởng đến quá trình phân tích nhóm hoặc so sánh giữa các nhóm Điều này có thê làm biến đối kết quả và tạo ra sự hiệu lầm trong phân tích
II Các phương pháp phát hiện giá trị ngoại lai
Phát hiện giá trị ngoại lai là quá trình xác định và nhận biết các giá trị không phù hợp hoặc không tuân theo quy luật chung trong tập dữ liệu Đây là một vấn đề quan trọng trong
lĩnh vực phân tích dữ liệu và khai phá dữ liệu
Có 3 cách mà một quan sát được xem là không bình thường:
¢ Oufliers: Trong hồi quy tuyến tính, một điểm outlier là một quan sát có phần dư rat
lớn Nói cách khác, một quan sát mà giá trị biến phụ thuộc của nó là không bình
thường ứng với một giá trị cho trước của các biến giải thích
« - Leverage: Một quan sát với giá trị tột cùng (extreme) trong biến giải thích được gọi
là một điểm có leverage cao Leverage đo lường mức độ sai lệch (khoảng cách) so với giá trị trung bình của biến đó Những điểm leverage này có thể ảnh hưởng đến ước lượng của các hệ sô hồi quy
¢ Influence: Một quan sát được cho là có ảnh hưởng nếu loại bỏ quan sát này sẽ làm thay đôi đáng kề các hệ sô được ước lượng Ảnh hưởng có thê được cơi như sản phâm cua Leverage va Outlier
Trang 7Dưới đây là một số phương pháp phô biến đề phát hiện giá trị ngoại lai:
Lệnh chỉnh sửa sẽ mở tập dữ liệu đề bạn kiểm tra và chỉnh sửa Trong trường hợp này,
biến giá dường như không có giá trị cực trị Sắp xếp và kiểm tra sé chi dé cung cấp cái nhìn tông quan trực quan về cách các giá trị của một biến tăng lên và liệu một vài giá trị cực đoan
có tồn tại riêng lẻ hay không Ngoài ra việc sắp xếp này giúp cho việc xác định giá trị ngoại lai dễ dàng hơn
1.2 Phương pháp Box Plot
Box plot là đồ họa tương đương với một bản tóm tắt gồm năm số hoặc phương pháp liên vùng để tìm các giá trị ngoại lai Để vẽ box plot, hãy nhấp vào tùy chon menu
"Graphics` và sau đó nhấp vào “Box plot° Trong hộp thoại mở ra, hãy chọn biến mà bạn muốn kiểm tra các giá trị ngoại lệ từ trình đơn thả xuống trong tab đầu tiên có tên là 'Main'
Nhap vao 'Ok' dé tao biéu dé.
Trang 8Hình 2: Biêu đồ Box plot
Giá trị được biểu thị ở trên cùng biểu thị một ngoại lệ vì nó nằm ngoài phân phối/mẫu
điển hình của biến
1.3 Phương pháp Lệnh x#rernes
Phương pháp thứ ba đòi hỏi phải sử dụng lệnh Extremes không được tích hợp sẵn trong Stata; nó là một lệnh do người dùng viết Để cài đặt nó, chúng ta gõ:
ssc install extremes Hinh 3: Lénh cai dat Extremes
Nhập lệnh sau cùng với những biến quan tâm:
Trang 9Hình 4: Kết quả của lệnh Extremes cùng với biến quan tâm
Sau lệnh này, năm quan sát đầu tiên và cuối cùng của biến (dựa trên sắp xếp tăng dần)
sẽ được thê hiện rõ Để điều chỉnh đầu ra theo một tỷ lệ phần trăm nhất định của IQR, ta
thêm tùy chon:
extremes price, igr(1.5) extremes price, igqr(3)
Hình 5: :Lệnh điều chỉnh đầu ra theo tỷ lệ phần tram cua IQR
Trang 10Lệnh đầu tiên cho danh sách các biến ngoại lệ bằng 150% IQR Lệnh đầu tiên cho danh sách các biến ngoại lệ bằng 300% IQR
Việc thêm một tên biên khác sau tên biên đầu tiên sẽ tạo ra cùng một đâu ra, ngoại trừ việc nó cũng thêm các giá trị/dữ liệu cho biến mới trong bảng đầu ra
extremes price mpg, igr(3)
- extremes price mpg, igqr(3)
Trang 111.4 Phuong phap bieu dé
Biểu đồ có thể được tạo bằng cách nhấp vào tùy chọn menu ‘Graphics’ va sau do chon ‘Histogram’ Chon bién ban muén vé tir trinh don tha xuéng dau tién trong tab ‘Main’ Cũng thay đổi cài đặt Trục Y thành "Tần số' (trong cùng một tab) Nhân OK'
Thanh ở cuối cùng của biêu đỗ biéu thị rõ ràng một quan sát với tần suất rất ít ma gia
trị rât cao so với các quan sát khác
Trang 121.5 Phuong phap Spike Plots
Trang 13Để tạo các biểu đồ tăng đột biến, lần luot chon Graphics > Distributional graphs > Spike plofs và roofogram Chọn tên biễn có liên quan, trong trường hợp này là 'Price' và nhấp vào 'Ok' Không giống như biêu đồ tần suất nơi dữ liệu được tông hợp trong các thùng,
biểu đồ tăng đột biến hiển thị mức tăng đột biến riêng lẻ của từng giá trị của một biến liên tục Mức tăng đột biến đối với các điểm dữ liệu được nhóm lại với nhau có thể được kết luận
là không phải là ngoại lệ Bất kỳ sự tăng đột biến nào ở một khoảng cách đáng kể so với các cụm này sẽ cho thấy sự hiện diện của một ngoại lệ Trong trường hợp này, mức tăng đột biến
Trang 14ở mức 50.000 được nhìn thay một cách cô lập
Trang 15các quan sát tương ứng sẽ được coi là giá trị ngoại lệ Điểm Z có thể được tạo bằng cách chuẩn hóa một biến bằng cách sử dụng lệnh chuẩn hoá biển giả sau:
egen stdprice = std(price) Hình 9: Lệnh chuân hoá biến giả
Z- score cho tat cả các quan sát đều nhỏ hơn I,5 ngoại trừ quan sát có giá trị bằng 50.000 Z- score trong trường hợp này là 7,49
1.7 Phương pháp thống kê mô tả:
« Dùng lệnh ƒ#re:
Trang 16fre dv iv, tabulate (3)
Cả tần số và thông kê tóm tắt đều chỉ ra rằng dv có giá trị tôi đa là 99, cao hơn nhiều
so với các giá frị khác của dv Không có giá trị nào ngay lập tức dính ra cho 1v
1.8 Phương pháp biểu đồ phân tán Scatter
Đặc biệt khi mẫu nhỏ, có thê sử dụng lệnh scatter dé vé dv va iv.
Trang 17Hình 11: Kết quả của phương pháp biểu đồ phân tán Scatter
Lưu ý: với trường hợp này, giá trị ngoại biên nằm ở phía trên bên phải
Sau khi chúng ta đã chạy hồi quy, chúng ta có một số lệnh sau ước tính hơn có thể giúp chúng ta xác định các ngoại lai Theo Hướng dẫn sử dụng Stata 12, "Một trong những biểu đồ chân đoán hữu ích nhất được cung cấp bởi lvr2plot (leverage so với biêu đồ bình phương dư), một biểu đồ leverage so với bình phương dư (chuẩn hóa)." Việc thêm tuỳ chọn mlabel làm cho biểu đỗ lộn xộn hơn, nhưng bằng cách gắn nhãn các dấu chấm, sẽ dễ dàng hơn đề xem vần đề ở dau
gen id = _n
lvr2plot, mlabel (id)
Trang 18Leverage
1 L
T T T T T
Normalized residual Squared
Hình 12: Kết quả của phương pháp biểu đồ phân tán Scatter sau khi thêm mlabel Hướng dẫn sử dụng Stata 12 cho biết "Các đường trên biểu đồ hiển thị các giá trị trung bình của leverage và bình phương dư (chuẩn hóa) Các điểm trên đường ngang có điểm leverage cao hơn mức trung bình; Các điểm bên phải của đường thăng đứng có dư lượng lớn hơn mức trung bình."
Biểu đồ cho chúng ta thấy rằng trường hợp 9 có phần dư rất lớn (tức là sự khác biệt giữa giá trị dự đoán và quan sát được cho trường hợp 9 là đặc biệt lớn) nhưng nó không có nhiều đòn bẩy Các trường hợp ở phía trên bên phải của biêu đồ (nếu có) sẽ đặc biệt quan trọng vì chúng sẽ là leverage cao và phần dư lớn
2 Các phương pháp không dùng STATA:
Với mô hình mẫu được đưa ra có dạng tổng quát :