1. Trang chủ
  2. » Luận Văn - Báo Cáo

bài tập nhóm môn phân tích dữ liệu trong linh tế

37 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Giỏ Trị Ngoại Lai
Tác giả Trần Bội Ngọc, Trần Hoàng Khỏnh Ly, Đỗ Nguyễn Thanh Tõm, Dương Minh Khuờ, Trinh Hai Vy
Người hướng dẫn PTS. Vừ Thị Lệ Uyộn
Trường học Đại Học Quốc Gia Thành Phố Hồ Chí Minh
Chuyên ngành Phân Tích Dữ Liệu Trong Linh Tế
Thể loại Bài Tập Nhóm
Thành phố Thành Phố Hồ Chí Minh
Định dạng
Số trang 37
Dung lượng 3,86 MB

Nội dung

ccc cceccccccccccccccceseescesetstecccceecececcssesssntttntssceeeecececeneeeeeseeeees 5 Hình 4: Kết quả của lệnh Extremes cùng với biến quan tâm...---- s- 22 2 SE ExEcrxrrsxe 6 Hình 5: :

Trang 1

ĐẠI HỌC QUOC GIA THANH PHO HO CHI MINH TRUONG ĐẠI HỌC KINH TẾ - LUAT KHOA KINH TẾ ĐÓI NGOẠI

BÀI TẬP NHÓM Giảng viên hướng dẫn: Cô Võ Thị Lệ Uyén

Mã lớp học phần: 225TO3502

Người thực hiện:

Trần Bội Ngọc — K214021484 (Trưởng nhóm) Trần Hoàng Khánh Ly - K214021483

Đỗ Nguyễn Thanh Tâm — K214021486

Dương Minh Khuê — k214021480

Trinh Hai Vy — K214020167

MUC LUC

Trang 2

2 Ảnh hưởng của giá trị ngoại Ìai: 5 5s tt E21 1 E2 11212 1E 1 ng ngờ 3

IL Các phương pháp phát hiện giá trỊ ngOạI ÍaI cà 1 1n HH ng SH xu ng nay 4

1 Phương pháp dùng 2O TT QMMMMMMMMMMMMWNgHđđđđđđđ116A 5 1.1 Phương pháp sắp xếp dữ liệu 2 2 2212221112111 1112111212 81111 2821811 5 1.2 Phương pháp Box Pot - - 222 1211212121211 121 1112151211101 11 1811181120111 1 111k ky 5 1.3 Phuong phap Lénh Extremes eccrine etee entireties 6 1.4 Phương pháp biêu Ởỗ - 2 020 1221112212 1112 1152115111111 151151110111 151g key 8 1.5 Phương pháp SpIke PÏofs L0 22 222122211111 11121152111 1115111011511 115111811211 key 9 1.6 Phương pháp Z-ŠCOFC che 10 1.7 Phương pháp thông kê ¡00 ccc ccec cece cece ceeeeeeseseeeeeseeesesseesseeiseeeceseennteeees II 1.8 Phương pháp biêu đồ phân tán ŠScaffer c0 2212221112211 11112 2k re 12

2 Các phương pháp không dùng ŠTAÍTA: L2 1221122112211 111 112 115 Hy re 13 2.1 Phương pháp Studentized và Standardized ResidualÌs - - 2c c 2c ccsssc2 14 2.3 Phương pháp dự đoán - Cross-validated c2 12 n2 HH He 16 2.4 Phương Pháp Cook”s [DIstance L c c2 212121212112 1111511111115 2H key 17 2.5 Phương pháp Diference-in-ft (DFFFT) (2 222 222122121211 11111 15151151112 kxes 17

P NI s II 0i dýaiiiiDùDùDŨẶỤẶẰẶỤẶỤẠAI 18

IH Phương pháp xử lý chung 20

1 Loại bỏ các dòng chứa ngoại lai khỏi tập dữ liệu: 5 2 2222222122222 rrrxc2 20

2 Thay thế bằng một giá trị khác: - se tt E1 112111111 1121111101211 1 ru 20

3 Thay thế giá trị của các điểm ngoại lai bằng NULL (empty): - ¿5s cccccssrszczsrez 20

4 Xử lý giá trị ngoại lai bằng Stata - c1 n HH nga 21

CHƯƠNG 2: THỰC HANH STATA cssesscsssssssesssssssssssssssesscssscsscsssssseasecssssesesseneneesees 22

1 Bộ dữ liệu mẫu ¿52t 22t 22 12221122211221112211211 T1 T1 22

2 Phát hiện giá trị ngoạI ÌaI 2012211212112 211111 11121112111 111181 118111011 18111811 k tr 22

2.1 Thông kê mô tả 12 20121121121 121 15111118211 111 1011111 111111111011 11 11 H1 HH re 22

;886:.¡.0 5c: 23

PO ›)0 11a 25 a) Biêu đô phan tan Scatter ccc ccc cee cee ceceessecnseceeceseesseceesetessseeneentiees 25 b) Biêu đồ hộp Box-plo( 0 2.11222112211221 1111112115021 1111 1511120111111 111111 xe 26

3 Xử lí giá trị ngoại lai và so sánh, kết luận S2 2n TE ng TT TH HH HH He ea 26

Trang 4

DANH MỤC HÌNH ẢNH

Hình I: Lệnh sắp xếp biến giá 5 SE 1E 151121111 111101121111 1 Hay 4 Hình 2: Biểu đồ Box pÏo( 5 151 2 12 1 121111 1121121111 12T 110121 tr gen 5

Hinh 3: Lệnh cài đặt Extremes ccc cceccccccccccccccceseescesetstecccceecececcssesssntttntssceeeecececeneeeeeseeeees 5

Hình 4: Kết quả của lệnh Extremes cùng với biến quan tâm s- 22 2 SE ExEcrxrrsxe 6 Hình 5: :Lệnh điều chỉnh đầu ra theo tỷ lệ phần trăm của [QR 2 cccnSEsserrr re 6 Hình 6: Bảng kết quá của lệnh extremes khi thêm một biến khác 2: 222cc ve szxe2 7

Hình 7: Kết quả dưới dạng biểu đỗ cột 5 S21 2E121121111 1 1110101211121 re 8

Hinh 8: Két qua phurong phap Spike Plots cccccccccsscsscssessesesseesessesevsessvseevevseseevsvareevseseees 9

Hinh 9: Lénh chuan hoa bién gia c.cccccccccsccssescssessessesssessesssssssessvsessesevssesecsvssesecsecevsevseceveees 9

Hình 10: Kết quá của phương pháp thống kê sau khi chạy lệnh fe -5- 2 c2 sec 10 Hình 11: Kết quả của phương pháp biểu đồ phân tán Scatter 2 5c cty lãi Hình 12: Kết quá của phương pháp biểu đồ phân tán Scatter sau khi thêm mlabel 12 Hình 13: Bảng tần số của phương pháp thống kê mô tả -2- 52 S1 EEESE ve SE Erkeri 22

Hình 14: Bang két qua sau khi nhập nhập Extremes - - 12c 2 2222221122212 1112 xe 23

Hình 15: Kết quả dưới dạng biểu đồ phân tán Scatter 5-55 nề nh He re 24 Hình 16: Kết quả dưới dạng biểu đồ Box-pÏot - 5s x1 E12 1 trêu 25 Hình I7: Lệnh cài đặt phương pháp WInsor1zatIon - 2 2221222112112 221112 tr key 26

Hình I8: Bảng kết quả sau khi chạy lệnh Wínor1zafion c2: 222211212 xxx re 26

Hình 19: Bảng kết quả của phương pháp hồi quy mô hình đã loại bỏ giá trị ngoai lai 27 Hình 20: Bảng kết quả cho phương pháp loại bỏ các quan sát có giá trị bé hơn phân vị 5% va

080198000585 077 27 Hình 21: Bảng kết quả cho phương pháp các quan sát có giá trị bé hơn phân vị 5% sẽ được thay thế bằng giá trị tại phân vị 5% Các quan sát có giá trị lớn hơn phân vị 95% sẽ được

thay thế bằng giá trị tại phân vị 95% - St THỰ 1101212211121 11111 28 Hình 22:Bảng kết quả so sánh 55 S12 11E1111211211111 11.111 1 1111 1 ng to 29

Trang 5

CHUONG 1: CO SO LY THUYET

I Tổng quan về giá trị ngoại lai

1 Giá trị ngoại lai:

1.1 Khái niệm

Giá trị ngoại lai hay còn gọi là điểm dị biệt (outliers) la m6t quan sat nam cach xa bat

thường so với các giá trị khác trong tập dữ liệu

Một vấn đề với bình phương nhỏ nhất xảy ra khi có một hoặc nhiều độ lệch lớn, tức là

các trường hợp có giá trị khác biệt đáng kê so với các quan sát khác Những điểm này được

gọi là ngoại lệ

1.2 Phân loại:

Có hai nhóm các giá trị ngoại lai:

¢ Cac gia tri khong nam trong miền xác định của dữ liệu Ví dụ, tuổi, thu nhập hay khoảng cách không thể là số âm

« - Các giá trị có khả năng xảy ra nhưng xác suất rất thấp Ví dụ, 120 tuôi, thu nhập 1 triệu đô la/tháng Những giá trị này có khả năng xảy ra nhưng thực sự hiểm có

2 Ánh hưởng của giá trị ngoại lai:

Ảnh hưởng đến phân phối dữ liệu: Nếu có các giá trị ngoại lai trong tập dữ liệu, nó có

thê làm thay đổi phân phôi tông thê của dữ liệu Điều này có thể làm biến đổi các tham số

thống kê như trung bình, độ lệch chuẩn và phân vị

Ảnh hưởng đến các phép đo tóm tắt: Các giá trị ngoại lai có thé làm thay đối các phép

đo tóm tắt như giá trị trung bình, trung vị và phương sai Do đó, chúng có thể làm thay đổi

cách chúng ta hiểu và diễn giải dữ liệu.

Trang 6

Anh hưởng đến phân tích thống kê: Giá trị ngoại lai có thê gây ảnh hưởng đáng kế đến kết quả của các phân tích thống kê Chẳng hạn, nếu ta sử dụng trung bình làm phép đo trung tâm, một giá trị ngoại lai có thé làm biến đôi kết quả Điều tương tự cũng xảy ra khi sử dụng phương sai hay hệ số tương quan

Ảnh hưởng đến mô hình hồi quy: Trong mô hình hồi quy, giá trị ngoại lai có thé anh

hưởng đáng kể đến các hệ số hồi quy và độ chính xác của mô hình Chúng có thé gây ra sai lệch trong ước lượng và dự đoán

Ảnh hưởng đến phân tích nhóm: Các giá trị ngoại lai có thể tạo ra các nhóm riêng biệt

và ảnh hưởng đến quá trình phân tích nhóm hoặc so sánh giữa các nhóm Điều này có thê làm biến đối kết quả và tạo ra sự hiệu lầm trong phân tích

II Các phương pháp phát hiện giá trị ngoại lai

Phát hiện giá trị ngoại lai là quá trình xác định và nhận biết các giá trị không phù hợp hoặc không tuân theo quy luật chung trong tập dữ liệu Đây là một vấn đề quan trọng trong

lĩnh vực phân tích dữ liệu và khai phá dữ liệu

Có 3 cách mà một quan sát được xem là không bình thường:

¢ Oufliers: Trong hồi quy tuyến tính, một điểm outlier là một quan sát có phần dư rat

lớn Nói cách khác, một quan sát mà giá trị biến phụ thuộc của nó là không bình

thường ứng với một giá trị cho trước của các biến giải thích

« - Leverage: Một quan sát với giá trị tột cùng (extreme) trong biến giải thích được gọi

là một điểm có leverage cao Leverage đo lường mức độ sai lệch (khoảng cách) so với giá trị trung bình của biến đó Những điểm leverage này có thể ảnh hưởng đến ước lượng của các hệ sô hồi quy

¢ Influence: Một quan sát được cho là có ảnh hưởng nếu loại bỏ quan sát này sẽ làm thay đôi đáng kề các hệ sô được ước lượng Ảnh hưởng có thê được cơi như sản phâm cua Leverage va Outlier

Trang 7

Dưới đây là một số phương pháp phô biến đề phát hiện giá trị ngoại lai:

Lệnh chỉnh sửa sẽ mở tập dữ liệu đề bạn kiểm tra và chỉnh sửa Trong trường hợp này,

biến giá dường như không có giá trị cực trị Sắp xếp và kiểm tra sé chi dé cung cấp cái nhìn tông quan trực quan về cách các giá trị của một biến tăng lên và liệu một vài giá trị cực đoan

có tồn tại riêng lẻ hay không Ngoài ra việc sắp xếp này giúp cho việc xác định giá trị ngoại lai dễ dàng hơn

1.2 Phương pháp Box Plot

Box plot là đồ họa tương đương với một bản tóm tắt gồm năm số hoặc phương pháp liên vùng để tìm các giá trị ngoại lai Để vẽ box plot, hãy nhấp vào tùy chon menu

"Graphics` và sau đó nhấp vào “Box plot° Trong hộp thoại mở ra, hãy chọn biến mà bạn muốn kiểm tra các giá trị ngoại lệ từ trình đơn thả xuống trong tab đầu tiên có tên là 'Main'

Nhap vao 'Ok' dé tao biéu dé.

Trang 8

Hình 2: Biêu đồ Box plot

Giá trị được biểu thị ở trên cùng biểu thị một ngoại lệ vì nó nằm ngoài phân phối/mẫu

điển hình của biến

1.3 Phương pháp Lệnh x#rernes

Phương pháp thứ ba đòi hỏi phải sử dụng lệnh Extremes không được tích hợp sẵn trong Stata; nó là một lệnh do người dùng viết Để cài đặt nó, chúng ta gõ:

ssc install extremes Hinh 3: Lénh cai dat Extremes

Nhập lệnh sau cùng với những biến quan tâm:

Trang 9

Hình 4: Kết quả của lệnh Extremes cùng với biến quan tâm

Sau lệnh này, năm quan sát đầu tiên và cuối cùng của biến (dựa trên sắp xếp tăng dần)

sẽ được thê hiện rõ Để điều chỉnh đầu ra theo một tỷ lệ phần trăm nhất định của IQR, ta

thêm tùy chon:

extremes price, igr(1.5) extremes price, igqr(3)

Hình 5: :Lệnh điều chỉnh đầu ra theo tỷ lệ phần tram cua IQR

Trang 10

Lệnh đầu tiên cho danh sách các biến ngoại lệ bằng 150% IQR Lệnh đầu tiên cho danh sách các biến ngoại lệ bằng 300% IQR

Việc thêm một tên biên khác sau tên biên đầu tiên sẽ tạo ra cùng một đâu ra, ngoại trừ việc nó cũng thêm các giá trị/dữ liệu cho biến mới trong bảng đầu ra

extremes price mpg, igr(3)

- extremes price mpg, igqr(3)

Trang 11

1.4 Phuong phap bieu dé

Biểu đồ có thể được tạo bằng cách nhấp vào tùy chọn menu ‘Graphics’ va sau do chon ‘Histogram’ Chon bién ban muén vé tir trinh don tha xuéng dau tién trong tab ‘Main’ Cũng thay đổi cài đặt Trục Y thành "Tần số' (trong cùng một tab) Nhân OK'

Thanh ở cuối cùng của biêu đỗ biéu thị rõ ràng một quan sát với tần suất rất ít ma gia

trị rât cao so với các quan sát khác

Trang 12

1.5 Phuong phap Spike Plots

Trang 13

Để tạo các biểu đồ tăng đột biến, lần luot chon Graphics > Distributional graphs > Spike plofs và roofogram Chọn tên biễn có liên quan, trong trường hợp này là 'Price' và nhấp vào 'Ok' Không giống như biêu đồ tần suất nơi dữ liệu được tông hợp trong các thùng,

biểu đồ tăng đột biến hiển thị mức tăng đột biến riêng lẻ của từng giá trị của một biến liên tục Mức tăng đột biến đối với các điểm dữ liệu được nhóm lại với nhau có thể được kết luận

là không phải là ngoại lệ Bất kỳ sự tăng đột biến nào ở một khoảng cách đáng kể so với các cụm này sẽ cho thấy sự hiện diện của một ngoại lệ Trong trường hợp này, mức tăng đột biến

Trang 14

ở mức 50.000 được nhìn thay một cách cô lập

Trang 15

các quan sát tương ứng sẽ được coi là giá trị ngoại lệ Điểm Z có thể được tạo bằng cách chuẩn hóa một biến bằng cách sử dụng lệnh chuẩn hoá biển giả sau:

egen stdprice = std(price) Hình 9: Lệnh chuân hoá biến giả

Z- score cho tat cả các quan sát đều nhỏ hơn I,5 ngoại trừ quan sát có giá trị bằng 50.000 Z- score trong trường hợp này là 7,49

1.7 Phương pháp thống kê mô tả:

« Dùng lệnh ƒ#re:

Trang 16

fre dv iv, tabulate (3)

Cả tần số và thông kê tóm tắt đều chỉ ra rằng dv có giá trị tôi đa là 99, cao hơn nhiều

so với các giá frị khác của dv Không có giá trị nào ngay lập tức dính ra cho 1v

1.8 Phương pháp biểu đồ phân tán Scatter

Đặc biệt khi mẫu nhỏ, có thê sử dụng lệnh scatter dé vé dv va iv.

Trang 17

Hình 11: Kết quả của phương pháp biểu đồ phân tán Scatter

Lưu ý: với trường hợp này, giá trị ngoại biên nằm ở phía trên bên phải

Sau khi chúng ta đã chạy hồi quy, chúng ta có một số lệnh sau ước tính hơn có thể giúp chúng ta xác định các ngoại lai Theo Hướng dẫn sử dụng Stata 12, "Một trong những biểu đồ chân đoán hữu ích nhất được cung cấp bởi lvr2plot (leverage so với biêu đồ bình phương dư), một biểu đồ leverage so với bình phương dư (chuẩn hóa)." Việc thêm tuỳ chọn mlabel làm cho biểu đỗ lộn xộn hơn, nhưng bằng cách gắn nhãn các dấu chấm, sẽ dễ dàng hơn đề xem vần đề ở dau

gen id = _n

lvr2plot, mlabel (id)

Trang 18

Leverage

1 L

T T T T T

Normalized residual Squared

Hình 12: Kết quả của phương pháp biểu đồ phân tán Scatter sau khi thêm mlabel Hướng dẫn sử dụng Stata 12 cho biết "Các đường trên biểu đồ hiển thị các giá trị trung bình của leverage và bình phương dư (chuẩn hóa) Các điểm trên đường ngang có điểm leverage cao hơn mức trung bình; Các điểm bên phải của đường thăng đứng có dư lượng lớn hơn mức trung bình."

Biểu đồ cho chúng ta thấy rằng trường hợp 9 có phần dư rất lớn (tức là sự khác biệt giữa giá trị dự đoán và quan sát được cho trường hợp 9 là đặc biệt lớn) nhưng nó không có nhiều đòn bẩy Các trường hợp ở phía trên bên phải của biêu đồ (nếu có) sẽ đặc biệt quan trọng vì chúng sẽ là leverage cao và phần dư lớn

2 Các phương pháp không dùng STATA:

Với mô hình mẫu được đưa ra có dạng tổng quát :

Ngày đăng: 22/08/2024, 21:40

w