Cách tiếp cận dựa trên giá trị trung vị

Một phần của tài liệu 249776 (Trang 40 - 43)

Chương 4 Đánh giá tính hữu ích của đặc trưng và tinh chỉnh miền giá trịđặc trư ng

4.4.3. Cách tiếp cận dựa trên giá trị trung vị

Trong cách tiếp cận này, chúng tôi chọn ba giá trịđiển hình nhất làm đại diện cho miền giá trị, đó là giá trị nhỏ nhất, giá trị trung vị và giá trị lớn nhất. Nếu độ

0 v1 v2 vk-2 vk-1 vk

chênh lệch giữa giá trị nhỏ nhất so với hai giá trị còn lại quá lớn, điều đó chứng tỏ là tập giá trị bị lệch về phía giá trị nhỏ nhất, từđó ta có thể kết luận giá trị nhỏ nhất đó chính là rare value.

Trong lý thuyết xác suất và thống kê, số trung vị (median) là một số tách giữa nửa lớn hơn và nửa bé hơn của một mẫu, một quần thể, hay một phân bố xác suất. Nó là giá trịđứng giữa trong một phân bố, mà số các số nằm trên hay dưới con sốđó là bằng nhau. Điều đó có nghĩa rằng 1/2 quần thể sẽ có các giá trị nhỏ hơn hay bằng số trung vị, và một nửa quần thể sẽ có giá trị bằng hoặc lớn hơn số trung vị. Số trung vị thường dùng chủ yếu cho các phân bố lệch, do nó biểu thị chính xác hơn trung bình cộng. Nó có thểđược coi là chỉđịnh tốt hơn về xu hướng trung tâm. Tính toán số trung vị là một kỹ thuật phổ biến trong thống kê mô tả và dữ liệu thống kê mô tả, do nó dễ hiểu và dễ tính, trong khi vẫn cho ra một độ đo tốt hơn giá trị kỳ vọng trong trường hợp có mặt các giá trị ngoại lệ (outlier). Vì số trung vị chính là giá trịđại diện tốt cho tổng thể, nên chúng tôi chọn giá trị này để tính độ lệch.

Ý tưởng đánh giá

Ký hiệu v1,vmed,vnlần lượt là giá trị nhỏ nhất, giá trị trung vị, giá trị lớn nhất trong miền giá trị DOM(fi)={vij},1≤ jni sau khi đã sắp xếp tăng dần (xem hình 4.6)

Nếu giá trị vmed cách đều v1vn, điều đó chứng tỏ tập giá trị phân bố cân bằng. Nếu giá trị vmed gần với v1, điều đó cho thấy trong tập giá trị có hơn một nửa là giá trị nhỏ.

Nếu giá trịvmed gần với vn, điều đó cho thấy trong tập giá trị có hơn một nửa là các giá trị lớn. Đây là trường hợp mà chúng ta quan tâm đến. Khi có quá nhiều giá trị lớn thì liệu v1 có phải là giá trị quá nhỏ so với tổng thể hay không? Nếu khoảng cách giữa v1vmed lớn gấp nhiều lần so với khoảng cách giữa vnvmed, thì kết luận là v1 là giá trị lệch nhiều so với tổng thể, đó chính là rare value.

Nhận xét: tùy vào DOM(fi) để xác định số lần chênh lệch nhiều hay ít. Do vậy, khi đánh giá miền giá trị của từng đặc trưng, ta cần chọn các tham số sao cho phù hợp.

Hình 4.6.Hình minh họa phân đánh giá miền giá trị thuộc tính

Một số trường hợp đặc biệt có thể gặp như

- Trường hợp a1=a2=0 (tương ứng v1=vmed=vn ) thì suy ra v1=v2=…=vn. Khi đó, tất cả các giá trị trong DOM(fi)đều bằng nhau. Kết luận là không tồn tại rare value.

- Trường hợp a2=0 (tương ứng v1=vmed )thì chứng tỏ có hơn một nửa số giá trị trong DOM(fi)đều bằng v1. Kết luận ngay là không tồn tại rare value mà không cần xem xét đến các giá trị khác. (xem hình 4.7)

0 5 10 15 20 v1 v2 v3 v4 v5 v6 v7

Hình 4.7.Trường hợp giá trị v1=vmed

- Trường hợp a1=0 (tương ứng vmed =vn )thì chứng tỏ có hơn một nửa số giá trị trong DOM(fi)đều bằng vmed. Trong trường hợp này, khả năng tồn tại rare value rất cao. Khi đó khoảng cách a2 cần phải so sánh với chính v1để kết luận được v1 có phải là rare value không. Trong hình 4.8.a, khoảng cách a2 quá lớn so với v1 dẫn đến v1 là rare value. Trong hình 4.8.b, khoảng cách a2 gần bằng v1 dẫn đến v1 không phải là rare value.

Hình 4.8.Trường hợp giá trị vn=vmed

Một phần của tài liệu 249776 (Trang 40 - 43)

Tải bản đầy đủ (PDF)

(73 trang)