4.2 Nguồn dữ liệu
4.2.2 Biểu diễn nguồn dữ liệu
ADULT
Là nguồn dữ liệu điều tra dân số về thu nhập của người dân. Nguồn dữ liệu bao gồm 13.032 bản ghi, mỗi bản ghi cĩ 14 thuộc tính trong đĩ cĩ 6 thuộc tính liên tục (age, fnlwgt, education num, capital gain, capital loss, hours per week) và 8 thuộc tính rời rạc (workclass, education, marital status, occupation, relationship, race, sex, native country). Đối với những thuộc tính liên tục, trước khi thực hiện phân lớp trên nguồn dữ liệu ADULT, chúng ta cần phải rời rạc hĩa với miền giá trị xác định. Đối với những thuộc tính cĩ miền giá trị lớn như native country, education, workclass, marital status, occupation chúng ta cần hạn chế miền giá trị bằng cách xác định một số giá trị thường xuyên xuất hiện nhất và kết hợp những thuộc tính cịn lại vào trong một thuộc tính chung nhất.
Nguồn dữ liệu cĩ chứa 7% giá trị khơng xác định (missing value). Với những giá trị khơng xác định, chúng ta gán cho chúng một giá trị xác định, trong trường hợp này, tác giả chọn giá trị unknown. Nhiệm vụ của phân lớp là phân lớp các bản ghi theo hai lớp: >50K (cĩ thu nhập lớn hơn 50.000 USD), và <=50K (cĩ thu nhập bé hơn hoặc bằng 50.000 USD).
Tên thuộc tính Tập giá trị thuộc tính
Age continuous.
Workclass Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov,
State-gov, Without-pay, Never-worked.
Fnlwgt continuous.
Education
Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc- acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.
Education num continuous.
Marital status Married-civ-spouse, Divorced, Never-married, Separated,
Widowed, Married-spouse-absent, Married-AF-spouse.
Occupation
Tech-support, Craft-repair, Other-service, Sales, Exec- managerial, Prof-specialty, Handlers-cleaners, Machine-op- inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv- house-serv, Protective-serv, Armed-Forces.
Relationship Wife, Own-child, Husband, Not-in-family, Other-relative,
Unmarried.
Race White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black.
Sex Female, Male.
Capital gain continuous.
Capital loss continuous.
Hours per week continuous.
Native country
United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France,
Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand,
Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.
Class >50K, <=50K
Tên thuộc tính Tập giá trị thuộc tính Age Min, 1st, Median, Mean, 3rd, Max
Workclass Private, Self-emp-not-inc, Local-gov, State-gov, Self-emp-inc,
Other, NA.
Fnlwgt Min, 1st, Median, Mean, 3rd, Max
Education HS-grad, Some-college, Bachelors, Masters, Assoc-voc, 11th,
Other.
Education num Min, 1st, Median, Mean, 3rd, Max
Marital status Divorced, Married-AF-spouse, Married-civ-spouse, Married-
spouse-absent, Never-married , Separated , Widowed
Occupation Prof-specialty, Craft-repair, Exec-managerial, Adm-clerical,
Sales, Other, NA.
Relationship Husband, Not-in-family, Other-relative, Own-child, Unmarried,
Wife.
Race Amer-Indian-Eskimo, Asian-Pac-Islander, Black, Other, White
Sex Male, Female
Capital gain Min, 1st, Median, Mean, 3rd, Max
Capital loss Min, 1st, Median, Mean, 3rd, Max
Native country United-States, Mexico, Philippines, Germany, Canada, Other,
NA
Hours per week Min, 1st, Median, Mean, 3rd, Max
Class >50K, <=50K
Bảng 4.2. Thuộc tính và các giá trị của thuộc tính sau khi đã rời rạc hĩa (ADULT).
CARS
Là nguồn dữ liệu về xe hơi. Nguồn dữ liệu bao gồm 1728 bản ghi, mỗi bản ghi cĩ 6 thuộc tính. Các thuộc tính đều là các thuộc tính rời rạc. Mỗi thuộc tính cĩ nhiều nhất là 4 giá trị. Giá trị của các thuộc tính được nhà cung cấp sắp xếp theo một thứ tự xác định và quyền ưu tiên được xác định theo thứ tự từ trên xuống dưới (theo thứ tự xuất hiện của các thuộc tính trong bảng 4.3). Nguồn dữ liệu khơng cĩ giá trị khơng xác định. Nhiệm vụ của phân lớp là xác định lớp cho các bản ghi của
Tên thuộc tính Tập giá trị thuộc tính Buying v-high, high, med, low
Maint v-high, high, med, low
Doors 2, 3, 4, 5-more
Persons 2, 4, more
Lug boot small, med, big
Safety low, med, high
Class unacc, acc, good, v-good
Bảng 4.3. Thuộc tính và các giá trị thuộc tính cĩ thể cĩ (CARS)
NURSERY
Nguồn dữ liệu được xây dựng nhằm hỗ trợ việc đưa ra các quyết định về việc chấp nhận hay khơng chấp nhận các đơn đăng kí học tại các trường Y. Nguồn dữ liệu bao gồm 12.960 bản ghi, mỗi bản ghi cĩ 8 thuộc tính, mỗi thuộc tính cĩ nhiều nhất là 5 giá trị. Giá trị của các thuộc tính cũng được sắp xếp theo thứ tự và chiều ưu tiên của các thuộc tính là chiều từ trên xuống dưới (theo thứ tự xuất hiện trong bảng 4.4). Nguồn dữ liệu khơng cĩ giá trị khơng xác định. Việc phân lớp các bản ghi là việc xác định xem mỗi bản ghi thuộc lớp nào trong 5 lớp sau: not_recom, recommend, very_recom, priority, spec_prior.
Tên thuộc tính Tập giá trị thuộc tính Parents Usual, pretentious, great_pret
Has nurs Proper, less_proper, improper, critical, very_crit
Form Complete, completed, incomplete, foster
Children 1, 2, 3, more
Housing Convenient, less_conv, critical
Finance Convenient, inconv
Social Non_prob, slightly_prob, problematic
Health Recommended, priority, not_recom
Class Not_recom, recommend, very_recom, priority, spec_prior