Biểu diễn nguồn dữ liệu

Một phần của tài liệu TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN (Trang 66)

ADULT

Là nguồn dữ liệu điều tra dân số về thu nhập của người dân. Nguồn dữ liệu bao gồm 13.032 bản ghi, mỗi bản ghi có 14 thuộc tính trong đó có 6 thuộc tính liên tục (age, fnlwgt, education num, capital gain, capital loss, hours per week) và 8 thuộc tính rời rạc (workclass, education, marital status, occupation, relationship, race, sex, native country). Đối với những thuộc tính liên tục, trước khi thực hiện phân lớp trên nguồn dữ liệu ADULT, chúng ta cần phải rời rạc hóa với miền giá trị xác định. Đối với những thuộc tính có miền giá trị lớn như native country, education, workclass, marital status, occupation chúng ta cần hạn chế miền giá trị bằng cách xác định một số giá trị thường xuyên xuất hiện nhất và kết hợp những thuộc tính còn lại vào trong một thuộc tính chung nhất.

Nguồn dữ liệu có chứa 7% giá trị không xác định (missing value). Với những giá trị không xác định, chúng ta gán cho chúng một giá trị xác định, trong trường hợp này, tác giả chọn giá trị unknown. Nhiệm vụ của phân lớp là phân lớp các bản ghi theo hai lớp: >50K (có thu nhập lớn hơn 50.000 USD), và <=50K (có thu nhập bé hơn hoặc bằng 50.000 USD).

Tên thuộc tính Tập giá trị thuộc tính

Age continuous.

Workclass Private, Self-emp-not-inc, Self-emp-inc, Federal-gov, Local-gov,

State-gov, Without-pay, Never-worked.

Fnlwgt continuous.

Education

Bachelors, Some-college, 11th, HS-grad, Prof-school, Assoc- acdm, Assoc-voc, 9th, 7th-8th, 12th, Masters, 1st-4th, 10th, Doctorate, 5th-6th, Preschool.

Education num continuous.

Marital status Married-civ-spouse, Divorced, Never-married, Separated,

Widowed, Married-spouse-absent, Married-AF-spouse.

Occupation

Tech-support, Craft-repair, Other-service, Sales, Exec- managerial, Prof-specialty, Handlers-cleaners, Machine-op- inspct, Adm-clerical, Farming-fishing, Transport-moving, Priv- house-serv, Protective-serv, Armed-Forces.

Relationship Wife, Own-child, Husband, Not-in-family, Other-relative,

Unmarried.

Race White, Asian-Pac-Islander, Amer-Indian-Eskimo, Other, Black.

Sex Female, Male.

Capital gain continuous.

Capital loss continuous.

Hours per week continuous.

Native country

United-States, Cambodia, England, Puerto-Rico, Canada, Germany, Outlying-US(Guam-USVI-etc), India, Japan, Greece, South, China, Cuba, Iran, Honduras, Philippines, Italy, Poland, Jamaica, Vietnam, Mexico, Portugal, Ireland, France,

Dominican-Republic, Laos, Ecuador, Taiwan, Haiti, Columbia, Hungary, Guatemala, Nicaragua, Scotland, Thailand,

Yugoslavia, El-Salvador, Trinadad&Tobago, Peru, Hong, Holand-Netherlands.

Class >50K, <=50K

Tên thuộc tính Tập giá trị thuộc tính Age Min, 1st, Median, Mean, 3rd, Max

Workclass Private, Self-emp-not-inc, Local-gov, State-gov, Self-emp-inc,

Other, NA.

Fnlwgt Min, 1st, Median, Mean, 3rd, Max

Education HS-grad, Some-college, Bachelors, Masters, Assoc-voc, 11th,

Other.

Education num Min, 1st, Median, Mean, 3rd, Max

Marital status Divorced, Married-AF-spouse, Married-civ-spouse, Married-

spouse-absent, Never-married , Separated , Widowed

Occupation Prof-specialty, Craft-repair, Exec-managerial, Adm-clerical,

Sales, Other, NA.

Relationship Husband, Not-in-family, Other-relative, Own-child, Unmarried,

Wife.

Race Amer-Indian-Eskimo, Asian-Pac-Islander, Black, Other, White

Sex Male, Female

Capital gain Min, 1st, Median, Mean, 3rd, Max

Capital loss Min, 1st, Median, Mean, 3rd, Max

Native country United-States, Mexico, Philippines, Germany, Canada, Other,

NA

Hours per week Min, 1st, Median, Mean, 3rd, Max

Class >50K, <=50K

Bảng 4.2. Thuộc tính và các giá trị của thuộc tính sau khi đã rời rạc hóa (ADULT).

CARS

Là nguồn dữ liệu về xe hơi. Nguồn dữ liệu bao gồm 1728 bản ghi, mỗi bản ghi có 6 thuộc tính. Các thuộc tính đều là các thuộc tính rời rạc. Mỗi thuộc tính có nhiều nhất là 4 giá trị. Giá trị của các thuộc tính được nhà cung cấp sắp xếp theo một thứ tự xác định và quyền ưu tiên được xác định theo thứ tự từ trên xuống dưới (theo thứ tự xuất hiện của các thuộc tính trong bảng 4.3). Nguồn dữ liệu không có giá trị không xác định. Nhiệm vụ của phân lớp là xác định lớp cho các bản ghi của nguồn dữ liệu. Dữ liệu được phân thành 4 lớp: unacc, acc, good, vgood.

Tên thuộc tính Tập giá trị thuộc tính Buying v-high, high, med, low

Maint v-high, high, med, low

Doors 2, 3, 4, 5-more

Persons 2, 4, more

Lug boot small, med, big

Safety low, med, high

Class unacc, acc, good, v-good

Bảng 4.3. Thuộc tính và các giá trị thuộc tính có thể có (CARS)

NURSERY

Nguồn dữ liệu được xây dựng nhằm hỗ trợ việc đưa ra các quyết định về việc chấp nhận hay không chấp nhận các đơn đăng kí học tại các trường Y. Nguồn dữ liệu bao gồm 12.960 bản ghi, mỗi bản ghi có 8 thuộc tính, mỗi thuộc tính có nhiều nhất là 5 giá trị. Giá trị của các thuộc tính cũng được sắp xếp theo thứ tự và chiều ưu tiên của các thuộc tính là chiều từ trên xuống dưới (theo thứ tự xuất hiện trong bảng 4.4). Nguồn dữ liệu không có giá trị không xác định. Việc phân lớp các bản ghi là việc xác định xem mỗi bản ghi thuộc lớp nào trong 5 lớp sau: not_recom, recommend, very_recom, priority, spec_prior.

Tên thuộc tính Tập giá trị thuộc tính Parents Usual, pretentious, great_pret

Has nurs Proper, less_proper, improper, critical, very_crit

Form Complete, completed, incomplete, foster

Children 1, 2, 3, more

Housing Convenient, less_conv, critical

Finance Convenient, inconv

Social Non_prob, slightly_prob, problematic

Health Recommended, priority, not_recom

Class Not_recom, recommend, very_recom, priority, spec_prior

Một phần của tài liệu TÍCH HỢP THÔNG TIN KHÔNG THUẦN NHẤT VỀ NGỮ NGHĨA TRONG MÔI TRƯỜNG PHÂN TÁN (Trang 66)