Giới thiệu bài tốn phân lớp dữ liệu Mushroom

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp dữ liệu và ứng dụng trong phân lớp nấm (mushroom) với công cụ weka​ (Trang 58 - 63)

3.1.1 Giới thiệu về bài tốn phân lớp dữ liệu Mushroom

Nấm (Mushroom) cĩ lợi ích cao trong cơ thể con người. Tuy nhiên, khơng phải tất cả các loại nấm đều ăn được. Trong khi một số cĩ đặc tính y tế để chữa ung thư, một số loại nấm khác cĩ thể chứa vi-rút mang bệnh truyền nhiễm.

Trong bài viết luân văn này được thiết lập để nghiên cứu phân lớp các đặc điểm của nấm hành vi như hình dạng, bề mặt và màu sắc của nắp, mang và thân, cũng như mùi, dân số và mơi trường sống của nấm. Thuật tốn phân tích thành phần chính “ The Principal Component Analysis” (PCA) được sử dụng để chọn các tính năng tốt nhất cho phân loại thử nghiệm bằng thuật tốn Cây quyết định “Decision Tree”, Nạve Bayes, k-Nearest neighbor, SMV. Phân loại chính xác, hệ số đo và thời gian thực hiện để phân loại mơ hình trên bộ dữ liệu Nấm tiêu chuẩn đã được đo. Hành vi tính năng mùi “odro” và màu sắc “color” được chọn là tính năng được xếp hạng cao nhất gĩp phần phân loại độ chính xác cao.

3.1.2. Thu thập, tiền xử lý và mã hĩa dữ liệu

Dữ liệu thực nghiệm Mushroom được thu thập lấy từ Kho lưu trữ học máy của UCI thu thập https://archive.ics.uci.edu/ml/datasets/mushroom. Chi tiết của bộ dữ liệu đã thu thập này được cung cấp bởi Bảng 3.1 và bảng 3.2.

Bảng 3.1: Bảng tổng hợp dữ liệu thu thập Data Set Data Set Characteristics: Multivariate Number of Instances: 8124 Area: Life Attribute Characteristics: Catessification Number of Attributes: 22 Date Denated: 1987-04-27

Associated: Classification Missing Values:

Yes Number of Web Hits:

Bảng 3.2: Các tính năng dành cho các dữ liệu nấm

TT Đặc trưng Kiểu dữ liệu Giá trị danh nhĩa

1 cap-shape Nominal bell=b, conical=c, convex=x, flat=f, knobbed=k, sunken=s

2 cap-surface Nominal fibrous=f, grooves=g, scaly=y, smooth=s 3 cap-color Nominal brown=n, buff=b, cinnamon=c, gray=g,

green=r, pink=p, purple=u, red=e, white=w, yellow=y

4 bruises? Nominal bruises=t, no=f

5 odor Nominal almond=a, anise=l, creosote=c, fishy=y, foul=f, musty=m, none=n, pungent=p, spicy=s

6 gill-

attachment

Nominal attached=a, descending=d, free=f, notched=n

7 gill-spacing Nominal close=c, crowded=w, distant=d 8 gill-size Nominal broad=b, narrow=n

9 gill-color Nominal black=k, brown=n, buff=b, chocolate=h, gray=g, green=r, orange=o, pink=p, purple=u, red=e, white=w, yellow=y

10 stalk-shape Nominal enlarging=e, tapering=t

11 stalk-root Nominal bulbous=b, club=c, cup=u, equal=e, rhizomorphs=z, rooted=r, missing=?

12 stalk-surface- above-ring

Nominal fibrous=f, scaly=y, silky=k, smooth=s

13 stalk-surface- below-ring

Nominal fibrous=f, scaly=y, silky=k, smooth=s

14 stalk-color- above-ring

Nominal brown=n, buff=b, cinnamon=c, gray=g, orange=o, pink=p, red=e, white=w, yellow=y 15 stalk-color- Nominal brown=n, buff=b, cinnamon=c, gray=g,

below-ring orange=o, pink=p, red=e, white=w, yellow=y

16 veil-type Nominal partial=p, universal=u

17 veil-color Nominal brown=n, orange=o, white=w, yellow=y 18 ring-number Nominal none=n, one=o, two=t

19 ring-type Nominal cobwebby=c, evanescent=e, flaring=f, large=l, none=n, pendant=p, sheathing=s, zone=z

20 spore-print- color

Nominal black=k, brown=n, buff=b, chocolate=h, green=r, orange=o, purple=u, white=w, yellow=y

21 population Nominal abundant=a, clustered=c, numerous=n, scattered=s, several=v, solitary=y

22 habitat Nominal grasses=g, leaves=l, meadows=m, paths=p, urban=u, waste=w, woods=d

23 class Nominal Edible=e, poisonous=p

Đây là bảng tập dữ liệu mơ tả các đặc tính vật lý của nấm, cùng với nhãn phân loại cĩ độc hoặc ăn được (thuộc tính class đầu tiên: p (poisonous) – cĩ độc, e (edible) – ăn được).

Bảng 3.3: Mơ tả ý nghĩa các giá trị dữ liệu nấm

TT Mơ tả ý nghĩa

1 Hình dạng: tràng hoa, hình nĩn nhơ cao, mọc từng dãy trồi lên trủng xuống 2 Bề mặt tai nấm: cĩ thớ, đường khuyết, cĩ lớp vỏ nhẳn bao quanh

3 Màu tai nấm: nâu, vàng sẫm, nâu vàng, xám, xanh lá cây, hồng, đỏ tím, đỏ, trắng, vàng

4 Vết thâm: cĩ vết thâm, khơng cĩ

5 Mùi: mùi hạnh nhân, hương cây hồi, creosote, mùi tanh, hơi, mốc, khơng mùi, vị cây, cĩ gia vị

6 Là tia dính kèm: dính kèm, hướng xuống tự do, hay đánh dấu theo hình chữ V 7 Khoảng cách giữa các lá tím: dày đặc, chật ních, rải rác

8 Kích thước lá tím: rộng, hẹp

9 Màu sắc lá tia: đen, nâu, vàng sẫm, màu socola, xám, xanh lá cây, cam, hồng, tím, dỏ, trắng, vàng

10 Hình dạng thân nấm: to lớn, thon dài

11 Loại rễ: hình cũ, chum, hình chén, hay hình dang như nhau, dạng sợi nấm, ăn sâu vào đất khơng nhìn thấy

12 Vịng thân trên nấm: cĩ thớ, xếp như vảy cá, mềm mịn trơn nhẳn 13 Vịng thân dưới: cĩ thớ xếp như vảy cá mềm mịn trơn nhẳn

14 Màu vịng thân trên: nâu, vàng sẩm, nâu vàng, xám, cam, hồng, đỏ, trắng, vàng

15 Màu vịng thân dưới: nâu, vàng sẩm, nâu vàng, xám, cam, hồng, đỏ, trắng, vàng

16 Loại cĩ mũ: phần, phổ biến

17 Màu của mũ: màu nâu, màu cam, màu trắng, màu vàng 18 Số vịng nấm: khơng, một, hai

19 Loại vịng nấm: hình mạng nhện, khơng hiện rỏ, hay hiện rỏ, lớn, khơng lớn, hình tua, bao bên ngồi, theo từng vùng

trắng, vàng

21 Số lượng nấm: phong phú, mọc từng đám, nhiều, lác đác, vài, cơ độc 22 Mơi trường sống: nấm cĩ thẻ sống ở nơi cĩ cỏ, lá, đồng cỏ, nơi gần đường

mịn, thành thị, nơi cĩ chất bẩn hoặc trong rừng 23 Loại nấm; ăn được, khơng ăn được

3.1.3. Mơ tả sơ lược về dữ liệu

Để nạp dữ liệu mushroom và Weka, ta cần thêm thơng tin các thuộc tính nằm trong file mơ tả vào tập dữ liệu, sau đĩ chuyển đuơi mở rộng thành *.csv

(mushroom.csv).

Hình 3.2 : Load Mushroom data

• Số lượng mẫu: 8124.

• Số lượng thuộc tính: 23.

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu một số phương pháp phân lớp dữ liệu và ứng dụng trong phân lớp nấm (mushroom) với công cụ weka​ (Trang 58 - 63)

Tải bản đầy đủ (PDF)

(85 trang)