Phần mềm R để khai phá Luật kết hợp

10 63 0
Phần mềm R để khai phá Luật kết hợp

Đang tải... (xem toàn văn)

Thông tin tài liệu

Khai phá luật kết hợp (Association Rule Mining) là kỹ thuật rất quan trọng trong lĩnh vực khai phá dữ liệu. Mục đích của việc khai phá luật kết hợp là tìm ra các mối quan hệ, sự kết hợp hay mối tương quan giữa các đối tượng trong khối lượng lớn dữ liệu. Hiện nay có nhiều phần mềm hỗ trợ việc khai phá dữ liệu như Weka, R (R programming language), Python…Trong bài tập này, chúng em sử dụng phần mềm R để khai phá dữ liệu

Khai phá luật kết hợp với R I Giới thiệu Khai phá luật kết hợp (Association Rule Mining) kỹ thuật quan trọng lĩnh vực khai phá liệu Mục đích việc khai phá luật kết hợp tìm mối quan hệ, kết hợp hay mối tương quan đối tượng khối lượng lớn liệu Hiện có nhiều phần mềm hỗ trợ việc khai phá liệu Weka, R (R programming language), Python… Trong tập này, chúng em sử dụng phần mềm R để khai phá liệu II Tải cài đặt phần mềm R - Tải phần mềm R programming language theo địa chỉ: https://www.r-project.org/ https://rstudio.com/ - Cài đặt R, giao diện sau cài đặt chạy III Mô tả liệu, nguồn liệu bước khai phá luật kết hợp với R - Data set minh họa: “Titanic Dataset” Đây liệu số phận 2201 hành khách tàu Titanic theo thuộc tính gồm social class (tầng lớp xã hội), sex (giới tính), age (tuổi), survival (sống sót) Khi nghiên cứu liệu thảm họa chìm tàu Titanic vào ngày 14 tháng 04 năm 1912 làm 1514 người chết, số câu hỏi đặt là: Trẻ có tỷ lệ sống sót cao người lớn khơng? Những đứa trẻ có tầng lớp xã hội thượng lưu có tỷ lệ sống sót cao trẻ tầng lớp khác không? Tỷ lệ sống sót có phụ thuộc vào gới tính độ tuổi không? Để trả lời câu hỏi này, sử dụng kỹ thuật phát luật kết hợp để khai phá tri thức tiềm ẩn Titanic dataset - Tải tập liệu “Titanic Dataset” từ địa chỉ: http://bis.net.vn/files/storage/20170804182839401.rar code R: http://bis.net.vn/files/storage/20170804182957403.rar - Các bước thực khai phá luật kết hợp với R với liệu vừa tải (4 bước) * Bước Nạp xem liệu #Đường dẫn đến tập tin Titanic dataset setwd("D:/Ths_CNTT/Cac_mon/Khai_pha_data/BT_21_10_2020") #Nạp liệu load("titanic.raw.rdata") #Xem nhanh tập liệu fix(titanic.raw) # Xem số lượng số thuộc tính dim(titanic.raw) str(titanic.raw) #Hiển thị hàng liệu idx

Ngày đăng: 13/11/2020, 08:34

Tài liệu cùng người dùng

Tài liệu liên quan