5. Phƣơng pháp nghiên cứu
1.2.2 .R trong khai phá dữ liệu
R có sẵn các gói thƣ viện hỗ trợ hầu hết các kỹ thuật trong khai phá dữ liệu [25] [26].
1.2.2.1. Phân lớp với R
Dƣới đây là một số thƣ viện có sẵn trong R để hỗ trợ kỹ thuật phân lớp trong khai phá dữ liệu với R.
Bảng 1.1. Các thƣ viện hỗ trợ phân lớp trong R
Kỹ thuật phân lớp Thƣ viện
Cây quyết định Rừng ngẫu nhiên Học máy có giám sát Mạng nơ ron
Đánh giá hiệu năng
rpart, party randomForest, party e1071, kernlab nnet, neuralnet, RSNNS ROCR 1.2.2.2. Phân cụm với R
23 phân cụm trong khai phá dữ liệu với R.
Bảng 1.2. Các hàm, thƣ viện hỗ trợ phân cụm trong R
Kỹ thuật phân cụm Hàm Thƣ viện
k-means k-medoids Phân cụm di truyền DBSCAN BIRCH Thẩm định phân cụm kmeans(), kmeansruns() pam(), pamk()
hclust(), agnes(), diana()
fpc birch
clv, clValid, NbClust
1.2.2.3. Khai phá luật kết hợp với R
Dƣới đây là một số hàm và thƣ viện có sẵn trong R để hỗ trợ kỹ thuật khai phá luật kết hợp trong khai phá dữ liệu với R.
Bảng 1.3. Các hàm, thƣ viện hỗ trợ khai phá luật kết hợp trong R
Kỹ thuật khai phá luật kết hợp Hàm Thƣ viện
Luật kết hợp Mẫu trình tự
Trực quan hóa kết hợp
apriori(), eclat() Arules
arulesSequence arulesViz
1.2.2.4. Khai phá văn bản với R
Dƣới đây là một số thƣ viện có sẵn trong R để hỗ trợ kỹ thuật khai phá văn bản trong khai phá dữ liệu với R.
Bảng 1.4. Các thƣ viện hỗ trợ khai phá văn bản trong R
Kỹ thuật khai phá văn bản Thƣ viện
Khai phá văn bản Mô hình chủ đề Word cloud Xử lý dữ liệu Twitter Tm topicmodels, lda wordcloud twitteR
24
1.2.2.5. Phân tích chuỗi thời gian với R
Dƣới đây là một số hàm và thƣ viện có sẵn trong R để hỗ trợ kỹ thuật phân tích chuỗi thời gian trong khai phá dữ liệu với R.
Bảng 1.5. Các hàm, thư viện hỗ trợ phân tích chuỗi thời gian trong R
Kỹ thuật phân tích chuỗi thời gian Hàm Thƣ viện
Phân rã chuỗi thời gian Dự báo chuỗi thời gian Phân cụm chuỗi thời gian
DTW (Dynamic Time Warping)
decomp(), decompose(), arima(), stl()
forecast TSclust Dtw
1.2.2.6. Phân tích mạng xã hội với R
Dƣới đây là một số hàm và thƣ viện có sẵn trong R để hỗ trợ kỹ thuật phân tích mạng xã hội trong khai phá dữ liệu với R.
Bảng 1.6. Các hàm, thƣ viện hỗ trợ phân tích mạng xã hội trong R
Kỹ thuật phân tích mạng xã hội Hàm Thƣ viện Centrality measures Phân cụm Cliques Community detection
degree(), betweenness(), closeness(), transitivity()
clusters(), no.clusters()
cliques(), largest.cliques(), maximal.cliques(), clique.number() fastgreedy.community(), spinglass.community() igraph, sna, RNeo4j 1.2.2.7. R và Big data
Dƣới đây là một số hàm có sẵn trong R để hỗ trợ xử lý BigData trong R.
Bảng 1.7. Các thƣ viện hỗ trợ xử lý BigData trong R
Kỹ thuật xử lý Big Data Hàm
Hadoop Spark H2O MongoDB
RHadoop, RHIPE, rmr2, rhdfs, rhbase SparkR
h2o
25