Phân lớp bằng K-NN: Tìm hiểu giải thuật K-NN; thu thập và tiền xử lý dữ liệu số dạng quan hệ hoặc dạng tệp, dữ liệu UCI hoặc dữ liệu dành riêng cho K-NN; cài đặt giải thuật K-NN trên các
Trang 1Danh sách bài tập lớn mơn học Khai phá dữ liệu
Phần 1 Các đề tài học thuật
1 Khai phá luật kết hợp: Tìm hiểu lý thuyết về khai phá luật kết hợp; lựa chọn một thuật tốn khai phá luật kết hợp; tìm kiếm và tiền xử lý một bộ dữ liệu giao dịch (cĩ thể là cơ
sở dữ liệu quan hệ hoặc dạng khác); tiền xử lý bộ dữ liệu; cài đặt thuật tốn tìm tập phổ biến và luật kết hợp trong cơ sở dữ liệu; thiết kế giao diện cho chương trình
2 Phân lớp bằng SVM: Tìm hiểu lý thuyết về SVM (2 lớp đơn giản); tìm hiểu chương trình giải bài tốn tối ưu CPLEX và cách sử dụng nĩ trong C++; cài đặt một chương trình C++ cho bài tốn phân lớp SVM và đánh giá kết quả trên dữ liệu UCI
3 Tìm hiểu mơ hình MSVM: Tìm hiểu kỹ thuật phân lớp bằng SVM; các chiến lược phân đa lớp: one vs all, one vs one; tìm hiểu các mơ hình MSVM của Cramer and singer; Weston and Watkins, Lee and Lin; sử dụng code về SVM cĩ sẵn để test trên các bộ dữ liệu UCI
4 Phân lớp bằng K-NN: Tìm hiểu giải thuật K-NN; thu thập và tiền xử lý dữ liệu số (dạng quan hệ hoặc dạng tệp, dữ liệu UCI hoặc dữ liệu dành riêng cho K-NN); cài đặt giải thuật K-NN trên các bộ dữ liệu đã xử lý; đánh giá giải thuật
5 Phân lớp bằng Nạve Bayesian: Tìm hiểu giải thuật phân lớp Nạve Bayesian; thu thập
và tiền xử lý dữ liệu; cài đặt giải thuật bằng C++ và đánh giá kết quả thu được
7 Phân cụm bằng K-Means: Tìm hiểu giải thuật K-Means; ưu, nhược điểm của k-means; thu thập và tiền xử lý dữ liệu phân cụm UCI; cài đặt giải thuật k-means trên dữ liệu đã xử lý; tổng hợp và đánh giá kết quả thu được
8 Phân cụm trên đồ thị - phương pháp Newman: Tìm hiểu bài tốn phân cụm trên đồ thị,
độ đo Modularity và giải thuật phân cụm trên đồ thị của Newman; thu thập và tiền xử lý
dữ liệu đồ thị (network datasets); cài đặt giải thuật bằng C++; tổng hợp và đánh giá kết quả thu được
9 Phân cụm trên đồ thị - phương pháp DCA: Tìm hiểu bài tốn phân cụm trên đồ thị, độ
đo Modularity và giải thuật phân cụm trên đồ thị của Lê Thị Hồi An – Nguyễn Mạnh Cường (DCAM); thu thập và tiền xử lý dữ liệu đồ thị (network datasets); cài đặt giải thuật bằng C++; tổng hợp và đánh giá kết quả thu được
10 Bản đồ tự tổ chức SOM – giải thuật cơ bản: Tìm hiểu về SOM và Batch SOM, giải thuật huấn luyện batch SOM cơ bản; thu thập và tiền xử lý dữ liệu SOM; cài đặt giải thuật Batch SOM cơ bản bằng C++; tổng hợp và đánh giá kết quả
11 Bản đồ tự tổ chức SOM – giải thuật DCA: Tìm hiểu về SOM, Batch SOM, giải thuật huấn luyện SOM (DCASOM) của Lê Thị Hồi An – Nguyễn Mạnh Cường; thu thập và tiền xử lý dữ liệu SOM; Cài đặt giải thuật DCASOM bản bằng C++; tổng hợp và đánh giá kết quả
Trang 212 Hệ thống IDS chống xâm nhập và giải thuật phân lớp: Tìm hiểu hệ thống IDS và bài toán phân lớp trong IDS; tìm hiểu về SVM hai lớp; thu thập và tiền xử lý dữ liệu của UCI; cài đặt SVM cho bài toán intrusion detection; tổng hợp và đánh giá kết quả
13 Tìm hiểu, mô tả lại chi tiết, đánh giá ưu nhược điểm, đưa ra các phương án xử lý nhược điểm của một thuật toán bất kỳ trong số các thuật toán sau đây (sinh viên có thể chọn 1 hoặc nhiều thuật toán): giải thuật sinh luật kết hợp Apriori/ AprioriTID/ FP-tree…; giải thuật sinh cây quyết định ID3; giải thuật phân lớp Bayesian; giải thuật phân lớp bằng SVM; giải thuật phân đa lớp MSVM; bài toán và giải thuật phân đoạn ảnh (image segmentation); giải thuật phân cụm k-means; giải thuật phân cụm DCA-Kmeans; giải thuật phân cụm đồ thị Modularity maximization của newman (CNM); giải thuật phân cụm đồ thị DCAM; giải thuật phân cụm đồ thị Walktrap; giải thuật phân cụm trên đồ thị
SP (spectral bisection algorithm của newman); giải thuật huấn luyện online SOM, Batch SOM, DCASOM (chọn 1 trong 3); phân lớp bằng S3VM; bài toán và giải thuật trích chọn thuộc tính (feature selection); …
Phần 2: Các đề tài ứng dụng
14 Giải thuật K-NN cho hệ thống recommender: Tìm hiểu giải thuật K-NN; tìm hiểu bài toán đưa ra khuyến nghị trong recommender systems; thu thập và tiền xử lý dữ liệu giao dịch trong một website bán hàng; cài đặt chức năng đưa ra khuyến nghị mua hàng cho các khách hàng dựa trên lịch sử giao dịch bằng giải thuật K-NN;
15 Gợi ý quảng cáo thông minh: Tìm hiểu một giải thuật phân lớp bất kỳ; tìm hiểu bài toán đưa ra các quảng cáo thông minh (phù hợp với người dùng); thu thập và tiền xử lý một bộ dữ liệu của một website (mạng xã hội, bán hàng, tin tức…); cài đặt thêm chức năng tìm ra quảng cáo phù hợp với người dùng
16 Tìm và đưa ra gợi ý nhóm mua chung: Thu thập và tiền xử lý một bộ dữ liệu bán hàng (web hoặc winform); thiết lập một đồ thị dựa trên các tương tác giữa các khách hàng; nghiên cứu và cài đặt chức năng gợi ý thành lập nhóm mua chung cho các khách hàng, dựa trên đồ thị vừa xây dựng (sử dụng một giải thuật phân cụm trên đồ thị);
17 Phân loại tự động khách hàng: Thu thập một cơ sở dữ liệu về khách hàng của một website bán hàng hoặc phần mềm quản lý bán hàng dạng winform; Chọn lọc và tiền xử lý
dữ liệu demographic của khách hàng với class-label là tên nhóm khách hàng để làm bộ
dữ liệu huấn luyện; cài đặt thêm chức năng tự động phân loại khách hàng bằng một giải thuật phân lớp phù hợp
18 Phân loại hành vi mua hàng của khách hàng: Thu thập và tiền xử lý một bộ dữ liệu về khách hàng của website bán hàng hoặc phần mềm quản lý bán hàng winform; xây dựng bảng dữ liệu về: khách hàng nào, mua hàng gì, số lượng bao nhiêu; phân cụm các khách hàng thành các cụm dựa trên bảng dữ liệu vừa xây dựng
Một đề tài sinh viên tự đề xuất
19 Xây dựng Winform chuẩn đuán về bệnh hô hấp