Bài tập lớn

2 823 2
Bài tập lớn

Đang tải... (xem toàn văn)

Thông tin tài liệu

Danh sách bài tập lớn môn học Khai phá dữ liệu Phần 1. Các đề tài học thuật 1. Khai phá luật kết hợp: Tìm hiểu lý thuyết về khai phá luật kết hợp; lựa chọn một thuật toán khai phá luật kết hợp; tìm kiếm và tiền xử lý một bộ dữ liệu giao dịch (có thể là cơ sở dữ liệu quan hệ hoặc dạng khác); tiền xử lý bộ dữ liệu; cài đặt thuật toán tìm tập phổ biến và luật kết hợp trong cơ sở dữ liệu; thiết kế giao diện cho chương trình. 2. Phân lớp bằng SVM: Tìm hiểu lý thuyết về SVM (2 lớp đơn giản); tìm hiểu chương trình giải bài toán tối ưu CPLEX và cách sử dụng nó trong C++; cài đặt một chương trình C++ cho bài toán phân lớp SVM và đánh giá kết quả trên dữ liệu UCI. 3. Tìm hiểu mô hình MSVM: Tìm hiểu kỹ thuật phân lớp bằng SVM; các chiến lược phân đa lớp: one vs all, one vs one; tìm hiểu các mô hình MSVM của Cramer and singer; Weston and Watkins, Lee and Lin; sử dụng code về SVM có sẵn để test trên các bộ dữ liệu UCI. 4. Phân lớp bằng K-NN: Tìm hiểu giải thuật K-NN; thu thập và tiền xử lý dữ liệu số (dạng quan hệ hoặc dạng tệp, dữ liệu UCI hoặc dữ liệu dành riêng cho K-NN); cài đặt giải thuật K-NN trên các bộ dữ liệu đã xử lý; đánh giá giải thuật. 5. Phân lớp bằng Naïve Bayesian: Tìm hiểu giải thuật phân lớp Naïve Bayesian; thu thập và tiền xử lý dữ liệu; cài đặt giải thuật bằng C++ và đánh giá kết quả thu được. 7. Phân cụm bằng K-Means: Tìm hiểu giải thuật K-Means; ưu, nhược điểm của k-means; thu thập và tiền xử lý dữ liệu phân cụm UCI; cài đặt giải thuật k-means trên dữ liệu đã xử lý; tổng hợp và đánh giá kết quả thu được. 8. Phân cụm trên đồ thị - phương pháp Newman: Tìm hiểu bài toán phân cụm trên đồ thị, độ đo Modularity và giải thuật phân cụm trên đồ thị của Newman; thu thập và tiền xử lý dữ liệu đồ thị (network datasets); cài đặt giải thuật bằng C++; tổng hợp và đánh giá kết quả thu được. 9. Phân cụm trên đồ thị - phương pháp DCA: Tìm hiểu bài toán phân cụm trên đồ thị, độ đo Modularity và giải thuật phân cụm trên đồ thị của Lê Thị Hoài An – Nguyễn Mạnh Cường (DCAM); thu thập và tiền xử lý dữ liệu đồ thị (network datasets); cài đặt giải thuật bằng C++; tổng hợp và đánh giá kết quả thu được. 10. Bản đồ tự tổ chức SOM – giải thuật cơ bản: Tìm hiểu về SOM và Batch SOM, giải thuật huấn luyện batch SOM cơ bản; thu thập và tiền xử lý dữ liệu SOM; cài đặt giải thuật Batch SOM cơ bản bằng C++; tổng hợp và đánh giá kết quả. 11. Bản đồ tự tổ chức SOM – giải thuật DCA: Tìm hiểu về SOM, Batch SOM, giải thuật huấn luyện SOM (DCASOM) của Lê Thị Hoài An – Nguyễn Mạnh Cường; thu thập và tiền xử lý dữ liệu SOM; Cài đặt giải thuật DCASOM bản bằng C++; tổng hợp và đánh giá kết quả. 12. Hệ thống IDS chống xâm nhập và giải thuật phân lớp: Tìm hiểu hệ thống IDS và bài toán phân lớp trong IDS; tìm hiểu về SVM hai lớp; thu thập và tiền xử lý dữ liệu của UCI; cài đặt SVM cho bài toán intrusion detection; tổng hợp và đánh giá kết quả. 13. Tìm hiểu, mô tả lại chi tiết, đánh giá ưu nhược điểm, đưa ra các phương án xử lý nhược điểm của một thuật toán bất kỳ trong số các thuật toán sau đây (sinh viên có thể chọn 1 hoặc nhiều thuật toán): giải thuật sinh luật kết hợp Apriori/ AprioriTID/ FP- tree…; giải thuật sinh cây quyết định ID3; giải thuật phân lớp Bayesian; giải thuật phân lớp bằng SVM; giải thuật phân đa lớp MSVM; bài toán và giải thuật phân đoạn ảnh (image segmentation); giải thuật phân cụm k-means; giải thuật phân cụm DCA-Kmeans; giải thuật phân cụm đồ thị Modularity maximization của newman (CNM); giải thuật phân cụm đồ thị DCAM; giải thuật phân cụm đồ thị Walktrap; giải thuật phân cụm trên đồ thị SP (spectral bisection algorithm của newman); giải thuật huấn luyện online SOM, Batch SOM, DCASOM (chọn 1 trong 3); phân lớp bằng S3VM; bài toán và giải thuật trích chọn thuộc tính (feature selection); … Phần 2: Các đề tài ứng dụng 14. Giải thuật K-NN cho hệ thống recommender: Tìm hiểu giải thuật K-NN; tìm hiểu bài toán đưa ra khuyến nghị trong recommender systems; thu thập và tiền xử lý dữ liệu giao dịch trong một website bán hàng; cài đặt chức năng đưa ra khuyến nghị mua hàng cho các khách hàng dựa trên lịch sử giao dịch bằng giải thuật K-NN; 15. Gợi ý quảng cáo thông minh: Tìm hiểu một giải thuật phân lớp bất kỳ; tìm hiểu bài toán đưa ra các quảng cáo thông minh (phù hợp với người dùng); thu thập và tiền xử lý một bộ dữ liệu của một website (mạng xã hội, bán hàng, tin tức…); cài đặt thêm chức năng tìm ra quảng cáo phù hợp với người dùng. 16. Tìm và đưa ra gợi ý nhóm mua chung: Thu thập và tiền xử lý một bộ dữ liệu bán hàng (web hoặc winform); thiết lập một đồ thị dựa trên các tương tác giữa các khách hàng; nghiên cứu và cài đặt chức năng gợi ý thành lập nhóm mua chung cho các khách hàng, dựa trên đồ thị vừa xây dựng (sử dụng một giải thuật phân cụm trên đồ thị); 17. Phân loại tự động khách hàng: Thu thập một cơ sở dữ liệu về khách hàng của một website bán hàng hoặc phần mềm quản lý bán hàng dạng winform; Chọn lọc và tiền xử lý dữ liệu demographic của khách hàng với class-label là tên nhóm khách hàng để làm bộ dữ liệu huấn luyện; cài đặt thêm chức năng tự động phân loại khách hàng bằng một giải thuật phân lớp phù hợp. 18. Phân loại hành vi mua hàng của khách hàng: Thu thập và tiền xử lý một bộ dữ liệu về khách hàng của website bán hàng hoặc phần mềm quản lý bán hàng winform; xây dựng bảng dữ liệu về: khách hàng nào, mua hàng gì, số lượng bao nhiêu; phân cụm các khách hàng thành các cụm dựa trên bảng dữ liệu vừa xây dựng. Một đề tài sinh viên tự đề xuất 19. Xây dựng Winform chuẩn đuán về bệnh hô hấp . Danh sách bài tập lớn môn học Khai phá dữ liệu Phần 1. Các đề tài học thuật 1. Khai phá luật kết hợp: Tìm hiểu. tìm tập phổ biến và luật kết hợp trong cơ sở dữ liệu; thiết kế giao diện cho chương trình. 2. Phân lớp bằng SVM: Tìm hiểu lý thuyết về SVM (2 lớp đơn giản); tìm hiểu chương trình giải bài toán. thuật phân lớp: Tìm hiểu hệ thống IDS và bài toán phân lớp trong IDS; tìm hiểu về SVM hai lớp; thu thập và tiền xử lý dữ liệu của UCI; cài đặt SVM cho bài toán intrusion detection; tổng hợp và

Ngày đăng: 20/04/2015, 23:20

Từ khóa liên quan

Tài liệu cùng người dùng

Tài liệu liên quan