Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 28 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
28
Dung lượng
590,45 KB
Nội dung
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
Vũ Hải Thuyết
NGHIÊN CỨUMỘTSỐGIẢITHUẬTPHÂNCỤM
TRONG KHAIPHÁDỮLIỆU
Chuyên ngành: Truyền dữliệu và mạng máy tính
Mã số: 60.48.15
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI - 2012
Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƢU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS.TS Đoàn Văn Ban
Phản biện 1: ……………………………………….…
Phản biện 2: ………………………….………………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn
thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông
Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn
thông
1
I. MỞ ĐẦU
Lý do chọn đề tài
Nhu cầu về tìm kiếm và xử lý thông tin, cùng với
yêu cầu về khả năng kịp thời khai thác chúng để mang lại
những năng suất và chất lượng cho công tác quản lý, hoạt
động kinh doanh,… đã trở nên cấp thiết.
Với những lý do như vậy, các phương pháp quản trị
và khai thác cơ sởdữliệu truyền thống ngày càng không
đáp ứng được thực tế đã làm phát triển một khuynh hướng
kỹ thuật mới đó là Kỹ thuật phát hiện tri thức và khaiphá
dữ liệu (KDD – Knowledge Discovery and Data Mining).
Kỹ thuật phát hiện tri thức và khaiphádữliệu đã
và đang được nghiên cứu, ứng dụng trong nhiều lĩnh vực
khác nhau. Bước quan trọng nhất của quá trình này là
Khai phádữliệu (Data Mining), giúp người sử dụng thu
được những tri thức hữu ích từ những cơ sởdữliệu hoặc
các nguồn dữliệu khổng lồ khác. Rất nhiều doanh nghiệp
và tổ chức trên thế giới đã ứng dụng kĩ thuậtkhaiphádữ
liệu vào hoạt động sản xuất, kinh doanh và đã thu được
những lợi ích to lớn. Nhưng để làm được điều đó, sự phát
triển của các mô hình toán học và các giảithuật hiệu quả
2
là chìa khoá quan trọng. Do đó, tôi đã chọn đề tài “Nghiên
cứu mộtsốgiảithuậtphâncụmtrongkhaiphádữ liệu”.
Mục đích đề tài
- Nghiêncứu các phương pháp khaiphádữ
liệu.
- Nghiêncứu các kỹ thuậtphâncụmdữliệu
và khả năng ứng dụng trongkhaiphádữliệu
và phát triển tri thức.
Phƣơng pháp nghiêncứu
Nghiên cứu các tài liệu về khaiphádữ liệu, kỹ
thuật phâncụm của các tác giả trong và ngoài nước, các
bài báo, thông tin trên mạng.
Đối tƣợng và phạm vi nghiêncứu
Tập trung nghiêncứu các thuật toán phâncụmdữ
liệu.
Cấu trúc luận văn
Ngoài các phần mở đầu, mục lục, danh mục hình
vẽ, danh mục từ viết tắt, kết luận, tài liệu tham khảo, luận
văn được chia làm 3 phần như sau:
3
Chƣơng 1: Khaiphádữliệu và phát hiện trí thức.
Trình bày về khaiphádữ liệu, các khái niệm cơ bản, các
kỹ thuậtkhaiphádữliệu và ứng dụng khaiphádữ liệu.
Chƣơng 2: Chương này trình bày mộtsố phương
pháp phâncụmdữliệu phổ biến như phâncụmphân cấp,
phân cụm dựa trên lưới, phâncụm dựa vào cụm trung tâm
và phương pháp tiếp cận mới trong PCDL là phâncụm
mờ.
Chƣơng 3: Đánh giá và thử nghiệm. Phần này trình
bày mộtsố kết quả đã đạt được khi tiến hành áp dụng các
giải thuậtkhaiphádữliệu để khai thác thông tin dữliệu
mẫu.
4
CHƢƠNG I. KHAIPHÁDỮLIỆU VÀ PHÁT HIỆN
TRI THỨC
1.1 Giới thiệu chung
Từ vài thập niên trở lại đây, với những tác động
mạnh mẽ của các tiến bộ trong công nghệ phần cứng và
truyền thông, các hệ thống dữliệu phục vụ cho các lĩnh
vực kinh tế xã hội phát triển bùng nổ, lượng dữliệu được
tạo ra ngày càng lớn.
Sự bùng nổ này đã dẫn tới một yêu cầu cấp thiết là
cần có những kỹ thuật và công cụ mới để tự động chuyển
đổi lượng dữliệu khổng lồ kia thành các tri thức có ích,
phục vụ cho việc ra quyết định.
1.2 Phát hiện tri thức và khaiphádữliệu là
gì?
Khai phádữliệu là một tập hợp các kỹ thuật được
sử dụng để tự động khai thác và tìm ra các mối quan hệ
lẫn nhau của dữliệutrongmột tập hợp dữliệu khổng lồ và
phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập
dữ liệu đó.
5
1.3 Các bƣớc của quá trình khaiphádữliệu
Quá trình khaiphádữliệu gồm 6 bước:
1. Gom cụmdữ liệu.
2. Trích lọc dữ liệu.
3. Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu.
4. Chuyển đổi dữ liệu.
5. Khaiphádữ liệu.
6. Đánh giá các luật và biểu diễn tri thức.
1.4 Các kỹ thuật áp dụng trongkhaiphádữliệu
Thường được chia thành 2 nhóm chính sau:
1.4.1 Kỹ thuậtkhaiphádữliệu mô tả
Có nhiệm vụ mô tả về các tính chất hoặc các
đặc tính chung của dữliệutrong CSDL hiện có.
1.4.2 Kỹ thuậtkhaiphádữliệudự đoán
Kỹ thuậtkhaiphádữliệudự đoán: có nhiệm vụ
đưa ra các dự đoán dựa vào suy các suy diễn
trên dữliệu hiện thời.
6
1.5 Ứng dụng của khaiphádữliệu
1.5.1 Ứng dụng của khaiphádữliệu
- Học máy: khaiphádữliệu có thể sử dụng với các
CSDL chứa nhiều nhiễu, dữliệu không đầy đủ hoặc biến
đổi liên tục.
- Phương pháp hệ chuyên gia: Phương pháp này
khác với khaiphádữliệu ở chỗ các ví dụ của chuyên gia
thường ở mức chất lượng cao hơn rất nhiều so với các dữ
liệu trong CSDL và chúng thường chỉ bao quát được các
trường hợp quan trọng.
- Phương pháp thống kê: Khaiphádữliệu tự động
hóa quá trình thống kê một cách hiệu quả, vì vậy làm nhẹ
bớt công việc của người dùng cuối, tạo ra một công cụ dễ
sử dụng hơn.
1.5.2 Những thách thức trongkhaiphádữliệu
- Các cơ sởdữliệu lớn hơn rất nhiều.
- Số chiều cao.
- Thay đổi dữliệu (dữ liệu luôn động).
- Dữliệu thiếu và bị nhiễu.
- Mối quan hệ phức tạp giữa các trường dữ liệu.
- Tính dễ hiểu của các mẫu.
7
- Người dùng tương tác và tri thức có sẵn.
- Tích hợp với các hệ thống khác.
8
CHƢƠNG II. PHÂNCỤMDỮLIỆUTRONGKHAI
PHÁ DỮLIỆU
2.1 Phâncụmdữliệu
Phân cụmdữliệu là xử lý một tập các đối tượng
vào trong các lớp các đối tượng giống nhau được gọi là
phân cụm. Mộtcụm là một tập hợp các đối tượng dữliệu
giống nhau trong phạm vi cùng mộtcụm và không giống
nhau với các đối tượng trong các cụm khác. Số các cụm
dữ liệu được phân ở đây có thể được xác định trước theo
kinh nghiệm hoặc có thể được tự động xác định của
phương pháp phân cụm.
2.2 Các kiểu dữliệu và độ đo tƣơng tự trong phép
phân cụm
2.2.1 Phân loại dữliệu dựa trên kích thước miền
- Thuộc tính liên tục.
- Thuộc tính rời rạc.
2.2.2 Phân loại dữliệu dựa trên hệ đo
- Thuộc tính định danh, thuộc tính thứ tự, thuộc
tính khoảng, thuộc tính tỷ lệ,
[...]... cụm chính trong khaiphádữliệu 2.4.1 Phương pháp phâncụmdữliệu dựa trên phâncụmphân cấp Phương pháp phâncụmphân cấp làm việc bằng cách nhóm các đối tượng vào trongmột cây các cụm 2.4.1.1 Phâncụmphân cấp tích đống và phân ly Phâncụmphân cấp tích đống: bắt đầu bằng cách đặt mỗi đối tượng vào trongcụm của bản thân nó, sau đó kết nhập các cụm nguyên tử này vào trong các cụm ngày 10 càng lớn... phương pháp k-medoids mạnh hơn k-means Tuy nhiên, xử lý của nó có chi phí tốn kém hơn phương pháp k-means và nó cũng cần người dùng chỉ ra k - sốcụm 2.5 Kết luận Chương này trình bày mộtsố phương pháp phâncụmdữliệu phổ biến như phâncụmphân cấp, phâncụm dựa trên lưới, phâncụm dựa vào cụm trung tâm và phương pháp tiếp cận mới trong PCDL là phâncụm mờ Phương pháp phân cụmdữliệu dựa vào cụm trung... k cụm, sau đó lặp lại nhiều lần để phân bố lại các đối tượng dữliệu giữa các cụm nhằm cải thiện chất lượng phâncụmMộtsốthuật toán điển hình như K-means, PAM, Phương pháp phâncụmphân cấp dựa trên ý tưởng cây phân cấp để phâncụmdữliệu Có hai cách tiếp cận đó là phâncụm dưới lên (Bottom up) và phâncụm trên xuống 21 (Top down) Mộtsốthuật toán điển hình như BIRCH, CURE, Phương pháp phân cụm. .. nghiệm phâncụmdữliệu bằng giảithuật K-means, K-medoids và đánh giá 3.2.1 Các bước tiến hành thực nghiệm - Phâncụmdữliệu bằng giảithuật Kmeans và Kmedoids - Gắn nhãn cho các cụm, đánh giá, so sánh hiệu quả gắn nhãn giữa hai giảithuật trên cho các bộ sốliệu UCI (chỉ dùng các dữliệu có thuộc tính liên tục) 3.2.2 Kết quả thực nghiệm 3.3 Kết luận Sau khi tiến hành thực nghiệm trên mộtsố bộ dữ liệu. .. hướng phát triển sau này 25 KẾT LUẬN Luận văn tập trung nghiêncứu lý thuyết và áp dụng mộtsố kỹ thuật khaiphádữliệu trên bộ dữliệu của UCI Đây là bước khởi đầu trong quá trình tìm hiểu những vấn đề cần quan tâm khi giải quyết các bài toán khai phádữliệutrong thực tế Những kết quả mà luận văn đã đạt được Về lý thuyết: luận văn tập trung tìm hiểu kỹ thuậtphâncụm truyền thống và phương pháp... kỹ thuậtphâncụm 1 Khả năng mở rộng 2 Thích nghi với các kiểu dữliệu khác nhau 3 Khám phá ra các cụm với hình thù bất kỳ 4 Tối thiểu lượng tri thức cần cho xác định tham số vào 5 6 Thích nghi với dữliệu nhiễu cao 7 Ít nhạy cảm với tham số đầu vào 8 Thích nghi với dữliệu đa chiều 9 2.4 Ít nhạy cảm với thứ tự của dữliệu vào Dễ hiểu, dễ cài đặt và khả thi Mộtsố phƣơng pháp phâncụm chính trong khai. .. những nhược điểm của thuật toán K-means 2.4.2.2 Thuật toán εFCM (ε- Insensitive Fuzzy C-means) Thuật toán εFCM là một mở rộng của thuật toán FCM nhằm khắc phục các nhược điểm của thuật toán FCM 15 2.4.3 Phƣơng pháp phâncụmdữliệu dựa trên lƣới 2.4.3.1 Thuật toán STING STING là kỹ thuậtphâncụm đa phângiải dựa trên lưới, trong đó vùng không gian dữliệu được phân rã thành số hữu hạn các cells chữ... đồng dữliệu cho trước, sử dụng một ngưỡng tương đồng và khái niệm các láng giềng chia sẻ và sau đó biểu diễn một giải thuậtphâncụmphân cấp trên đồ thị thưa 13 2.4.1.5 Thuật toán CHAMELEON CHAMELEON miêu tả các đối tượng dựa trên tiếp cận đồ thị được dùng phổ biến: k-láng giềng gần nhất CHAMELEON trước tiên sử dụng mộtgiảithuậtphân chia đồ thị để phâncụm các mục dữliệu vào trongmộtsố lượng... lần Pha 2: Lựa chọn mộtthuật toán phâncụm để phâncụm các nút lá của cây CF 2.4.1.3 Thuật toán CURE: phâncụm sử dụng đại diện CURE (Clustering Using REpresentatives) cung cấp mộtgiảithuậtphâncụm theo vị trí giữa dựa trên trọng tâm và tất cả các cực điểm Thay vì sử dụng mộttrọng tâm đơn đại diện một cụm, CURE ấn định mộtsố lượng các điểm đại diện được lựa chọn để miêu tả mộtcụm Các điểm đại diện... văn cài đặt hai thuật toán K- means, K-medoid và so sánh đánh giá chúng Qua quá trình nghiêncứu lý thuyết và thực nghiệm có thể đưa ra mộtsố kết luận sau: Mỗi mộtgiảithuậtphâncụm áp dụng cho mộtsố mục tiêu và kiểu dữliệu nhất định Mỗi mộtgiảithuật có độ chính xác riêng và khả năng thực hiện trên từng kích thước dữliệu là khác nhau Điều này còn tùy thuộc vào cách tổ chức dữliệu ở bộ nhớ .
2.4 Một số phƣơng pháp phân cụm chính trong
khai phá dữ liệu
2.4.1 Phương pháp phân cụm dữ liệu dựa trên
phân cụm phân cấp
Phương pháp phân cụm phân. thuật phân cụm trong khai phá dữ liệu .
Mục đích đề tài
- Nghiên cứu các phương pháp khai phá dữ
liệu.
- Nghiên cứu các kỹ thuật phân cụm dữ liệu