1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm

100 0 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghien cuu cai tien cac thuat toan gom cum mo va xay dung ung dung khai pha du lieu trong co so du lieu ERP doanh nghiep duoc pham
Tác giả Doan Huan
Người hướng dẫn TS. Nguyen Dinh Thuan
Trường học Dai hoc Quoc gia Thanh pho Ho Chi Minh
Chuyên ngành Khoa hoc may tinh
Thể loại luan van thac si cong nghe thong tin
Năm xuất bản 2012
Thành phố TP Ho Chi Minh
Định dạng
Số trang 100
Dung lượng 47,39 MB

Nội dung

Thuật toán 1 đặt tên là FCM+ với phương pháp tính các hệ số khuyến nghị điều chỉnh số cụm dựa trên tất cả các phần tử của cụm và Thuậttoán 2 đặt tên là FCM++ với phương pháp tính các hệ

Trang 1

ĐẠI HỌC QUOC GIA THÀNH PHO HO CHÍ MINH TRUONG DAI HQC CONG NGHE THONG TIN

go

DOAN HUAN

NGHIEN CUU CAI TIEN CAC THUAT TOAN GOM CUM MO VA XAY DUNG UNG DUNG KHAI PHA DU LIEU TRONG CO SO DU LIEU

ERP DOANH NGHIỆP DƯỢC PHAM

CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH

MÃ SÓ: 60 48 01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

(Đã hiệu chỉnh theo góp ý của Hội đồng bảo vệ ngày 29/03/2012)

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS NGUYÊN ĐÌNH THUÂN

ng

TP HO CHÍ MINH - NAM 2012

Trang 2

LỜI CAM ĐOAN

Tôi cam đoan rằng

đề tài này do chính tôi thực hiện.

Các số liệu, bảng biểu được thu thập,

các kết quả phân tích, dẫn chứng và

chương trình trong đề tài là trung thực.

Không có sự trùng lặp, sao chép từ bất kỳ đề tài, luận văn hay công trình nghiên cứu khoa học

của các tác giả nào khác.

Ngày 20 tháng 02 năm 2012

Học viên cao học

Đoàn Huấn

Trang 3

LỜI CÁM ƠN

Tôi xin bày tỏ lòng biết ơn sâu sắc đến

Tiên sĩ Nguyên Đình Thuân_

Nguoi đã tận tình hướng dân tôi hoàn thành luận văn này.

Tôi xin chân thành cám ơn các thay cô của trường Đại học Công nghệ Thông tin,

Dai học Khoa học Tự nhiên, Đại học Bách Khoa Thành phố Hồ Chi Minh

da tận tâm giảng dạy, hướng dẫn cho tôi trong các năm học cao học vừa qua.

Tôi xin cám ơn Ban Giám đốc Công ty Cổ phần Dược phẩm 3/2 (FT-Pharma) đã hỗ

trợ cho phép tôi sử dụng tài liệu, dữ liệu từ cơ sở dit liệu cua hệ thông phân mêm ERP của Công ty dé làm luận văn nay.

Tôi xin tri ân Người cha quá cô và Người me đã sinh thành và dưỡng dục tôi

Tôi xin cám ơn các thành viên khác trong gia đình đã động viên, giúp đỡ tôi rất nhiêu trong thời gian học cao học cũng như làm luận văn này.

Mùa xuân năm 2012

Doan Huan

Trang 4

13 Đối tượng phạm vi nghiên cứu của đi

1.3.1 Các thuật toán gom cụm mờ

1.3.2 Cơ sở dữ liệu của hệ thống phần mềm ERP doanh nghiệp dược phẩm vàcác thành phần liên quan

1.4 Y nghĩa khoa học và thực tiễn của đê tài.

1.5 Cấu trúc của luận văn

Chương 2-LÝ THUYET VE GOM CUM

2.2.2.2 Biến nhị phân đối xứng

Biến nhị phân bat đối xứng

2.3 Ý nghĩa của gom cụm

2.4 Cac yêu cầu của gom cum[1][6]

2.5 Cac ứng dụng của gom cụm dữ liệu [I][6].

2.6 Các phương pháp gom cụm [19]

2.6.1 Các phương pháp phân hoạch [1][6]

2.6.2 Các phương pháp phân cấp [1][6]

2.6.3 Các phương pháp dựa trên mật độ [2][6].

2.6.4 Các phương pháp dựa trên mô hình [2][6]

2.6.5 Các phương pháp dựa trên lưới [3][6].

2.7 Thuật toán Fuzzy C-1 -means ns (FCM) (6}{7][10] BOSE SIAADEBNHHHKSSOCWWINUDAAARAUWAK

Trang 5

2.8.2 Gom cụm gia tăng K-Means mờ dựa trên K-Center và véctơ lượng tử 26

Chương 3 - TÌM HIỂU HE THONG PHAN MEM ERP VÀ QUI TRINH TONGHỢP DU LIEU DE THỰC HIỆN VIỆC GOM CUM “

3.1 Giới thiệu hệ thống ERP [4][14]

3.2 Mô hình tô chức chung của Công ty được phâm [4]

3.3 Các qui trình chính trong hoạt động sản xuất, kinh doanh [4]

3.3.1 Qui trình mua hàng

3.3.2 Qui trình bán hàng

3.4 Cơ sở dữ liệu của hệ thông phân mêm ERP

3.5 Chọn đối tượng gom cum

3.6.5 Các bảng dữ liệu dùng đê gom cụm

Chương 4- ĐÈ XUẤT CẢI TIỀN THUẬT TOÁN FCM CÓ TRỌNG SỐ HỖ TRỢ

VIỆC DIEU CHỈNH SO CUM vA CAI DAT CHUONG TRINH UNG DUNG 45

4.1 Thuật toán FCM có trọng số

éu dùng đê tập hợp dữ liệu

“4 2.1.

4.2.2 ệ

4.2.3 Đề xuất các hệ số khuyến nghị điều chỉnh số cụm

4.2.4 Ý tưởng cải tiến.

4.2.5 Thuật toán FCM+,

4.2.6 Chương trình ứng dung

43 Ýtưởng cải tiến dựa trên một số hệ số của các phần tử cực biên trong cụm 59

4.3.1 Một số khái niệm liên quan đến phần tử cực biên

4.3.2 Đề xuất các hệ số khuyến nghị điều chỉnh số cum

4.3.4 Ý tưởng cải tiến

4.3.4 Thuật toán FCM++

4.4 Phân tích số liệu từ các thuật t

4.4.1 So sánh kh‹ ảng cách dma„ của hai thuật toán cải tiên FCM+ và FCM++.68

So sánh hệ sô a của hai thuật toán cải tiến FCM+ và FCM+

Trang 6

SSSIAADEENSD

Chương 5-KET LUẬN

5.1 Những đóng góp của đê tài.

HAI BÀI BAO ĐÃ ĐƯỢC CHAP NHAN VÀ ĐĂNG KỶ YEU CUA CÁC HỘI

Trang 7

-iv-DANH MUC HiNH

Hình 1.1 Chu trình mô tả tac động qua lại giữa hoạt động của doanh

nghiệp và khai phá dữ liệu, phát hiện tri thức

Hình 2.1 Hai phương pháp tiếp cận phân cấp

Hình 2.2 Minh họa đối tượng hạt nhân

Hình 2.3 Hình minh họa kết nói theo mật độ của p và q

Hình 2.4 Các cụm trong thuật toán gom cụm theo mật độ và phần

Hình 2.5 Gom cum theo mô hình.

Hình 2.6 Mô hình cau trúc lưới

Hình 2.7 Hai trọng tâm xếp nhóm

Hình 3.1 Mô hình phần mềm ERP

Hình 3.2 Mô hình tổ chức phân cấp của công ty được phẩm

Hình 3.3 Sơ đồ mô tả qui trình mua hang

Hình 3.4 Sơ đồ mô tả qui trình bán hàng

Hình 3.5 Sơ đồ tổ chức các bảng của CSDL

Hình 3.6 Cau trúc lưu trữ dữ liệu của Hóa đơn bán hàng

Hình 3.7 Cầu trúc lưu trữ dữ liệu của Phiếu thu tiền mặt

Hình 3.8 Cấu trúc lưu trữ dé liệu của Báo có ngân hang Trang 41

Hình 3.10 Mô tả quá trình hình thành các thuộc tính của khách hàng

Hình 4.1 Mô tả phan tử biên

Hình 4.3 Hình dạng cụm không cân đối trong các cụm dang nay a

thường lớn do dyyax lớn.

Hình 4.4 Hình dạng cụm khá cân

Trang 50

thường nhỏ Trang 51 Hình 4.5 Hình dạng hai cụm có xu hướng ghép vào nhau khi f tiên gan

Trang 8

Trang 52

Hình 4.6 Menu chính của chương trình Trang 57 Hình 4.7 Màn hình chọn bảng chứa các i tượng dữ liệu can gom cụm Trang 57

Hình 4.8 Màn hình của chương trình để nhập các tham số Trang 58

Hình 4.9 Màn hình của chương trình hỏi về khuyến nghị điều chỉnh cụm Trang 58Hình 4.10 Kết quả tính toán các hệ số khuyến nghị điều chỉnh cụm Trang 59

Hình 4.11 Hình minh họa thể hiện việc tính ơ trên các phần tử cực biên

A,B,C,D Trang 60

Hình 4.12 Đồ thị biểu diễn sự biến thiên của hai hệ số 0„„„„ @ max

theo sô cụm trên dữ liệu một tháng và vị trí khuyến nghị

chọn sé cụm phù hợp Trang 72

Hình 4.13 Dé thị biểu diễn sự biến thiên của hai hệ số Bmax 8 max

theo số cụm trên dữ liệu một tháng và vị trí khuyến nghị

chọn số cụm phù hợp Trang 73

số cụm trên dữ liệu tám tháng và vị trí khuyến nghị chọn

số cụm phù hợp Trang 76Hình 4.15 Đồ thị biểu diễn sự biến thiên của hai hệ số Bmax, / max

theo số cụm trên dữ liệu tám tháng và vị trí khuyến nghị

chon số cụm phù hợp Trang 77

Trang 9

-vi-DANH MUC BANG

Bang 2.1 Bang sự kiện (contigency table) cho biến nhị phan (cả đối xứng

một tháng

tám tháng Trang 76

Bảng 4.7 Khoảng giá trị của doanh sô khi gom 6 cụm trên

số liệu tám tháng Trang 79

Trang 10

~ vii

-DANH MUC CAC TU VIET TAT

Từ viết tắt Thay cho cụm tir

“Thuật toán gom cụm mo

C-Means

World Trade Organization

Trang 11

Chương 1-TONG QUAN

11 Médau

Trong lich sử phat triển của minh, khám pha tri thức, thu thập tri thức là khátvọng lớn nhất con người luôn hướng đến Dựa trên tri thức có được mà con người

đưa ra các quyết định hành động, chính nhờ tri thức mà con người dần dần vươn lên

làm chủ bản thân, làm chủ thiên nhiên, xây dựng xã hội ngày càng văn minh, hiện

đại Từ hoạt động kinh tế mang tính đơn lẻ hay gia đình, để tăng tính cạnh tranh,con người dần tiến đến những hoạt động kinh tế mang tính cộng tác Một đơn vị

hoạt động kinh tế cộng tác phổ biến hiện nay là doanh nghiệp Ngay nay có thé nói,

doanh nghiệp là một đơn vị hoạt động kinh tế pho bién nhất, dem lại nhiều của cải

vật chất nhất cho xã hội

Tri thức mà con người tìm kiếm, thu thập rat đa dạng và tiềm ân trong nhiều

dạng khác nhau Tri thức có thể đến từ các chuyên gia, từ sách báo và cả từ dữ

liệu Trong thời đại ngày nay, hằng ngày hầu hết các hoạt động sản xuất kinh doanh

của doanh nghiệp đều được ghi nhận vào CSDL của hệ thống phần mềm ERP Theo

thời gian các CSDL này lưu trữ một lượng dữ liệu rất lớn vượt quá khả năng diễn

dịch và lĩnh hội của con người, phát sinh yêu cầu sáng tạo các công cụ kỹ thuật mới

để phân tích dé liệu một cách thông minh[5] Trong các CSDL này cũng tiềm annhững tri thức có giá trị mà doanh nghiệp cần khai thác để làm cơ sở đưa ra các

quyết định điều hành hoặc điều chỉnh lại các hoạt động của mình

( HO TRỢ QUYẾT ĐỊNH DIEU HANH

HOẠT ĐỌNG |_—Ì

TẠO RA DỮ KHAI PHA

CUA DOANH oe DATABASE Ehin

Hình 1.1: Chu trình mô tả tac động qua lại giữa hoạt động của doanh nghiệp

và khai phá đữ liệu, phát hiện tri thức

Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn

Trang 12

Cũng như tat cả các nước trên thế giới nền kinh tế Việt Nam cũng có sự đónggóp to lớn của các doanh nghiệp Do đó tạo mọi điều kiện thuận lợi và hỗ trợ tốt chodoanh nghiệp hoạt động là một nhiệm vụ hết sức quan trọng.

12 Giới thiệu đề tài

1.2.1 Lý do chọn đề tài

Dé nền kinh tế Việt Nam mạnh cần phải có ngày càng nhiều doanh nghiệp

mạnh, có tính cạnh tranh cao không chỉ trong nước mà cả ở nước ngoài Một

doanh nghiệp muốn vững mạnh cần xây dựng các chính sách, các hệ thống raquyết định trong kinh doanh một cách khoa học và kịp thời Muốn đề ra cácchính sách hay đưa ra các quyết định nay cần phải có sự phân tích dữ liệu liên

quan đến thị trường Tuy nhiên hiện nay việc phân tích dữ liệu nhất là việc áp

dụng các thuật giải khai phá dit liệu của công nghệ thông tin dé phân tích dữ liệu

là công việc còn nhiều hạn chế ở nước ta, cả ở tầm quốc gia lẫn trong các doanh

nghiệp Cuối năm 2006 Việt Nam gia nhập Tổ chức Thương mại Thế giới

(WTO), từ đây trở đi bắt buộc các doanh nghiệp trong nước phải bước vào sânchơi lớn toàn cầu nên việc cạnh tranh sẽ ngày càng gay gắt Vì vậy trong thế giớikhông còn sự bảo hộ của nhà nước mà ngày càng trở nên phẳng (khái niệm củaThomas L Friedman-nhà báo tác giả của cuốn sách Thé giới phẳng) công tác

phân tích dữ liệu trong các doanh nghiệp để có cơ sở đưa ra các quyết định, chính

sách đúng và hợp lý ngày càng có vai trò hết sức quan trọng Trong bối cảnh đó

đề tài “Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng

khai phá dữ liệu trong cơ sở dữ liệu ERP doanh nghiệp dược phâm” nhằm góp

phan đáp ứng nhu cầu phân tích dữ liệu của các doanh nghiệp, giúp cho doanh

nghiệp Việt Nam có cơ sở khoa học khi đưa ra các quyết định của mình.

1.2.2 Mục tiêu của đề tài

Trên cơ sở xác định loại hình nghiên cứu của để tài là nghiên cứu gan với

ứng dụng thực tiễn, mục tiêu của dé tài là Nghiên cứu và chọn một số thuật toángom cụm mờ phù hợp, tiến hành cải tiến các thuật toán này Xây dựng các

Trang 13

tượng quan trọng trong cơ sở dữ liệu của hệ thống phần mềm ERP doanhnghiệp Với các chỉ tiêu cải tiễn thuật toán cơ bản được đặt ra như sau:

Hỗ trợ người dùng chọn lựa số cụm phù hợp để thực hiện việc gom cụm.Trong thực tế việc chọn số cụm phủ hợp có vai trò rất quan trọng Chẳng hạn

một công ty thực hiện việc gom cụm khách hàng thành hai nhóm khách hàng

thanh toán tốt và nhóm khách hàng thanh toán không tốt rồi có chính sáchphù hợp cho từng nhóm thì tác động của các chính sách đúng đắn nay sẽ demlại lợi ích rất lớn

Phân tích dit liệu sau khi gom cụm bằng các thuật toán cải tiến trên nhiều tậpđối tượng dữ liệu khác nhau và với nhiều số cụm khác khau Từ đó tìm kiếm

các qui luật, hằng số chuẩn hỗ trợ việc đưa ra khuyến nghị điều chỉnh số cụm

phù hợp nhất cho các tập đối tượng đữ liệu.

1.2.3 Các giai đoạn thực hiện đề tài

Quá trình nghiên cứu đề tài được tiến hành qua các bước như sau:

Giải đoạn I- Nghiên cứu lý thuyết, tìm kiếm tài liệu: Tìm hiểu về mặt lý

thuyết các thuật toán gom cụm mờ tiêu biéu từ những thuật toán kinh điểnđến những thuật toán mới nhất gần đây dé hiểu về các chức năng và các ưunhược điểm của chúng Từ đó làm cơ sở cho việc chọn lựa thuật toán phùhợp để cải tiến và xây dựng chương trình ứng dụng gom cụm các đối tượng

đữ liệu trong doanh nghiệp.

Giai đoạn 2- Tìm hiểu, chọn lọc dữ liệu: Nghiên cứu cơ sở dir liệu của hệthống phần mềm ERP doanh nghiệp dược phẩm từ đó chọn lọc các đối tượngquan trọng để thực hiện việc gom cụm

Giai đoạn 3- Cải tiên thuật toán và xây dựng chương trình ứng dung: Chon

một số thuật toán gom cụm mờ tiêu biểu phù hợp với các tập đối tượng dữliệu đã chọn ở giai đoạn 2 Đề xuất việc cải tiến các thuật toán này Xây dựng

chương trình cài đặt dựa trên các thuật toán đã cải tiến để gom cụm các đối

tượng đã chọn lọc ở trên, dựa trên kết quả gom cụm, phân tích dữ liệu cácnhóm đối tượng này Dựa trên số liệu phân tích dé đưa ra khuyến nghị số

Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huan

Trang 14

cụm phù hợp, từ đó có thé thực hiện việc chạy lại thuật toán gom cụm với số

cụm phù hợp hơn.

© Giai đoạn 4- Tổng kết: Đánh giá các kết quả, kết luận và hướng phát triển

của dé tai

1.3 Đối tượng phạm vi nghiên cứu của dé tài

1.3.1 Cac thuật toán gom cụm mờ.

Đối tượng và phạm vi nghiên cứu của đề tài này là các thuật toán gomcụm mờ với độ đo trị khoảng và các chương trình liên quan đến nó phục vụ choviệc phân tích dữ liệu trong cơ sở dữ liệu của hệ thống phần mềm ERP doanhnghiệp dược phẩm

1.3.2 Cơ sở dữ liệu của hệ thống phần mềm ERP doanh nghiệp dược phẩm

và các thành phần liên quan

Đề tài cũng tìm hiểu về cách thức tổ chức, cấu trúc các bảng chứa dữ liệu

cũng như quá trình hình thành các đối tượng dữ liệu làm dữ liệu đầu vào cho các

chương trình ứng dụng sẽ được cài đặt ở chương 4.

1.4 Ý nghĩa khoa học và thực tiễn của đề tài

Hiện nay việc nghiên cứu, ứng dụng thuật toán gom cụm và đặc biệt là gom

cụm mờ đã được nhiều tác giả quan tâm đến Ở nước ta cũng đã có một số đề tài,

luận văn nghiên cứu về các thuật toán gom cụm mờ Tuy nhiên các tác giả chủ yếu

thực nghiệm trên các tập số liệu mẫu đề minh họa cho nghiên cứu của mình Không

chỉ dừng lại ở việc nghiên cứu lý thuyết theo xu hướng trên, để tài cũng đặt ra mụctiêu thực tiễn là xây dựng một chương trình chạy trên số liệu thật của Công ty cổphần Dược phẩm 3/2 (FT-Pharma) nhằm hỗ trợ doanh nghiệp trong việc phân tích

dữ liệu từ đó góp phần giúp đề ra các chính sách, quyết định đúng đắn Điều đó sẽ

làm tăng tính cạnh tranh trong hoạt động sản xuất kinh doanh của doanh ng

Chúng tôi đã được sự chấp thuận của Ban giám đốc Công ty cổ phần dược phẩm 3/2(FT-Pharma) cho sử dụng số liệu thật trong cơ sở dữ liệu của hệ thống phần mềm

ERP của họ vào quá trình nghiên cứu làm luận văn này (xem phụ lục 1).

Trang 15

1.5 Cấu trúc của luận văn

Luận văn bao gồm năm chương Chương | giới thiệu tổng quan về đề tài.Chương 2 trình bày về lý thuyết gom cụm như các độ đo, các phương pháp gom

cụm Chương 2 cũng giới thiệu một số thuật toán gom cụm mờ tiêu biêu như

FCM, Gom cụm mờ với tiêu chuẩn phân tách mới, Gom cụm gia tăng K-Means mờ

dựa trên K-Center và véctơ lượng tử Chương 3, Chương 4 chứa nội dung nghiên

cứu chính của đề tài Chương 3 giới thiệu về hệ thống phần mềm ERP cũng như cơ

sở dữ liệu của hệ thống phần mềm này, trình bày các bước chuẩn bị dữ liệu

Chương 4 đề xuất việc cải tiến thuật toán FCM có trọng số hỗ trợ việc điều chỉnh số

cụm với hai cách tiếp cận Thuật toán 1 đặt tên là FCM+ với phương pháp tính các

hệ số khuyến nghị điều chỉnh số cụm dựa trên tất cả các phần tử của cụm và Thuậttoán 2 đặt tên là FCM++ với phương pháp tính các hệ số khuyến nghị điều chỉnh số

cụm dựa trên tat cả các phần tử cực biên của cụm Chương này cũng giới thiệu các

chương trình ứng dụng được viết dựa trên các thuật toán cải tiến FCM+, FCM++ và

phân tích đữ liệu thu được từ kết quả thực hiện chương trình Dựa trên kết quả phântích đề xuất một số hằng số cho các hệ sé dé định hướng việc điều chỉnh số cụm

Chương 5 là phần kết luận và hướng phát triển của đề tài

Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huan

Trang 16

Chương 2-LÝ THUYẾT VỀ GOM CỤM

21 Khái niệm[1][6][12]

Gom cụm đữ liệu là quá trình tìm những mẫu đại diện hoặc gom những đối

tượng dữ liệu tương tự nhau theo một tiêu chuân đánh giá nào đó thành những cụm.

Trong các cụm này các đối tượng dữ liệu trong cùng một cụm có độ tương đồng cao

hơn, còn các đối tượng đữ liệu ở các cụm khác nhau thì sẽ có độ tương đồng thấphơn theo tiêu chuẩn đánh giá đã chọn

Gom cụm đữ liệu là hình thức học không giám sát hay còn gọi là phương

pháp học không thầy Nó không đòi hỏi định nghĩa trước các mẫu dữ liệu huấnluyện vì vậy có thể coi gom cụm là phương pháp học bằng quan sát

2.1.1 Gom cụm rõ:

Là cách gom cụm mà một đối tượng dữ liệu khi ta xem xét ta thấy nó

tương đồng với nhóm nào nhất thì ta cho chúng vào nhóm đó Nói cách kháctrong gom cụm rõ một đối tượng đữ liệu hoặc là thuộc về hoàn toàn một nhóm

nào đó hoặc là không thuộc hoàn toàn vào nhóm nào đó mà thuộc hoàn toàn vào

nhóm kia Vi dụ trong thư viện việc sắp xếp sách theo ba nhóm sau Khoa học kỹ

thuật, Kinh tế, Văn học Một cuốn sách mới mua về chỉ có thể được sắp vào một

trong ba nhóm đó mà không thé xếp vào hai hay cả ba nhóm được

Thuật toán gom cụm rõ nồi tiếng và tiêu biểu là K-means

2.1.2 Gom cụm mờ:

Là một mở rộng của gom cụm rõ khi cho phép mỗi đối tượng dữ liệu cóthể thuộc về hai hay nhiều cụm thông qua mức độ thuộc về (membership) của đốitượng đó vào từng cụm Mức độ thuộc về (gọi tắt là Đồ thudc) nay là một giá trịthực nằm trong đoạn [0,1] Khi Độ thuộc của các đối tượng dữ liệu đối với mộtcụm nao đó tiến đến bằng 1 hoặc 0 thì việc gom cụm tiến đến gom cụm rõ, ngượclại là gom cụm mờ Tổng độ thuộc của một đối tượng dữ liệu đối với tất cả các

Trang 17

khách hàng A thuộc về nhóm khách hàng có doanh số lớn với độ thuộc 0.8 Với ý

nghĩa như vậy một đối tượng đữ liệu thuộc về một cụm với độ thuộc càng cao thì

nó mang bản chất của cụm đó càng lớn và ngược lại

Thuật toán gom cụm mờ nỗi tiếng và tiêu biểu là FCM (Fuzzy C-Means)

Việc tối ưu của các thuật toán gom cụm mờ thường dựa trên việc tối thiểu hóa

một hàm mục tiêu Trong thuật toán gom cụm mờ FCM hàm mục tiêu được xác

x; vào cụm j (cụm j có C¡ là trọng tâm), m > I là tham số mờ hóa và d(x;, €j là

độ đo khoảng cách giữa đối tượng dit liệu x; và trọng tâm của cụm j_ là C¡.

2.2 Độ do [1][6][16]

Để gom cụm chúng ta cần một tiêu chuẩn đánh giá sự tương đồng giữa các

đối tượng dữ liệu cần gom cụm Thông thường đó chính là độ đo khoảng cách trong

không gian các đối tượng dữ liệu cần gom cụm Do mỗi không gian đối tượng dữ

liệu có những đặc trưng khác nhau nên không có một độ đo nào có thé dùng chungcho mọi trường hợp Tùy theo mục tiêu của bài toán gom cụm và bản chất của của

các đối tượng dữ liệu cần gom cụm mà người dùng chọn cho mình một đo khoảng

cách phù hợp với mục đích của bài toán đặt ra.

2.2.1 Các tính chất của độ đo

Gọi S là không gian các đối tượng dit liệu, x, y, z là các phần tử dữ liệu

trong X Độ đo khoảng cách d làm hàm số d: SxS —›R thỏa bốn tính chat sau:

d(x,y) > 0 (tính chất không âm)d(x,y) = 0 nếu x = y (tính chất điểm)

d(x,y) = d(y,x) (tính chất đối xứng)

d(x,y) < d(x,z) + d(z,y) (tính chat bat dang thức tam giác)

Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huan

Trang 18

Với các điều kiện như vậy thì khi d(x,y) càng nhỏ thì x và y càng gần nhautức càng tương đồng với nhau.

2.2.2 Các kiểu dữ liệu cơ sở

Trong thực tế các đối tượng dữ liệu có thể có nhiều kiểu thuộc tính khác

nhau Mỗi thuộc tính nay đặc trưng bằng một kiểu dữ liệu cơ sở Do đó dé xây

dựng được độ đo cho đối tượng đữ liệu ta phải xây dựng được độ đo cho các kiểu

cơ sở Các kiểu dữ liệu cơ sở thường gặp là biến trị khoảng (interval value), nhị

phân đối xứng (symmetric binary), nhị phân bất đối xứng (asymmetric binary),

định danh (niminal), thứ tự (ordinal), tỷ lệ khoảng (ratio-scaled).

2.2.2.1 Biến trị hoảng

Các biến trị khoảng là độ đo liên tục của các đại lượng tuyến tính đơn

giản như khoảng cách xa gan, chiéu cao, trọng lượng, nhiệt dé

Đơn vị đo có thể ảnh hưởng đến kết quả gom cụm do đó để tránh sự

phụ thuộc vào đơn vị đo đôi khi cần phải chuẩn hóa dit liệu trước khi thực

hiện gom cụm.

e Chuẩn hóa các độ do

Phương pháp chuẩn hóa độ đo cho biến trị khoảng như sau:

Tinh sai biệt tuyệt đối trung bình:

Trang 19

với i= (Xụ, Xø, Nip) Và j = (X/, Xj Xp) là các đối tượng dữ liệup-chiều và q là số nguyên đương (q>0)

- Khoảng cách Manhattan là khoảng cách Minkowski khi q = 1.

dij) = Ixa-x al +lxi2-x jal + 4lxip—X jpl

- Khoang cach Euclide la khoang cach Minkowski khi q = 2.

Đây chính là khoảng cách hình học trong không gian n chiều

số của tất cả các thuộc tính của đối tượng dữ liệu bằng 1 Tùy theo

từng bài toán gom cụm và đối tượng dữ liệu cụ thể mà chọn các trọng

số cho các thuộc tính cho phù hợp

2.2.2.2 Biến nhị phân đối xứng

Biến nhị phân là biến chỉ có hai giá trị là 0 hay 1 Biến nhị phân là đối

xứng nếu hai giá trị này có ý nghĩa tương đương tức là không xem trọng giá trị

nào Độ tương đồng dựa trên biến nhị phân đối xứng được gọi là tương tự bất

biên.

Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn

Trang 20

Bang 2.1: Bang sự kiện (contigency table) cho biến nhị phân (cả đốixứng và bất đối xứng)

2.2.2.3 Biến nhị phân bat đối xứng

dŒj) =

Biến nhị phân là bất đối xứng nếu có một giá trị có ý nghĩa quan trọng

hơn (thường là giá trị 1) Lúc đó thường có xu hướng thiên vị cho giá trị ưu tiên đó.

Hệ số đối sánh cho biến nhị phân bất đối xứng:

2.2.2.4 Biến định danh

Biến định danh là biến nhận nhiều hơn hai giá trị Ví dụ biến màu sắc

có thể nhận các giá trị: đỏ, vàng, xanh, lục Có hai phương pháp để xác định

khoảng cách theo biến định danh:

¢ Hé6 số đối sánh đơn giản:

aij) = P“

P

Trang 21

e Đưa biến định danh về biến nhị phân bằng cách thay mỗi giá trị địnhdanh bằng một biến nhị phân mới Ví dụ biến màu sắc (đỏ, vàng, xanh,lục) có thể chuyển thành bốn biến nhị phân: đỏ (có/không), vàng

(có/không), xanh (có/không), lục (có/không).

2.2.2.5 Biến thứ tự

Biến thứ tự là bién trên một tập giá trị có xác định quan hệ thứ tự trên

đó, ví dụ xếp hạng trong học tập: giỏi, khá, trung bình, yếu Trong biến thứ tự

thì thứ tự của các trị là quan trọng Biến thứ tự có thể rời rạc hoặc liên tục

Độ đo cho biến thứ tự được xây dựng như sau:

Giả sử ta có biến thứ tự xị

e Thay thế xị bởi hạng của chúng xj; € {1, ,Mr}

¢ Ánh xạ hạng của từng biến vào [0,1] bằng cách thay thế đối tượng i trong

2.2.2.7 Biến có kiểu hỗn hợp

Đối tượng dữ liệu có thể có các thuộc tính gồm cả sáu loại biến đơn

như trên Trong trường hợp đó có thể dùng công thức được gan trọng dé kếthợp các hiệu quả của các biến thành phần

Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn

Trang 22

Li Ndi)

aaj) =o

X6;(f)

fal

Trong đó 6, được tính như sau:

84 (£) = 0 khi xị hoặc x;: không tồn tại hoặc xi¢ = xj =

ð¡(Ð = 1 trong các trường hợp còn lại.

Ngoài ra d¡() được tính như sau:

Đối với biến trị khoảng hoặc thứ tự:

di(f) là khoảng cách đã được chuẩn hóa

e_ Đối với các biến nhị phân hoặc định danh:

- dụ@) =0 khi xị = xịr = 0.

- dj(f) = 1 trong các trường hợp khác.

2.3 Ý nghĩa của gom cụm

Gom cụm có vai trò hết sức quan trọng trong đời sống thường ngày của con

người, đôi khi nó thật tự nhiên như chúng ta gom các cây bút vào một chỗ, các cuốnsách hay tạp chí vào một chỗ khác Con người biết rằng gom các vật dụng tương

đồng nhau như vậy vào một cụm dé sau này có thé dé dang “cư xử” với chúng nhưtìm kiếm hay di chuyển chúng chăng hạn

Mục tiêu của gom cụm là xác định được bản chất nhóm (sự tương đồng)

trong tập đối tượng dữ liệu chưa gan nhãn Sau khi xác định được bản chất nhóm

của từng cụm đữ liệu như vậy chúng ta sẽ có những xử lý tiếp theo đối với các cụmnhư đánh giá lại việc gom cụm như vậy có phù hợp với bài toán đặt ra, đề ra cácchính sách tương ứng cho bản chất mỗi cụm Ví dụ như trong bài toán gom cụmkhách hàng trong doanh nghiệp làm sao chúng ta tìm ra được bản chất các nhómkhách hàng dé đưa ra được các chính sách phù hợp cho mỗi nhóm

Trang 23

2.4 Các yêu cầu của gom cụm[1][6]

Có khả năng làm việc h quả với lượng dữ liệu lớn: Các thuật toán gom

cụm tốt không chỉ chạy tốt trên các tập dữ liệu nhỏ mà nó phải làm việc hiệu

quả với các tập dit liệu lớn.

Có khả năng thích nghỉ với nhiều loại dữ liệu khác nhau: Chúng ta biết

rằng nhiều đối tượng dữ liệu có các thuộc tính có kiểu dữ liệu đơn khác nhau

hoặc thậm chí là kiểu hỗn hợp nên các thuật toán gom cụm phải có khả năngthích nghỉ với nhiều loại dit liệu khác nhau

Có kha năng khám phá các cụm có hình dang bất kỳ: Về mặt tổng quátcác cụm dữ liệu trong thực tế có thể có hình dạng bất kỳ nên yêu cầu cácthuật toán gom cụm có khả năng khám phá các cụm có hình dạng bất kỳ là

thật sự cần thiết

Có khả năng làm việc với dữ liệu nhiễu và mẫu cá biệt: Trong thực tế các

tập đối tượng dữ liệu có thể chứa các dữ liệu nhiễu, dữ liệu sai, dữ liệu ngoại

lai, Một thuật toán gom cụm tốt phải có khả năng xử lý với các đữ liệunhiễu và các mẫu dữ liệu cá biệt

Yéu cầu tối thiểu tri thức lĩnh vực nhằm xác định các tham số đầu vào:Nhiều thuật toán gom cụm thường yêu cầu các tham só đầu vào như số cụm,tham số mờ hóa Kết quả gom cụm thường khá nhạy cảm với các tham sốđầu vào này Một thuật toán gom cụm tốt thường phải yêu cầu càng ít tham

số càng tốt và cũng chỉ yêu cầu ít nhất tri thức dé xác định các tham số này.Không bị ảnh hướng bởi thứ tự nhập của dữ liệu: Một tập đối tượng dữliệu tại từng thời điểm khác nhau có thể có thứ tự khác nhau Một thuật toán

gom cụm tốt thường không bị ảnh hưởng bởi thứ tự của tập đối tượng đữ liệu

đưa vào Điều đó có nghĩa là cùng một tập đối tượng dữ liệu nhưng khi đưavào thuật toán theo những thứ tự khác nhau mà kết quả gom cụm vẫn giống

nhau thì thuật toán không bị ảnh hưởng bởi thứ tự nhập của dữ liệu.

Làm vi tốt trên các đối tượng di u có số chiều lớn: Trong thực tế cónhững đối tượng dữ liệu chỉ có một vài thuộc tính nhưng cũng có những đối

Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huân

Trang 24

tượng dữ liệu đôi khi có thể có hàng ngàn thuộc tính Một thuật toán gomcụm tốt thường phải làm việc tốt trên tất cả các đối tượng dữ liệu kê cả đốitượng đó có số chiều lớn

Chấp nhận các ràng buộc do người dùng yêu cầu: Nhiều ứng dụng thực tế

không chỉ thực hiện việc gom cụm mà trong quá trình gom cụm còn phải đáp

ứng các ràng buộc do người dùng đặt ra.

Có thể hiểu và sử dụng được kết quả gom cụm: Một thuật toán gom cụmtốt phải cho ra các kết quả dé hiéu và dé sử dụng

Các ứng dụng của gom cụm dữ liệu [1][6]

Gom cụm đữ liệu được ứng dung trong rat nhiều lĩnh vực:

Sản xuất, thương mại: Tìm kiếm nhóm các mặt hàng đem lại doanh số lớn,

lợi nhuận cao, bán chay dé tập trung sản xuất, kinh doanh Tìm kiếm các

nhóm khách hàng đem lại cho công ty nhiều lợi nhuận, thanh toán tiền mua

hàng tốt để có các chính sách chăm sóc như chiết khấu, thưởng, khuyếnmãi phù hợp, cũng như các nhóm khách hàng nợ xấu, nợ quá hạn để có

chính sách thu hồi công nợ phù hợp hoặc tạm ngưng bán hàng cho các đối

tượng này để tránh rủi ro

Bao hiểm: Phân nhóm các khách hàng có chi phí bảo hiểm bắt thường dé tìm

hiểu, kiểm tra nhằm chống gian lận

Sinh học: Phân nhóm gen, phân nhóm giống loài để phục vụ việc nghiên

cứu.

Qui hoạch, tài nguyên, môi trường: Phân loại đất đai theo công năng sửdụng, phân loại sự phân bố của tài nguyên khoáng sản, phân loại các địaphương, vùng bị 6 nhiém dé quản ly

Tiền xử lý cho các thuật toán khác: Đôi khi người ta dùng kết quả của

thuật toán gom cụm là bước tiền xử lý dé làm dit liệu đầu vào cho các thuật

toán khác.

Trang 25

2.6 Các phương pháp gom cum [19]

Dựa trên cách tiếp cận và thuật toán sử dụng, có các phương pháp gom cụm

chính được trình bày sau.

2.6.1 Các phương pháp phân hoạch [1][6]

Đây là phương pháp tạo phân hoạch n đối tượng dữ liệu cần gom cụm

thành k cụm sao cho:

© _ Mỗi cụm chứa ít nhất một đối tượng

© Moi đối tượng thuộc về một cụm duy nhất

© kiàsố cụm đã được cho trước

Đây là các yêu cầu của phương pháp gom cụm rõ Tuy nhiên từ khi xuất

hiện phương pháp gom cụm mờ thì yêu cầu thứ hai (mỗi đối tượng thuộc về một

cụm duy nhất) là không còn cần thiết, mà thay vào đó là mức độ thuộc về

(membership) của đối tượng vào cụm Mức độ thuộc về này có giá trị trong đoạn

[0,1] Khi mức độ thuộc về chỉ có các giá trị hoặc là 0 hoặc là 1 thì ta có gomcụm rõ Như vậy có thể nói gom cụm mờ là một sự mở rộng tự nhiên của gom

cụm rõ và nó tông quát hơn gom cụm rõ

Các thuật toán gom cụm có độ phức tạp rất lớn khi xác định nghiệm tối ưu

toàn cục bằng phương pháp vét cạn do nó phải tìm kiếm tất cả các cách phânhoạch có thể có được Với số cụm k cho trước và n đối tượng dit liệu cần gomcụm có thé có (k" - (k-1)” - -1) khả năng gom cụm khác nhau Đây là con sốquá lớn nếu n lớn do đó các thuật toán tối ưu toàn cục bằng phương pháp vét cạn

là không có tính khả thi Chính vì vậy trên thực tế người ta thường đi tìm giải pháp tối ưu cục bộ cho bài toán gom cụm bằng cách sử dụng một hàm mục tiêu làm tiêu chuẩn đánh giá chất lượng gom cụm cũng như xác định điểm dừng cho thuật toán Trong giải pháp tối ưu cục bộ người ta thường sử dụng các phương pháp heuristic Chẳng hạn trong thuật toán K-means thì mỗi cụm được đại điện bằng trọng tâm của cụm đó, còn trong thuật toán K-

medoids mỗi cụm lại được đại diện bởi một đối tượng của cụm

Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn

Trang 26

Các thuật toán tiêu biểu của phương pháp phân hoạch là K-means,

C-means, PAM

2.6.2 Các phương pháp phân cấp [1][6]

Đây là các phương pháp tạo phân cấp cụm chứ không tạo phân hoạch các

đối tượng Nghĩa là nó sẽ sắp xếp một tập đối tượng dit liệu đã cho thành một cấu

trúc có dạng hình cây Phương pháp này không cần xác định trước số cụm mà số

cụm sẽ do khoảng cách giữa các cụm hoặc điều kiện dừng của thuật toán quyết

định Tiêu chuẩn gom cụm thường được xác định bởi ma trận khoảng cách

Có hai cách tiếp cận của phương pháp phân cấp là:

e Gộp cụm:

- Xuất phát từ mỗi đối tượng và tạo một cụm chứa nó

- Nếu hai cụm đủ gần nhau (dưới một ngưỡng nào đó) sẽ được gộp lại

thành một cụm duy nhất

- Lap lại bước hai cho đến khi thỏa điều kiện dừng hoặc chỉ còn một cụm

duy nhất là toàn bộ không gian

e Tách cum:

- Xuat phát từ một cụm duy nhất là toàn bộ không gian

- Chon cụm có độ phân biệt cao nhất (ma trận phân biệt có phan tử lớn

nhất hoặc trị trung bình lớn nhất) đề tách đôi Bước này sẽ áp dụng các

phương pháp phân hoạch đối với cụm đã chọn

-_ Lặp lại bước hai cho đến khi thỏa điều kiện dừng hoặc mỗi đối tượng

thuộc một cụm

Trang 27

“—T———————ễ Tách

Bước 4 Bước 3 Bước 2 Bước 1 Bước 0

Hình 2.1: Hai phương pháp tiếp cận phân cấp

Trong các phương pháp này các khoảng cách thường được dùng là:

d(C¡, Cj) = avg xec¡, ycc¡ (dŒ,y)}

e© Khoảng cách trọng tâm

d(C¡, C)) = {d(a,b)} với a là trọng tâm của cụm C¡, b là trọng tâm của cụm C¡.

Các thuật toán tiêu biểu của phương pháp phân cấp là CURE, BIRCH

2.6.3 Các phương pháp dựa trên mật độ [2][6]

Các phương pháp dựa trên mật độ dựa trên ý tưởng:

© Mỗi cụm là một vùng dày đặc (dense region) gồm các đối tượng dit liệu Các

đối tượng đữ liệu trong vùng thưa hơn được xem là nhiễu.

© _ Mỗi cụm có dang tùy ý.

Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn

Trang 28

Để hiểu rõ phương pháp gom cụm dựa trên mật độ chúng ta xem xét một

số khái niệm sau:

© Cho p, q, o là các đối tượng dữ liệu trong không gian D

© _ Với ø >0 cho trước, tập hợp Ne(p) = {q | d(q,p) < #} được gọi là lân cận bán

kính ¢ của p Hay nó còn gọi là vùng láng giềng bán kính ¢ của một đối

tượng, gọi tắt e-neighborhood

© MinPts: số lượng đối tượng ít nhất được yêu cầu trong z-neighborhood của

một đối tượng còn được gọi là ngưỡng trù mật

- _ Nếu đối tượng p có ø-neighborhood với MinPts thì đối tượng này được

gọi là đối tượng hạt nhân (core object)

/o / »

s

Hình 2.2: Minh họa đối tượng hạt nhân

p: là đối tượng hạt nhân (MinPts = 3)

q: không phải là đối tượng hạt nhân

- Đối tượng p được gọi là điểm biên nếu nó không phải là đối tượng hạt

nhân.

-q được gọi là đi tới được trực tiếp theo mật độ từ p nếu p là một điểm

hạt nhân và q thuộc lân cận của p.

- Pa được gọi là di tới được theo mật độ từ p\ nếu tồn tại một dãy các

điểm Pi» Pitt (i=2, ,n-2) sao cho pị¿¡ đi tới được trực tiếp theo mật độ

từ pi.

- pvaq được gọi là có kết nối theo mật độ nếu tồn tại điểm o sao cho cả

p và q đều đi đới được theo mật độ từ o theo các thông số ø và MinPts

Trang 29

Hình 2.3: Hình minh họa kết nối theo mật độ của pvàq

Với ý tưởng ban đầu được nêu ở trên sau khi hiểu được khái niệm kết nối

theo mật độ ta có thể phát biểu lại mục tiêu gom cụm các thuật toán dựa trên mật

độ như sau: một cụm là một tập tối đại các điểm có kết nói mật độ

Border | il Outlier

Core

Hinh 2.4: Cac cum trong thuat toan gom cum theo mat d6 va phan tử nhiễu

DBSCAN là thuật toán tiêu biêu của phương pháp gom cụm theo mật độ.

Ngoài ra còn có một số thuật toán khác theo phương pháp này như OPTICS,

DENCLUE.

Luận Văn Thạc Si Công Nghệ Thông Tin Đoàn Huân

Trang 30

2.6.4 Các phương pháp dựa trên mô hình [2][6]

Đây là phương pháp dựa trên sự phù hợp giữa dữ liệu và các mô hình toán

học Phương pháp này dựa trên ý tưởng: Dữ liệu phát sinh từ một sự kết hợp nào

đó của các phân phối xác suất ân Có một số phương pháp tiếp cận chính:

e Tiếp cận thống kê: một giải thuật tiêu biểu là EM

(Expectation-Maximization) Đó có thê xem là sự mở rộng của giải thuật gom cụm dựa

trên phân hoạch k-means.

e Tiếp cận học máy: gom cụm ý niệm (conceptual clustering): Tạo ra cách

phân lớp các đối tượng chưa được gán nhãn dựa vào các mô tả đặc trưng chomỗi nhóm đối tượng ứng với mỗi khái niệm (concept)

e _ Tiếp cận mang neural: Self-Organizing Feature Map (SOM)- bản đồ tự cầu

trúc SOM.

- Biéu diễn mỗi cụm là một ví dụ tiêu biểu (exemplar)

- Một ví dụ tiêu biểu đóng vai trò của một prototype của cụm

- Các đối tượng mới được phân bố vào một cụm nếu tương tự với ví dụ

tiêu biểu của cụm đó nhất dựa trên độ đo khoảng cách

Trang 31

Trong hình 2.5 mỗi cụm tương ứng với một phân phối xác suất, trung tâmcụm đặt tại giá trị trung bình và với một độ lệch chuẩn Ở đây có hai cụm tương

ứng với hai phân phối Gaussian g(m), ø¡) và g(mạ, ø).

Các thuật toán tiêu biểu của phương pháp mô hình là EM, COBWEB

2.6.5 Các phương pháp dựa trên lưới [3][6]

Ý tưởng của phương pháp này là tiếp cận dựa trên lưới dùng cấu trúc ditliệu đa phân giải Trước tiên nó lượng tử hóa không gian dữ liệu vào trong một sốhữu hạn các ô mà đã hình thành nên cấu trúc lưới, sau đó thực hiện tất cả cácthao tác trong cau trúc lưới đó Cách tiếp cận dựa trên lưới này không di chuyểncác đối tượng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đốitượng trong một ô Phương pháp này rất phù hợp với các phân tích gom cụm ứngdụng trong không gian (phân loại sao, thiên hà ) Ưu điểm của phương phápnày là xử lý nhanh và độc lập với số đối tượng dit liệu trong tập dữ liệu ban đầu,

tuy nhiên nó lại phụ thuộc vào số ô trong mỗi chiều của không gian lưới Hình

sau là một ví dụ về cau trúc lưới:

Hình 2.6: Mô hình cau trúc lưới

Các thuật toán điển hình theo phương pháp gom cụm dựa trên lưới là

STING, WaveCluster, CLIQUE

2.7 _ Thuật toán Fuzzy C-means (FCM) [6][7][10]

Các bước của thuật toán Fuzzy C-Means:

Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn

Trang 32

Ngược lại nếu dị = 0 thi x; trùng với trọng tâm Cj của cụm j, tị = 1.

Nếu sự thay đổi của ma trận U là đủ nhỏ so với bước kế trước thì chuyên

đến bước 8 Ngược lại thì lặp lại từ bước 4

Để xác định là U thay đổi nhỏ thì có thể dùng một độ đo khoảng cách matrận nào đó như sai số trung bình, sai số lớn nhất

Ở đây chúng tôi dùng:

() co) on

max! He, - M, |<epsilon Với nghĩa gÿ, là //, tai bước lặp

Trang 33

8 Dựa trên ma trận U, sắp xếp các đối tượng dit liệu x;, cùng độ thuộc lớn

nhất của nó vào các cụm theo qui tắc xét độ thuộc của đối tượng đữ liệu

đó với từng cụm, đối tượng dữ liệu sẽ thuộc vào cụm nào có độ thuộc lớn

nhất, nếu có từ hai độ thuộc lớn nhất bằng nhau trở lên thì chọn một trong

số các cụm đó để đưa vào Thuật toán kết thúc

2.8 Một số nghiên cứu mới về gom cụm mờ

Dé cập nhật một số thành tựu nghiên cứu mới về gom cụm mờ, phan này xin

giới thiệu hai công trình là Gom cụm mờ với tiêu chuẩn phân tách mới (Fuzzy

Clustering with Novel Separable Criterion) [20] và Gom cụm gia tăng K-Means mờ dựa trên K-Center và véctơ lượng tử (Fuzzy K-Means Incremental Clustering Based

on K-Center and Vector Quantization) [13].

2.8.1 Gom cụm mờ với tiêu chuẩn phân tách mới

Thuật toán gom cụm mờ cải tiến này đã được phát triển dựa trên thuật

toán Fuzzy C-Means (FCM) cổ điển để đạt được các kết quả gom cụm chất

lượng tốt hơn Việc cập nhật các biểu thức tính toán cho thành viên và trung tâmcụm nhận được từ thuật toán tối ưu luân phiên Hai ma trận phân bố mờ tronghàm mục tiêu đảm bảo cho độ chặt giữa các điểm dữ liệu và các trung tâm cụm

và cũng củng có sự phân chia giữa các trung tâm cụm bằng một tiêu chuẩn phân

chia mới Các đặc tính của thuật toán gom cụm được đề nghị chỉ ra sự cải tiến

hơn các đặc tính của phương pháp FCM Sự mô phỏng số học chỉ ra rằng thuậttoán gom cụm này có nhiều kết quả gom cụm chính xác hơn phương pháp FCM

Theo các tác giả trong FCM hàm mục tiêu đi theo ma trận phân bó trongcụm với các cụm hình cầu nhằm đạt được sự cực tiểu hàm mục tiêu với sự tối ưu

một cách luân phiên.

Các thuật toán gom cụm khác như GK[9], GG[11] được phát triển đểkhám phá các cụm có cấu trúc không phải hình cầu nhưng cả hai phương phápnày đều thiếu quan tâm đến các mối quan hệ giữa các trung tâm cụm trong hàmmục tiêu Sự tương thích của các điểm với các trung tâm cụm là được bảo đảm

trong phương pháp PCM được trình bày bởi Krishnapuram va Keller [17] Tuy

Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn

Trang 34

nhiên thuật toán của họ biểu thị cách xử lý không tốt bởi vì không có các mốiliên hệ giữa các cụm [15] Khái niệm về sự qui tắc hóa đã được sử dụng bởi

Ozdemir và Akarun [8] trong thuật toán sự phân chia giữa các cụm (ICS) và bởi

Yang cùng những người khác [18] trong thuật toán phân tách và nén mờ (FCS).

Không may thuật toán ICS có các hàm mục tiêu khác nhau đối với các trung tâmcụm khác nhau với giới hạn điều chỉnh chỉ được xem xét như một sự xáo trộn

“Thuật toán FCS có các ranh giới nhân cứng phụ thuộc vào các thực nghiệm va tất

cả các điểm đữ liệu trong một nhân không thé tách bạch bởi vì chúng có các giá

trị độ thuộc giống nhau

Với việc phân tích về các thuật toán trên các tác giả đã thực hiện việc cảitiến bằng cách mô tả một hàm mục tiêu mở rộng gồm có một ma trận phân bổbên trong cụm mờ và một ma trận phân bố các trung tâm giữa các cụm mới.Thuật toán gom cụm mờ tương ứng đảm bảo độ chặt giữa các điểm dữ liệu và

giữa các trung tâm cụm và cũng làm đủ mạnh sự phân tách giữa các trung tâm

cụm dựa trên tiêu chuẩn phân tách

Thuật toán Gom cụm mờ với tiêu chuẩn phân tách mới:

Khởi tạo:

Cho tập dữ liệu Z, gán bộ đếm số lần lặp 1 = 0 và m > 1 Chọn số trung

tâm cụm ban đầu c, tiêu chuẩn kết thúc € > 0, và tham số 0 < B <1

Khởi tạo ngẫu nhiên ma trận độ thuộc U®= [Hijlexn với {ij là độ thuộc

của z¡ vào vị Khởi tạo ma trận trọng số UO = Lêwle với Mm là

trọng số giữa vị và vụ

Bước 1: Tính các trung tâm cụm v; theo công thức:

Trang 35

Trường hợp đặc biệt sẽ xuất hiện trong hai biéu thức cập nhật khi

"

|:,-»l=9 of > =nE&=0 =| " 1)

trong bat kỳ lần lặp nào Khi điều đó xảy ra thì giá trị 0 sẽ được gan vào

trung tâm cụm tương ứng và độ thuộc được chọn tùy ý sao cho thỏa sự

Ba đặc tính quan trọng của thuật toán Gom cụm mờ với tiêu chuẩn phân

tách mới so với thuật toán FCM như sau:

e Ham mục tiêu của thuật toán FCM chỉ xem xét ma trận phân bố bên trong

cụm, trong khi thuật toán được đề nghị bao gồm cả ma trận phân bố bên

Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn

Trang 36

trong cụm và ma trận phân bố giữa các cụm Do đó sự cực tiểu hóa hàm mụctiêu của thuật toán dé nghị làm gia tăng một cách hiệu quả cả việc làm chặt

và tách cụm.

e _ Cả hai thuật toán sử dụng thuật toán tối ưu luân phiên.

© So sánh biểu thức cập nhật trung tâm cụm của FCM và của thuật toán đề

nghị chỉ ra rằng cả tử số và mẫu số của biểu thức cập nhật trung tâm cụm củathuật toán đề nghị có những chức năng đặc biệt đó là cải thiện sự chính xáccủa trung tâm cụm Tuy nhiên độ phức tạp tính toán của thuật toán đề nghịcũng gia tăng So sánh với biểu thức cập nhật trung tâm cụm của FCM, biểuthức cập nhật trung tâm cụm của thuật toán dé nghị tăng thêm 2(c+1) toán tử

cộng (+), (3+c+3+2c”) toán tử nhân, 2 toán tử định chuẩn và 2 toán tử luận lý

trong một bước lặp.

2.8.2 Gom cụm gia tăng K-Means mờ dựa trên K-Center và véctơ lượng tử.

Các tác giả đã kết hợp thuật toán K-means mờ và véc tơ lượng tử dé bổsung cho nhau trong phương thức tăng cường bởi vì mỗi phương pháp có những

ưu điểm mà phương pháp kia không có Ngưỡng của véctơ lượng tử là được chotrước và kiểu tính toán khoảng cách giữa điểm dữ liệu mới đến và k trung tâm làđược giới thiệu theo một cách mới Đầu tiên các tác giả giảm các thuộc tính dưthừa và loại trừ sự khác nhau về đơn vị tính của các chiều và làm cho các đơn vị

tính của tắt cả các thuộc tính giống nhau

Sau đó các tác giả sử dụng k-center để đưa ra k giá trị trung bình ban đầu

và phân hoạch các điểm dữ liệu vào không nhiều hơn k cụm Bên cạnh đó các tác

giả chọn véctơ lượng tử để phân lớp các điểm dữ liệu tăng cường và sau đó điều

chỉnh các giá trị trung bình sau khi cấu trúc của cụm thay đổi

Cuối cùng áp dụng thuật toán mới vào tập dit liệu thực và các kết qua của

nó chỉ ra sự hiệu quả và chính xác của nó.

Trang 37

Đầu tiên sẽ trình bày thuật toán thuật toán k-means mờ có trọng số, sau đó

sẽ trình bày thuật toán Gom cụm gia tăng K-Means mờ dựa trên K-Center và véctơ lượng tử:

e _ Thuật toán thuật toán k-means mờ có trọng số:

Bước 1:

Nhập các tham số ø, n, k, y và thời gian lặp tối đa s

Khởi tạo các trọng số ban đầu @¡= l/m

Bước 2:

Đặt tất cả các điểm dữ liệu vào trong tập H và đê cho tập các trung tâm C

là rỗng Chọn một điểm ngẫu nhiên từ H làm trung tâm thứ nhất và đặt

nó vào C đồng thời xóa khỏi H

Bước 3:

Đánh giá điểm dữ liệu trong H mà xa nhất đối với các điểm dữ liệu trung

tâm trong C làm trung tâm tiếp theo và đặt nó vào C đồng thời xóa khỏi

Trang 38

Lặp lại Bước 5 đến Bước 6 cho đến khi F(T,W,C) không thẻ cải thiện

thêm nữa hoặc thời gian lặp lớn hơn s.

e - Thuật toán Gom cum gia tăng K-Means mờ dựa trên K-Center và vécto

lượng tử.

Bước 1:

Loại bỏ sự khác nhau của các đơn vị tính của các chiều theo (19) là công

thức sẽ làm tất cả các điểm dữ liệu có chiều zero

ee) ism (19)

fi R

Trang 39

Bước 2:

Phân hoạch các điểm dit liệu ban đầu vào k cụm sử dụng thuật toán

k-means mờ có trọng số được đề cập ở trên

Bước 3:

Sắp xếp k giá trị trung bình vào một vector lượng tử có cấu trúc hình cây

sử dụng hai trọng tâm gom cụm được chỉ ra trong Hình 2.7:

Hoạt động thiết lập cây có thể được chỉ ra như sau:

1 Cho số của các lớp của cây 141 = 1 và số của các nhóm g = 1 đối với

lớp I, sau đó chúng ta tính toán giá trị trung bình của tat cả k trung tâm

và đặt nó vào gốc của mức đầu tiên của cây và tắt cả các trung tâm là ở

trong một nhóm.

2 Tăng 1=1+ 1, chúng ta chia mỗi một nhóm của các nhóm đang tồn tại

thành hai nhóm nhỏ và ở đây có thé có nhiếu nhất 2'' nhóm và dé các

giá trị trung bình của các trung tâm của các nhóm nhỏ mới thành các

Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn

Trang 40

gốc của lớp | và mỗi giá trị trung bình thay thế cho một nhóm đối vớilớp I, cho gla số nhóm thực sự.

3 Nếu tất cả các nhóm chỉ có một trung tâm thì dừng lại, ngược lại đi đến

bước 2.

Trên thực tế, chúng ta biết rằng tất cả k giá trị trung bình của thuật

toán k-means mờ là lá của cây từ quá trình của việc thiết lập cây

(Lưu ý: Tập đữ liệu ban đầu gồm có k cụm, giá trị trung bình của k

cụm này là nút gốc đầu tiên, giá trị trung bình của k/2 cụm bên trái là nútgốc lớp tiếp theo và giá trị trung bình của k/2 cụm bên phải cũng là nút gốc

lớp tiếp theo )

Bước 4:

Trích ra một điểm dữ liệu mới đến tiếp theo x” (trường hợp online) hay

bóc trích một mẫu dữ liệu từ ma trận dữ liệu một cách ngẫu nhiên hay có

thứ tự (trường hợp offline), sử dung (19) dé làm nó không có chiều

Bước 5:

Tính khoảng cách của điểm dữ liệu được chọn đến gốc của cây và các

cây con của nó bằng cách sử dụng khoảng cách Euclidean như sau:

Gia sử x" là gần hơn mị so với mị thì chúng ta chi cần tính hai khoảng

cách giữa x’ và mj; và x’ và Miz, giả sử khoảng cách giữa x’ và mj; là nhỏ

hơn, thì chúng ta cần tính hai khoảng cách cách giữa x” và mại; và x” và

TịJa; Nếu khoảng cách cách giữa x’ và mị¡¡ là nhỏ hơn và mj, không

có các điểm con thì x” là gần nhất đối với mj)

Ngày đăng: 08/11/2024, 17:29

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
7] Nguyễn Dinh Thuan, Đoàn Huấn (201 1), “Sử dụng thuật toán gom cụm mờ khai pha cơ sở dit liệu ERP doanh nghiệp dược phẩm”, Báo cáo tại hội thao quốc gia lần thứ XIV: Một số vấn đề chọn lọc của công nghệ thông tin và truyênthông, Trường Đại học Cần Thơ.Tiếng Anh Sách, tạp chí
Tiêu đề: Sử dụng thuật toán gom cụm mờ khaipha cơ sở dit liệu ERP doanh nghiệp dược phẩm
8] Ozdemir D, Akarun L (2001), “Fuzzy algorithms for combined quantization and dithering”, JEEE Trans. Image Processing, 10(6), 923-931 Sách, tạp chí
Tiêu đề: Fuzzy algorithms for combined quantization anddithering
Tác giả: Ozdemir D, Akarun L
Năm: 2001
9] Gustafson D E, Kessel W C (1979), “Fuzzy clustering with a fuzzy covariance matrix”, In: Proceedings of IEEE Conference Decision Control. San Diego, CA, 761-766 Sách, tạp chí
Tiêu đề: Fuzzy clustering with a fuzzy covariancematrix
Tác giả: Gustafson D E, Kessel W C
Năm: 1979
10] Hesam I., Ajith A. (2011), “Fuzzy C-means and fuzzy swarm for fuzzy clustering problem”, Expert Systems with Applications 38 , 1835-1838 Sách, tạp chí
Tiêu đề: Fuzzy C-means and fuzzy swarm for fuzzyclustering problem
Tác giả: Hesam I., Ajith A
Năm: 2011
11] Gath I, Geva A B (1989), “Unsupervised optimal fuzzy clustering”, [EEE Trans. Pattern Anal. Machine Intell., (7), 773-781 Sách, tạp chí
Tiêu đề: Unsupervised optimal fuzzy clustering
Tác giả: Gath I, Geva A B
Năm: 1989
12] A.K. Jain, M.N. Murty, P.J. Flynn (1999), “Data Clustering: A Review”, ACM Computing Surveys, Vol. 31, No. 3.Luận Văn Thạc Sĩ Công Nghệ Thông Tin Đoàn Huấn Sách, tạp chí
Tiêu đề: Data Clustering: A Review
Tác giả: A.K. Jain, M.N. Murty, P.J. Flynn
Năm: 1999
1] Hồ Tú Bảo, Đỗ Phúc (2004), Chuyên đề Khai phá dữ liệu và nhà kho dữ liệu(Data Mining &amp; Data Warehouse) Khác
2] Võ Thị Ngọc Châu (2011-2012), Bài giảng gom cụm dữ liệu-Cao học ngành khoa học máy tính, Trường Đại học Bách khoa Thành phô Hỗ Chí Minh Khác
3] Hoàng Văn Dũng (2007), Khai phá dit liệu Web bằng kỹ thuật phân cụm,Trường Đại học Sư phạm Hà nội Khác
4] Đoàn Huấn (2001-2011), Tài liệu, hỗ sơ khảo sát, phân tích thiết kế hệ thốngphan mém ERP, Công ty Cô phan Giải pháp Phân mém EnterSoft Khác
5] Hoàng Kiếm (2004), Chuyên dé Công Nghệ Tri Thức và Ung Dụng, Đại họcQuốc gia Thanh phô Hô Chí Minh Khác
6] Đỗ Phúc (2009), Gido trinh Khai thác dữ liệu, Nhà xuất ban Dai học quốc giathành phô Hô Chí Minh, Hồ Chí Minh Khác

HÌNH ẢNH LIÊN QUAN

Hình 4.7. Màn hình chọn bảng chứa các i tượng dữ liệu can gom cụm .... Trang 57 - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Hình 4.7. Màn hình chọn bảng chứa các i tượng dữ liệu can gom cụm .... Trang 57 (Trang 8)
Bảng 4.2. Thống kê hệ số a, @ .... Trang 69 - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Bảng 4.2. Thống kê hệ số a, @ .... Trang 69 (Trang 9)
Hình 1.1: Chu trình mô tả tac động qua lại giữa hoạt động của doanh nghiệp - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Hình 1.1 Chu trình mô tả tac động qua lại giữa hoạt động của doanh nghiệp (Trang 11)
Hình 2.1: Hai phương pháp tiếp cận phân cấp - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Hình 2.1 Hai phương pháp tiếp cận phân cấp (Trang 27)
Hình 2.2: Minh họa đối tượng hạt nhân - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Hình 2.2 Minh họa đối tượng hạt nhân (Trang 28)
Hình 2.3: Hình minh họa kết nối theo mật độ của pvàq - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Hình 2.3 Hình minh họa kết nối theo mật độ của pvàq (Trang 29)
Hình 2.6: Mô hình cau trúc lưới - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Hình 2.6 Mô hình cau trúc lưới (Trang 31)
Hình 3.2: Mô hình tổ chức phân cấp của công ty được phẩm - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Hình 3.2 Mô hình tổ chức phân cấp của công ty được phẩm (Trang 43)
Hình 3.3: Sơ đồ mô tả qui trình mua hàng - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Hình 3.3 Sơ đồ mô tả qui trình mua hàng (Trang 45)
Hình 3.4: Sơ đồ mô tả qui trình bán hàng - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Hình 3.4 Sơ đồ mô tả qui trình bán hàng (Trang 47)
Hình 3.6: Cấu trúc lưu trữ dữ liệu của Hóa đơn bán hàng - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Hình 3.6 Cấu trúc lưu trữ dữ liệu của Hóa đơn bán hàng (Trang 49)
Bảng riêng biệt có tên là pttmg va pttmct. Bảng pttmg lưu trữ các thông tin - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Bảng ri êng biệt có tên là pttmg va pttmct. Bảng pttmg lưu trữ các thông tin (Trang 50)
Hình 3.8: Cấu trúc lưu trữ di liệu của Báo có ngân hàng - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Hình 3.8 Cấu trúc lưu trữ di liệu của Báo có ngân hàng (Trang 51)
Hình 3.9: Bảng dữ liệu dùng để gom cum - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Hình 3.9 Bảng dữ liệu dùng để gom cum (Trang 52)
Hình 3.10: Mô tả quá trình hình thành các thuộc tính của khách hàng. - Luận văn thạc sĩ Khoa học máy tính: Nghiên cứu cải tiến các thuật toán gom cụm mờ và xây dựng ứng dụng khai phá dữ liệu trong cơ sở dữ liệu erp doanh nghiệp dược phẩm
Hình 3.10 Mô tả quá trình hình thành các thuộc tính của khách hàng (Trang 53)