1. Trang chủ
  2. » Luận Văn - Báo Cáo

THUẬT TOÁN K-MEANS VỚI ỨNG DỤNG WEKA TRONG BÀI TOÁN THỰC TẾ

35 3,4K 24

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 35
Dung lượng 1,33 MB

Nội dung

Các tác vụ khai phá dữ liệu có thể được phânthành hai loại: miêu tả và dự báohoặc các đặc tính chung của dữ liệu trong CSDL hiện có.Các kỹ thuật này gồm có: phân cụm clustering, tóm tắt

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TIỂU LUẬN CHUYÊN ĐỀ

Trang 2

MỤC LỤC

MỞ ĐẦU 3

Chương 1 : 4

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 4

1.1 Giới thiệu về khai phá dữ liệu: 4

1.2 Các nhiệm vụ của khai phá dữ liệu: 5

1.3 Các loại dữ liệu được khai phá: 5

1.4 Lịch sử phát triển của Khai phá dữ liệu: 6

1.5 Ứng dụng của Khai phá dữ liệu: 6

1.6 Phân loại: 8

1.7 Một số thách thức đặt ra cho việc khai phá dữ liệu : 8

Chương 2 : 9

QUY TRÌNH VÀ PHƯƠNG THỨC THỰC HIỆN KHAI PHÁ DỮ LIỆU 9

2.1 Quy trình Tổng quát thực hiện Khai phá dữ liệu: 9

2.2 Tiến trình khám phá tri thức khi đi vào một bài toán cụ thể : 10

Chương 3 : 12

THUẬT TOÁN PHÂN CỤM K-MEANS VÀ ỨNG DỤNG WEKA TRONG BÀI TOÁN THỰC TẾ 12

1 Tìm hiểu về phân cụm 12

2 Thuật Toán K-Means 13

3 Ứng dụng WEKA trong bài toán thực tế : 18

1.1 Mô tả tập dữ liệu (Dataset) 18

1.1.1 Nguồn gốc (UCI ARFF Repository) 18

1.1.2 Thuộc tính và ý nghĩa các thuộc tính 19

1.2 Bài toán phân lớp (Classification Problem) trên tập dữ liệu đã cho 20

2 Xây dựng mô hình huấn luyện cho bộ phân lớp (classifier) 20

2.1 Tiền xử lý dữ liệu cho tập dữ liệu vowel.arff 21

2.1.1 Vấn đề loại bỏ các thuộc tính không có liên quan đến thuộc tính phân lớp 22

2.1.2 Vấn đề phân chia mẫu dữ liệu huấn luyện và dữ liệu kiểm tra từ tập dữ liệu gốc 23

2.2 Các bộ phân lớp 25

2.2.1 Phân lớp bằng mô hình mạng Neural nhiều tầng (Multilayer Perceptron) 25

3 Thực nghiệm - Sử dụng bộ công cụ Weka 3.7.5 để thực hiện bài toán phân lớp trên tập dữ liệu vowel.arff 27

3.1 Xây dựng mô hình phân lớp 28

3.2 Kết quả phân lớp thực nghiệm 33

Tài liệu tham khảo 35

Trang 3

MỞ ĐẦU

Trong những năm gần đây, việc nắm bắt được thông tin được coi là cơ sở của mọi hoạt động sản xuất, kinh doanh Cá nhân hoặc tổ chức nào thu thập và hiểu được thông tin, và hành động dựa trên các thông tin được kết xuất từ các thông tin đã có sẽ đạt được thành công trong mọi hoạt động Chính vì lý do đó, việc tạo ra thông tin, tổ chức lưu trữ và khai thác ngày càng trở nên quan trọng và gia tăng không ngừng.

Sự tăng trưởng vượt bậc của các cơ sở dữ liệu (CSDL) trong cuộc sống như: thương mại, quản lý và khoa học đã làm nảy sinh và thúc đẩy sự phát triển của kỹ thuật thu thập, lưu trữ, phân tích và khai phá dữ liệu… không chỉ bằng các phép toán đơn giản thông thường như: phép đếm, thống kê… mà đòi hỏi cách xử lý thông minh hơn, hiệu quả hơn Từ đó các nhà quản lý có được thông tin có ích để tác động lại quá trình sản xuất, kinh doanh của mình… đó là tri thức Các kỹ thuật cho phép ta khai thác được tri thức hữu dụng từ CSDL (lớn) được gọi là các kỹ thuật khai phá dữ liệu (DM – Data Mining) Khai phá luật kết hợp là một nội dung quan trọng trong khai phá dữ liệu.

Khoá luận trình bày một số vấn đề về phát hiện tri thức, khai phá dữ liệu, và trình bày rõ vấn đề khai phá luật kết hợp và ứng dụng một số thuật toán khai phá luật kết hợp trong CSDL.

Trang 4

Ch ương 1 : ng 1 :

TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1 Gi i thi u v khai phá d li u: ới thiệu về khai phá dữ liệu: ệu về khai phá dữ liệu: ề khai phá dữ liệu: ữ liệu: ệu về khai phá dữ liệu:

Khai phá dữ liệu được định nghĩa là quá trình trích xuất các thông tin có giá trị tiềm

ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu Cụ thểhơn đó là tiến trình trích lọc, sản sinh những tri thức hoặc những mẫu tiềm ẩn, chưa biếtnhưng hữu ích từ các cơ sở dữ liệu lớn Đồng thời là tiến trình khái quát các sự kiện rờirạc trong dữ liệu thành các tri thức mang tính khái quát, tính qui luật hỗ trợ tích cực chocác tiến trình ra quyết định Hiện nay, ngoài thuật ngữ khai phá dữ liệu, người ta còndùng một số thuật ngữ khác có ý nghĩa tương tự như: Khai phá tri thức từ CSDL(Knowlegde mining from database), trích lọc dữ liệu (Knowlegde extraction), phân tích

dữ liệu/mẫu (data/pattern analysis), khảo cổ dữ liệu (data archaeology), nạo vét dữ liệu(data dredredging) Nhiều người coi khai phá dữ liệu và một số thuật ngữ thông dụngkhác là khám phá tri thức trong CSDL (Knowledge Discovery in Databases- KDD) lànhư nhau Tuy nhiên trên thực tế khai phá dữ liệu chỉ là một bước thiết yếu trong quátrình Khám phá tri thức trong CSDL

Để hình dung vấn đề này ta có thể sử dụng một ví dụ đơn giản như sau: Khai phá dữliệu được ví như tìm một cây kim trong đống cỏ khô Trong ví dụ này, cây kim là mộtmảnh nhỏ tri thức hoặc một thông tin có giá trị và đống cỏ khô là một kho cơ sở dữ liệurộng lớn Như vậy, những thông tin có giá trị tiềm ẩn trong kho cơ sở dữ liệu sẽ đượcchiết xuất ra và sử dụng một cách hữu ích nhờ khai phá dữ liệu Chức năng khai phá dữliệu gồm có gộp nhóm phân loại, dự báo, dự đoán và phân tích các liên kết

Nguồn dữ liệu phục vụ cho KTDL có thể là các CSDL lớn hay các kho dữ liệu(Datawarehouse) có hay không có cấu trúc Các tác vụ khai phá dữ liệu có thể được phânthành hai loại: miêu tả và dự báohoặc các đặc tính chung của dữ liệu trong CSDL hiện có.Các kỹ thuật này gồm có: phân cụm (clustering), tóm tắt (summerization), trực quan hoá(visualiztion), phân tích sự phát triển và độ lệch (Evolution and deviation analyst), phântích luật kết hợp (association rules)…

- Các tác vụ khai phá miêu tả mô tả các đặc tính chung của dữ liệu trong cơ sở dữliệu Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về các tính chất hoặc các đặctính chung của dữ liệu trong CSDL hiện có Các kỹ thuật này gồm có: phân cụm(clustering), tóm tắt (summerization), trực quan hoá (visualiztion), phân tích sự phát triển

và độ lệch (Evolution and deviation analyst), phân tích luật kết hợp (association rules)…

Trang 5

-Các tác vụ khai phá dự báo thực hiện việc suy luận trên dữ liệu hiện thời để đưa racác dự báo Kỹ thuật khai phá dữ liệu dự đoán: Có nhiệm vụ đưa ra các dự đoán dựa vàocác suy diễn trên dữ liệu hiện thời Các kỹ thuật này gồm có: Phân lớp (classification),hồi quy (regression)…

1.2 Các nhi m v c a khai phá d li u: ệu về khai phá dữ liệu: ụ của khai phá dữ liệu: ủa khai phá dữ liệu: ữ liệu: ệu về khai phá dữ liệu:

Cho đến nay đã có rất nhiều công trình nghiên cứu và phát triển trong lĩnh vực khaiphá dữ liệu Dựa trên những loại tri thức được khám phá, chúng ta có thể phân loại nhưtheo các nhiệm cụ như sau:

- Khai phá luật thuộc tính: tóm tắt những thuộc tính chung của tập dữ liệu nào đó trong

cơ sở dữ liệu Ví dụ như những triệu chứng của một căn bệnh S thì thường có thể đượcthể hiện qua một tâp các thuộc tính A

- Khai phá những luật phân biệt: khai phá những đặc trưng, những thuộc tính để phânbiệt giữa tập dữ liệu này với tập dữ liệu khác Ví dụ như nhằm phân biệt giữa các chứngbệnh thì một luật phân biệt được dùng để tóm tắt những triệu chứng nhằm phân biệtchứng bệnh xác định với những chứng bệnh khác

- Khám phá luật kết hợp: khai phá sự kết hợp giữa những đối tượng trong một tập dữliệu Giả sử hai tập đối tượng {A1, A2,… ,An} và {B1, B2,… ,Bn} thì luật kết hợp códạng {A1^A2^…^ An) →{B1^ B2^… ^Bn)

- Khám phá luật phân lớp: phân loại dữ liệu vào trong tập những lớp đã biết Ví dụ nhưmột số chiếc xe có những đặc tính chung để phân vào các lớp dựa trên cách tiêu thụ nhiênliệu hoặc có thể phân vào các lớp dựa trên trọng tải…

- Phân nhóm: xác định một nhóm cho một tập các đối tượng dựa trên thuộc tính của chúng Một

số các tiêu chuẩn được sử dụng để xác định đối tượng có thuộc về nhóm hay không

- Dự báo: dự báo giá trị có thể đúng cuỷa những dữ liệu bị thiếu hoặc sự phân bố thuộctính nào đó trong tập dữ liệu

- Khám phá quy luật biến đổi: tìm những tập luật phản ánh những hành vi tiến hóa, biếnđổi chung của một tập dữ liệu Ví dụ như luật khám phá những yếu tố chính tác động lên

sự thay đổi của những giá cổ phiếu nào đó

1.3 Các lo i d li u đ ại dữ liệu được khai phá: ữ liệu: ệu về khai phá dữ liệu: ược khai phá: c khai phá:

Khai phá dữ liệu thường làm việc với nhiều kiểu dữ liệu khác nhau Hầu hết cáckiểu dữ liệu được khai phá là những kiểu sau:

- Cơ sở dữ liệu quan hệ: những cơ sở dữ liệu được tổ chức theo mô hình quan hệ Hầu

Trang 6

này như: Oracle, IBM DB2, MS SQL Server, MS Access…

- Cơ sở dữ liệu đa chiều: cơ sở dữ liệu này được gọi là nhà kho dữ liệu,trong đó dữ liệuđược chọn từ nhiều ngồn khác nhau và chứa những đặc tính lịch sử thông qua thuộc tínhthời gian tường minh hay ngầm định

- Cơ sở dữ liệu giao tác: đây là loại cơ sở dữ liệu được sử dụng nhiều trong siêu thị,thương mại, tài chính, ngân hàng…

- Cơ sở dữ liệu quan hệ - hướng đố tượng: mô hình cơ sở dữ liệu này lai giữa mô hìnhhướng đối tượng và mô hình cơ sở dữ liệu quan hệ

- Cơ sở dữ liệu thời gian, không gian: chứa những thông tin về không gian địa lý hoặcthông tin theo thời gian

- Cơ sở dữ liệu đa phương tiện: loại dữ liệu này bao gồm: âm thanh, ảnh,video, văn bản

và nhiều kiểu dữ liệu định dạng khác Ngày nay loại dữ liệu này được sử dụng nhiều trênmạng Internet

1.4 L ch s phát tri n c a Khai phá d li u: ịch sử phát triển của Khai phá dữ liệu: ử phát triển của Khai phá dữ liệu: ển của Khai phá dữ liệu: ủa khai phá dữ liệu: ữ liệu: ệu về khai phá dữ liệu:

- Những năm 1960: Xuất hiện CSDL theo mô hình mạng và mô hình phân cấp

- Những năm 1970: Thiết lập nền tẩng lý thuyết cho CSDL quan hệ, các hệ quảntrị CSDL quan hệ

- Những năm 1980: Hoàn thiện lý thuyết về CSDL quan hệ và các hệ quản trịCSDL quan hệ, xuất hiện các hệ quản trị CSDL cao cấp (hướng đối tượng, suy diễn, )

và hệ quản trị hướng ứng dụng trong lĩnh vực không gian, khoa học, công nghiệp, nôngnghiệp, địa lý

- Những năm 1990-2000: phát triển Khai phá dữ liệu và kho dữ liệu, CSDL đaphương tiện, và CSDL Web

1.5 ng d ng c a Khai phá d li u: Ứng dụng của Khai phá dữ liệu: ụ của khai phá dữ liệu: ủa khai phá dữ liệu: ữ liệu: ệu về khai phá dữ liệu:

Khai phá dữ liệu là một lĩnh vực liên quan tới nhiều ngành học khác như: hệ CSDL,thống kê, trực quan hoá… hơn nưa, tuỳ vào cách tiếp cận được sử dụng, khai phá dữ liệucòn có thể áp dụng một số kỹ thuật như mạng nơron, lý thuyết tập thô, tập mờ, biểu diễntri thức… So với các phương pháp này, khai phá dữ liệu có một số ưu thế rõ rệt

• So với phương pháp học máy, khai phá dữ liệu có lợi thế hơn ở chỗ, khai phá dữ liệu

có thể sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổi liêntục Trong khi đó phương pháp học máy chủ yếu được áp dụng trong các CSDL đầy đủ, ítbiến động và tập dữ liệu không qua lớn

Trang 7

• Phương pháp hệ chuyên gia: phương pháp này khác với khai phá dữ liệu ở chỗ các ví

dụ của chuyên gia thường ở mức cao hơn nhiều so với các dữ liệu trong CSDL, và chúngthường chỉ bao hàm được các trường hợp quan trọng Hơn nữa các chuyên gia sẽ xácnhận giá trị và tính hữu ích của các mẫu phát hiện được

• Phương pháp thống kê là một trong những nên tảng lý thuyết của khai phá dữ liệu,nhưng khi so sánh hai phương pháp với nhau ta có thể thấy các phương pháp thống kêcòn tồn tại một số điểm yếu mà khai phá dữ liệu khắc phục được:

- Các phương pháp thống kê chuẩn không phù hợp với các kiểu dữ liệu có cấu trúc trongrất nhiều CSDL

- Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nó không sử

dụng tri thức có sẵn về lĩnh vực

- Kết quả phân tích của hệ thống có thể sẽ rất nhiều và khó có thể làm rõ được

- Phương pháp thống kê cần có sự hướng dẫn của người dùng để xác định phân tích dữliệu như thế nào và ở đâu

* Khai thác dữ liệu được ứng dụng rộng rãi trong rất nhiều lĩnh vực như:

- Ngân hàng:

◊ Xây dựng mô hình dự báo rủi ro tín dụng

◊ Tìm kiếm tri thức, qui luật của thị trường chứng khoán và đầu tư bất động sản

◊ Phát hiện dùng thẻ tín dụng giả trên mạng và là công cụ hữu ích cho dịch vụ quản lýrủi ro cho thương mại điện tử

- Thương mại điện tử:

◊ Công cụ tìm hiểu, định hướng thúc đẩy, giao tiếp với khách hàng

◊ Phân tích hành vi mua sắm trên mạng và cho biết thông tin tiếp thị phù hợp với loạikhách hàng trong một phân khu thị trường nhất định

Trang 8

◊ Ứng dụng trong hệ thống phát hiện xâm nhập trái phép IDS/IPS để phát hiện ra cáccuộc tấn công xâm nhập mạng trái phép

- Một số ứng dụng của khai phá dữ liệu trong lĩnh vực kinh doanh:

BRANDAID: mô hình marketing linh hoạt tập chung vào hàng tiêu dùng đóng gói CALLPLAN: giúp nhân viên bán hàng xác định số lần viếng thăm của khách hàngtriển vọng và khách hàng hiện có

DETAILER: xác định khách hàng nào nên viếng thăm và sản phẩm nào nên giớithiệu trong từng chuyến viếng thăm,

GEOLINE: mô hình thiết kế địa bàn tiêu thụ và dịch vụ

MEDIAC: Giúp người quảng cáo mua phương tiện trong một năm, lập kế hoạch

sử dụng phương tiện bao gồm phác hoạ khúc thị trường, ước tính tiềm năng

1.6 Phân lo i: ại dữ liệu được khai phá:

Chúng ta có thể phân lớp hệ thống khai phá dữ liệu theo các tiêu chuẩn sau:

Phân lớp dựa trên loại dữ liệu được khai phá: những hệ thống khai phá dữ liệu làmviệc với cơ sở dữ liệu quan hệ, nhà kho dữ liệu, cơ sở dữ liệu giao tác, cơ sở dữ liệuhướng đối tượng, đa phương tiện và Web…

Phân lớp dựa trên kiểu tri thức khai phá: hệ thống khai phá dữ liệu xuất kết quả kiểu tómtắt, mô tả, luật kết hợp, phân lớp, phân nhóm và dự báo…

Phân lớp dựa trên loại kỹ thuật được sử dụng: hệ thống khai phá sử dụng các kỹthuật OLAP, kỹ thuật máy học (cây quyết định, mạng neural, thuật giải tiến hóa, tập thô

- Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện không còn phù hợp

- Dữ liệu bị thiếu hoặc nhiễu

- Quan hệ giữa các trường phức tạp

- Giao tiếp với người sử dụng và kết hợp với các tri thức đã có

- Tích hợp với các hệ thống khác…

Trang 9

Ch ương 1 : ng 2 :

QUY TRÌNH VÀ PHƯƠNG THỨC THỰC HIỆN KHAI PHÁ DỮ LIỆU

2.1 Quy trình T ng quát th c hi n Khai phá d li u: ổng quát thực hiện Khai phá dữ liệu: ực hiện Khai phá dữ liệu: ệu về khai phá dữ liệu: ữ liệu: ệu về khai phá dữ liệu:

Quá trình này gồm các bước:

1) Làm sạch dữ liệu (data cleaning): Loại bỏ nhiễu hoặc các dữ liệu không thích hợp 2) Tích hợp dữ liệu (data integration): Tích hợp dữ liệu từ các nguồn khác nhau như:CSDL, Kho dữ liệu, file text…

3) Chọn dữ liệu (data selection): Ở bước này, những dữ liệu liên quan trực tiếp đến nhiệm

vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu

4) Chuyển đổi dữ liệu (data transformation): Trong bước này, dữ liệu sẽ được chuyển đổi

về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp 5) Khai phá dữ liệu (data mining): Là giai đoạn thiết yếu, trong đó các phương phápthông minh sẽ được áp dụng để trích xuất ra các mẩu dữ liệu

6) Đánh giá mẫu (pattern evaluation): Đánh giá sự hữu ích của các mẫu biểu diễn tri thứcdựa vào một số phép đo

7) Trình diễn dữ liệu (Knowlegde presention): Sử dụng các kỹ thuật trình diễn và trựcquan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sử dụng Ordinal

Trang 10

Hình 2.1: Data mining – một bước trong quá trình khám phá tri thức

2.2 Ti n trình khám phá tri th c khi đi vào m t bài toán c th : ến trình khám phá tri thức khi đi vào một bài toán cụ thể : ức đặt ra cho việc khai phá dữ liệu : ột số thách thức đặt ra cho việc khai phá dữ liệu : ụ của khai phá dữ liệu: ển của Khai phá dữ liệu:

Chính vì mục tiêu khám phá trí thức ngầm định trong cơ sở dữ liệu nên quá trìnhkhai phá thường phải qua một số các giai đoạn cần thiết Bao gồm những giai đoạn chuẩn

bị dữ liệu khai phá, giai đoạn khai phá dữ liệu và cuối cùng là giai đoạn chuyển kêt quảkhai phá sang những tri thức cho con người hiểu được Chi tiết các bước thực hiện được

mô tả trong bảng tóm tắt như sau:

- Giai đoạn 1: đầu tiên là phát triển một sự hiểu biết về lĩnh vực ứng dụng và những trithức tương ứng Xác định mục đích của tiến trình khai phá dữ liệu từ qua điểm của ngườidùng

- Giai đoạn 2: chuẩn bị dữ liệu để khai phá, thu thập dữ liệu và dữ liệu mẫu

- Giai đoạn 3: tiền xử lý dữ liệu, xóa các thông tin bị nhiễu trong dữ liệu,loại bỏ sự trùnglặp dữ liệu và xác định chiến lược để xử lý dữ liệu bị mất

- Giai đoạn 4: chiếu dữ liệu, thu nhỏ dữ liệu và tìm những đặc trưng để khai phá

Hình 2.2: Tổng quan tiến trình khai phá dữ liệu

- Giai đoạn 5: chọn một phương pháp khai phá dữ liệu thích hợp nhất trong số cácphương pháp phổ biến như: tóm tắt, phân lớp, hồi quy, phân nhóm, kết hợp…

Trang 11

- Giai đoạn 6: từ thuật toán đã chọn, mô hình hóa thuật toán để giải quyết trong trườnghợp cụ thể đang xét Lựa chọn những phương pháp tìm kiếm mẫu dữ liệu, quyết định cáctham số

- Giai đoạn 7: đây là giai đoạn khai phá dữ liệu, sử dụng thuật toán để tìm kiếm nhữngmẫu thú vị trong một hình thức thể hiện đắc thù hoặc một tập những thể hiện bao gồmnhững luật phân lớp, cây, sự hồi quy và phân nhóm

- Giai đoạn 8: thông dịch lại những mẫu đã được khai phá dưới các hình thức thể hiện trithức của dữ liệu như ngôn ngữ, biểu đồ, hình cây, bảng…

Quá trình khai phá này có sự tương tác và lặp lại giữa hại bước bất kỳ, những bước cơ bản của tiến trình được minh họa trong hình trên Hầu hết những công việc trước đây đều tập trung ở bước 7 là giai đoạn khai phá dữ liệu Tuy nhiên, các bước còn lại quan trọng không kém và những bước đó đóng góp rất nhiều vào sự thành công của toàn bộ tiến trình khai phá dữ liệu sau đây ta sẽ tìm hiểu chi tiết về quá trình tiền xử lý trong tiến trình

Trang 12

Chương 3 :

THUẬT TOÁN PHÂN CỤM K-MEANS VÀ ỨNG DỤNG WEKA

TRONG BÀI TOÁN THỰC TẾ.

1 Tìm hiểu về phân cụm

Phân cụm là kỹ thuật rất quan trọng trong khai phá dữ liệu, nó thuộc lớp các phương

pháp Unsupervised Learning trong Machine Learning Có rất nhiều định nghĩa khác

nhau về kỹ thuật này, nhưng về bản chất ta có thể hiểu phân cụm là các qui trình tìm

cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm tương tự (similar) nhau và các đối tượng khác cụm thì không tương tự (Dissimilar) nhau.

Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu Các thuật toánphân cụm (Clustering Algorithms) đều sinh ra các cụm (clusters) Tuy nhiên, không cótiêu chí nào là được xem là tốt nhất để đánh hiệu của của phân tích phân cụm, điều nàyphụ thuộc vào mục đích của phân cụm như: data reduction, “natural clusters”, “useful”clusters, outlier detection

Kỹ thuật phân cụm có thể áp dụng trong rất nhiều lĩnh vực như:

 Marketing: Xác định các nhóm khách hàng (khách hàng tiềm năng, khách hàng giátrị, phân loại và dự đoán hành vi khách hàng,…) sử dụng sản phẩm hay dịch vụcủa công ty để giúp công ty có chiến lược kinh doanh hiệu quả hơn;

 Biology: Phận nhóm động vật và thực vật dựa vào các thuộc tính của chúng;

 Libraries: Theo dõi độc giả, sách, dự đoán nhu cầu của độc giả…;

 Insurance, Finance: Phân nhóm các đối tượng sử dụng bảo hiểm và các dịch vụ tàichính, dự đoán xu hướng (trend) của khách hàng, phát hiện gian lận tài chính(identifying frauds);

 WWW: Phân loại tài liệu (document classification); phân loại người dùng web(clustering weblog);…

Các kỹ thuật phân cụm được phân loại như sau (xem hình)

Trang 13

2 Thuật Toán K-Means

K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm

Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects)

đã cho vào K cụm (K là số các cụm được xác đinh trước, K nguyên dương) sao cho tổngbình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid ) là nhỏ nhất

Thuật toán K-Means được mô tả như sau

Thuật toán K-Means thực hiện qua các bước chính sau:

Trang 14

1 Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm được đại diệnbằng các tâm của cụm.

2 Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảngcách Euclidean)

3 Nhóm các đối tượng vào nhóm gần nhất

4 Xác định lại tâm mới cho các nhóm

5 Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các đốitượng

Ví dụ minh họa thuật toán K-Mean:

Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại thuộc được biểu diễn bởi 2 đặc trưng X và Ynhư sau Mục đích của ta là nhóm các thuốc đã cho vào 2 nhóm (K=2) dựa vào các đặctrưng của chúng

Bước 1 Khởi tạo tâm (centroid) cho 2 nhóm Giả sử ta chọn A là tâm của nhóm thứ nhất

(tọa độ tâm nhóm thứ nhất c1(1,1)) và B là tâm của nhóm thứ 2 (tạo độ tâm nhóm thứ haic2 (2,1))

Bước 2 Tính khoảng cách từ các đối tượng đến tâm của các nhóm (Khoảng cách

Euclidean)

Trang 15

Mỗi cột trong ma trận khoảng cách (D) là một đối tượng (cột thứ nhất tương ứng với đốitượng A, cột thứ 2 tương ứng với đối tượng B,…) Hàng thứ nhất trong ma trận khoảngcách biểu diễn khoảng cách giữa các đối tượng đến tâm của nhóm thứ nhất (c1) và hàngthứ 2 trong ma trận khoảng cách biểu diễn khoảng cách của các đối tượng đến tâm củanhóm thứ 2 (c2).

Ví dụ, khoảng cách từ loại thuốc C=(4,3) đến tâm c1(1,1) là 3.61 và đến tâm c2(2,1) là2.83 được tính như sau:

Bước 3 Nhóm các đối tượng vào nhóm gần nhất

Ta thấy rằng nhóm 1 sau vòng lặp thứ nhất gồm có 1 đối tượng A và nhóm 2 gồm cácđối tượng còn lại B,C,D

Bước 4 Tính lại tọa độ các tâm cho các nhóm mới dựa vào tọa độ của các đối tượng

trong nhóm Nhóm 1 chỉ có 1 đối tượng A nên tâm nhóm 1 vẫn không đổi, c1(1,1) Tâmnhóm 2 được tính như sau:

Trang 16

Bước 5 Tính lại khoảng cách từ các đối tượng đến tâm mới

Bước 6 Nhóm các đối tượng vào nhóm

Bước 7 Tính lại tâm cho nhóm mới

Trang 17

Bước 8 Tính lại khoảng cách từ các đối tượng đến tâm mới

Bước 9 Nhóm các đối tượng vào nhóm

Ta thấy G2 = G1 (Không có sự thay đổi nhóm nào của các đối tượng) nên thuật toán dừng

và kết quả phân nhóm như sau:

Ngày đăng: 09/04/2015, 21:35

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] G. Peterson and H. Barney, "Control methods used in a study of vowels," Journal of the Acoustical Society of America, vol. 24, pp. 175-184, 1952 Sách, tạp chí
Tiêu đề: Control methods used in a study of vowels
[2] R. L. Watrous, "Current status of Peterson-Barney vowel formant data," Journal of the coustical Society of America, vol. 89, pp. 2459-60, 1991 Sách, tạp chí
Tiêu đề: Current status of Peterson-Barney vowel formant data
[4] Aldebaro Klautau, “Classification of Peterson & Barney's vowels using Weka” Sách, tạp chí
Tiêu đề: Classification of Peterson & Barney's vowels using Weka
[5] A. Klautau, "http://speech.ucsd.edu/aldebaro/repository," 2002 [6] Chuyên mục Data Mining and Business Intelligence -http://bis.net.vn/forums/36.aspx Sách, tạp chí
Tiêu đề: http://speech.ucsd.edu/aldebaro/repository
[7] Chuyên đề Khai phá dữ liệu và Nhà kho dữ liệu (2004) – TS Đỗ Phúc - Đại học Quốc Gia Thành Phố Hồ Chí Minh Khác
[8]Hoàng Kiếm - Đỗ Phúc (2005), Giáo trình khai phá dữ liệu, Trung tâm nghiên cứu phát triển công nghệ thông tin, Đại học Quốc gia thành phố Hồ Chí Minh Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w