Phân cụm dữ liệu và ứng dụng weka minh họa

Khái niệm Data mining là quá trình tự động tìm kiếm và trích xuất các mẫu thông tin có giá trị ẩn chứa từ tập tin dữ liệu lớn Data Set trong thực tế.. Quá trình khai phá dữ liệu Quá trìn

Trang 1

MỤC LỤC

I. Tổng quan quá trình khai phá dữ liệu

1. Khái niệm

Data mining là quá trình tự động tìm kiếm và trích xuất các mẫu thông tin có giá trị ẩn chứa từ tập tin dữ liệu lớn (Data Set) trong thực tế

2. Quá trình khai phá dữ liệu

Quá trình khai phá dữ liệu được tiến hàng qua 6 giai đoạn: bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra

Trang 2

Hình 1.1 Quá trình khai phá dữ liệu

Gom dữ liệu (Gathering): tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá

dữ liệu Đây là bước được khai phá trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web

Trích lọc dữ liệu (Selection): ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó

Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, Pre-processing and Preparation): giai đoan thứ ba này là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọng trong quá trình khai phá dữ liệu Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chẻ, logíc Vì vậy, dữ liệu thường chứa các giá trị

vô nghĩa và không có khả năng kết nối dữ liệu

Chuyển đổi dữ liệu (Transformation): tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó Dữ liệu đã được chuyển đổi phù hợp với mục đích khai phá

Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery): đây là bước mang tính tư duy trong khai phá dữ liệu Ở giai đoạn này nhiều thuật toán khác nhau đã

Trang 3

được sử dụng để trích ra các mẫu từ dữ liệu Thuật toán thường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệu tuần tự v.v

Đánh giá kết quả mẫu (Evaluation of Result): đây là giai đoạn cuối trong quá trình khai phá dữ liệu Ở giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra

Trên đây là 6 giai đoạn trong quá trình khai phá dữ liệu, trong đó giai đoạn 5 là giai đoạn được quan tâm nhiều nhất hay còn gọi đó là Data Mining

3. Nhiệm vụ của khai phá dữ liệu

Khai phá dữ liệu là chiết xuất ra các tri thức có lợi cho kinh doanh hay cho nghiên cứu khoa học Do đó, ta có thể xem mục đích của khai phá dữ liệu sẽ là mô tả các sự kiện

và dự đoán

4. Các phương pháp cho khai phá dữ liệu

4.1. Phân lớp và dự đoán

Phân lớp dữ liệu là tiến trình có 2 bước:

+ Huấn luyện: dữ liệu huấn luyện được phân tích bởi thuật toán phân lớp ( có thuộc tính nhãn lớp) để tạo ra bộ phân lớp

+ Phân lớp: Dữ liệu kiểm tra được dùng để ước lượng độ chính xác của phân lớp Nếu chính xác là chấp nhận được thì có thể dùng bộ phân lớp để phân lớp các mẫu dữ liệu mới

Chuẩn bị dữ liệu:

+ Làm sạch dữ liệu: nhiễu, thiếu giá trị

+ Phân tích liên quan (chọn đặc trưng): các thuộc tính không liên quan, các thuộc tính

dư thừa

+ Biến đổi dữ liệu

Các kỹ thuật phân lớp:

Trang 4

+ Cây quyết định: Là cấu trúc cây sao cho.

• Mỗi nút trong ứng với một phép kiểm tra trên một thuộc tính

• Mỗi nhánh biểu diễn kết quả phép kiểm tra

• Các nút lá biểu diễn các lớp hay các phân bố lớp

• Nút cao nhất trong cây là nút gốc

+ Các phân lớp trong cây quyết định:

• Phân lớp Bayes: Cĩ thể dự báo các xác suất là thành viên của lớp, chẳng hạn xác suất mẫu cho trước thuộc về một lớp xác định

• Phân lớp Nạve Bayes: Cĩ thể so sánh đuợc về cơng năng với bộ phân lớp cây quyết định và mạng nơron Chúng giả định các thuộc tính là độc lập nhau (độc lập điều kiện lớp)

• Phân lớp NẠVE BAYESIAN

+ Các thuật tốn sinh luật trực tiếp (khơng tạo cây):

• Thuật tốn ILA

• Thuật tốn CBA

4.2. Phân cụm và phân đoạn

Xếp một đối tượng vào một trong những lớp đã biết trước Ví dụ: phân lớp các dữ liệu bệnh nhân trong hồ sơ bệnh án Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Phân lớp và dự đốn cịn được gọi là học cĩ giám sát

4.3. Luật kết hợp

Là dạng luật biểu diễn tri thức ở dạng khá đơn giản Ví dụ: “80% mua bánh mì thì

cĩ 60% trong số đĩ mua sữa” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính và thị trường chứng khốn, v.v

5. Các ứng dụng khai phá dữ liệu

Trang 5

Khai phá dữ liệu tuy là một lĩnh vực mới nhưng đã thu hút được sự quan tâm của rất nhiều nhà nghiên cứu, nhờ có nhiều những ứng dụng trong thực tiễn, các ứng dụng điển hình như sau:

 Phân tích dữ liệu và hỗ trợ ra quyết định (Analysis & decition support)

 Điều trị trong y học (Medical): mối liên hệ giữa triệu chứng, chuẩn đoán và phương pháp điều trị (chế độ dinh dưỡng, thuốc men, phẫu thuật)

 Phân lớp văn bản, tóm tắt văn bản và phân lớp các trang Web (Text mining & Web mining)

 Tin sinh học (Bio-informatics): Tìm kiếm, đối sánh các hệ gen và thông tin di truyền, mối liên hệ giữa một số hệ gen và một số bệnh di truyền

 Nhận dạng

 Tài chính và thị trường chứng khoán (Finance & stock market): Phân tích tình hình tài chính và dự đoán giá cổ phiếu

 Bảo hiểm (Insurance)

 Giáo dục (Education)

II. Phân cụm dữ liệu và thuật toán K – Means

1. Tổng quan về phân cụm dữ liệu

1.1. Khái niệm phân cụm dữ liệu

Quá trình phân chia 1 tập dữ liệu ban đầu thành các cụm dữ liệu thỏa mãn các đối tượng trong một cụm có tính chất “tương tự” nhau

1.2. Mục đích của phân cụm dữ liệu

Xác định được bản chất của việc nhóm các đối tượng trong 1 tập dữ liệu không có nhãn

Phân cụm không dựa trên 1 tiêu chuẩn chung nào, mà dựa vào tiêu chí mà người dùng cung cấp trong từng trường hợp

1.3. Một số phương pháp phân cụm

Phân cụm phân hoạch Phân cụm phân cấp

Trang 6

Phân cụm dựa trên mật độ Phân cụm dựa trên lưới Phân cụm dựa trên mô hình Phân cụm có ràng buộc

1.4. Một số thuật toán phân cụm

Thuật toán phân cụm K-Means Phân cụm phân cấp (Hierarchical Clustering) Phân cụm theo mật độ DBSCAN

Phân cụm mô hình EM

2. Thuật toán phân cụm K – Means

 Khái quát về thuật toán

Thuật toán hoạt động trên 1 tập vectơ d chiều, tập dữ liệu X gồm N phần tử:

X = {xi | i = 1, 2,…N }

K-Mean lặp lại nhiều lần quá trình:

+ Gán dữ liệu

+ Cập nhật lại vị trí trọng tâm

Quá trình lặp dừng lại khi trọng tâm hội tụ và mỗi đối tượng là một bộ phận của 1 cụm

Hàm đo độ tương tự sử dụng khoảng cách Euclidean

2 1

i j

N

= ∈

−

∑ ∑

E =

trong đó cj là trọng tâm của cụm Cj

Hàm trên không âm, giảm khi có 1 sự thay đổi 1 trong 2 bước: gán dữ liệu và định lại vị trí tâm

 Các bước chính của thuật toán

Trang 7

1 Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm được đại diện bằng các tâm của cụm:

{ci} (i = 1÷K).

2 Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean):

S_i^((t)) = { x_j:||x_j-c_i^((t) ) || ≤||x_j-c_(i^*)^((t) ) || for alli^* = 1, …, k}

3 Nhóm các đối tượng vào nhóm gần nhất

4 Xác định lại tâm mới cho các nhóm

c_i^((t+1))=1/(|S_i^((t) ) |) ∑_(x_j∈S_i^((t)))▒x_j

6. Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các đối tượng

III. Giới thiệu phần mềm Weka

Trang 8

Weka là một công cụ phần mềm viết bằng Java, phục vụ lĩnh vực học máy và khai thác dữ liệu

Các tính năng chính:

- Một tập các công cụ tiền xử lý dữ liệu, các giải thuật học máy, khai phá dữ liệu, và các phương pháp thí nghiệm đánh giá

- Giao diện đồ họa (gồm cả tính năng hiển thị hóa dữ liệu)

- Môi trường cho phép cho sánh các giải thuật học máy và khai phá dữ liệu

 Simple CLI Giao diện đơn giản kiểu dòng lệnh (như MS – DOS)

 Explorer Môi trường cho phép sử dụng tất cả các tính năng của weka để khám phá dữ liệu

 Experimenter Môi trường cho phép tiến hành các thí nghiệm và thực hiện các kiểm tra thống kê giữa các mô hình học máy

 KnowledgeFlow Môi trường cho phép bạn tương tác đồ họa kiểu kéo/thả để thiết kế các bước của một thí nghiệm

IV. Gom cụm K – Means sử dụng giao diện Weka

Mô tả bài toán

Cả nước hầu hết các tỉnh/TP đều có diện tích sản xuất lúa nhất định Cùng với việc sản xuất thì năng suất lúa của mỗi địa phương đem lại sẽ khác nhau Nhằm mục đích đánh giá sự hiệu quả về sản lượng mà các địa phương sản xuất lúa mang để có cái nhìn và kế hoạch phát triển việc sản xuất ở mỗi địa phương

Trang 9

Giải pháp gom cụm dữ liệu để giúp đánh giá về việc sản lượng lúa của các tỉnh/

TP Qua đó có cái nhìn tổng thể và đưa ra những định hướng để phát triển việc sản xuất cho các địa phương

Trang 10

Bạn có thể chọn số lượng cluster và bất kỳ các thuộc tính khác cho mỗi một trong ba kích thước khác nhau có sẵn (trục x, trục y, và màu sắc) Kết hợp khác nhau của sự lựa chọn sẽ dẫn đến một hình ảnh các mối quan hệ khác nhau trong mỗi cụm Trong ví dụ ở trên tôi đã chọn trục x biểu diễn cluster, Trục y biểu diễn số trường hợp (gán bởi WEKA)

và cuối cùng chiều màu (color) biểu diễn thuộc tính “Production” Điều này sẽ dẫn đến một cái nhìn về trình độ sản xuất trong mỗi cụm Ví dụ bạn có thể thấy cụm 1 và 3 bị chi phối bởi trình độ sản xuất thấp cụm 0 và 2 bị tri phối bởi trình độ sản xuất cao

V. Kết luận

Qua đề tài này, nhóm nghiên cứu đã tìm hiểu và nắm được kiến thức về gom cụm

dữ liệu và thuật toán để gom cụm dữ liệu, cơ bản hiện thực việc gom cụm dữ liệu trên phần mềm Weka

Trang 11

VI. Slide power point

Định dạng
Số trang	14
Dung lượng	3,72 MB