Hướng dẫn sử dụng Phần mềm clementine 12.0 Bảng mô tả sử dụng phần mềm Clementine Cách sử dụng các thuật ngữ trong clementine Giáo trình cơ sở dữ liệu trường đại học kinh tế Sile bài giảng giảng viên trường ĐH Kinh Tế TP.HCM
Trang 1GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 1
LÀM QUEN VỚI PHẦM MỀM KHAI THÁC DỮ LIỆU
CLEMENTINE 12.0
1 Cửa sổ làm việc:
Hình 1.1: Cửa sổ làm việc của clementine
File: (stream, managers, project, outputs) khởi tạo, mở các file có sẵn, lưu file… Edit: Các lựa chọn undo, cắt/dán, delete, rename… trên file (stream, models, project, outputs)
Insert: Thực hiện một số các thao tác trên dữ liệu (chức năng gần giống như thanh Palette)
View: tắt/mở thanh công cụ, palette, managers, project
Tools : một số các tùy chọn nâng cao: tạo mật khẩu, quản lý các palette…
1.1 Cửa sổ chính: Stream (lưu đồ dòng chảy):
Là khu vực lớn nhất của cửa sổ Clementine và là nơi mà bạn sẽ xây dựng và thao tác trên dữ liệu Stream được tạo ra bằng cách giống như vẽ một bản đồ, cách thức để khai thác dữ liệu Mỗi hoạt động được đại diện bởi một biểu tượng hoặc node, và các node liên kết với nhau trong một dòng giống như dòng chảy của dữ liệu thông qua mỗi hoạt động
Treams
managers
project
palette
Trang 2GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 2
Bạn có thể làm việc (thực hiện nhiều lưu đồ) cùng một lúc trong stream, hoặc mở một stream mới Trong một phiên, stream được lưu trữ trong thanh managers , ở phía trên bên phải của cửa sổ Clementine
Mỗi palette nodes chứa một tập các nút liên quan, sử dụng cho các giai đoạn khác nhau của các hoạt động dòng chảy, chẳng hạn như:
• Sources: Các nút đưa dữ liệu vào Clementine
• Record Ops Các nút thực hiện các hoạt động trên các dữ liệu, chẳng hạn như lựa chọn, hợp nhất, và thêm
• Field Ops Các nút thực hiện các hoạt động trên các items của dữ liệu, như lọc, them các items mới, và xác định các kiểu dữ liệu cho các items nhất định
• Graphs: Các nút đồ họa hiển thị dữ liệu trước và sau khi thực hiện các bước khai thác dữ liệu
• Modeling: (Mô hình hóa) Các nút sử dụng mô hình hóa các thuật toán có sẵn trong Clementine, như mạng thần kinh, cây quyết định, các thuật toán clustering, và sắp xếp dữ liệu
• Output: Các nút xuất một loạt các dữ liệu, bảng biểu, và kết quả mô hình, có thể được xem trong Clementine hoặc gửi trực tiếp đến một ứng dụng khác, chẳng hạn như SPSS hoặc Excel
1.2.a Giới thiệu Sources nodes:
Chọn node Sources: Bạn có thể chọn một số nguồn lưu trữ dữ liệu, ví dụ ở đây bạn chọn nguồn là SPSS, bạn click đúp chọn biểu tượng SPSS File kéo thả vào Stream
Trang 3GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 3
Hình 1.2: Chọn nguồn dữ liệu là file SPSS
Sau đó bạn click đúp vào biều tượng để hướng dẫn đến file dữ liệu spss :
Hình 1.3: Cửa sổ khai báo nguồn dữ liệu file SPSS
Import file: Chọn đường dẫn cho file dữ liệu
Filter: Mặc định sẽ chọn toàn bộ dữ liệu, bạn có thể chọn hạn chế một số biến để phục vụ cho mục đích của bạn
Trang 4GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 4
Types: Mặc định sẽ là những gì bạn định nghĩa trên file dự liệu gốc, bạn có thể thay đổi: kiểu giá trị(types), values, missing
Khi có được dữ liệu, chọn apply rồi ok
Hình 1.4: cửa sổ khai báo dữ liệu file excel
Nút nguồn Excel cho phép bạn nhập dữ liệu từ bất kỳ phiên bản nào của Microsoft Excel
Import file: Chỉ định tên và vị trí của tập tin excel để nhập vào
Use named range: Cho phép bạn chỉ định một loạt tên của các cột được định nghĩa trong bảng tính Excel Click vào nút chọn( ) để chọn từ danh sách các phạm vi có sẵn Tất cả các hàng trong phạm vi quy định được trả về, bao gồm cả các hàng trống Với các tên được sử dụng, vùng dữ liệu còn lại sẽ không có giá trị không thể khai thác được Worksheet: Chỉ định worksheet được chọn vào, bằng chỉ số hay theo tên:
• Index Xác định giá trị chỉ số cho các worksheet mà bạn chọn vào, bắt đầu bằng 0 cho sheet đầu tiên, 1 cho sheet thứ hai, và như vậy
• Name Chỉ định tên của worksheet mà bạn chọn vào Click vào nút ( ) để chọn từ danh sách các worksheet sẵn
Trang 5GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 5
Data range: Bạn có thể nhập dữ liệu bắt đầu với các hàng không trống đầu tiên hoặc với một phạm vi rõ ràng:
• First non-blank row: Định vị các biến không trống đầu tiên và sử dụng bắt đầu từ góc trên bên trái của vùng dữ liệu Nếu gặp một hàng trống tiếp theo, bạn có thể chọn để ngừng đọc (stop reading) hoặc chọn hàng trở lại trống để tiếp tục đọc tất cả dữ liệu vào cuối của bảng tính (return blank rows), bao gồm cả các hàng trống
• Explicit range: Cho phép bạn chỉ định một phạm vi rõ ràng của hàng hoặc cột (ví dụ, A3: G178) Tất cả các hàng trong phạm vi quy định được trả về, bao gồm cả các hàng trống
First row contains field names :Hàng đầu tiên chứa tên biến Chỉ ra rằng hàng đầu tiên trong phạm vi quy định nên được sử dụng như trường tên Nếu không được chọn, tên trường được tạo ra tự động
Lưu ý:
Theo mặc định, với các cột (biến) chứa hai hay nhiều hơn kiểu (type) dữ liệu số và chuỗi, một trong hai giá trị đó sẽ bị mất (không có giá trị giống như trong spss) trong Clementine Không giống như Excel-Clementine không cho phép lưu trữ các loại hỗn hợp trong một biến Để tránh điều này, bạn có thể tự thiết lập các định dạng của ô văn bản trong các bảng tính Excel, tạo ra các giá trị (bao gồm số) để đọc
1.2.b Giới thiệu Record Operations:
Các nút được sử dụng để thay đổi dữ liệu Các hoạt động này rất quan trọng trong việc hiểu và chuẩn bị dữ liệu cho khai thác dữ liệu bởi vì chúng cho phép bạn chỉnh các
dữ liệu cho nhu cầu riêng của mình
The select node: chọn hoặc loại bỏ một tập hợp các dòng dữ liệu dựa trên một điều kiện cụ thể Ví dụ, bạn có thể chọn dữ liệu ở một khu vực nhất định ví dụ: tp (thành phố) = 1 (thành phố HCM) Đây là cửa sổ làm việc của nút select:
Trang 6GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 6
Hình 1.5: Bảng select
Mode: Chỉ định xem dòng dữ liệu sẽ được chọn hoặc loại trừ khi thỏa mãn điều kiện
• Include Chọn bao gồm các dòng dữ liệu đáp ứng các điều kiện lựa chọn
• Discard Chọn để loại trừ các hồ sơ đáp ứng các điều kiện lựa chọn Condition: Hiển thị các điều kiện lựa chọn sẽ được sử dụng để kiểm tra mà bạn tự nhập vào một biểu hiện trong cửa sổ hoặc sử dụng Expression Builder bằng cách nhấn vào máy tính (Expression Builder) nút bên phải của cửa sổ
Select node cũng được sử dụng để lấy mẫu Thông thường, bạn sẽ sử dụng một nút sample cho hoạt động này Tuy nhiên, nếu điều kiện bạn muốn xác định là phức tạp hơn các thông số được cung cấp, bạn có thể tạo điều kiện riêng của bạn bằng cách sử dụng nút Select Ví dụ tp (thành phố) = 1 random(40)
the sample node: Các nút lựa chọn mẫu cho tập hợp các hồ sơ Một loạt các loại mẫu được hỗ trợ, bao gồm ngẫu nhiên đơn giản, phân tầng, cả khối Lấy mẫu có thể hữu ích để cải thiện hiệu suất, và để chọn nhóm các hồ sơ liên quan, giao dịch để phân tích
Trang 7GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 7
Hình 1.5: Bảng sample
Sample method : simple
Mode: Chọn (bao gồm) hoặc loại trừ các hồ sơ cho các phương thức sau đây:
Chọn phương pháp lấy mẫu từ các tùy chọn sau:
• First Chọn lấy n hồ sơ đầu tiên của dữ liệu Ví dụ, nếu kích thước mẫu tối đa được thiết lập là 10.000, bạn sẽ được 10.000 hồ sơ đầu tiên
• 1-trong-n Chọn mẫu theo kiểu bước nhảy Ví dụ, nếu n được thiết lập đến 5, các
hồ sơ sẽ được lấy là 5,10,15,20
• Random% Chọn mẫu ngẫu nhiên một tỷ lệ phần trăm của dữ liệu Ví dụ, nếu bạn thiết lập các tỷ lệ phần trăm đến 20, thì 20% dữ liệu sẽ được chọn
The balance node: Các nút chỉnh cân bằng sự mất cân bằng trong bộ dữ liệu, vì vậy nó phù hợp với một điều kiện quy định Các chỉ thị điều chỉnh cân bằng tỷ lệ của hồ
sơ theo các điều kiện đặt ra
Trang 8GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 8
The Aggregate node: Nút tổng hợp thay thế một chuỗi các hồ sơ đầu vào với tóm tắt, tổng hợp hồ sơ đầu ra
The recency, frequency, monetary (RFM):
The sort node: Xếp loại các hồ sơ tăng hoặc giảm dựa trên các giá trị của một hay nhiều tiêu chí
The merge node: Các nút Merge có nhiều hồ sơ đầu vào và tạo ra một bản ghi đầu ra duy nhất có chứa một số hoặc tất cả các lĩnh vực đầu vào Nó rất hữu ích cho việc sáp nhập dữ liệu từ nhiều nguốn khác nhau
The distinct node: Loại bỏ các hồ sơ
The append node: Các nút Thêm hồ sơ, Nó rất hữu dụng cho việc kết hợp các bộ
dữ liệu với cấu trúc tương tự nhưng dữ liệu khác nhau
1.2.c Giới thiệu Field operations:
Sau khi thăm dò dữ liệu ban đầu, có thể bạn sẽ phải lựa chọn, làm sạch, hoặc xây dựng dữ liệu để chuẩn bị cho phân tích Các lĩnh vực hoạt động bảng chứa nhiều các nút hữu ích cho việc chuyển đổi này và chuẩn bị
the type node: Nút xác định kiểu dữ liệu Thiết lập vai trò của các biến cho các mục đích xây dựng mô hình, xác định kiểu dữ liệu, giá trị…cho biết dữ liệu được lưu trữ như là chuỗi, số nguyên, số thực, ngày tháng, thời gian
Trang 9GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 9
Hình 1.5: Cửa sổ khai báo type
• Values: Bạn có thể sử dụng toàn bộ những values đã có ở file gốc bằng cách chọn Read Values, hoặc tạo mới bằng cách ở cột Values bạn chọn specify Các nhãn mà bạn chỉ định trong nút hình được hiển thị trong Clementine tùy thuộc vào các lựa chọn bạn thực hiện trong các thuộc tính dòng hộp thoại
• Missing values: Được sử dụng để xác định các giá trị sẽ được coi như là khoảng trắng
• Value checking: Trong cột Kiểm tra, bạn có thể thiết lập các tùy chọn để đảm bảo rằng giá trị trường phù hợp với phạm vi quy định
the filter node: Lọai bỏ một số biến
the reclassify node: Phân loại lại, nút chuyển đổi một tập các giá trị rời rạc khác Phân loại lại rất hữu dụng cho thu gọn danh mục hoặc tập hợp dữ liệu để phân tích
the bining node: Các nút Binning tự động tạo ra thiết lập mới dựa trên các giá trị
số của biến thành giá trị phân loại Ví dụ, bạn có thể chuyển đổi biến thu nhập dạng số
Trang 10GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 10
thành dạng biến các nhóm thu nhập theo trung bình và độ lệch chuẩn
Nếu bạn có cài đặt SPSS và được cấp phép trên máy tính của bạn, các Transform SPSS, được thực hiện bằng lệnh cú pháp của SPSS trên các nguồn dữ liệu trong Clementine
the Partition node: Các nút phân vùng tạo ra một lĩnh vực phân vùng, trong đó chia tách các dữ liệu vào tập hợp con riêng cho việc thực hiện, thử nghiệm, và kiểm tra việc xây dựng mô hình
the restructure node
the transpose node:Các nút Transpose giao dịch hoán đổi các dữ liệu trong các hàng và cột
Trang 11GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 11
Hình 1.5: Cửa sổ khai báo các biến được xuất ra trên file SPSS
• Bạn có thể đổi tên các lĩnh vực phù hợp với yêu cầu SPSS tên biến bằng cách chọn biểu tượng lọc/ chọn Rename for SPSS để đổi tên hoặc lọc Fields cho SPSS
Sau khi đã có đựơc những gì mong muốn chọn Execute
2 Sử dụng chuột trong Clementine:
Việc sử dụng con chuột trong Clementine bao gồm:
• Single-click Sử dụng hoặc bên phải hoặc nút chuột trái để chọn các tùy chọn từ menu, menu ngữ cảnh mở, và truy cập các điều khiển khác theo tiêu chuẩn và tùy chọn Click và giữ node để di chuyển và kéo các node
Trang 12GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 12
• Kích đúp vào Click đôi vào sử dụng nút chuột trái để đặt các node trên khung dòng
và chỉnh sửa các node hiện có
• Trung-click Click vào nút chuột giữa và kéo con trỏ để kết nối các node trên khung dòng Nhấn chuột phải để ngắt kết nối một node Nếu bạn không có một con chuột có ba nút, bạn có thể giả lập tính năng này bằng cách nhấn phím Alt trong khi click và kéo chuột
3.Làm việc với Clementine là một quá trình ba bước:
• Trước tiên, bạn đọc dữ liệu vào Clementine
• Sau đó, chạy dữ liệu thông qua một loạt các thao tác
• Và cuối cùng, gửi dữ liệu đến một đích đến
Chuỗi các hoạt động này được biết đến như một dòng dữ liệu vì dữ liệu lưu trữ từ các nguồn thông qua thao tác để có được thông tin mong muốn cuối cùng, được chuyển đến
là một mô hình, biểu đồ hay kiểu dữ liệu đầu ra
4.Phân tích cụm:
Trước tiên bạn phải đọc dữ liệu, như phần giới thiệu ở trên
Và để thống nhất kiểu dữ liệu cho mô hình phân tích cụm ta chọn type (ở Filed Ops)
để khai báo lại kiểu scale cho toàn bộ các biến:
Trang 13GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 13
Hình 4.1: Strean chuẩn bị dữ liệu
Đây là bước chuẩn bị cho một bộ dữ liệu đã sẵn sàng cho các yêu cầu tiếp theo của bạn
Ở một số các mô hình phân cụm, bạn thường chia dữ liệu thành hai phần, một phần thực hiện và một phần kiểm tra, tôi giới thiệu cho bạn một node partition để làm việc này: Field Ops/ Partition, bạn chọn node Partition bỏ vào cửa sổ làm việc Bạn nhớ kết nối chúng lại thành một dòng chảy bằng các mũi tên nhé Sau đó, bạn click đúp vào biểu tượng Partition, hộp thoại Partition mở ra như sau:
Hình 4.2: Cửa sổ làm việc Partition
Partition field: Tên sẽ được tự động hiển thị theo lệnh được yêu cầu ở đây là Partition, bạn có thể đặt tên khác không vấn đề gì
Partitions: Train and test : bạn có thể chia mẫu làm hai thực hiện và kiểm tra
Train,test and validation : thực hiện, kiểm tra và xác nhận
Training partition size : % mẫu để thực hiện
Testing partition size : % mẫu để kiểm tra
Validation partition size : % mẫu để xác nhận
Values : bạn muốn chúng hiển thị kết quả như thế nào :
Trang 14GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 14
Use system-defined values : chỉ hiển thị số tương ứng ví dụ : 1 : “training” Append labels to system-defined values: hiển thị số và labels
Use labels as vaules : hiển thị labels :training
Set random seed Seed: (vì cách lấy mẫu là ngẫu nhiên do đó, khi bạn thực hiện những lần khác nhau, hoặc trên các máy khác nhau sẽ được kết quả khác nhau và không thể
so sánh được) ở đây bạn nên khai báo một số cụ thể và nhớ mãi con số này để những lần sau bạn chạy lại vẫn đạt được kết quả như lần đầu
Hình 4.3: Cửa sổ làm việc Partition sau khi khai báo
Thực hiện phân cụm : k-means và two Step Ở thanh palette chọn Modeling node/ Segmentation/ chọn K-Means và Two Step
Trang 15GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 15
Hình 4.4: Stream với lựa chọn các node phân cụm
Với kỹ thuật K-Means sẽ có bản sau:
Hình 4.5: Cửa sổ K-Means
Trang 16GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 16
Model name: Tự hiển thị tên theo lệnh thực hiện, hoặc bạn có thể đặt tên lại cho lệnh này “phan cum” hay tùy ý bạn
Use partitioned data: Sử dụng dữ liệu phân vùng Nếu trước đó dữ liệu của bạn đã thực hiện lệnh Partition
Number of clusters: Xác định số lượng cụm để tạo ra (Mặc định là 5), Ở đây chúng ta chọn 2
Generate distance field : khoảng cách từ mỗi quan sát (hồ sơ) đến trung tâm cụm Show cluster proximity: Khoảng cách giữa các trung tâm cụm
Cluster label : Tên thành viên cụm, String kiểu chuỗi (ví dụ "Cluster1", "cluster2", vv), hoặc number số 1,2
Lưu ý: thông thường, clementine sẽ tự động bê tất cả các biến vào phân cụm, kể cả
id (thật là buồn cười nhỉ) Vì thế, bạn cần phải giới hạn số lượng biến lại Chọn Fields (ở góc dưới bên trái): Mặc định máy sẽ chọn Use type node settings, bạn sẽ chọn lại là Use custom settings/ chọn biểu tượng nhấp vào sẽ xuất hiện bảng Select Fields như sau:
Hình 4.6: Chọn các biến vào mô hình
Trang 17GV Nguyễn Thảo Nguyên, Khoa Toán – Thống Kê, ĐH Kinh Tế TPHCM 17
Bạn chọn một số biến cần thiết rồi apply/ok kết quả như sau:
Hình 4.7: Cửa sổ khai báo biến
Thủ tục hoàn tất chỉ cần lệnh cho máy thực hiện Execute Bạn để ý trên cửa sổ managers/Models sẽ hiện ra kết quả bạn chỉ cần click đúp vào biểu tượng, nó sẽ được đưa qua lưu đồ,và nhiệm vụ của bạn là gắn nó vào lưu đồ của mình, để xem kết quả bạn click đúp vào biểu tượng trong lưu đồ: