Giới thiệu về phần mềm phân cụm Cluster 3.0
Phiên bản đầu tiên của phần mềm Cluster được viết bởi Michael Eisen khi ông đang làm việc ở trường đại học Stanford. Cluster 3.0 được viết bởi Michiel de Hoon cùng với Seiya Imoto và Satoru Miyano của trường đại học Tokyo và Human Genome Center và tháng 7 năm 2002. Các phiên bản của phần mềm có thể download tại địa chỉ:
http://rana.lbl.gov/EisenSoftware.htm.
Cluster 3.0 và Tree View là những chương trình cung cấp một môi trường tính toán và môi trường đồ họa cho việc phân tích dữ liệu từ những thí nghiệm DNA hay tập dữ liệu thuộc về gene khác. Cluster có thể tổ chức và phân tích dữ liều theo nhiều cách khác nhau. TreeView cho phép dữ liệu đã được tổ chức được trực quan hóa. Bạn có thể tải và cài đặt miễn phí phần mềm Treeview này tại địa chỉ:
Các thực nghiệm
Các thực nghiệm tôi sẽ tiến hành trên 2 tập dữ liệu “dataset1” và “dataset2” trên 2 phần mềm đó là thực hiện phân cụm K-means cho tập dữ liệu “dataset1” với các tham số đầu vào chung.
Cụ thể như sau:
1. Với tập dữ liệu “dataset1”:
Tiến hành phân cụm trên gene có điều chỉnh dữ liệu và chọn những tham số chung cho K-means là:
o Số lần chạy 100
o Phương pháp phân cụm là k-Means
o Ma trận khoảng cách là “Euclidean distance”. Ta sẽ tiến hành 3 thực nghiệm sau:
Một là: Thực hiện phân cụm K-means trên Cluster 3.0.
Hai là: Thực hiện phân cụm K-means trên “Gene Cluster” không sử dụng chức năng xử lý dữ liệu khuyết.
Ba là: Thực hiện phân cụm K-means trên “Gene Cluster” sử dụng chức năng xử lý dữ liệu khuyết.
Với việc chọn 3 giá trị k (số cụm) ở 3 lần khác nhau là:
Lần 1: Chọn số cụm k=10
Thực hiện 3 thực nghiệm trên.
Lần 2:Chọn số cụm k=15
Thực hiện 3 thực nghiệm trên.
Lần 3: Chọn số cụm k=20. Thực hiện 3 thực nghiệm trên.
2. Với tập dữ liệu “dataset2”:
Với tập dữ liệu tôi sẽ thực hiện thực nghiệm “Lần 1” như với tập dữ liệu “dataset1”.