Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 82 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
82
Dung lượng
2,26 MB
Nội dung
ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM THỊ THU CÁC THUẬT TOÁN PHÂN CỤM DỮ DIỆU VÀ ỨNG DỤNG TRONG PHÂN LOẠI PROTEIN LUẬN VĂN THAC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên – 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ĐẠI HỌC THÁI NGUYÊN TRƢỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG PHẠM THỊ THU CÁC THUẬT TOÁN PHÂN CỤM DỮ DIỆU VÀ ỨNG DỤNG TRONG PHÂN LOẠI PROTEIN Chuyên ngành: Khoa học máy tính Mã số: 60 48 01 01 Ngƣời hƣớng dẫn khoa học PGS.TS Đoàn Văn Ban Thái Nguyên - 2015 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ i LỜI CẢM ƠN Để hồn thành chƣơng trình cao học viết luận văn này, nhận đƣợc hƣớng dẫn, giúp đỡ góp ý nhiệt tình quý thầy cô trƣờng Đại học Công nghệ thông tin Truyền thông Đặc biệt thầy cô Viện công nghệ thông tin Hà Nội tận tình dạy bảo cho tơi suốt thời gian học tập trƣờng Tôi xin gửi lời cảm ơn sâu sắc đến PGS.TS Đoàn Văn Ban dành nhiều thời gian tâm huyết hƣớng dẫn tơi hồn thành luận văn Mặc dù tơi có nhiều cố gắng hồn thiện luận văn tất lực mình, nhiên khơng thể tránh khỏi thiếu sót, mong nhận đƣợc đóng góp q báu q thầy cô bạn Tôi xin chân thành cảm ơn! Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ ii LỜI CAM ĐOAN Tôi xin cam đoan tất nội dung luận văn hoàn toàn đƣợc hình thành phát triển từ quan điểm cá nhân tơi, dƣới hƣớng dẫn bảo PGS.TS Đoàn Văn Ban Các số liệu kết có đƣợc luận văn tốt nghiệp hồn tồn trung thực Học viên Phạm Thị Thu Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ iii BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT Chữ viết tắt KDD CSDL Nghĩa tiếng anh Nghĩa tiếng việt Kownledge Discovery in Khám phá tri thức sở Database liệu Data base Cơ sở liệu Khai phá liệu KPDL Clustering Using Representatives Phân cụm liệu sử dụng điểm đại diện Clustering Large Application Thuật toán phân cụm ứng dụng lớn Self-organizing Trees Cây tự tổ chức DesoxyriboNucleic Acid Phân tử nucleic acid mang thông tin di truyền mã hóa cho hoạt động sinh trƣởng phát triển dạng sống RNA RiboNucleic Acid Là hai loại axít nucleic, sở di truyền cấp độ phân tử rRNA ribosome RNA Là ARN mã hóa mang thông tin từ AND tRNA transfer RNA Là RNA vận chuyển mRNA messenger RNA RNA thông tin SCOP Structural Classification of Phân loại cấu trúc protein Proteins CATH Class Architecture Topology Homologous superfamily Phân loại cấu trúc protein với CATH DDD Dali Domain Dictionary Từ điển miền Dali PDB Protein Data Bank Ngân hàng liệu protein FSSP Families of Structurally Similar Proteins Dòng họ protein với cấu trúc tƣơng tự CURE CLARA SoT DNA Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ iv Trang Hình 1.1 Ví dụ phân cụm tập liệu vay nợ thành cụm Hình 1.2 Các chiến lƣợc phân cụm phân cấp 15 Hình 1.3 Một số hình dạng khám phá phân cụm mật độ 16 độ Hình 1.4 Mơ hình cấu trúc liệu lƣới 18 Hình 2.1 Các thiết lập để xác định danh giới cụm ban đầu 25 Hình 2.2 Tính tốn trọng tâm cụm 26 Hình 2.3 Minh họa trực quan trình phân cụm 28 Hình 2.4 Phân cụm Chameleon 31 34 35 35 Hình 2.8 Nguyên lý chung AntTree 37 Hình 2.9 Kiến trúc khác SOM SoT 40 Hình 2.10 Phân việc từ treec cho treec 44 Hình 2.11 Tách subtreex khỏi treec đƣa vào list 44 Hình 2.12 Tái liên kết subtreex vào treec 45 Hình 3.1 Thuyết trung tâm sinh học phân tử 47 Hình 3.2 Cấu trúc DNA 48 Hình 3.3 Sự phát triển cấu trúc liệu protein 51 Hình 3.4 Dữ liệu đầu vào thuật tốn 57 Hình 3.5 Giao diện chọn liệu 65 old old Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ v Hình 3.6 Thơng tin liệu 66 Hình 3.7 Kết phân cụm với số tâm cụm 10 67 Hình 3.8 Kết phân cụm SoT với số tâm cụm 10 67 Hình 3.9 Giao diện hiển thị 10 phân cụm thuật toán SoT 68 Hình 3.10 Chi tiết phân cụm thứ tám thuật tốn SoT 68 Hình 3.11 Tập tin kết phân cụm clara 69 DANH MỤC BẢNG Bảng 3.1 Nguồn tài nguyên cho phân loại cấu trúc protein 52 Bảng Các cấp độ CATH 53 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ vi MỤC LỤC LỜI CẢM ƠN i LỜI CAM ĐOAN ii BẢNG KÝ HIỆU CÁC CHỮ VIẾT TẮT iii iv MỞ ĐẦU CHƢƠNG KHAI PHÁ DỮ LIỆU 1.1 Khái niệm chung 1.2 Phân lớp liệu 1.3 Phân cụm liệu 1.3.1 Tổng quan phân cụm liệu 1.3.2 Các yêu cầu kỹ thuật phân cụm liệu 1.3.3 Các kiểu liệu phân cụm liệu 1.3.4 Độ đo phân cụm liệu 11 1.3.5 Các kỹ thuật tiếp cận với toán phân cụm 13 1.4 Luật kết hợp 20 1.4.1 Một số khái niệm sở 20 21 21 1.5 Một số ứng dụng phân cụm liệu 22 1.5.1 Ứng dụng tin sinh học 22 1.5.2 Ứng dụng phân loại đối tƣợng văn 23 1.5.3 Ứng dụng phân đoạn ảnh, nhận dạng 23 1.6 Kết luận chƣơng 24 CHƢƠNG CÁC THUẬT TOÁN PHÂN CỤM 25 2.1 Thuật toán K-means 25 2.2 Thuật toán CHAMELEON 29 2.3 Thuật toán CLARA 32 2.4 Thuật toán CURE 33 2.5 Thuật toán AntTree 37 2.6 Thuật toán tự tổ chức SoT 39 2.7 Kết luận chƣơng 46 CHƢƠNG CHƢƠNG TRÌNH THỬ NGHIỆM 47 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ vii 3.1 Protein kỹ thuật phân loại Protein 47 3.1.1 Thuyết trung tâm sinh học phân tử 47 3.1.2 Các kỹ thuật phân loại Protein 50 3.2 Cài đặt thử nghiệm thuật toán phân cụm liệu phân loại Protein 55 3.2.1 Phát biểu toán 55 3.2.2 Mô tả liệu 56 3.2.3 Chuẩn bị liệu 57 3.2.4 Môi trƣờng cài đặt thử nghiệm 61 3.3 Nhận xét, đánh giá chƣơng trình thử nghiệm 70 3.4 Kết luận chƣơng 70 KẾT LUẬN VÀ HƢỚNG NGHIÊN CỨU 71 TÀI LIỆU THAM KHẢO 72 Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ MỞ ĐẦU Trong năm gần đây, với phát triển vƣợt bậc công nghệ thông tin, khả thu thập lƣu trữ thông tin hệ thống thông tin không ngừng đƣợc nâng cao Theo đó, lƣợng thơng tin đƣợc lƣu trữ thiết bị nhớ không ngừng tăng lên Khai phá liệu trình khám phá tri thức có ích dạng tiềm nguồn liệu có Q trình khám phá tri thức chuỗi lặp gồm bƣớc: làm liệu, tích hợp liệu, chọn lựa liệu, đánh giá mẫu, biểu diễn tri thức Khai phá liệu liên quan đến nhiều lĩnh vực khác nhƣ: công nghệ sở liệu, lý thuyết thống kê, học máy, khoa học thơng tin, trực quan hóa, Vấn đề ứng dụng kỹ thuật khai phá liệu, phân cụm liệu Tin sinh học, lĩnh vực mới, đời, sử dụng cơng nghệ ngành tốn học ứng dụng, tin học, thống kê, khoa học máy tính, trí tuệ nhân tạo, hóa học, sinh học để giải vấn đề sinh học Việc tìm hiểu nghiên cứu phân loại protein lên nhƣ hƣớng với trải nghiệm hƣớng vào việc khám phá cấu trúc phân tử sinh học Nghiên cứu ứng dụng cách hiệu phƣơng pháp khai phá liệu vấn đề hấp dẫn, thu hút quan tâm nhà nghiên cứu, ứng dụng mà tổ chức, doanh nghiệp Do đó, tơi chọn đề tài nghiên cứu “ Các thuật toán phân cụm liệu ứng dụng phân loại Protein” Số hóa Trung tâm Học liệu - ĐHTN http://www.lrc-tnu.edu.vn/ 59 3.2.3.3 Sử dụng tương quan thuộc tính Tƣơng quan thuộc tính mối liên hệ thuộc tính, đơn giản mối liên hệ tuyến tính Ở kỹ thuật này, ta tìm cặp thuộc tính mà tƣơng quan với nhất, tức chúng tăng giảm (hoặc ngƣợc lại tăng, giảm) “lƣợng” định Khi giá trị thuộc tính thiếu tính đƣợc thơng qua giá trị thuộc tính Ví dụ: với hai thuộc tính attr1 attr2 ta tìm đƣợc chúng có mối tƣơng quan cao, trƣờng hợp lý tƣởng tƣơng quan 1:1, ta xây dựng hàm truyến tính nhƣ sau: Attr2 = Attr1* a + b Trong đó: a b hệ số tuyến tính tìm đƣợc dựa mối tƣơng quan hai thuộc tính Do đó, biết giá trị thuộc tính tìm đƣợc giá trị thuộc tính Nhƣợc điểm kỹ thuật cần phân tích tƣơng quan tất cặp thuộc tính dẫn đến khơng hiệu với liệu có số lƣợng thuộc tính lớn Mặt khác với thuộc tính mà có giá trị khơng phải số, thống kê gọi kiểu phân loại (nominal), kỹ thuật khơng áp dụng đƣợc 3.2.3.4 Sử dụng tương tự mẫu Thay khám phá tƣơng quan thuộc tính, kỹ thuật sử dụng tƣơng tự mẫu (dòng) để điền giá trị thiếu Sự tƣơng tự cần đƣợc định nghĩa thông qua độ đo cụ thể Một độ đo d hàm d : X × X → R, R tập số thực, cho x,y,z thuộc X d phải thỏa mãn bốn tính chất bản: d(x, y) ≥ d(x, y) = x = y d(x, y) = d(y, x) 60 d(x, z) ≤ d(x, y) + d(y, z) Một độ đo thƣờng đƣợc sử dụng khoảng cách Euclid đƣợc định p nghĩa nhƣ sau: d ( x, y) ( xi yi ) i Trong p số thuộc tính, xi,yi giá trị đối tƣợng x,y thuộc tính thứ i Sự tƣơng tự mẫu “gần nhau” mẫu tính độ đo chúng Phƣơng pháp tính khoảng cách Euclid tìm 10 mẫu gần (hàng xóm) với mẫu có giá trị thiếu, sau tính giá trị thiếu hai phƣơng pháp: + Phƣơng pháp a: sử dụng số trung vị 10 hàng xóm + Phƣơng pháp b: tính trung bình trọng số 10 hàng xóm Trọng số giảm khoảng cách mẫu hàng xóm lớn Để tính trọng số, ta sử dụng hàm Gaussian Khi trọng số đƣợc tính theo khoảng cách d nhờ cơng thức sau: w(d) = e-d Để tính đƣợc khoảng cách Euclid với giá trị số (liên tục) giá trị phân loại (nominal), sử dụng hàm sau: p d ( x, y) i ( xi , yi ) i Trong i () xác định khoảng cách hai mẫu thuộc tính i đƣợc cho bởi: i (v1 , v ) i thuộc tính phân loại v1 v2 i thuộc tính phân loại v1 v2 (v1 v2 )2 i thuộc tính kiểu số 61 Luận văn sử dụng kỹ thuật tìm tƣơng tự mẫu phƣơng pháp b để điền giá trị thiếu cho liệu Việc thực hóa kỹ thuật đƣợc trình bày phần cài đặt thử nghiệm sau 3.2.4 Môi trƣờng cài đặt thử nghiệm 3.2.4.1 Môi trường cài đặt Chƣơng trình sử dụng ngơn ngữ R kết hợp với ngơn ngữ C# để thử nghiệm chƣơng trình Yêu cầu phần mềm cần thiết bao gồm: Net Framework 4.0 trở nên, cài đặt ngôn ngữ R số gói cài đặt mở rộng R đƣợc đóng gói đĩa CD Giao diện tƣơng tác với ngƣời dùng đƣợc phát triển công cụ Visual Studio 2010 ngôn ngữ C# Phần thuật tốn xử lý ngơn ngữ R Để kết nối phần giao diện phần xử lý thuật tốn, chƣơng trình sử dụng thƣ viện R.net đƣợc phân phối địa rdotnet.codeplex.com Phần dƣới mô tả cách sơ lƣợc ngôn ngữ R gói mở rộng đƣợc sử dụng chƣơng trình 3.2.4.2 Ngơn ngữ R R ngơn ngữ lâp trình thống kê sáng lập nhóm tác giả "R Development Core Team" đại học đại học Auckland, Ross Ihaka Robert Gentleman khởi xƣớng phát triển từ ngơn ngữ lập trình thống kê S Do đặc trƣng phần mềm mã nguồn mở, R nhận đƣợc đóng góp xây dựng từ khắp nơi cộng đồng khoa học Thêm vào R kế thừa ƣu điểm ngơn ngữ lập trình bậc cao nên nhanh chóng trở thành ngơn ngữ phổ biến thống kê, xử lý số liệu nói chung đặc biệt tin sinh học nói riêng R hồn tồn miễn phí đƣợc cộng đồng nhà phát triển khai phá liệu học máy quan tâm Rất nhiều thuật tốn, cơng cụ xử lý đƣợc phát triển phân phối kho CRAN thông qua gói 62 (package) địa cran.r-project.org Trong luận văn, tác giả sử dụng ba gói DMwR, Cluster clValid đƣợc mô tả chi tiết phần sau 3.2.4.3 Các gói mở rộng Các gói mở rộng sử dụng chƣơng trình: Gói DMwR: Gói bao gồm hàm sử dụng khai phá liệu Luận văn sử dụng hàm knnImputation để xử lý giá trị thiếu liệu Mô tả chi tiết hàm nhƣ sau: Sử dụng: knnImputation(data, k= 10, scale = T, meth = "weighAvg", distData = NULL) Các tham số hàm: data: liệu đầu vào cần xử lý k: số hàng xóm gần nhất, mặc định 10 scale: định xem liệu có đƣợc chia tỷ lệ trƣớc tìm hàm xóm gần hay khơng Mặc định true meth: phƣơng pháp để điền giá trị thiếu Bao gồm hai phƣơng pháp “median” (phƣơng pháp a) “weighAvg” (phƣơng pháp b) nhƣ mô tả mục 3.2.3.4 Mặc định sử dụng weighAvg distData: tham số đƣợc sử dụng tìm kiếm hàng xóm liệu khác Mặc định NULL, thuật tốn tìm hàng xóm liệu đầu vào Gói Cluster: Gói đƣợc phát triển Peter Rousseeuw, Anja Struyf Mia Hubert đƣợc công bố kho CRAN vào ngày 30/1/2015 Phiên chƣơng trình sử dụng 2.0.1 63 Hàm clara thuộc thƣ viện cluster cho phép tính tốn phân cụm liệu theo thuật tốn Clara Mơ tả chi tiết hàm tham số nhƣ sau: Sử dụng: clara(x, k, metric = "euclidean", stand = FALSE, samples = 5,sampsize = min(n, 40 + * k), trace = 0, medoids.x = TRUE,keep.data = medoids.x, rngR = FALSE, pamLike = FALSE) Các tham số hàm: x: liệu đầu vào hàm, liệu có cấu trúc dạng bảng nhƣ mô tả mục 3.2.2 k: số nguyên số Giá trị phải nằm khoảng (0, n) n số lƣợng ghi metric: hàm khoảng cách, mặc định dùng khoảng cách euclid stand: biến logic xác định xem cần chuẩn hóa giá trị bị thiếu liệu Các giá trị thiếu đƣợc thay giá trị trung bình theo thuộc tính (cột) Mặc định giá trị False samples: số nguyên giá trị mẫu đƣợc xử lý liệu Giá trị mặc định sampsize: số nguyên số lƣợng quan sát sample Giá trị lớn số cụm thƣờng số ghi trace: số nguyên biểu thị vết theo dõi trình gỡ lỗi medoids.x: biến logic định có trả giá trị tâm cụm hay không Mặc định True keep.data: biến logic xác định xem kết có đƣợc lƣu lại trng nhớ hay không Biến có giá trị tƣơng ứng với biến medoids.x 64 rngR: biến logic xác định xem hàm có tạo số ngẫu nhiên đƣợc sử dụng trình tính tốn hàm Mặc định False pamLike: biến logic xác định hàm thực theo thuật toán PAM hay khơng Mặc định False Gói clValid: Gói clValid đƣợc phát triển Guy Brock, Vasyl Pihur, Susmita Datta, Somnath Datta đƣợc công bố vào ngày 25/3/2014 Gói chứa hàm xử lý thuật toán phân cụm liệu đƣợc sử dụng thống kê tin sinh Để sử dụng đƣợc gói này, cần phải cài gói Cluster trƣớc Hàm SoT thuộc thƣ việc clValid cho phép tính tốn phân cụm liệu theo thuật tốn SoT Mơ tả chi tiết hàm tham số nhƣ sau: sota(data, maxCycles, maxEpochs = 1000, distance = "euclidean", wcell = 0.01,pcell = 0.005, scell = 0.001, delta = 1e-04, neighb.level = 0, maxDiversity = 0.9, unrest.growth = TRUE, ) Các tham số hàm: data: liệu đầu vào hàm tƣơng tự hàm clara maxCycles: số nguyên số vòng lặp tối đa Khi kết số phân cụm trả maxCycles + maxEpochs: số nguyên số lƣợng tối đa đối tƣợng đƣợc xử lý vòng lặp Giá trị mặc định 1000 distance: hàm khoảng cách để tính tốn độ đo khác đối tƣợng Hàm hỗ trợ hai hàm khoảng cách euclid correlation wcell: giá trị trọng số đối tƣợng Mặc định 0,01 65 pcell: giá trị trọng số đối tƣợng cha Mặc định 0.005 scell: giá trị trọng số đối tƣợng anh em Mặc định 0,001 delta: giá trị lỗi tối thiểu Ngƣỡng sử dụng để dừng vòng lặp neighb.level: số nguyên xác định ứng viên di chuyển phân cụm maxDiversity: giá trị sai lệch cực đại đối tƣợng cụm unrest.growth: giá trị logic Nếu True số cụm tƣơng ứng với maxCycles + Nếu False thuật tốn dừng trƣớc đạt đến maxCycles Giá trị mặc định True 3.2.4.4 Thử nghiệm chương trình Giao diện chƣơng trình đƣợc chia thành bốn nhóm: Nhóm “Nhập liệu”: cho phép ngƣời dùng nhập liệu từ tập tin văn có cấu trúc nhƣ phần 3.2.2.1 Để nhập liệu, ngƣời dùng nhấn vào nút “Chọn ” duyệt đến tập tin liệu Hình 3.5 Giao diện chọn liệu 66 Nhóm “Thơng tin liệu Chi tiết liệu”: hiển thị thông tin tên liệu, số dòng, số cột chi tiết nội dung liệu Trong chi tiết liệu, dòng tƣơng ứng với giá trị gen, cột “Name” tên gen, cột từ a1 đến a80 giá trị số tƣơng ứng gen Hình 3.6 Thơng tin liệu Nhóm “Tham số phân cụm”: cho phép ngƣời dùng nhập tham số điều khiển cho hai thuật toán Clara SoT số tâm cụm Với thuật tốn SoT, hiển thị đƣợc biểu đồ phân cụm Sau lựa chọn đầy đủ tham số, ngƣời dùng nhấn nút “Thực phân cụm” để chƣơng trình xử lý tính tốn Nhóm “Kết phân cụm”: hiển thị kết thực phân cụm liệu Kết phân cụm gồm ba phần: Số phần tử thuộc cụm: phần đếm xem cụm chứa gen thuộc cụm Tâm cụm: hiển thị tâm cụm 67 Sự phân bố cụm: hiển thị chi tiết cụm chứa tên gen tƣơng ứng Hình 3.7 Kết phân cụm băng Clara với số tâm cụm 10 Hình 3.8 Kết phân cụm SoT với số tâm cụm 10 68 Với thuật toán SoT, chƣơng trình hiển thị chi tiết phân cụm Với tùy chọn xem tất biểu đồ xem biểu đồ phân cụm Hình 3.9 Giao diện hiển thị 10 phân cụm thuật tốn SoT Hình 3.10 Chi tiết phân cụm thứ tám thuật toán SoT 69 Để lƣu lại kết phân cụm, ngƣời dùng nhấn nút “Lƣu kết quả” nhập tên tệp cần lƣu, chƣơng trình lƣu lại kết dƣới dạng tệp text nhƣ sau: Hình 3.11 Tập tin kết phân cụm clara 70 3.3 Nhận xét, đánh giá chƣơng trình thử nghiệm Chƣơng trình cài đặt dựa thuật toán Clara thuật toán SoT sử dụng gói mở rộng ngơn ngữ R Phần xử lý giá trị thiếu đƣợc thực trƣớc áp dụng thuật toán Clara SoT dẫn đến thao tác xử lý giá trị thiếu đƣợc thực nhiều lần, điều dẫn đến thời gian thực chƣơng trình chƣa tối ƣu 3.4 Kết luận chƣơng Ở chƣơng tác giả trình bày phƣơng pháp phân loại protein đƣợc sử dụng Đồng thời nêu rõ cấu trúc liệu protein đƣợc biểu diễn thành input thuật toán sử dụng thuật toán phân cụm liệu Clara SoT để tiến hành phân loại Protein 71 KẾT LUẬN VÀ HƢỚNG NGHIÊN CỨU KẾT LUẬN Trong luận văn tơi tìm hiểu, nghiên cứu số vấn đề sau: - Luận văn trình bày lý thuyết phân cụm liệu, số thuật toán phân cụm liệu dựa vào cụm trung tâm để ứng dụng vào phân loại cấu trúc Protein - Giới thiệu Protein, cấu trúc, chức protein, số phƣơng pháp phân loại cấu trúc protein - Luận văn cài đặt thuật toán phân cụm Clara SoT để minh họa cho việc phân loại Protein Tuy nhiên chƣơng trình có nhiều hạn chế nhƣ kết hiển thị chƣa trực quan định dạng tệp hỗ trợ đầu tệp text HƢỚNG NGHIÊN CỨU Trong tƣơng lai đề tài phát triển theo hƣớng nghiên cứu phân loại Protein với phân loại trình tự, phân loại cấu trúc protein Tìm hiểu ngân hàng liệu protein sử dụng nguồn liệu chƣơng trình Đồng thời cài đặt thêm thuật tốn phân cụm khác đƣa đánh giá hiệu thuật toán nhiều liệu 72 TÀI LIỆU THAM KHẢO Tiếng việt: [1] Nguyễn Hồng Tú Anh, Giáo trình “Khai thác liệu ứng dụng” 2009 (Đại học KHTN Tp Hồ Chí Minh) [2] Vũ Lan Phƣơng, Luận văn “Nghiên cứu cài đặt số giải thuật phân cụm phân lớp”, 2006 (Đại học Bách khoa Hà Nội) Tiếng Anh [3] Andrew Moore: “K-means and Hierarchical Clustering - Tutorial Slides”, http://www-2.cs.cmu.edu/~awm/tutorials/kmeans.html [4] Charu C Aggarwal, Chandan K Reddy (2013), Data Clustering: Algorithms and Applications, Chapman and Hall/CRC [5] Doan Nhat Quang: “New models for hierarchical and topological clustering”, Ph D Thesis PARIS 13 UNIVERSITY SORBONNE PARIS CITÉ, 2013 [6] Ho Tu Bao, Introduction to knowledge discovery and data mining [7] Han J and Kamber M, Data Mining: Concepts and Techniques 3rd Edition, Morgan Kaufman, Academic Press 2011 [8] Patrice Koehl (2006), Protein Structure Classification, Department of Computer Science and Genome Center, University of California, Davis, California [9] Osmar R.Zaiane, “Principles of knowledge discovery in databases” Fall 2001 (University of Alberta) 73 [10] Sudipto Guha, Rajeev Rastogi, Kyuseok Shim, “CURE: an efficient clustering algorithm for large databases”, Information Systems Vol 26, No.1, pp.35-58, Elsevier Science, 2001 [11] Teuvo Kohonen: “Self-Organizing Maps”, Third Edition, Springer, Heidelberg, 2001 Trang Web [12] http://www-users.cs.umn.edu/~han/dmclass/chameleon.pdf [13] http://www.tinsinhhoc.org/index.php/genomics/3-biodatabase.html ... quan phân cụm liệu 1.3.2 Các yêu cầu kỹ thuật phân cụm liệu 1.3.3 Các kiểu liệu phân cụm liệu 1.3.4 Độ đo phân cụm liệu 11 1.3.5 Các kỹ thuật tiếp cận với toán phân cụm. .. tổng quan khai phá liệu sâu tìm hiểu phân cụm liệu, kỹ thuật phân cụm số ứng dụng phân cụm liệu Chƣơng Các thuật tốn phân cụm liệu: Trình bày thuật tốn điển hình phân cụm liệu là: K-Means, Chameleon,... phí tính toán 1.3.5 Các kỹ thuật tiếp cận với toán phân cụm Các kỹ thuật phân cụm có nhiều cách tiếp cận ứng dụng thực tế Các kỹ thuật phân cụm hƣớng tới hai mục tiêu chung: chất lƣợng cụm khám