1. Trang chủ
  2. » Luận Văn - Báo Cáo

TÌM HIỂU THUẬT TOÁN SOM TRONG GOM CỤM DỮ LIỆU

32 941 3

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 1,56 MB

Nội dung

ĐẠI HỌC CÔNG NGHỆ THÔNG TIN CHƯƠNG TRÌNH ĐÀO TẠO THẠC SĨ CNTTQM ………… o0o………… BÁO CÁO THU HOẠCH MÔN HỌC NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU Đề tài: TÌM HIỂU THUẬT TOÁN SOM TRONG GOM CỤM DỮ LIỆU GVHD: PGS.TS. PhúcĐỗ HVTH: Nguy n V n Chungễ ă MÃ SỐ: CH1101070 TP.Hồ Chí Minh, N m 201ă 2 NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU LỜI MỞ ĐẦU  Dữ liệu là nguồn tri thức vô giá của con người nếu được khai thác hiệu quả, trong thời đại công nghệ ngày càng phát triển hiện nay thông tin dữ liệu ngày càng phình to, đó chính là nguồn tài nguyên thông tin đáng để được khai thác, đi đôi với nó là các khoa học công nghệ liên quan đến khai thác dữ liệu cũng phát triển theo, chính vì vậy ngành khai thác dữ liệu đặc biệt là gom cụm dữ liệu sẽ còn phát triển mạnh hơn nữa trong tương lai. Em xin chân thành cảm ơn PGS.TS. Đỗ Phúc – Giảng viên môn học Nhà kho dữ liệu và khai thác dữ liệu- đã truyền đạt những kiến thức vô cùng quý báu, xin chân thành cám ơn ban cố vấn học tập và ban quản trị chương trình đào tạo thạc sĩ Công nghệ thông tin qua mạng của Đại Học Quốc Gia TPHCM đã tạo điều kiện về tài liệu tham khảo để em có thể hoàn thành môn học này. Chân thành cám ơn! Nguyễn Văn Chung - 1 - NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU MỤC LỤC LỜI MỞ ĐẦU 1 NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU 2 PHẦN I : TỔNG QUAN KHAI THÁC DỮ LIỆU 3 I. GIỚI THIỆU KHAI THÁC DỮ LIỆU 3 I.1. Tại sao cần Khai thác dữ liệu : 3 I.2. Khai thác dữ liệu là gì: 3 I.3. Quá trình khai thác dữ liệu: 4 I.4. Các phương pháp khai thác dữ liệu: 5 I.5. Ứng dụng của khai thác dữ liệu: 6 I.6. Một số thách thức đặt ra cho việc khai phá dữ liệu 6 II. GOM CỤM DỮ LIỆU 7 II.1. Giới thiệu: 7 II.2. Các kiểu dữ liệu trong phép phân cụm 7 II.3. Phân loại các phương pháp phân cụm chính 12 PHẦN II : THUẬT TOÁN SOM 15 I. Tổng quan mạng Nơron 15 I.1. Giới thiệu: 15 I.2. Kiến trúc tổng quát mạng nơron: 15 I.3. Quá trình xử lý thông tin của một Mạng Nơron 16 I.4. Một số kiến trúc của Mạng Nơron 18 I.5. Quá trình học (Learning Processing) của Mạng nơron: 19 II. Thuật toán SOM (Self Organizing Map) 20 II.1. Giới thiệu: 20 II.2. Kiến trúc của SOM 20 II.3. Thuật toán SOM: 21 III. CÀI ĐẶT SOM: 25 III.1. Màn hình chính: 25 III.2. Dữ liệu đầu vào 26 III.3. Code chương trình: 26 KẾT LUẬN 30 - 2 - NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU PHẦN I : TỔNG QUAN KHAI THÁC DỮ LIỆU I. GIỚI THIỆU KHAI THÁC DỮ LIỆU I.1. Tại sao cần Khai thác dữ liệu : Khoảng hơn một thập kỷ trở lại đây, lượng thông tin được lưu trữ trên các thiết bị điện tử (đĩa cứng, CD-ROM, băng từ ) không ngừng tăng lên. Sự tích lũy dữ liệu này xảy ra với một tốc độ bùng nổ. Người ta ước đoán rằng lượng thông tin trên toàn cầu tăng gấp đôi sau khoảng hai năm và theo đó sốlượng cũng như kích cỡ của các cơ sở dữ liệu (CSDL) cũng tăng lên một cách nhanh chóng. Nói một cách hình ảnh là chúng ta đang “ngập” trong dữ liệu nhưng lại “đói” tri thức. Câu hỏi đặt ra là liệu chúng ta có thể khai thác được gì từ những “núi” dữ liệu tưởng chừng như “bỏ đi” ấy không? “Necessity is the mother of invention”- Data Mining ra đời như một hướng giải quyết hữu hiệu cho câu hỏi vừa đặt ra ở trên. Khá nhiều định nghĩa về Data Mining và sẽ được đề cập ở phần sau, tuy nhiên có thể tạm hiểu rằng Data Mining như là một công nghệ tri thức giúp khai thác những thông tin hữu ích từ những kho dữ liệu được tích trữ trong suốt quá trình hoạt động của một công ty, tổ chức nào đó. I.2. Khai thác dữ liệu là gì: Khai thác dữ liệu (datamining) được định nghĩa như là một quá trình chắt lọc hay khai thác tri thức từ một lượng lớn dữ liệu. Một ví dụ hay được sử dụng là là việc khai thác vàng từ đá và cát, Dataming được ví như công việc "Đãi cát tìm vàng" trong một tập hợp lớn các dữ liệu cho trước. Thuật ngữ Dataming ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một số lượng lớn các dữ liệu thô. Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ Datamining như Knowledge Mining (khai thác tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis (phân tích dữ liệu/mẫu), data archaeoloogy (khảo cổdữliệu), data dredging (nạo vét dữ liệu) • Định nghĩa: Khai thác dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. - 3 - NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU I.3. Quá trình khai thác dữ liệu:  Trích chọn dữ liệu: Đây là bước trích chọn những tập dữ liệu cần được khai thác từ các tập dữ liệu lớn ban đầu theo một số tiêu chí nhất định.  Tiền xử lý dữ liệu: Đây là bước làm sạch dữ liệu (xử lý những dữ liệu không đầy đủ, nhiễu, không nhất quán, ), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, ), rời rạc hóa dữ liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng, ). Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và được rời rạc hóa.  Biến đổi dữ liệu: Đây là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ liệu về dạng thuận lợi nhất nhằm phục vụ quá trình khai thác ở bước sau.  Khai thác dữ liệu: Đây là bước áp dụng những kỹ thuật phân tích (như các kỹ thuật của học máy) nhằm để khai thác dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ liệu. Đây được xem là bước quan trọng và tốn nhiều thời gian nhất của toàn quá trình KDD.  Đánh giá và biểu diễn tri thức: Những mẫu thông tin và mối liên hệ trong dữ liệu đã được khám thác ở bước trên được biến đổi và biểu diễn ở một dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, Đồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định. - 4 - NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU I.4. Các phương pháp khai thác dữ liệu: Kỹ thuật khai thác dữ liệu thường được chia làm 2 nhóm chính: • Kỹ thuật mô tả: Các nhiệm vụ mô tả về ccác tính chất hoặc các đặc tính chung của dữ liệu trong CSDL hiện có. Các kỹ thuật này gồm có: phân cụm(clustering), tóm tắt (summerization), trực quan hóa (visualiztion), phân tích sự phát triển và độ lệch (Evolution and deviation analysis), phân tích luật kết hợp(association rules analysis) … • Kỹ thuật dự đoán: Có nhiệm vụ đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời. Các kỹ thuật này gồm: Phân lớp (classification), hồi quy (regression)…. Với hai đích chính của khai thác dữ liệu là Dự đoán (Prediction) và Mô tả (Description), người ta thường sử dụng các kỹ thuật sau cho khai thác dữ liệu:  Phân lớp và dự đoán (classification and prediction): Là việc xếp các đối tượng vào những lớp đã biết trước. Ví dụ, phân lớp các bệnh nhân, phân lớp các loài thực vật Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơron nhân tạo (neural network) Phân lớp và dự đoán còn được gọi là học có giám sát.  Phân cụm (clustering / segmentation): Là việc xếp các đối tượng theo từng cụm tự nhiên.  Luật kết hợp (association rules): Là việc phát hiện các luật biểu diễn tri thức dưới dạng khá đơn giản. Ví dụ: “70% nữ giới vào siêu thị mua phấn thì có tới 80% trong số họ cũng mua thêm son”.  Phân tích hồi quy (regression analysis): Là việc học một hàm ánh xạ từ một tập dữ liệu thành một biến dự đoán có giá trị thực. Nhiệm vụ của phân tích hồi quy tương tự như của phân lớp, điểm khác nhau là ở chỗ thuộc tính dự báo là liên tục chứ không phải rời rạc.  Phân tích các mẫu theo thời gian (sequential/temporal patterns): Tương tự như khai phá luật kết hợp nhưng có quan tâm đến tính thứ tự theo thời gian. - 5 - NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU  Mô tả khái niệm (concept description and summarization): Thiên về mô tả, tổng hợp và tóm tắt các khái niệm. Ví dụ tóm tắt văn bản. Hiện nay, các kỹ thuật khai thác dữ liệu có thể làm việc với rất nhiều kiểu dữ liệu khác nhau. Một số dạng dữ liệu điển hình là: CSDL quan hệ, CSDL đa chiều (Multidimensional Data Structures), CSDL giao tác, CSDL quan hệ hướng đối tượng, dữ liệu không gian và thời gian, CSDL đa phương tiện, dữ liệu văn bản và web I.5. Ứng dụng của khai thác dữ liệu: Khai thác dữ liệu tuy là một hướng tiếp cận mới nhưng thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của nó. Chúng ta có thể liệt kê ra đây một số ứng dụng điển hình:  Phân tích dữliệu và hỗ trợ ra quyết định (data analysis & decision support)  Điều trị y học (medical treatment)  Text mining & Web mining  Tin-sinh (bio-informatics)  Tài chính và thịtrường chứng khoán (finance & stock market)  Bảo hiểm (insurance)  Nhận dạng (pattern recognition)  Máy tìm kiếm (web)  Và nhiều lĩnh vực khác. I.6. Một số thách thức đặt ra cho việc khai phá dữ liệu  Các cơ sở dữ liệu lớn.  Số chiều lớn.  Thay đổi dữ liệu và tri thức có thể làm cho các mẫu đã phát hiện khôngcòn phù hợp.  Dữ liệu bị thiếu hoặc nhiễu.  Quan hệ giữa các trường phức tạp.  Giao tiếp với người sử dụng và kết hợp với các tri thức đã có.  Tích hợp với các hệ thống khác… - 6 - NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU II. GOM CỤM DỮ LIỆU II.1. Giới thiệu: Gom cụm dữ liệu (Data Clustering) hay gom cụm, cũng có thể gọi là phân tích cụm, phân tích phân đoạn, phân tích phân loại, là quá trình nhóm một tập các đối tượng thực thể hay trừu tượng thành lớp các đối tượng tương tự. Một cụm là một tập hợp các đối tượng dữ liệu mà các phần tử của nó tương tự nhau cùng trong một cụm và phi tương tự với các đối tượng trong các cụm khác. Một cụm các đối tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng. II.2. Các kiểu dữ liệu trong phép phân cụm Các giải thuật phân cụm dựa trên bộ nhớ chính thao tác trên một trong hai cấu trúc dữ liệu sau:  Ma trận dữ liệu (hay cấu trúc: đối tượng x biến): Được đại diện bởi n đối tượng, ví dụ như người với p biến (còn được gọi là các phép đo hay các thuộc tính) như tuổi, chiều cao, giới tính, v.v Cấu trúc có dạng bảng quan hệ, hay ma trận n x p (n đối tượng x p biến).  Ma trận không tương đồng (hay cấu trúc đối tượng x đối tượng): Nó lưu trữ một tập hợp các trạng thái (về mặt không gian, thời gian, ) cho tất cả n cặp đối tượng. Nó thường được biểu diễn bởi bảng n x n với d(i,j) được đo bởi sự khác nhau hay không tương đồng giữa các đối tượng ivà j. Do vậy d(i,j) = d(j,i) và d(i,i) = 0, ta có ma trận trên Các phép đo không tương đồng được thảo luận trong suốt phần này. Ma trận dữ liệu thường được gọi là ma trận 2- mode (2 chế độ), trong khi đó ma trận không tương đồng được gọi là ma trận 1-mode (1 chế độ). Nhiều giải thuật phân cụm thao tác trên ma trận không tương đồng. Nếu - 7 - NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU dữliệu được đưa ra dưới dạng ma trận dữ liệu thì nó có thể được chuyển đổi sang ma trận không tương đồng trước khi áp dụng các giải thuật phân cụm. Cụm các đối tượng được tính toán dựa trên sựtương đồng hay không tương đồng của chúng. Trong phần này, trước tiên ta thảo luận chất lượng phân cụm có thể được đánh giá dựa trên các hệ số tương quan - có thể chuyển đổi thành các hệ số không tương đồng hay tương đồng. Sau đó ta thảo luận làm thế nào để tính độ không tương đồng của các đối tượng được mô tả bởi các biến dựa trên khoảng cách, các biến nhị phân, các biến dựa trên tên, có thứ tựvà tỷ lệ(ratio) hay sự kết hợp của các kiểu biến này. • Độ không tương đồng và tương đồng: Đo chất lượng phân cụm Phép đo của các hệ số không tương đồng hay tương đồng được dùng để đo chất lượng phân cụm. Độ không tương đồng d(i,j) là một số không âm, nó gần bằng 0 khi i, j gần nhau và sẽ lớn hơn khi chúng khác biệt nhau nhiều hơn. Không tương đồng có được bằng các đánh giá chủ quan đơn giản bởi một tập các observer (quan sát viên) hay các chuyên gia trên các đối tượng khác nhau nào đó. Sự không tương đồng được tính toán từ các hệ số tương quan. Cho trước n đối tượng đểphân cụm, tương quan Pearson product-moment giữa hai biến f và g được định tại đó f và g là các biến mô tả các đối tượng, m f và m g là các giá trị trung bình của f và g và x if là giá trịcủa f cho đối tượng thứ i, x ig là giá trị của g cho đối tượng thứ i. (2.1) Công thức chuyển đổi được dùng để tính hệ số không tương quan d(f,g) từ các hệ số tương quan R(f,g): (2.2) Các biến với một tương quan dương cao sẽ ấn định hệ số không tương đồng gần bằng 0. Các biến với một tương quan âm mạnh sẽ ấn định hệ số không tương đồng gần bằng 1 (nghĩa là các biến rất khác nhau). Trong nhiều ứng dụng, người dùng thích dùng công thức chuyển đổi (2.3) hơn, tại đó các biến với tương quan âm hay dương cao ấn định cùng một giá trị tương đồng cao. (2.3) - 8 - NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU Người dùng có thể sử dụng hệ số tương đồng s(i,j) thay cho hệ số không tương đồng. Công thức (3.6) được dùng để chuyển đổi giữa hai hệ số. (2.4) Lưu ý rằng không phải tất cảcác biến đều cần trong phép phân tích cụm. Một biến là vô nghĩa với một phân cụm cho trước thì tính hữu ích sẽ ít hơn, do vậy nó ẩn đi thông tin hữu ích đã cung cấp bởi các biến khác. Ví dụ, số điện thoại của một người thường vô ích trong phân cụm người theo mô tả về họ như tuổi, chiều cao, cân nặng, v.v Kiểu biến "rác" như vậy nên có trọng số 0, trừ khi nó được phép phân cụm xử lý. • Các biến tỷ lệ khoảng cách Các biến tỷ lệ khoảng cách là các phép đo liên tục của một tỷ lệ tuyến tính thô. Các mẫu điển hình như trọng lượng và chiều cao, sự kết hợp vĩ độ và kinh độ (ví dụ khi phân cụm nhà) và nhiệt độ khí hậu. Đơn vị phép đo đã dùng có thể ảnh hưởng đến phép phân cụm. Ví dụ, thay đổi các đơn vị đo, như thay đổi từ meter tới inche cho chiều cao hay từ kilogram tới pound cho trọng lượng, có thể dẫn tới một cấu trúc phân cụm rất khác biệt. Nhìn chung, biểu diễn một biến dưới các đơn vị nhỏ hơn sẽ dẫn tới một phạm vi lớn hơn cho biến đó và do vậy một hiệu ứng lớn hơn trên kết quả cấu trúc phân cụm. Để tránh sự phụ thuộc vào việc lựa chọn đơn vị đo, dữ liệu nên được chuẩn hoá. Chuẩn hoá các phép đo cố gắng mang lại cho tất cảcác biến một trọng số như nhau. Tuy nhiên, trong nhiều ứng dụng, người ta có thể cố ý muốn mang tới trọng số lớn hơn cho một tập các biến nào đó so với các biến khác. Ví dụ, khi phân cụm các cầu thủ chơi bóng rổ, người ta có thể thích mang tới trọng số hơn cho biến chiều cao. Đểchuẩn hoá các phép đo, một lựa chọn đó là chuyển đổi các phép đo gốc sang các biến không đơn vị(unitless). Cho trước các phép đo đối với biến f. Điều này có thể được biểu diễn như sau:  Tính trung bình độ lệch tuyệt đối s f (2.5) với x 1f , , x nf là nphép đo của f, m f là giá trị trung bình của f, tức là (2.6) - 9 - [...]... NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU KẾT LUẬN Với trên 5000 ứng dụng trên nhiều lĩnh vực, thuật toán học mạng nơron theo SOM rất hữu dụng trong các bài toán khai thác dữ liệu như: kinh tế, tài chính, ngân hàng … Nhiều công trình nghiên cứu đã khẳng định thuật toán SOM là phù hợp với các ứng dụng có khối lượng dữ liệu lớn Bài thu hoạch của em tuy chưa thể hiện được hết vai trò và sức mạnh của SOM nhưng... phương pháp phân cụm chính Hiện có một sốlượng lớn các giải thuật phân cụm trong các tài liệu Việc lựa chọn giải thuật phân cụm tuỳthuộc vào kiểu d liệu cho sẵn, mục đích riêng và ứng dụng Nếu như phép phân tích cụm được dùng nhưmột công cụ mô tả hay thăm dò thì có thể thử một vài giải thuật trên cùng dữ liệu để xem xem dữ liệu có thể thể hiện được điều gì Nhìn chung, các phương pháp phân cụm chính được... tâm của cụm Các phương pháp phân cụm heuristic này làm việc tốt khi tìm kiếm các cụm có hình cầu trong các cơ sở dữ liệu có kích thước từ nhỏ tới trung bình Đ tìm ra các cụm với các hình dạng phức tạp và phân cụm cho các tập dữ liệu rất lớn, các phương pháp dựa trên phân chia cần được mở rộng • Các phương pháp phân cấp: Một phương pháp phân cấp tạo một phân tích phân cấp tập các đối tượng dữ liệu đã... phân cụm chính được phân thành các loại sau: • Các phương pháp phân chia: - 12 - NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU Cho trước một cơ sở dữ liệu với n đối tượng hay các bộ dữ liệu, một phương pháp phân chia được xây dựng để chia dữ liệu thành k phần, mỗi phần đại diện cho một cụm, k ≤ n Đó là phân loại dữ liệu vào trong k nhóm, chúng thoả các yêu cầu sau: (1) Mỗi nhóm phải chứa ít nhất một đối tượng,... - down", lúc đầu tất cả các đối tượng trong cùng một cụm Trong mỗi lần lặp kếtiếp, một cụm được chia vào trong các cụm nhỏ hơn cho tới khi cuối cùng mỗi đối tượng trong một cụm hay cho tới khi gặp một điều kiện kết thúc Sự kết hợp của việc lặp lại việc định vị và phân ly phân - 13 - NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU cấp sẽ thuận lợi bởi trước tiên sử dụng giải thuật phân ly phân cấp và sau đó cải... chung đó là tiếp tục phát triển cụm cho trước với điều kiện là mật độ(số các đối tượng hay các điểm dữ liệu) trong "lân cận" vượt quá ngưỡng, tức là đối với mỗi điểm dữ liệu trong phạm vi một cụm cho trước thì lân cận trong vòng bán kính đã cho chứa ít nhất một số lượng điểm tối thiểu Một phương pháp như vậy có thể được dùng đểlọc ra nhiễu (các outlier) và khám phá ra các cụm có hình dạng bất kỳ DBSCAN... bởi vậy việc phân loại giải thuật đó không dễ như loại giải thuật chỉ phụ thuộc vào duy nhất một loại phương pháp phân cụm Hơn nữa, nhiều ứng dụng có thểcó giới hạn phân cụm với yêu cầu tích hợp một số kỹ thuật phân cụm - 14 - NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU PHẦN II : THUẬT TOÁN SOM I Tổng quan mạng Nơron I.1 Giới thiệu: Mạng Neuron nhân tạo (Artificial Neural Network- Mạng Nơron) là mô hình xử... (chú ý bây giờ sử dụng weight matrix cuối cùng đã hội tụ) Ta có: - 24 - NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU Vì Neuron Y2 là winner nên input vector x=(1 1 0 0) thuộc cluster2 Tương tự xét 3 các input vector còn ta có kết quả như sau: III CÀI ĐẶT SOM: III.1 Màn hình chính: - 25 - NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU III.2 Dữ liệu đầu vào Danh sách các thực phẩm và hàm lượng Protein, Carb, Fat Item Protein... các cụm khác nhau lại "tách xa" hay rất khác nhau Có nhiều tiêu chuẩn khác nhau để đánh giá chất lượng các phép phân chia Trong phân cụm dựa trên phép phân chia, hầu hết các ứng dụng làm theo một trong hai phương pháp heuristic phổ biến: (1) Giải thuật k-means với mỗi cụm được đại diện bởi giá trị trung bình của các đối tượng trong cụm; (2) Giải thuật k-medoidsvới mỗi cụm được đại diện bởi một trong. .. NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU Input vector: Là các training sample có kích thước n Ma trận trọng số (weight matrix) wij kết nối giữa input vector và các neurons Sau đây là kiến trúc đơn giản của SOM gồm 2 neurons ở lớp output layer Input vector gồm 4 chiều và weight matrix wij (i=1 4 và j=1 2) như sau II.3 Thuật toán SOM: Qui trình training SOM được thực hiện qua các bước như mô tả sau Trong đó, . DỮ LIỆU & KHAI THÁC DỮ LIỆU Đề tài: TÌM HIỂU THUẬT TOÁN SOM TRONG GOM CỤM DỮ LIỆU GVHD: PGS.TS. PhúcĐỗ HVTH: Nguy n V n Chungễ ă MÃ SỐ: CH1101070 TP.Hồ Chí Minh, N m 201ă 2 NHÀ KHO DỮ LIỆU. thác dữ liệu: 5 I.5. Ứng dụng của khai thác dữ liệu: 6 I.6. Một số thách thức đặt ra cho việc khai phá dữ liệu 6 II. GOM CỤM DỮ LIỆU 7 II.1. Giới thiệu: 7 II.2. Các kiểu dữ liệu trong phép phân cụm. của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó. - 3 - NHÀ KHO DỮ LIỆU & KHAI THÁC DỮ LIỆU I.3. Quá trình khai thác dữ

Ngày đăng: 09/04/2015, 22:52

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w