Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống
1
/ 36 trang
THÔNG TIN TÀI LIỆU
Thông tin cơ bản
Định dạng
Số trang
36
Dung lượng
1,49 MB
Nội dung
MỤC LỤC LỜI CẢM ƠN Em xin gửi lời cảm ơn chân thành tới các thầy cô giáo trong khoa Công nghệ thông tin trường Đại học Công nghệ thông tin và Truyền thông nói chung, bộ môn Hệ thống thông tin nói riêng và đặc biệt là thầy Trần Mạnh Tuấn đã tận tình truyền đạt, giảng dạy cho em những kiến thức, kinh nghiệm quý báu trong suốt thời gian vừa qua. Tuy nhiên do trình độ và hiểu biết của em vẫn còn nhiều hạn chế nên không tránh khỏi sai sót trong quá trình tìm hiểu và viết bào cáo. Em rất mong nhận được ý kiến góp ý từ phía thầy cô để em có thể hoàn thành tốt hơn. Em xin chân thành cảm ơn ! Thái Nguyên, ngày 10/4/2014 Sinh viên thực hiện Nguyễn Thị Bình 1 LỜI MỞ ĐẦU Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một tích lũy nhiều lên. Một vấn đề đặt ra là làm thế nào để tổ chức, khai thác những khối lượng dữ liệu khổng lồ và đa dạng thành các tri thức có ích? . Khai phá dữ liệu là một lĩnh vực khoa học mới xuất hiện gần đây nhằm đáp ứng nhu cầu này. Các kết quả nghiên đã thành công với rất nhiều những ứng dụng trong nhiều lĩnh vực đặc biệt từ việc phân cụm khách hàng. Trong kinh doanh yếu tố khách hàng quyết định đến sự thành bại của doanh nghiệp, khi thông tin đang trở thành yếu tố quyết định trong kinh doanh thì vấn đề tìm ra các thông tin hữu ích trong CSDL khổng lồ ngày càng trở thành mục tiêu quan trọng của các doanh nghiệp.Vì vậy một trong những giải pháp hữu hiệu nhất nhằm khắc phục các vấn đề nêu trên là tiến hành triển khai xây dựng một hệ thống khai phá dữ liệu (KPDL), khai thác quản lý nguồn khách hàng nói trên. Đó là một hệ thống được thiết kế giúp cho nhân viên chiến lược marketing nắm bắt được nguồn thông tin khách hàng hữu ích và các chiết xuất được từ CCDL trên sẽ là một nguồn tài liệu hỗ trợ cho nhân viên xây dựng chiến lươc kinh doanh.Chính vì lý do trên, em đã chọn đề tài “ Tìm hiểu về phương pháp phân cụm cứng và áp dụng vào phân cụm khách hàng”. 2 CHƯƠNG 1: TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1. Khai phá dữ liệu. 1.1.1. Giới thiệu chungvề khai phá dữ liệu. Khai phá dữ liệu là quá trình trích lọc, sản sinh ra những thông tin hoặc các mẫu không hiển nhiên, tiềm ẩn những hữu ích từ những cơ sở dữ liệu lớn.Khai phá dữ liệu là quá trình chính trong khai phá tri thức từ cơ sở dữ liệu. Kiến trúc của một hệ thống khai phá dữ liệu có các thành phần như sau: Hình 1: Kiến trúc một hệ thống khai phá dữ liệu Trong đó: • CSDL, kho dữ liệu hoặc lưu trữ thông tin khác: Đây là một hay các tập CSDL, các kiểu dữ liệu hay các dạng khác nhau của thông tin được lưu trữ. Các kỹ thuật làm sạch dữ liệu và tích hợp dữ liệu có thể được thực hiện. • Cơ sở tri thức (Knowledge base): Đây là miền tri thức dùng để kiếm hay đánh giá độ quan trọng của các mẫu kết quả thu được. Tri thức này có thể bao gồm một sự phân cấp khái niệm dùng để tổ chức các thuộc tính hay các giá trị thuộc tính ở các mức trừu tượng khác nhau. • Công cụ khai thác dữ liệu: Là một hệ thống khai phá dữ liệu cần phải có một tập các công cụ để phục vụ cho việc khai phá, bao gồm các Modul chức năng để thể hiện công việc như kết hợp, phân lớp, phân cụm. 3 • Mẫu ước lượng: Là bộ phận tương tác với các Modul khai phá dữ liệu để tập trung vào việc duyệt tìm các mẫu đang được quan tâm. Nó có thể dùng các ngưỡng về độ quan tâm để lọc các mẫu đã khám phá được. Cũng có thể Modul đánh giá mẫu được tích hợp vào Modul khai phá dữ liệu, tùy theo cách cài đặt của phương pháp khai phá dữ liệu được dùng. • Dữ liệu thực: Là kết quả cuối cùng của quá trình khai phá, phù hợp với yêu cầu người sử dụng. 1.1.2. Quá trình khai phá dữ liệu. Khai phá dữ liệu (KPDL) là một giai đoạn quan trọng trong quá trình khai phá tri thức (KPTT).Về bản chất, nó là giai đoạn duy nhất tìm ra được thông tin mới, thông tin tiềm ẩn có trong CSDL chủ yếu phục vụ cho mô tả và dự đoán. Mô tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của những thuộc tính dữ liệu trong kho dữ liệu mà con người có thể hiểu được. Dự đoán là dựa trên những dữ liệu hiện thời để dự đoán những quy luật được phát hiện từ các mối liên hệ giữa các thuộc tính của dữ liệu trên cơ sở đó chiết xuất ra các mẫu, dự đoán được những giá trị chưa biết hoặc những giá trị tương lai của các biến quan tâm. Quá trình KPDL bao gồm các bước chính được thể hiện trên hình sau: Hình 2: Quá trình khai phá dữ liệu Trong đó: • Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết. • Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp. • Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử lý chúng sao cho thuật toán KPDL có thể hiểu được. Đây là một quá trình rất khó khăn, có thể gặp phải rất nhiều các vướng mắc như: dữ liệu phải được sao ra nhiều bản (nếu được chiết 4 xuất vào các tệp), quản lý tập các dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi), • Giải thuật khai phá dữ liệu: Lựa chọn thuật toán KPDL và thực hiện việc KPDL để tìm được các mẫu có ý nghĩa, các mẫu này được biểu diễn dưới dạng luật kết hợp, cây quyết định tương ứng với ý nghĩa của nó. Quá trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần giải quyết.Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp. Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu được. Về lý thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự là một quá trình rất khó khăn, gặp phải rất nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tập các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi), v.v… Sẽ là quá cồng kềnh với một giải thuật khai phá dữ liệu nếu phải truy nhập vào toàn bộ nội dung của CSDL và làm những việc như trên. Vả lại, điều này cũng không cần thiết. Có rất nhiều giải thuật khai phá dữ liệu thực hiện dựa trên những thống kê tóm tắt khá đơn giản của CSDL, khi mà toàn bộ thông tin trong CSDL là quá dư thừa đối với mục đích của việc khai phá dữ liệu. Bước tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ liệu để tìm được các mẫu có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa đó (thường được biểu diễn dưới dạng các luật xếp loại, cây quyết định, luật sản xuất, biểu thức hồi quy, …). Đặc điểm của mẫu phải là mới (ít nhất là đối với hệ thống đó). Độ mới có thể được đo tương ứng với độ thay đổi trong dữ liệu (bằng cách so sánh các giá trị hiện tại với các giá trị trước đó hoặc các giá trị mong muốn), hoặc bằng tri thức (mối liên hệ giữa phương pháp tìm mới và phương pháp cũ như thế nào). Thường thì độ mới của mẫu được đánh giá bằng một hàm logic hoặc một hàm đo độ mới, độ bất ngờ của mẫu. Ngoài ra, mẫu còn phải có khả năng sử dụng tiềm tàng.Các mẫu này sau khi được xử lý và diển giải phải dẫn đến những hành động có ích nào đó được đánh giá bằng một hàm lợi ích.Ví dụ như trong dữ liệu các khoản vay, hàm lợi ích đánh giá khả năng tăng lợi nhuận từ các khoản vay.Mẫu khai thác được phải có giá trị đối với các dữ liệu mới với độ chính xác nào đó. Kỹ thuật khai phá dữ liệu thực chất không có gì mới. Nó là sự kế thừa, kết hợp 5 và mở rộng của các kỹ thuật cơ bản đã được nghiên cứu từ trước như học máy, nhận dạng, thống kê (hồi quy, xếp loại, phân nhóm), các mô hình đồ thị, các mạng Bayes, trí tuệ nhân tạo, thu thập tri thức hệ chuyên gia, v.v… Tuy nhiên, với sự kết hợp tài tình của khai phá dữ liệu, kỹ thuật này có ưu thế hơn hẳn các phương pháp trước đó, đem lại nhiều triển vọng trong việc ứng dụng phát triển nghiên cứu khoa học cũng như làm tăng mức lợi nhuận trong các hoạt động kinh doanh. 1.1.3. Các phương pháp khai phá dữ liệu. Quá trình khai phá dữ liệu là quá trình phát hiện mẫu, trong đó, giải thuật khai phá dữ liệu tìm kiếm các mẫu đáng quan tâm theo dạng xác định như các luật, cây phân lớp, quy hồi, phân nhóm, v.v… Với hai mục đích của khai phá dữ liệu là Mô tả và Dự đoán, người ta thường sử dụng các phương pháp sau cho khai phá dữ liệu: • Luật kết hợp (Association rules) • Phân lớp (Classfication) • Hồi quy (Regression) • Trực quan hóa (Visualiztion) • Phân cụm (Clustering) • Tổng hợp (Summarization) • Mô hình ràng buộc (Dependency modeling) • Biểu diễn mô hình (Model Evaluation) • Phân tích sự phát triển và độ lệch (Evolution and deviation analyst) • Phương pháp tìm kiếm (Search Method) Có nhiều phương pháp khai phá dữ liệu được nghiên cứu ở trên, trong đó có ba phương pháp được các nhà nghiên cứu sử dụng nhiều nhất đó là: Luật kết hợp, Phân lớp dữ liệu và Phân cụm dữ liệu. Phân lớp dữ liệu: Khái niệm phân lớp dữ liệu được Han và Kamber đưa ra năm 2000. Phân lớp dữ liệu là xây dựng một mô hình mà có thể phân các đối tượng thành những lớp để dự đoán giá trị bị mất tại một số thuộc tính của dữ liệu hay tiên đoán giá trị của dữ liệu sẽ xuất hiện trong tương lai. Quá trình phân lớp dữ liệu được thực hiện qua hai bước: Dựa vào tập hợp dữ liệu huấn luyện, xây dựng một mô hình mô tả những đặc trưng của những lớp dữ liệu hoặc những khái niệm. Đây là quá trình học có giám sát, học theo mẫu được cung cấp trước từ những lớp dữ liệu hoặc những khái niệm được xác định trước, dự đoán giá trị của những đối tượng quan tâm. Một kỹ thuật phân lớp dữ liệu được Han và Kamber đưa ra là cây quyết 6 định.Mỗi nút của cây đại diện một quyết định dựa vào giá trị thuộc tính tương ứng. Phân cụm dữ liệu: Phân cụm là kỹ thuật khai phá dữ liệu tương tự như phân lớp dữ liệu. Tuy nhiên sự phân cụm là quá trình học không giám sát, là quá trình nhóm những đối tượng vào trong những lớp tương đương nhau và khác với những đối tượng khác trong các cụm khác. Trong phân cụm đối tượng, những đối tượng được nhóm lại cùng nhau dựa vào sự giống nhau của chúng.Sự giống nhau giữa những đối tượng được xác định bởi những chức năng giống nhau. Thông thường sự giống nhau về định lượng như khoảng cách hoặc độ đo khác được xác định bởi những chuyên gia trong lĩnh vực. Luật kết hợp: Khai phá bằng luật kết hợp là tìm ra các mẫu các quan hệ, các mối tương quan hoặc quan hệ nhân quả phổ biến giữa các đối tượng trong cơ sở dữ liệu giao dịch, cơ sở dữ liệu quan hệ và các thông tin khác trong kho. Đầu vào: Là các cơ sở dữ liệu giao dịch. Đầu ra: Tìm ra các mối quan hệ quan trọng giữa các mục trong cơ sở dữ liệu giao dịch. Có nghĩa là sự hiện diện của một số mục trong một giao dịch sẽ bao hàm sự hiện diện của một số các mục khác trong cùng một giao dịch. 1.1.4. Các lĩnh vực ứng dụng của KPDL. KPDL liên quan đến nhiều ngành, nhiều lĩnh vực như: thống kê, trí tuệ nhân tạo, cơ sở dữ liệu, thuật toán, tính toán song song và tốc độ cao, thu thập trí thức cho các hệ chuyên gia, quan sát dữ liệu… KPDL là một lĩnh vực mới phát triển nhưng thu hút được khá nhiều nhà nghiên cứu nhờ vào những ứng dụng thực tiễn của nó như: • Phân tích dữ liệu và hỗ trợ ra quyết định. • Phân lớp văn bản, tóm tắt văn bản, phân lớp các trang Web và phân cụm ảnh màu. • Chuẩn đoán triệu chứng, phương pháp trong điều trị y học. • Tìm kiếm, đối sánh các hệ Gene và thông tin di truyền trong sinh học. • Phân tích tình hình tài chính, thị trường, dự báo giá cổ phiếu trong tài chính, thị trường và chứng khoán. • Phân tích dữ liệu marketing, khách hàng. • Điều khiển và lập lịch trình. • Bảo hiểm. • Giáo dục 1.1.5. Các cơ sở dữ liệu phục vụ cho khai phá dữ liệu. Dựa vào những kiểu dữ liệu mà kỹ thuật khai phá áp dụng, có thể chia dữ liệu thành các loại khác nhau: 7 • Cơ sở dữ liệu quan hệ: Đến nay hầu như dữ liệu được lưu trữ dưới dạng cơ sở dữ liệu quan hệ. Cơ sở dữ liệu quan hệ có cấu trúc cao, dữ liệu được mô tả bởi một tập các thuộc tính và lưu trong bảng. Khai phá dữ liệu trên cơ sở dữ liệu quan hệ chủ yếu tập trung khai phá mẫu. • Cơ sở dữ liệu giao tác: là tập hợp những bản ghi giao dịch, trong đa số các trường hợp chúng là những bản ghi các dữ liệu hoạt động của doanh nghiệp, tổ chức. Khai phá dữ liệu trên cơ sở dữ liệu giao tác tập trung vào khai phá luật kết hợp tìm mối tương quan giữa những mục dữ liệu của bản ghi giao dịch. • Cơ sở dữ liệu không gian: bao gồm hai phần: dữ liệu quan hệ (hay giao tác) và thông tin định vị (hoặc thông tin địa lý). Những luật kết hợp trên cơ sở dữ liệu không gian mô tả mối quan hệ giữa các đặc trưng trong cơ sở dữ liệu không gian. Dạng của luật kết hợp không gian có dạng X -> Y với X, Y là tập hợp những vị từ không gian. Những thuật toán khai phá luật kết hợp không gian tương tự như khai phá luật kết hợp nhưng thêm những vị từ không gian. • Cơ sở dữ liệu có yếu tố thời gian: Giống như cơ sở dữ liệu có yếu tố không gian, cơ sở dữ liệu này bao gồm hai phần: Dữ liệu quan hệ (hay giao tác) và Thông tin về thời gian xuất hiện dữ liệu ở phần một. Những luật kết hợp thời gian có nhiều thông tin hơn những luật kết hợp cơ bản. Cơ sở dữ liệu đa phương tiện: số lượng trang Web đang bùng nổ trên thế giới, thông tin trên Web đang phát triển với tốc độ cao vì vậy việc khai phá thông tin trên Web (Web mining) đã trở thành một lĩnh vực nghiên cứu chính của khai phá dữ liệu và đang được quan tâm. Khai phá dữ liệu trên Web được chia thành ba phạm trù chính: Khai phá cách sử dụng Web (Web usage mining), khai phá cấu trúc Web (Web structure mining) và khai phá nội dung Web (Web content mining). Khai phá cách dùng Web tập trung vào việc khai phá thông tin của người truy cập Web 1.1.6. Các cách thức và khó khăn trong khai phá dữ liệu. Khai phá dữ liệu liên quan đến nhiều ngành, nhiều lĩnh vực trong thực tế, vì vậy các thách thức và khó khăn ngày càng nhiều, càng lớn hơn. Dưới đây là một số khó khăn cần được quan tâm và giải quyết: + Các cơ sở dữ liệu lớn: Cho đến nay, các cơ sở dữ liệu với hàng trăm trường và bảng, hàng triệu bản ghi và với kích thước đến gigabytes đã là chuyện bình thường. Cơ sở dữ liệu có thể lớn về số lượng các bản ghi, về số lượng các thuộc tính trong CSDL.Hiện nay đã bắt đầu xuất hiện các cơ sở dữ liệu có kích thước tới terabytes.Để giải quyết vấn đề này, người ta đưa ra một ngưỡng nào đó cho CSDL bằng các cách như chiết xuất mẫu, xấp xỉ hoặc xử lý song song. 8 + Kích thước lớn: không chỉ có số lượng bản ghi lớn mà số các trường trong cơ sở dữ liệu cũng nhiều. Vì vậy mà kích thước của bài toán trở nên lớn hơn. Một tập dữ liệu có kích thước lớn sinh ra vấn đề làm tăng không gian tìm kiếm mô hình suy diễn. Hơn nữa, nó cũng làm tăng khả năng một giải thuật khai phá dữ liệu có thể tìm thấy các mẫu giả.Biện pháp khắc phục là làm giảm kích thước tác động của bài toán và sử dụng các tri thức biết trước để xác định các biến không phù hợp. + Dữ liệu động: Đặc điểm cơ bản của hầu hết các cơ sở dữ liệu là nội dung của chúng thay đổi liên tục. Dữ liệu có thể thay đổi theo thời gian và việc khai phá dữ liệu cũng bị ảnh hưởng bởi thời điểm quan sát dữ liệu. Ví dụ trong cơ sở dữ liệu về tình trạng bệnh nhân, một số giá trị dữ liệu là hằng số, một số khác lại thay đổi liên tục theo thời gian (ví dụ cân nặng và chiều cao), một số khác lại thay đổi tùy thuộc vào tình huống và chỉ có giá trị được quan sát mới nhất là đủ (ví dụ nhịp đập của mạch). Vậy thay đổi dữ liệu nhanh chóng có thể làm cho các mẫu khai thác được trước đó mất giá trị. Hơn nữa, các biến trong cơ sở dữ liệu của ứng dụng đã cho cũng có thể bị thay đổi, bị xóa hoặc là tăng lên theo thời gian. Vấn đề này được giải quyết bằng các giải pháp tăng trưởng để nâng cấp các mẫu và coi những thay đổi như là cơ hội để khai thác bằng cách sử dụng nó để tìm kiếm các mẫu bị thay đổi. + Các trường không phù hợp: Một đặc điểm quan trọng khác là tính không thích hợp của dữ liệu, nghĩa là mục dữ liệu trở thành không thích hợp với trọng tâm hiện tại của việc khai thác. Một khía cạnh khác đôi khi cũng liên quan đến độ phù hợp là tính ứng dụng của một thuộc tính đối với một tập con của cơ sở dữ liệu. Ví dụ trường số tài khoản Nostro không áp dụng cho các cá nhân. + Các giá trị bị thiếu: Sự có mặt hay vắng mặt của giá trị các thuộc tính dữ liệu phù hợp có thể ảnh hưởng đến việc khai phá dữ liệu. Trong hệ thống tương tác, sự thiếu vắng dữ liệu quan trọng có thể dẫn đến việc yêu cầu cho giá trị của nó hoặc kiểm tra để xác định giá trị của nó.Hoặc cũng có thể sự vắng mặt của dữ liệu được coi như một điều kiện, thuộc tính bị mất có thể được coi như một giá trị trung gian và là giá trị không biết. + Các trường bị thiếu: Một quan sát không đầy đủ cơ sở dữ liệu có thể làm cho các dữ liệu có giá trị bị xem như có lỗi. Việc quan sát cơ sở dữ liệu phải phát hiện được toàn bộ các thuộc tính có thể dùng để giải thuật khai phá dữ liệu có thể áp dụng nhằm giải quyết bài toán. Giả sử ta có các thuộc tính để phân biệt các tình huống đáng quan tâm.Nếu chúng không làm được điều đó thì có nghĩa là đã có lỗi trong dữ liệu. Đối với một hệ thống học để chuẩn đoán bệnh sốt rét từ một cơ sở dữ liệu bệnh nhân 9 thì trường hợp các bản ghi của bệnh nhân có triệu chứng giống nhau nhưng lại có các chuẩn đoán khác nhau là do trong dữ liệu đã bị lỗi. Đây cũng là vấn đề thường xảy ra trong cơ sở dữ liệu kinh doanh.Các thuộc tính quan trọng có thể sẽ bị thiếu nếu dữ liệu không được chuẩn bị cho việc khai phá dữ liệu. + Độ nhiễu và không chắc chắn: Đối với các thuộc tính đã thích hợp, độ nghiêm trọng của lỗi phụ thuộc vào kiểu dữ liệu của các giá trị cho phép. Các giá trị của các thuộc tính khác nhau có thể là các số thực, số nguyên, chuỗi và có thể thuộc vào tập các giá trị định danh. Các giá trị định danh này có thể sắp xếp theo thứ tự từng phần hoặc đầy đủ, thậm chí có thể có cấu trúc ngữ nghĩa. Một yếu tố khác của độ không chắc chắn chính là tính kế thừa hoặc độ chính xác mà dữ liệu cần có, nói cách khác là độ nhiễu của dữ liệu. Dựa trên việc tính toán trên các phép đo và phân tích có ưu tiên, mô hình thống kê mô tả tính ngẫu nhiên được tạo ra và được sử dụng để định nghĩa độ mong muốn và độ dung sai của dữ liệu. Thường thì các mô hình thống kê được áp dụng theo cách đặc biệt để xác định một cách chủ quan các thuộc tính để đạt được các thống kê và đánh giá khả năng chấp nhận của các (hay tổ hợp các) giá trị thuộc tính. Đặc biệt là với dữ liệu kiểu số, sự đúng đắn của dữ liệu có thể là một yếu tố trong việc khai phá. Ví dụ như trong việc đo nhiệt độ cơ thể, ta thường cho phép chênh lệch 0.1 độ. Nhưng việc phân tích theo xu hướng nhạy cảm nhiệt độ của cơ thể lại yêu cầu độ chính xác cao hơn. Để một hệ thống khai thác có thể liên hệ đến xu hướng này để chuẩn đoán thì lại cần có một độ nhiễu trong dữ liệu đầu vào. + Mối quan hệ phức tạp giữa các trường: các thuộc tính hoặc các giá trị có cấu trúc phân cấp, các mối quan hệ giữa các thuộc tính và các phương tiện phức tạp để diễn tả tri thức về nội dung của cơ sở dữ liệu yêu cầu các giải thuật phải có khả năng sử dụng một cách hiệu quả các thông tin này. Ban đầu, kỹ thuật khai phá dữ liệu chỉ được phát triển cho các bản ghi có giá trị thuộc tính đơn giản. Tuy nhiên, ngày nay người ta đang tìm cách phát triển các kỹ thuật nhằm rút ra mối quan hệ giữa các biến này. Ngoài các vấn đề về cơ sở dữ liệu nói trên, còn có một số vấn đề khác như: + “Quá phù hợp” (Overfitting): Khi một giải thuật tìm kiếm các tham số tốt nhất cho một mô hình nào đó sử dụng một tập dữ liệu hữu hạn, nó có thể sẽ bị tình trạng “quá độ” dữ liệu (nghĩa là tìm kiếm quá mức cần thiết gây ra hiện tượng chỉ phù hợp với các dữ liệu đó mà không có khả năng đáp ứng cho các dữ liệu lạ), làm cho mô hình hoạt động rất kém đối với các dữ liệu thử. Các giải pháp khắc phục bao gồm đánh 10 [...]... sử dụng chiến lược chia để trị trong quá trình phân cụm Sau đây là minh họa chiến lược phân cụm phân cấp Bottom up và Top down: 18 Hình 4 : Các chiến lược phân cụm phân cấp Trong thực tế áp dụng, có nhiều trường hợp người ta kết hợp cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch Phân cụm. .. nhiều lĩnh vực và nhiều kỹ thuật khác nhau Qua quá trình tìm hiểu về khai phá dữ liệu và cài đặt một số giải thuật trong phân cụm dữ liệu với đề tài “ Tìm hiểu về phương pháp phân cụm cứng và áp dụng vào phân cụm khách hàng , dù đã đạt được một số kết quả nhất định, nhưng em nhận thấy phân cụm dữ liệu trong khai phá dữ liệu là một lĩnh vực nghiên cứu lớn và có nhiều triển vọng để áp dụng trong các... nghĩa và ứng dụng rõ ràng Với những yêu cầu đáng lưu ý này, nghiên cứu của ta về phân tích phân cụm diễn ra như sau: Đầu tiên, ta nghiên cứu các kiểu dữ liệu khác và cách chúng có thể gây ảnh hưởng tới các phương pháp phân cụm Thứ hai, ta đưa ra một cách phân loại chung trong các phương pháp phân cụm Sau đó, ta nghiên cứu chi tiết mỗi phương pháp phân cụm, bao gồm các phương pháp phân hoạch, phân cấp,... dựng quan hệ với khách hàng. Vì vậy giải pháp phân loại khách hàng là một yêu cầu thiết 26 yếu trong chiến lược kinh doanh.Trong bài toán này em sử dụng thuật toán Kmeans trong phương pháp phân cụm để loại khách hàng Để phân loại khách hàng ban quản lý luôn lưu trữ một cách cẩn thận các cơ sở dữ liệu khách hàng bao gồm: chi tiết hóa đơn, hàng hóa, hóa đơn khách hàng, loại hàng, tháng Dựa vào dữ liệu này... tác động rất lớn đến kết quả phân cụm Phương pháp phân cụm dựa trên lưới 19 Kỹ thuật phân cụm dựa trên mật độ không thích hợp với dữ liệu nhiều chiều, để giải quyết cho đòi hỏi này, người ta đã sử dụng phương pháp phân cụm dựa trên lưới.Đây là phương pháp dựa trên cấu trúc dữ liệu lưới để PCDL, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian .Phương pháp này thích hợp với dữ liệu... mã khách, ngày lập, ngày lập, tổng giá trị Đối với bảng Khách hàng gồm: mã khách, họ khách, tên khách, ngày sinh, địa chỉ, số - điện thoại Đối với bảng Loại hàng gồm: mã hàng, tên hàng Đối với bảng Tháng gồm các tháng trong năm mà khách hàng mua 2.3 Nhiệm vụ và mục tiêu của bài toán a Nhiệm vụ của bài toán Áp dụng vào kiến thức về khai phá và sử dụng thuật toán phân cụm để phân tích và phân loại khách. .. nhau như phân loại theo vị trí địa lý giúp người quản lý có thể biết được khách hàng nào ở xa ở gần để có thể có các chiến lược khách nhau với từng loại khách hàng đó Tuy nhiên trong bài toán này em phân ra thành các loại khách hàng như sau: khách hàng tiềm năng, khách hàng lợi nhuận, khách hàng thường xuyên, khách hàng mua hàng a Xác định nhóm khách hàng để phân loại Phân nhóm khách hàng để hiểu được... cách riêng biệt của từng nhóm khách hàng của siêu thị từ đó đưa ra các chiến lược với khách hàng và lợi nhuận cho siêu thị Ta phân ra thành bốn nhóm sau đây: 27 1 2 3 4 Khách hàng tiềm năng Khách hàng lợi nhuận Khách hàng thường xuyên Khách hàng mua hàng b Tiêu chí phân loại khách hàng Để phân ra thành các loại khách hàng nêu trên ta dựa vào một số tiêu chí như sau: - Dựa vào tổng giá trị: tổng giá trị... Một cụm các đối tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng .Phân cụm dữ liệu là một ví dụ của phương pháp học không có thầy Trong KPDL, người ta có thể nghiên cứu các phương pháp phân tích cụm có hiệu quả và hiệu suất cao trong CSDL lớn Những mục tiêu trước tiên của nghiên cứu là tập trung vào khả năng mở rộng của các phương pháp phân cụm, tính hiệu quả của các phương pháp phân cụm. .. thưa và có độ nghiêng lớn Phân cụm ràng buộc: Nhiều ứng dụng thực tế có thể cần thực hiện phân cụm dưới các loại ràng buộc khác nhau Một nhiệm vụ đặt ra là đi tìm những nhóm dữ liệu có trạng • thái phân cụm tốt và thỏa mãn các ràng buộc Dễ hiểu và dễ sử dụng: Người sử dụng có thể chờ đợi những kết quả phân cụm dễ hiểu, dễ lý giải và dễ sử dụng Nghĩa là, sự phân cụm có thể cần được giải thích ý nghĩa và . nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông qua bước phân cụm phân hoạch. Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp PCDL cổ điển, hiện đã có rất. trong các phương pháp phân cụm. Sau đó, ta nghiên cứu chi tiết mỗi phương pháp phân cụm, bao gồm các phương pháp phân hoạch, phân cấp, dựa trên mật độ, Ta cũng khảo sát sự phân cụm trong không. Bottom up và Top down: 18 Hình 4 : Các chiến lược phân cụm phân cấp Trong thực tế áp dụng, có nhiều trường hợp người ta kết hợp cả hai phương pháp phân cụm phân hoạch và phân cụm phân cấp, nghĩa